JP2008197577A - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP2008197577A
JP2008197577A JP2007035410A JP2007035410A JP2008197577A JP 2008197577 A JP2008197577 A JP 2008197577A JP 2007035410 A JP2007035410 A JP 2007035410A JP 2007035410 A JP2007035410 A JP 2007035410A JP 2008197577 A JP2008197577 A JP 2008197577A
Authority
JP
Japan
Prior art keywords
sound
voice
input
unit
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007035410A
Other languages
English (en)
Other versions
JP2008197577A5 (ja
JP4449987B2 (ja
Inventor
Ryuichi Nanba
隆一 難波
Mototsugu Abe
素嗣 安部
Akira Inoue
晃 井上
Shigesuke Higashiyama
恵祐 東山
Hidesuke Takahashi
秀介 高橋
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007035410A priority Critical patent/JP4449987B2/ja
Priority to US12/069,844 priority patent/US8422695B2/en
Priority to CN2008100082947A priority patent/CN101246690B/zh
Publication of JP2008197577A publication Critical patent/JP2008197577A/ja
Publication of JP2008197577A5 publication Critical patent/JP2008197577A5/ja
Application granted granted Critical
Publication of JP4449987B2 publication Critical patent/JP4449987B2/ja
Priority to US13/788,488 priority patent/US9762193B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G1/00Details of arrangements for controlling amplification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】音声処理装置、音声処理方法およびプログラムを提供すること。
【解決手段】入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を任意の音量比率で混合する音声混合部150と、を備えることを特徴とする。
【選択図】図3

Description

本発明は、音声処理装置、音声処理方法およびプログラムに関する。
近日、被写体の映像および被写体から発せられた音声を記録可能な映像音声記録装置が広く普及している。映像音声記録装置の操作者は、映像音声記録装置の撮像方向を調整したり、映像音声記録装置に設けられた操作手段を操作して被写体の映像を拡大または縮小することができる。
ここで、音声の音量は音源から離れるにつれて減少する。したがって、上記のような映像音声記録装置には、映像音声記録装置の操作者の声や操作手段の操作音などの操作者に起因する音声が、被写体が発する音声より大きな音量で記録される場合があった。
特許文献1には、このような操作者に起因する音声の音量が抑制された音声を記録するための音声処理装置が開示されている。具体的には、当該音声処理装置は、前左用、前右用、後左用、後右用、および着脱可能なマイクロホンの計5本の指向性マイクロホンを備える。したがって、後ろ中央に位置する操作者の声は前左用、前右用、後左用および後右用のいずれのマイクロホンにもほとんど収音されず、必要や目的に応じて着脱可能なマイクロホンに収音させることができる。
また、特許文献2には、複数の音源からの音声が含まれる混合音声のうちの1つ以上の音源からの信号をICA(Independent Component Analysis)法に基づくBSS(Blind Source Separation)方式を用いて分離する技術が開示されている。
特開2005−341073号公報 特開2006−154314号公報
しかし、従来の音声処理装置では、多数のマイクロホンを設ける必要があったため、音声処理装置のハードウェア規模が大きくなってしまう。また、従来の音声処理装置はマイクロホンの指向性を利用して操作者の音声を選別するため、操作者の位置に対して制約が課されるという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、特定音源から発せられた音声の全体に占める音量比率を調整して記録することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。
かかる構成においては、音声分離部が、入力音声に含まれる特定音源から発せられた第一の音声を分離し、音声混合部が、例えば第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より低減されるように混合する。したがって、入力音声のうち特定音源から発せられた第一の音声の音量が不要に大きい場合、音声混合部は、第二の音声が占める音量比率が入力音声に占める第二の音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声処理装置によれば、第二の音声が第一の音声に埋もれてしまうことを防止できる。
また、音声混合部は、例えば近傍から発せられた第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より増加されるように混合してもよい。かかる構成によれば、音声収録者自身の音声の収録を所望する場合、音声収録者が発した第一の音声が強調することができる。なお、音声判定部により入力音声に第一の音声が含まれていないと判定された場合、音声分離部は入力音声の分離を行なわなくてもよい。
特定音源は入力音声の収録位置から設定距離範囲内に位置してもよい。すなわち、第一の音声が入力音声の収録位置から設定距離範囲内から発せられた音声であってもよい。ここで、音声の音量は距離が離れるにつれて減少するため、収録位置に近い音源から発せられた音声ほど入力音声に大きな音量で収録される場合が多い。したがって、音声混合部は、入力音声の収録位置から近い第一の音声の音量比率を抑制し、収録位置からの音源距離の差に起因するアンバランスな音量関係を是正することができる。
第一の音声は、入力音声を収音する際に用いられた装置の操作者に起因する音声を含み、第二の音声は、収音対象から発せられた音声を含んでもよい。かかる構成によれば、入力音声を収音する際に用いられた装置の近傍で該装置を操作している操作者により発せられた第一の音声の音量比率を抑制し、収音対象から発せられた第二の音声が第一の音声により埋もれてしまうことを防止可能である。
音声判定部は、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。ここで、音声判定部は、入力音声の音量または位相に基づいて入力音声の音源の位置情報、または入力音声に含まれる1または2以上の音源から発せられた音声ごとの音源の位置情報を推定してもよい。
当該音声処理装置は、映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、操作者は撮像部の撮像方向の後方から音声処理装置を操作する場合が多い。したがって、音声判定部は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に第一の音声として操作者の音声が支配的に含まれている判定することができる。その結果、音声混合部により操作者の音声の音量比率が低減された混合音声を得ることができる。
入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、入力音声を収録する装置の操作者が該装置のボタンを操作したり該装置を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は該装置において発生するため、比較的大きな音量で収音される可能性が高い。したがって、音声判定部は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に第一の音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、音声混合部により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。
当該音声処理装置は、入力音声を収音する複数の収音部と、音声混合部により混合された混合音声を記憶媒体に記録する記録部と、を備えてもよい。かかる構成においては、記録部は記憶媒体に、第一の音声が占める音量比率が入力音声に占める第一の音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。
当該音声処理装置は、入力音声を記憶している記憶媒体と、記憶媒体に記憶されている入力音声を再生し、位置情報算出部、音声判定部および音声分離部の少なくともいずれかに出力する再生部と、を備えてもよい。かかる構成においては、位置情報算出部、音声判定部および音声分離部は再生部から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶媒体に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。
当該音声処理装置は、入力音声の音量が補正されている場合、音声分離部により分離された第二の音声の音量に、補正の程度に応じた逆補正を行なう音量補正部を備えてもよい。例えば、第一の音声の音量が過大であったために入力音声の音量が全体として抑制された場合、第二の音声の音量も抑制されてしまっている。音量補正部は、このような場合、入力音声の音量が抑制された程度に応じて第二の音声の音量を増大させ、第二の音声が過小となることを防止できる。
また、上記課題を解決するために、本発明の別の観点によれば、入力音声の分離を行う音声分離部と、音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と、音声分離部により分離された第一の音声と特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を任意の音量比率で混合する音声混合部とを備えることを特徴とする音声処理装置として機能させるための、プログラムが提供される。
かかるプログラムは、例えばCPU、ROMまたはRAMなどを含むコンピュータのハードウェア資源に、上記のような位置情報算出部、音声判定部および音声分離部の機能を実行させることができる。すなわち、当該プログラムを用いるコンピュータを、上述の音声処理装置として機能させることが可能である。
音声判定部は、音源の位置情報、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。
映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。
入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定するステップと、入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離するステップと、分離された第一の音声と第二の音声を、任意の音量比率で混合するステップと、を含むことを特徴とする、音声処理方法が提供される。
以上説明したように本発明にかかる音声処理装置、音声処理方法およびプログラムよれば、特定音源から発せられた音声の全体に占める音量比率を任意に調整して出力、又は記録することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
(第1の実施形態)
まず、本発明の第1の実施形態にかかる音声記録装置10について説明する。本実施形態の説明においては、図1および図2を参照して音声記録装置10が用いられる場面の一例を説明した後に、図3〜図10を参照して音声記録装置10の構成および動作を説明する。
図1は、本実施形態にかかる音声記録装置10が用いられる場面の一例を示した説明図である。図1に示した例では、被写体である子供が品川区立一番小学校の校門の前に立っており、映像撮像機能が実装された音声記録装置10を手に持った操作者が音声記録装置10を被写体に向けている。
また、被写体は、操作者の「おーい」という呼びかけに「はーい」という返事をしている。このとき、映像撮像機能が実装された音声記録装置10は、被写体の映像と共に操作者の「おーい」という呼びかけ、および被写体の「はーい」という返事を記録する。ここで、図2を参照して通常の音声記録方法によって記録される音声について説明する。
図2は、通常の音声記録方法によって記録される音声の時間領域の振幅を示した説明図である。音声は、音源が点音源であると仮定すると、収音される音量は音源と収音位置との距離の二乗に反比例する。すなわち、収音位置が音源から離れるほど収音される音量は小さくなる。したがって、収音位置に近い操作者の「おーい」という呼びかけは、図2(a)に示すような振幅を有する音声として収音される。
一方、収音位置から操作者より離れている被写体の「はーい」という返事は、図2(b)に示したように操作者の声に比べて小さな振幅の音声として収音される。この場合、通常の音声記録方法によれば、図2(c)に示したように、単純に操作者の「おーい」という呼びかけと被写体の「はーい」という返事が重畳された音声が記録される。
しかし、図2(c)に示した音声には操作者の「おーい」という呼びかけが支配的に含まれ、被写体の「はーい」という返事が埋もれてしまっている。同様に、操作者による操作ノイズが被写体の発する音声と比較して相対的に大きく記録されてしまう。このため、被写体の発する音声が操作者に起因する音声によってマスキングされ、操作者の意図した適切な音量バランスで被写体の発する音声を記録できない場合が多いという問題があった。
そこで、上記の問題を一着眼点とし、本実施形態にかかる音声記録装置10が創作されるに至った。本実施形態にかかる音声記録装置10は、操作者に起因する音声の音量比率を抑制し、被写体の発する音声と操作者に起因する音声とを適切な音量バランスで記録することができる。以下、このような音声記録装置10の詳細な構成および動作について説明する。
図3は、本実施形態にかかる音声処理装置の一例としての音声記録装置10の構成を示した機能ブロック図である。音声記録装置10は、音声収音部110と、音声判定部120と、音源分離部140と、音声混合部150と、記録部160と、記憶部170と、を備える。なお、図1においては音声記録装置10としてビデオカメラを示しているが、音声記録装置10はビデオカメラに限られず、PC(Personal Computer)、携帯電話、PHS(Personal Handyphone System)、携帯用音声処理装置、携帯用映像処理装置、PDA(Personal Digital Assistant)、家庭用ゲーム機器、携帯用ゲーム機器、などの情報処理装置であってもよい。
音声収音部110は、音声を収音し、収音した音声を離散量子化する。また、音声収音部110は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。図3に示した例では、音声収音部110は、左音声Lを収音する収音部と右音声Rを収音する収音部の2つを含む。音声収音部110は、離散量子化した左音声Lおよび右音声Rを入力音声として音声判定部120および音源分離部140へ出力する。
音声判定部120は、音声収音部110から入力された入力音声に、操作者の音声または操作者の動作に起因するノイズなど音声記録装置10の近傍から発せられた近傍音声(第一の音声)が含まれているか否かを判定する。かかる音声判定部120の詳細な構成を図4を参照して説明する。
図4は、音声判定部120の構成を示した機能ブロック図である。音声判定部120は、音量検出器124、平均音量検出器126および最大音量検出器128からなる音量検出部122と、スペクトル検出器132および音質検出器134からなる音質検出部130と、距離方向推定器136と、操作者音声推定器138と、を備える。なお、図4においては図面の明瞭性の観点から左音声Lおよび右音声Rを合わせて入力音声と示している。
音量検出器124は、所定長さのフレーム単位(例えば、数10msec)で与えられる入力音声の音量値列(振幅)を検出し、検出した入力音声の音量値列を平均音量検出器126、最大音量検出器128、音質検出器134および距離方向推定器136に出力する。
平均音量検出器126は、音量検出器124から入力されるフレーム単位の音量値列に基づいて、入力音声の音量平均値を例えばフレームごとに検出する。また、平均音量検出器126は、検出した音量平均値を音質検出器134および操作者音声推定器138に出力する。
最大音量検出器128は、音量検出器124から入力されるフレーム単位の音量値列に基づいて、入力音声の音量最大値を例えばフレームごとに検出する。また、最大音量検出器128は、検出した入力音声の音量最大値を音質検出器134および操作者音声推定器138に出力する。
スペクトル検出器132は、入力音声に例えばFFT(Fast Fourier Transform)処理を施し、入力音声の周波数領域における各スペクトルを検出する。スペクトル検出器132は、検出したスペクトルを音質検出器134および距離方向推定器136に出力する。
音質検出器134は、入力音声、音量平均値、音量最大値およびスペクトルが入力され、かかる入力に基づいて入力音声の人間の音声らしさ、音楽らしさ、定常性、インパルス性などを検出し、操作者音声推定器138に出力する。人間の音声らしさは、入力音声の一部または全体が人間の音声と一致するか否か、あるいは人間の音声とどの程度近似するかなどを示す情報であってもよい。また、音楽らしさは、入力音声の一部または全体が音楽であるか否か、あるいは音楽とどの程度近似するかなどを示す情報であってもよい。
定常性は、例えば空調音のように時間的にそれほど音声の統計的性質が変化しない性質を指す。インパルス性は、例えば打撃音、破裂音のように短時間にエネルギーが集中した雑音性の強い性質を指す。
例えば、音質検出器134は、入力音声のスペクトル分布と人間の音声のスペクトル分布との一致度に基づいて人間の音声らしさを検出することができる。また、音質検出器134は、フレームごとの音量最大値を比較し、他のフレームと比較して音量最大値が大きいほどインパルス性が高いことを検出してもよい。
なお、音質検出器134は、ゼロクロッシング法、LPC(Linear Predictive Coding)分析などの信号処理技術を用いて入力音声の音質を分析してもよい。ゼロクロッシング法によれば入力音声の基本周期が検出されるため、音質検出器134は該基本周期が人間の音声の基本周期(例えば100〜200Hz)に含まれるか否かに基づいて人間の音声らしさを検出してもよい。
距離方向推定器136は、入力音声、入力音声の音量値列、入力音声のスペクトルなどが入力され、該入力に基づいて入力音声の音源または入力音声に含まれる支配的な音声が発せられた音源の方向情報および距離情報などの位置情報を推定する位置情報算出部としての機能を有する。かかる距離方向推定器136は、入力音声の位相、音量、音量値列、過去の平均音量値、最大音量値などによる音源の位置情報の推定方法を組み合わせることで、残響や映像記録装置10本体による音声の反射の影響が大きい場合でも総合的に音源位置を推定することができる。距離方向推定器136による方向情報および距離情報の推定方法の一例を図5〜図8を参照して説明する。
図5は、2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、音声収音部110を構成するマイクロホンM1およびマイクロホンM2に到達する各入力音声の位相と各入力音声の位相差が測定できる。さらに、位相差と、入力音声の周波数fおよび音速cの値から、入力音声の音源位置までのマイクロホンM1からの距離とマイクロホンM2からの距離との差を算出できる。音源は、当該距離差が一定である点の集合上に存在する。このような距離差が一定である点の集合は、双曲線となることが知られている。
例えば、マイクロホンM1が(x1、0)に位置し、マイクロホンM1が(x2、0)に位置すると仮定する(このように仮定しても一般性を失わない)。また、求める音源位置の集合上の点を(x、y)とおき、上記距離差をdとおくと、以下の数式1が成り立つ。
Figure 2008197577
さらに、数式1は数式2のように展開でき、数式2を整理すると双曲線を表す数式3が導かれる。
Figure 2008197577

Figure 2008197577
また、距離方向推定器136は、マイクロホンM1およびマイクロホンM2の各々が収音した入力音声の音量差に基づいて音源がマイクロホンM1およびマイクロホンM2のどちらの近傍であるかを判定できるため、例えば図5に示したようにマイクロホンM2に近い双曲線1上に音源が存在すると判定することができる。
なお、位相差算出に用いる入力音声の周波数fは、マイクロホンM1およびマイクロホンM2間の距離に対して下記の数式4の条件を満たす必要がある。
Figure 2008197577
図6は、3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。図6に示したような音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定した場合、マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れていれば、距離方向推定器136は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線1に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
さらに、距離方向推定器136は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線2を算出し、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線3を算出することができる。その結果、距離方向推定器136は、双曲線2および双曲線3の交点P1を音源位置として推定することができる。
図7は、2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、逆二乗則よりある点で観測される音量は距離の二乗に反比例する。図7に示したような音声収音部110を構成するマイクロホンM6およびマイクロホンM7を想定した場合、マイクロホンM6およびマイクロホンM7に到達する音量比が一定となる点の集合は円となる。距離方向推定器136は、音量検出器124から入力される音量の値から音量比を求め、音源の存在する円の半径及び中心位置を算出できる。
図7に示したように、マイクロホンM6が(x3、0)に位置し、マイクロホンM7が(x4、0)に位置する場合(このように仮定しても一般性を失わない)、求める音源位置の集合上の点を(x、y)と置くと、各マイクロホンから音源までの距離r1、r2は以下の数式5のように表せる。
Figure 2008197577
ここで、逆二乗則より以下の数式6が成り立つ。
Figure 2008197577
数式6は正の定数d(例えば4)を用いて数式7にように変形される。
Figure 2008197577
数式7をr1およびr2に代入し、整理すると以下の数式8が導かれる。
Figure 2008197577
数式8より、距離方向推定器136は、図7に示したように、中心の座標が数式9で表され半径が数式10で表される円1上に音源が存在すると推定できる。
Figure 2008197577
Figure 2008197577
図8は、3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。図8に示したような音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定した場合、マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れていれば、距離方向推定器136は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線2に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
さらに、距離方向推定器136は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の音量比に基づいて音源が存在し得る円2を算出し、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の音量比に基づいて音源が存在し得る円3を算出することができる。その結果、距離方向推定器136は、円2および円3の交点P2を音源位置として推定することができる。なお、4つ以上のマイクロホンを使用した場合には、距離方向推定器136は、空間的な音源の配置を含め、より精度の高い推定が可能となる。
距離方向推定器136は、上記のように各入力音声の位相差や音量比に基づいて入力音声の音源の位置を推定し、推定した音源の方向情報や距離情報を操作者音声推定器138に出力する。以下の表1に、上述した音量検出部122、音質検出部130および距離方向推定器136の各構成の入出力をまとめた。
Figure 2008197577
なお、入力音声に複数の音源から発せられた音声が重畳されている場合、距離方向推定器136は入力音声に支配的に含まれている音声の音源位置を正確に推定することは困難である。しかし、距離方向推定器136は入力音声に支配的に含まれている音声の音源位置に近い位置を推定することは可能である。また、当該推定された音源位置は音源分離部140において音声分離のための初期値として利用してもよいため、距離方向推定器136が推定する音源位置に誤差があっても当該音声記録装置10は所望の動作をすることができる。
図4を参照して音声判定部120の構成の説明に戻ると、操作者音声推定器138は、入力音声の音量、音質または位置情報の少なくともいずれかに基づき、入力音声に操作者の音声または操作者の動作に起因するノイズなど音声記録装置10の近傍である特定音源から発せられた近傍音声が含まれているか否かを総合的に判定する。また、操作者音声推定器138は、入力音声に近傍音声が含まれていると判定した場合、音源分離部140に入力音声に近傍音声が含まれる旨(操作者音声存在情報)や距離方向推定器136により推定された位置情報などを出力する音声判定部としての機能を有する。
具体的には、操作者音声推定器138は、入力音声の音源の位置が映像を撮像する撮像部(図示せず。)の撮像方向の後方であると距離方向推定器136に推定され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声が含まれていると判定してもよい。ここで、図9に示すように、操作者は撮像部の撮像方向の後方、すなわちファインダーの左後方から音声記録装置10を操作する場合が多い(右利きで自分撮り以外の通常の撮影時)。
したがって、操作者音声推定器138は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声として操作者の音声が支配的に含まれていると判定することができる。その結果、後述の音声混合部150により操作者の音声の音量比率が低減された混合音声を得ることができる。
また、操作者音声推定器138は、入力音声の音源の位置が収音位置から設定距離(例えば、音声記録装置10の1m以内など音声記録装置10の近傍)の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に特定音源から発せられた近傍音声が含まれていると判定してもよい。ここで、音声記録装置10の操作者が音声記録装置10のボタンを操作したり音声記録装置10を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は音声記録装置10において発生するため、比較的大きな音量で収音される可能性が高い。
したがって、操作者音声推定器138は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に近傍音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、後述の音声混合部150により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。
その他、操作者音声推定器138に入力される情報と、入力される情報に基づく操作者音声推定器138の判定結果の一例を以下の表2にまとめた。なお、近接センサー、温度センサーなどを組み合わせて用いて操作者音声推定器138における判定の精度をあげることも可能である。
Figure 2008197577
図3を参照して音声記録装置10の構成の説明に戻ると、音源分離部140は、音声判定部120から操作者音声存在情報が入力されると、音声判定部120から入力される音源の位置情報に基づき、音声収音部110から入力される入力音声を操作者の音声などの近傍音声と、近傍音声以外の被写体の音声などの収音対象音声(第二の音声)とに分離する。その結果、音源分離部140は、入力される入力音声の数の倍の数の音声を出力する。図3においては、音源分離部140が左音声Lおよび右音声Rを入力音声として入力され、左近傍音声Lおよび右近傍音声Rを近傍音声として出力し、左収音対象音声Lおよび右収音対象音声Rを収音対象音声として出力する様子を示している。
具体的には、音源分離部140は、独立成分解析を用いた手法(ICA)、音の時間周波数成分間の重なりの少なさを利用する手法などを用いて音声を音源に応じて分離する音声分離部として機能する。
音声混合部150は、音源分離部140から入力された近傍音声および収音対象音声を、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。かかる構成によれば、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部150は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置10によれば、収音対象音声が近傍音声に埋もれてしまうことを防止できる。
なお、音声混合部150は、入力される左近傍音声Lおよび左収音対象音声Lを混合して混合左音声Lを生成し、入力される右近傍音声Rおよび右収音対象音声Rを混合して混合右音声Rを生成し、混合左音声Lおよび混合右音声Rを混合音声として記録部160に出力する。
また、音声混合部150は、音源分離部140により分離された近傍音声および収音対象音声の平均音量比から適切な混合比率を算出し、算出した混合比率で近傍音声および収音対象音声を混合してもよい。また、音声混合部150は、前フレームに適用していた混合比率との差分が所定の上限値を超えない範囲で適用する混合比率を変化させてもよい。また、該混合比率はユーザ設定されるようにしてもよい。
記録部160は、音声混合部150から入力された混合音声を記憶部170に記録する。記憶部170は、EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPROM(Erasable Programmable Read Only Memory)などの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、CD−R(Compact Disk Recordable)/RW(ReWritable)、DVD−R(Digital Versatile Disk Recordable)/RW/+R/+RW/RAM(Ramdam Access Memory)およびBD(Blu−Ray Disc(登録商標))―R/BD−REなどの光ディスクや、MO(Magneto Optical)ディスクなどの記憶媒体であってもよい。なお、記憶部170は、被写体の映像データも記憶することができる。
このように本実施形態にかかる音声記録装置10によれば、記録部160が記憶部170に、近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。
以上、本実施形態にかかる音声記録装置10の構成を説明した。続いて、図10を参照して本実施形態にかかる音声記録装置10において実行される音声処理方法を説明する。
図10は、本実施形態にかかる音声記録装置10において実行される音声処理方法の流れを示したフローチャートである。まず、音声記録装置10の音声収音部110は音声を収音する(S210)。入力音声が無かった場合には処理を終了し、入力音声があった場合には距離方向推定器136が入力音声の全体または一部が発せられた音源の距離や方向などの位置情報を推定する(S230)。
その後、操作者音声推定器138は入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれているか否かを判定する(S240)。操作者音声推定器138により入力音声に近傍音声が含まれていると判定された場合、音源分離部140は、入力音声を近傍音声とそれ以外の収音対象音声とに分離する(S250)。
続いて、音声混合部150が音源分離部140により分離された近傍音声と収音対象音声とを任意の比率で混合し、混合音声を生成する(S260)。S260の後、またはS240において入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれていないと判定された場合、記録部160は混合音声または入力音声を記憶部170に記録する(S270)。
以上説明したように、本実施形態にかかる音声記録装置10は、音源分離部140が、入力音声に含まれる特定音源から発せられた近傍音声を距離方向推定器136により推定された入力音声の音源の位置情報に基づいて分離し、音声混合部150が、近傍音声と入力音声に含まれる他の音声である収音対象音声とを、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。
したがって、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部150は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置10によれば、近傍音声を相対的に抑制し、収音対象音声が近傍音声に埋もれてしまうことを防止できる。また、入力音声に含まれる操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を記録することができる。
また、音声記録装置10は、記憶部170に近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録できる。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。
また、本実施形態にかかる音声記録装置10は、入力音声をソフトウェア的に処理し近傍音声および収音対象音声の音量比率を調整した混合音声を記録できるため、マイクロホンの数などのハードウェア規模を縮小することができる。
(第2の実施形態)
次に、本発明の第2の実施形態にかかる音声再生装置11について説明する。本実施形態にかかる音声再生装置11は、既に記憶されている音声に含まれる近傍音声の占める音量比率が調整された混合音声を再生することができる。以下、図11を参照して当該音声再生装置11の構成を説明する。
図11は、本実施形態にかかる音声再生装置11の構成を示した機能ブロック図である。本実施形態にかかる音声再生装置11は、音声判定部120と、音源分離部140と、音声混合部150と、記憶部172と、再生部174と、音声出力部180と、を備える。
なお、本実施形態の説明においては、第1の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第1の実施形態と異なる構成に重きをおいて説明する。
記憶部172は、音声の記録機能を有する任意の装置において記録された音声を記憶している。再生部174は、記憶部172が記憶している音声を読み出し、必要に応じてデコードを行なう。そして、再生部174は、記憶部172が記憶している音声を音声判定部120および音源分離部140に出力する。音声判定部120および音源分離部140は、再生部174からの出力を入力音声として扱い、第1の実施形態で説明した内容と実質的に同一な処理を行う。
音声出力部180は、音声混合部150により混合された混合音声を出力する。音声出力部180は、例えばスピーカであってもイヤホンであってもよい。なお、本実施形態にかかる記憶部172も、第1の実施形態における記憶部170と同様にEEPROM、EPRPMなどの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、CD−R/RW、DVD−R/RW/+R/+RW/RAMおよびBD(Blu−Ray Disc(登録商標))―R/BD−REなどの光ディスクや、MOディスクなどの記憶媒体であってもよい。
このように、本実施形態にかかる音声再生装置11は、音声判定部120、音源分離部140および音声混合部150が再生部174から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶部172に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。また、操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を出力することができる。
(第3の実施形態)
次に、本発明の第3の実施形態にかかる音声再生装置12について説明する。本実施形態にかかる音声再生装置12は、入力音声にAGC(Auto Gain Control)が施されている場合、入力音声に含まれる収音対象音声の音量を逆補正し、収音対象音声を強調(ブースト)することができる。以下、図12および図13を参照し、本実施形態にかかる音声再生装置12の構成および動作を説明する。
図12は、本実施形態にかかる音声再生装置12の構成を示した機能ブロック図である。音声再生装置12は、音声判定部120と、音源分離部140と、音声混合部150と、記憶部172と、再生部174と、音声出力部180と、音量補正部190とを備える。
なお、本実施形態の説明においては、第2の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第2の実施形態と異なる構成に重きをおいて説明する。
本実施形態にかかる記憶部172は、一部または全体に音声判定部120と、音源分離部140と、音源混合部150と、記憶部172と、再生部174と、音声出力部180と、を備える。なお、本実施形態の説明においては、第1の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第1の実施形態と異なる構成に重きをおいて説明する。
本実施形態にかかる記憶部172は、一部または全体にAGC(音量補正)が施された音声を記憶している。ここで、AGCは、音量の過大入力に対して自動的に音量レベルを下げ、音割れ防止を一つの目的とするコンプレッサーの機構である。かかるAGCが施された音声の音量について図13を参照して説明する。
図13は、AGCの適用前の音声(原音)の音量と、AGC適用後の音声の音量を対比的に表した説明図である。AGCは、AGCの適用前の音声の音量が閾値thを越えると、アタックタイムとして設定された時間で所定の割合(ratio)まで音量を圧縮する。図13に示した例では、アタックタイムとして設定された時間で、AGCの適用前の音声の音量がおよそ1/2〜2/3程度に圧縮される場合を示している。その後、AGCの適用前の音声の音量が閾値thを下回ると、リリースタイムとして設定された時間内にAGCを解除する。
ここで、音声の音量が閾値thを超えAGCが動作するのは、該音声の記録装置の近傍から過大レベルの近傍音声の入力があった場合が多い。すなわち、遠方音源の収音対象音声によってAGCが動作する場合は少ない。しかし、入力音声は全体としてAGCにより圧縮されるため、入力音声に含まれる近傍音声のみならず、もともと微弱な収音対象音声がさらに圧縮されてしまう問題があった。
そこで、上記の問題を一着眼点とし、本実施形態にかかる音声再生装置12が創作されるに至った。本実施形態にかかる音声再生装置12は、音量補正部190の機能に基づき、入力音声にAGCが施されていた場合であっても収音対象音声をブーストすることができる。
音量補正部190は、音源分離部140により分離された近傍音声の音量の変化からAGCが適用されたであろうアタックタイムを検出し、音源分離部140により分離された収音対象音声において該アタックタイムに相当する区間を走査する。収音対象音声には、背景環境音や被写体が発した音声などが含まれ得るが、背景環境音のみ含まれる場合は音量レベルがほぼ一定であると近似することが可能である。したがって、音量補正部190は、収音対象音声の音量に所定レベル以上の変化が生じている区間にはAGCが施されたと判定することができる。
そこで、音量補正部190は、収音対象音声における当該区間の音量を該区間の前後区間の音量と同程度になるように調整する逆補正を行い、収音対象音声をブーストすることができる。
なお、上記アタックタイムおよびリリースタイムの推定値、および音量補正部190が行なった逆補正の程度を保持しておくことにより、収音対象音声に被写体が発した音声が含まれる場合に有効活用することができる。すなわち、収音対象音声に被写体が発した音声が含まれる場合であっても、音量補正部190は近傍音声からアタックタイムを検出し、収音対象音声における該アタックタイムに相当する区間の前後にわたって音量値の走査を行う。音量補正部190は、走査の結果、アタックタイムまたはリリースタイムと一致する時間幅で音量値が変化している場合はAGCが動作したと判定し、逆補正を行なうことができる。
音声混合部150は、このように音量補正部190により音量が逆補正された収音対象音声と、音源分離部140により分離された近傍音声とを、全体に占める近傍音声の音量比率が抑制されるような音量比率で混合して混合音声を生成することができる。
以上説明したように、本発明の第3の実施形態にかかる音声再生装置12は、近傍音声の音量が過大であったために入力音声の音量が全体として抑制され、収音対象音声の音量も抑制されてしまっている場合、入力音声の音量が抑制された程度に応じて収音対象音声の音量を増大させ、収音対象音声が過小となることを防止できる。
なお、本実施形態においては音量補正部190を音声再生装置12に設ける場合を説明したが、第1の実施形態で説明した音声記録装置10に設けることで、入力音声にAGCが施されていてもAGCの程度に応じてブーストされた収音対象音声を含む混合音声を記憶部170に記録することも可能である。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書の音声記録装置10の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むとしてもよい。
また、図3には音声判定部120が音声収音部110により収音された入力音声に近傍音声が含まれるか否かを判定する例を示しているが、本発明はかかる例に限定されない。例えば、音声判定部120は、音源分離部140により分離された音声が入力され、該分離された音声の音源位置を推定し、該分離された音声に近傍音声が含まれるか否かを判定し、該分離された音声を音声混合部150に出力してもよい。なお、この場合、音源分離部140は初期値無しでブラインドに音声を音源ごとに分離する。
また、音声記録装置10、音声再生装置11、音声再生装置12に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した音声記録装置10、音声再生装置11、音声再生装置12の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。また、音声記録装置10、音声再生装置11、音声再生装置12の各機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。
本発明の第1の実施形態にかかる音声記録装置が用いられる場面の一例を示した説明図である。 通常の音声記録方法によって記録される音声の時間領域の振幅を示した説明図である。 同実施形態にかかる音声処理装置の一例としての音声記録装置の構成を示した機能ブロック図である。 音声判定部の構成を示した機能ブロック図である。 2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。 3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。 2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。 3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。 音声記録装置と操作者の位置関係を示した説明図である。 同実施形態にかかる音声記録装置において実行される音声処理方法の流れを示したフローチャートである。 本発明の第2の実施形態にかかる音声再生装置の構成を示した機能ブロック図である。 本発明の第3の実施形態にかかる音声再生装置の構成を示した機能ブロック図である。 AGCの適用前の音声の音量と、AGC適用後の音声の音量を対比的に表した説明図である。
符号の説明
10 音声記録装置
11、12 音声再生装置
110 音声収音部
120 音声判定部
124 音量検出器
134 音質検出器
136 距離方向推定器
138 操作者音声推定器
140 音源分離部
150 音声混合部
160 記録部
170、172 記憶部
174 再生部
180 音声出力部
190 音量補正部

Claims (15)

  1. 入力音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と;
    前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と;
    前記音声分離部により分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合する音声混合部と;
    を備えることを特徴とする、音声処理装置。
  2. 前記特定音源は前記入力音声の収録位置から設定距離の範囲内に位置することを特徴とする、請求項1に記載の音声処理装置。
  3. 前記第一の音声は、前記入力音声を収音する際に用いられた装置の操作者に起因する音声を含み、
    前記第二の音声は、収音対象から発せられた音声を含むことを特徴とする、請求項2に記載の音声処理装置。
  4. 前記音声判定部は、前記入力音声の音量または音質の少なくともいずれかに基づいて前記入力音声に前記第一の音声が含まれているか否かを判定することを特徴とする、請求項3に記載の音声処理装置。
  5. 映像を撮像する撮像部をさらに備え、
    前記音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項4に記載の音声処理装置。
  6. 前記入力音声の音源の位置が収音位置から設定距離の範囲内であり、前記入力音声にインパルス音が含まれ、前記入力音声が過去の平均音量と比較して大きい場合、前記音声判定部は、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項4に記載の音声処理装置。
  7. 前記入力音声を収音する複数の収音部と;
    前記音声混合部により混合された混合音声を記憶媒体に記録する記録部と;
    を備えることを特徴とする、請求項1に記載の音声処理装置。
  8. 前記入力音声を記憶している記憶媒体と;
    前記記憶媒体に記憶されている前記入力音声を再生し、前記位置情報算出部、前記音声判定部および前記音声分離部の少なくともいずれかに出力する再生部と;
    を備えることを特徴とする、請求項1に記載の音声処理装置。
  9. 前記入力音声の音量が補正されている場合、前記音声分離部により分離された前記第二の音声の音量に、前記補正の程度に応じた逆補正を行なう音量補正部と;
    を備えることを特徴とする、請求項1に記載の音声処理装置。
  10. 入力音声の分離を行う音声分離部と;
    前記音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と;
    前記音声分離部により分離された前記第一の音声と前記特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と;
    を備えることを特徴とする、音声処理装置。
  11. コンピュータを、
    入力音声に特定音源から発せられた第一の音声が含まれているか否かを前記音源の位置情報に基づいて判定する音声判定部と;
    前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と;
    前記音声分離部により分離された前記第一の音声と前記第二の音声とを、任意の音量比率で混合する音声混合部と;
    を備えることを特徴とする音声処理装置として機能させるための、プログラム。
  12. 前記音声判定部は、前記入力音声の音量または音質の少なくともいずれかに基づいて前記入力音声に前記第一の音声が含まれているか否かを判定することを特徴とする、請求項11に記載のプログラム。
  13. 映像を撮像する撮像部をさらに備え、
    前記音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項12に記載のプログラム。
  14. 前記入力音声の音源の位置が収音位置から設定距離の範囲内であり、前記入力音声にインパルス音が含まれ、前記入力音声が過去の平均音量と比較して大きい場合、前記音声判定部は、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項12に記載のプログラム。
  15. 入力音声に特定音源から発せられた第一の音声が含まれているか否かを前記音源の位置情報に基づいて判定するステップと;
    前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離するステップと;
    前記分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合するステップと;
    を含むことを特徴とする、音声処理方法。
JP2007035410A 2007-02-15 2007-02-15 音声処理装置、音声処理方法およびプログラム Expired - Fee Related JP4449987B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007035410A JP4449987B2 (ja) 2007-02-15 2007-02-15 音声処理装置、音声処理方法およびプログラム
US12/069,844 US8422695B2 (en) 2007-02-15 2008-02-13 Sound processing apparatus, sound processing method and program
CN2008100082947A CN101246690B (zh) 2007-02-15 2008-02-15 声音处理设备及声音处理方法
US13/788,488 US9762193B2 (en) 2007-02-15 2013-03-07 Sound processing apparatus, sound processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007035410A JP4449987B2 (ja) 2007-02-15 2007-02-15 音声処理装置、音声処理方法およびプログラム

Publications (3)

Publication Number Publication Date
JP2008197577A true JP2008197577A (ja) 2008-08-28
JP2008197577A5 JP2008197577A5 (ja) 2008-11-06
JP4449987B2 JP4449987B2 (ja) 2010-04-14

Family

ID=39706737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007035410A Expired - Fee Related JP4449987B2 (ja) 2007-02-15 2007-02-15 音声処理装置、音声処理方法およびプログラム

Country Status (3)

Country Link
US (2) US8422695B2 (ja)
JP (1) JP4449987B2 (ja)
CN (1) CN101246690B (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010112996A (ja) * 2008-11-04 2010-05-20 Sony Corp 音声処理装置、音声処理方法およびプログラム
JP2010112995A (ja) * 2008-11-04 2010-05-20 Sony Corp 通話音声処理装置、通話音声処理方法およびプログラム
JP2010112994A (ja) * 2008-11-04 2010-05-20 Sony Corp 音声処理装置、音声処理方法およびプログラム
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
WO2011027862A1 (ja) * 2009-09-04 2011-03-10 株式会社ニコン 音声データ合成装置
JP2011199855A (ja) * 2010-02-25 2011-10-06 Nec Corp 携帯機器
JP2011203048A (ja) * 2010-03-25 2011-10-13 Tokyo Electric Power Co Inc:The 音源位置特定装置および音源位置特定方法
JP2014502109A (ja) * 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 到来方向推定から幾何学的な情報の抽出による音取得
CN112203188A (zh) * 2020-07-24 2021-01-08 北京工业大学 一种自动音量调节方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2454732A2 (en) * 2009-07-15 2012-05-23 Vijay Sathya System and method of determining the appropriate mixing volume for an event sound corresponding to an impact related event and determining the enhanced event audio
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP5741281B2 (ja) * 2011-07-26 2015-07-01 ソニー株式会社 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
KR101219709B1 (ko) * 2011-12-07 2013-01-09 현대자동차주식회사 음원 믹싱을 위한 자동 볼륨 제어 방법
US9197974B1 (en) * 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
JP6225118B2 (ja) * 2012-01-17 2017-11-01 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音源位置推定
JP5834948B2 (ja) * 2012-01-24 2015-12-24 富士通株式会社 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN104123950B (zh) * 2014-07-17 2015-11-25 努比亚技术有限公司 一种录音方法及装置
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
CN105578097A (zh) * 2015-07-10 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种录像方法及终端
JP6727825B2 (ja) * 2016-02-02 2020-07-22 キヤノン株式会社 音声処理装置および音声処理方法
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置
JP6591477B2 (ja) * 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム
CN106954126B (zh) * 2017-03-31 2020-01-10 深圳壹秘科技有限公司 一种音频信息处理方法及其会议终端
CN110575051B (zh) * 2018-06-11 2022-03-18 佛山市顺德区美的电热电器制造有限公司 一种烹饪设备及烹饪设备的控制方法、装置和存储介质
CN108810699B (zh) * 2018-06-19 2020-01-24 李金雄 一种运动蓝牙耳机
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN109639904B (zh) * 2019-01-25 2021-02-02 努比亚技术有限公司 一种手机模式调整方法、系统及计算机存储介质
US11308949B2 (en) * 2019-03-12 2022-04-19 International Business Machines Corporation Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111698631B (zh) * 2020-05-22 2021-10-15 深圳市东微智能科技股份有限公司 音频设备自动调试方法、音频设备以及音频系统
CN116095564B (zh) * 2023-04-10 2023-06-23 深圳市嘉润原新显科技有限公司 显示器混音电路及显示器
CN116990755A (zh) * 2023-09-22 2023-11-03 海宁市微纳感知计算技术有限公司 一种鸣笛声源定位方法、系统、电子设备及可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63152277A (ja) 1986-12-17 1988-06-24 Matsushita Electric Ind Co Ltd 携帯用ビデオカメラ
JP3131249B2 (ja) 1991-08-23 2001-01-31 日本放送協会 混合音声信号受信装置
JP2742344B2 (ja) * 1991-10-09 1998-04-22 富士通株式会社 音声編集装置
JPH0543200U (ja) 1991-10-30 1993-06-11 クラリオン株式会社 音声記録系装置
DE19854373B4 (de) * 1998-11-25 2005-02-24 Robert Bosch Gmbh Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons
JP2001084713A (ja) 1999-09-10 2001-03-30 Nippon Hoso Kyokai <Nhk> ビデオカメラと一体型の音源分離収音マイクロホンシステム
DE10043090A1 (de) * 2000-09-01 2002-03-28 Bosch Gmbh Robert Verfahren zur Wiedergabe von Audiosignalen mindestens zweier verschiedener Quellen
JP2002218583A (ja) 2001-01-17 2002-08-02 Sony Corp 音場合成演算方法及び装置
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US20030059061A1 (en) * 2001-09-14 2003-03-27 Sony Corporation Audio input unit, audio input method and audio input and output unit
JP3852383B2 (ja) 2002-08-05 2006-11-29 日本ビクター株式会社 ビデオ再生装置
US7383178B2 (en) * 2002-12-11 2008-06-03 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
JP4143487B2 (ja) 2003-06-30 2008-09-03 株式会社東芝 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2005341073A (ja) 2004-05-26 2005-12-08 Sony Corp マイクロホン
US8687820B2 (en) * 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
JP4462617B2 (ja) 2004-11-29 2010-05-12 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
DE102005032274B4 (de) * 2005-07-11 2007-05-10 Siemens Audiologische Technik Gmbh Hörvorrichtung und entsprechendes Verfahren zur Eigenstimmendetektion
US7567898B2 (en) * 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US20070147635A1 (en) * 2005-12-23 2007-06-28 Phonak Ag System and method for separation of a user's voice from ambient sound

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818805B2 (en) 2008-11-04 2014-08-26 Sony Corporation Sound processing apparatus, sound processing method and program
JP2010112995A (ja) * 2008-11-04 2010-05-20 Sony Corp 通話音声処理装置、通話音声処理方法およびプログラム
JP2010112994A (ja) * 2008-11-04 2010-05-20 Sony Corp 音声処理装置、音声処理方法およびプログラム
JP2010112996A (ja) * 2008-11-04 2010-05-20 Sony Corp 音声処理装置、音声処理方法およびプログラム
US8996367B2 (en) 2008-11-04 2015-03-31 Sony Corporation Sound processing apparatus, sound processing method and program
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
WO2011027862A1 (ja) * 2009-09-04 2011-03-10 株式会社ニコン 音声データ合成装置
CN102483928A (zh) * 2009-09-04 2012-05-30 株式会社尼康 声音数据合成装置
CN102483928B (zh) * 2009-09-04 2013-09-11 株式会社尼康 声音数据合成装置
JP2011055409A (ja) * 2009-09-04 2011-03-17 Nikon Corp 音声データ合成装置
JP2011199855A (ja) * 2010-02-25 2011-10-06 Nec Corp 携帯機器
JP2011203048A (ja) * 2010-03-25 2011-10-13 Tokyo Electric Power Co Inc:The 音源位置特定装置および音源位置特定方法
JP2014502109A (ja) * 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 到来方向推定から幾何学的な情報の抽出による音取得
US9396731B2 (en) 2010-12-03 2016-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Sound acquisition via the extraction of geometrical information from direction of arrival estimates
US10109282B2 (en) 2010-12-03 2018-10-23 Friedrich-Alexander-Universitaet Erlangen-Nuernberg Apparatus and method for geometry-based spatial audio coding
CN112203188A (zh) * 2020-07-24 2021-01-08 北京工业大学 一种自动音量调节方法

Also Published As

Publication number Publication date
US20080199152A1 (en) 2008-08-21
US8422695B2 (en) 2013-04-16
CN101246690A (zh) 2008-08-20
US20130182857A1 (en) 2013-07-18
CN101246690B (zh) 2011-07-13
US9762193B2 (en) 2017-09-12
JP4449987B2 (ja) 2010-04-14

Similar Documents

Publication Publication Date Title
JP4449987B2 (ja) 音声処理装置、音声処理方法およびプログラム
US8165416B2 (en) Automatic gain and exposure control using region of interest detection
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP4441879B2 (ja) 信号処理装置および方法、プログラム、並びに記録媒体
JP2010187363A (ja) 音響信号処理装置及び再生装置
US8687090B2 (en) Method of removing audio noise and image capturing apparatus including the same
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
US9967660B2 (en) Signal processing apparatus and method
JP2003270034A (ja) 音情報解析方法、装置、プログラム、および記録媒体
CN104937955B (zh) 自动的扬声器极性检测
JP2011101110A (ja) 撮像装置
US10535363B2 (en) Audio processing apparatus and control method thereof
CN108781310A (zh) 使用视频的图像来选择要增强的视频的音频流
US20220260664A1 (en) Audio processing
US20060012831A1 (en) Electronic watermarking method and storage medium for storing electronic watermarking program
JP7247338B2 (ja) パノラマ画像
US11889260B2 (en) Determination of sound source direction
JP3739673B2 (ja) ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体
CN104079822B (zh) 摄像装置、信号处理装置及方法
JP4495704B2 (ja) 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体
US11363374B2 (en) Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium
EP3706432A1 (en) Processing multiple spatial audio signals which have a spatial overlap
JP2008022069A (ja) 音声収録装置および音声収録方法
JP6167483B2 (ja) 再生処理装置、撮像装置および再生処理プログラム
JP2010091974A (ja) 再生装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100118

R151 Written notification of patent or utility model registration

Ref document number: 4449987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees