JP2008197577A - Voice processing device, voice processing method and program - Google Patents
Voice processing device, voice processing method and program Download PDFInfo
- Publication number
- JP2008197577A JP2008197577A JP2007035410A JP2007035410A JP2008197577A JP 2008197577 A JP2008197577 A JP 2008197577A JP 2007035410 A JP2007035410 A JP 2007035410A JP 2007035410 A JP2007035410 A JP 2007035410A JP 2008197577 A JP2008197577 A JP 2008197577A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- voice
- input
- unit
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000926 separation method Methods 0.000 claims description 49
- 238000003384 imaging method Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- TUBQDCKAWGHZPF-UHFFFAOYSA-N 1,3-benzothiazol-2-ylsulfanylmethyl thiocyanate Chemical compound C1=CC=C2SC(SCSC#N)=NC2=C1 TUBQDCKAWGHZPF-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G1/00—Details of arrangements for controlling amplification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/806—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
- H04N9/8063—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声処理装置、音声処理方法およびプログラムに関する。 The present invention relates to a voice processing device, a voice processing method, and a program.
近日、被写体の映像および被写体から発せられた音声を記録可能な映像音声記録装置が広く普及している。映像音声記録装置の操作者は、映像音声記録装置の撮像方向を調整したり、映像音声記録装置に設けられた操作手段を操作して被写体の映像を拡大または縮小することができる。 In the near future, video / audio recording apparatuses capable of recording a video of a subject and a sound emitted from the subject are widely used. An operator of the video / audio recording apparatus can adjust the imaging direction of the video / audio recording apparatus, or operate an operation unit provided in the video / audio recording apparatus to enlarge or reduce the video of the subject.
ここで、音声の音量は音源から離れるにつれて減少する。したがって、上記のような映像音声記録装置には、映像音声記録装置の操作者の声や操作手段の操作音などの操作者に起因する音声が、被写体が発する音声より大きな音量で記録される場合があった。 Here, the sound volume decreases as the distance from the sound source increases. Accordingly, in the video / audio recording apparatus as described above, when the voice caused by the operator, such as the voice of the operator of the video / audio recording apparatus or the operation sound of the operation means, is recorded at a volume higher than the sound emitted from the subject. was there.
特許文献1には、このような操作者に起因する音声の音量が抑制された音声を記録するための音声処理装置が開示されている。具体的には、当該音声処理装置は、前左用、前右用、後左用、後右用、および着脱可能なマイクロホンの計5本の指向性マイクロホンを備える。したがって、後ろ中央に位置する操作者の声は前左用、前右用、後左用および後右用のいずれのマイクロホンにもほとんど収音されず、必要や目的に応じて着脱可能なマイクロホンに収音させることができる。
また、特許文献2には、複数の音源からの音声が含まれる混合音声のうちの1つ以上の音源からの信号をICA(Independent Component Analysis)法に基づくBSS(Blind Source Separation)方式を用いて分離する技術が開示されている。 Further, Patent Document 2 uses a BSS (Blind Source Separation) method based on an ICA (Independent Component Analysis) method for signals from one or more sound sources among mixed sounds including sounds from a plurality of sound sources. Techniques for separating are disclosed.
しかし、従来の音声処理装置では、多数のマイクロホンを設ける必要があったため、音声処理装置のハードウェア規模が大きくなってしまう。また、従来の音声処理装置はマイクロホンの指向性を利用して操作者の音声を選別するため、操作者の位置に対して制約が課されるという問題があった。 However, since the conventional voice processing apparatus needs to be provided with a large number of microphones, the hardware scale of the voice processing apparatus becomes large. Further, the conventional voice processing apparatus has a problem that restrictions are imposed on the position of the operator because the voice of the operator is selected using the directivity of the microphone.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、特定音源から発せられた音声の全体に占める音量比率を調整して記録することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and the object of the present invention is to adjust and record the volume ratio of the entire sound emitted from a specific sound source. It is an object of the present invention to provide a new and improved voice processing apparatus, voice processing method and program.
上記課題を解決するために、本発明のある観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。 In order to solve the above problems, according to an aspect of the present invention, a sound determination unit that determines whether or not a first sound emitted from a specific sound source is included in an input sound based on position information of the sound source And when the sound determination unit determines that the first sound is included in the input sound, the sound that separates the input sound into the first sound and the second sound emitted from a sound source other than the specific sound source An audio processing device is provided, comprising: a separation unit; and an audio mixing unit that mixes the first audio and the second audio separated by the audio separation unit at an arbitrary volume ratio.
かかる構成においては、音声分離部が、入力音声に含まれる特定音源から発せられた第一の音声を分離し、音声混合部が、例えば第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より低減されるように混合する。したがって、入力音声のうち特定音源から発せられた第一の音声の音量が不要に大きい場合、音声混合部は、第二の音声が占める音量比率が入力音声に占める第二の音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声処理装置によれば、第二の音声が第一の音声に埋もれてしまうことを防止できる。 In such a configuration, the sound separation unit separates the first sound emitted from the specific sound source included in the input sound, and the sound mixing unit is, for example, the first sound and another sound included in the input sound. The second sound is mixed so that the volume ratio occupied by the first sound is lower than the volume ratio of the first sound occupied by the input sound. Therefore, when the volume of the first sound emitted from the specific sound source is unnecessarily large among the input sounds, the sound mixing unit determines that the volume ratio occupied by the second sound is greater than the volume ratio of the second sound occupied by the input sound. Increased mixed speech can be obtained. As a result, according to the sound processing apparatus, it is possible to prevent the second sound from being buried in the first sound.
また、音声混合部は、例えば近傍から発せられた第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より増加されるように混合してもよい。かかる構成によれば、音声収録者自身の音声の収録を所望する場合、音声収録者が発した第一の音声が強調することができる。なお、音声判定部により入力音声に第一の音声が含まれていないと判定された場合、音声分離部は入力音声の分離を行なわなくてもよい。 In addition, the sound mixing unit is configured such that, for example, the volume ratio in which the first sound occupies the first sound emitted from the vicinity and the second sound that is other sound included in the input sound occupies the first sound. You may mix so that it may increase from the volume ratio of one audio | voice. According to this configuration, when it is desired to record the voice of the voice recorder, the first voice produced by the voice recorder can be emphasized. Note that when the voice determination unit determines that the first voice is not included in the input voice, the voice separation unit does not have to separate the input voice.
特定音源は入力音声の収録位置から設定距離範囲内に位置してもよい。すなわち、第一の音声が入力音声の収録位置から設定距離範囲内から発せられた音声であってもよい。ここで、音声の音量は距離が離れるにつれて減少するため、収録位置に近い音源から発せられた音声ほど入力音声に大きな音量で収録される場合が多い。したがって、音声混合部は、入力音声の収録位置から近い第一の音声の音量比率を抑制し、収録位置からの音源距離の差に起因するアンバランスな音量関係を是正することができる。 The specific sound source may be located within a set distance range from the recording position of the input sound. That is, the first sound may be a sound emitted from a set distance range from the recording position of the input sound. Here, since the sound volume decreases as the distance increases, the sound emitted from the sound source closer to the recording position is often recorded at a higher sound volume in the input sound. Therefore, the sound mixing unit can suppress the volume ratio of the first sound close to the recording position of the input sound, and can correct the unbalanced sound volume relation caused by the difference in the sound source distance from the recording position.
第一の音声は、入力音声を収音する際に用いられた装置の操作者に起因する音声を含み、第二の音声は、収音対象から発せられた音声を含んでもよい。かかる構成によれば、入力音声を収音する際に用いられた装置の近傍で該装置を操作している操作者により発せられた第一の音声の音量比率を抑制し、収音対象から発せられた第二の音声が第一の音声により埋もれてしまうことを防止可能である。 The first sound may include a sound caused by an operator of the device used when collecting the input sound, and the second sound may include a sound emitted from the sound collection target. According to such a configuration, the volume ratio of the first sound emitted by the operator operating the device in the vicinity of the device used when collecting the input sound is suppressed, and the sound is emitted from the sound collection target. It is possible to prevent the second sound that has been received from being buried by the first sound.
音声判定部は、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。ここで、音声判定部は、入力音声の音量または位相に基づいて入力音声の音源の位置情報、または入力音声に含まれる1または2以上の音源から発せられた音声ごとの音源の位置情報を推定してもよい。 The sound determination unit may determine whether or not the first sound is included in the input sound based on at least one of the volume and the sound quality of the input sound. Here, the sound determination unit estimates the position information of the sound source of the input sound or the position information of the sound source for each sound emitted from one or more sound sources included in the input sound based on the volume or phase of the input sound. May be.
当該音声処理装置は、映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、操作者は撮像部の撮像方向の後方から音声処理装置を操作する場合が多い。したがって、音声判定部は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に第一の音声として操作者の音声が支配的に含まれている判定することができる。その結果、音声混合部により操作者の音声の音量比率が低減された混合音声を得ることができる。 The audio processing apparatus further includes an imaging unit that captures an image, and the audio determination unit is configured to detect a sound source based on at least one of a volume or a phase of sound emitted from one or more sound sources included in the input sound. A position information calculation unit that calculates position information, the position information calculation unit calculates that the position of the sound source of the input sound is behind the imaging direction of the imaging unit, and the input sound has a sound quality that matches or approximates the human voice In some cases, it may be determined that the first sound emitted from the specific sound source is included in the input sound. Here, the operator often operates the audio processing device from behind the imaging direction of the imaging unit. Therefore, when the position of the sound source of the input sound is behind the image capturing direction of the image capturing unit and the input sound has a sound quality that matches or approximates the human sound, the sound determination unit operates as the first sound in the input sound. It is possible to determine that the voice is dominantly included. As a result, a mixed sound in which the volume ratio of the operator's sound is reduced by the sound mixing unit can be obtained.
入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、入力音声を収録する装置の操作者が該装置のボタンを操作したり該装置を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は該装置において発生するため、比較的大きな音量で収音される可能性が高い。したがって、音声判定部は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に第一の音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、音声混合部により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。 If the position of the sound source of the input sound is within the set distance from the sound collection position, the input sound includes impulse sound, and the input sound is large compared to the past average volume, the sound determination unit You may determine with the 1st audio | voice emitted from the specific sound source being included. Here, in many cases, an impulse sound such as “click” or “bang” is generated when an operator of a device that records input sound operates a button of the device or changes the device. Further, since the impulse sound is generated in the apparatus, there is a high possibility that the impulse sound is collected at a relatively large volume. Therefore, the sound determination unit inputs an input sound when the position of the sound source of the input sound is within a set distance from the sound collection position, the input sound includes an impulse sound, and the input sound is larger than the past average sound volume. It can be determined that noise resulting from the operation of the operator is dominantly included in the voice as the first voice. As a result, it is possible to obtain a mixed sound in which the volume ratio of noise caused by the operation of the operator is reduced by the sound mixing unit.
当該音声処理装置は、入力音声を収音する複数の収音部と、音声混合部により混合された混合音声を記憶媒体に記録する記録部と、を備えてもよい。かかる構成においては、記録部は記憶媒体に、第一の音声が占める音量比率が入力音声に占める第一の音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。 The sound processing apparatus may include a plurality of sound collecting units that collect input sound and a recording unit that records the mixed sound mixed by the sound mixing unit on a storage medium. In such a configuration, the recording unit records the mixed sound in which the volume ratio occupied by the first sound is lower than the volume ratio of the first sound occupied in the input sound in the storage medium. Therefore, it is possible to reproduce the mixed sound in which the volume ratio of the first sound is adjusted in the reproducing apparatus without implementing a special volume correction function in the reproducing apparatus that reproduces the mixed sound.
当該音声処理装置は、入力音声を記憶している記憶媒体と、記憶媒体に記憶されている入力音声を再生し、位置情報算出部、音声判定部および音声分離部の少なくともいずれかに出力する再生部と、を備えてもよい。かかる構成においては、位置情報算出部、音声判定部および音声分離部は再生部から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶媒体に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。 The audio processing device reproduces the storage medium storing the input sound and the input sound stored in the storage medium, and outputs it to at least one of the position information calculation unit, the sound determination unit, and the sound separation unit May be provided. In this configuration, the position information calculation unit, the sound determination unit, and the sound separation unit can generate mixed sound based on the input sound input from the reproduction unit and output the mixed sound as reproduced sound. Therefore, it is possible to reproduce the mixed sound in which the volume ratio of the first sound is adjusted without implementing a special sound volume correction function in the recording apparatus that records the input sound on the storage medium.
当該音声処理装置は、入力音声の音量が補正されている場合、音声分離部により分離された第二の音声の音量に、補正の程度に応じた逆補正を行なう音量補正部を備えてもよい。例えば、第一の音声の音量が過大であったために入力音声の音量が全体として抑制された場合、第二の音声の音量も抑制されてしまっている。音量補正部は、このような場合、入力音声の音量が抑制された程度に応じて第二の音声の音量を増大させ、第二の音声が過小となることを防止できる。 The sound processing device may include a volume correction unit that performs reverse correction according to the degree of correction on the volume of the second sound separated by the sound separation unit when the volume of the input sound is corrected. . For example, when the volume of the input voice is suppressed as a whole because the volume of the first voice is excessive, the volume of the second voice is also suppressed. In such a case, the volume correction unit can increase the volume of the second sound according to the degree to which the volume of the input sound is suppressed, and can prevent the second sound from becoming too low.
また、上記課題を解決するために、本発明の別の観点によれば、入力音声の分離を行う音声分離部と、音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と、音声分離部により分離された第一の音声と特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。 In order to solve the above problem, according to another aspect of the present invention, a voice separation unit that separates input voices, and a first voice emitted from a specific sound source to the voice separated by the voice separation unit A sound determination unit that determines whether or not a sound source is included, and a sound that mixes the first sound separated by the sound separation unit and the second sound emitted from a sound source other than the specific sound source at an arbitrary volume ratio And a mixing unit. A voice processing device is provided.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を任意の音量比率で混合する音声混合部とを備えることを特徴とする音声処理装置として機能させるための、プログラムが提供される。 In order to solve the above problem, according to another aspect of the present invention, the computer determines whether or not the input sound contains the first sound emitted from the specific sound source based on the position information of the sound source. A voice determination unit that determines the input voice and the voice determination unit determines that the input voice includes the first voice, the second voice generated from the sound source other than the first voice and the specific sound source A voice processing device comprising: a voice separation unit that separates into voice; and a voice mixing unit that mixes the first voice and the second voice separated by the voice separation unit at an arbitrary volume ratio A program is provided to make it happen.
かかるプログラムは、例えばCPU、ROMまたはRAMなどを含むコンピュータのハードウェア資源に、上記のような位置情報算出部、音声判定部および音声分離部の機能を実行させることができる。すなわち、当該プログラムを用いるコンピュータを、上述の音声処理装置として機能させることが可能である。 Such a program can cause the hardware resources of a computer including, for example, a CPU, ROM, or RAM to execute the functions of the position information calculation unit, the voice determination unit, and the voice separation unit as described above. That is, it is possible to cause a computer using the program to function as the above-described voice processing device.
音声判定部は、音源の位置情報、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。 The sound determination unit may determine whether or not the first sound is included in the input sound based on at least one of the position information of the sound source, the volume or the sound quality of the input sound.
映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。 A position that further includes an image pickup unit that picks up an image, and the sound determination unit calculates position information of the sound source based on at least one of a volume and a phase of sound emitted from one or more sound sources included in the input sound Provided with an information calculation unit, the position information calculation unit calculates that the position of the sound source of the input sound is behind the imaging direction of the imaging unit, and if the input sound has a sound quality that matches or approximates a human voice, You may determine with the 1st audio | voice emitted from the specific sound source being included.
入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。 If the position of the sound source of the input sound is within the set distance from the sound collection position, the input sound includes impulse sound, and the input sound is large compared to the past average volume, the sound determination unit You may determine with the 1st audio | voice emitted from the specific sound source being included.
また、上記課題を解決するために、本発明の別の観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定するステップと、入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離するステップと、分離された第一の音声と第二の音声を、任意の音量比率で混合するステップと、を含むことを特徴とする、音声処理方法が提供される。 In order to solve the above problem, according to another aspect of the present invention, it is determined based on position information of a sound source whether or not the first sound emitted from a specific sound source is included in the input sound. Separating the input sound into a first sound and a second sound emitted from a sound source other than the specific sound source when it is determined that the first sound is included in the input sound; and And a step of mixing the first sound and the second sound, which are performed at an arbitrary volume ratio, to provide a sound processing method.
以上説明したように本発明にかかる音声処理装置、音声処理方法およびプログラムよれば、特定音源から発せられた音声の全体に占める音量比率を任意に調整して出力、又は記録することができる。 As described above, according to the sound processing device, sound processing method, and program according to the present invention, it is possible to arbitrarily adjust and output or record the volume ratio of the sound emitted from the specific sound source.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
(第1の実施形態)
まず、本発明の第1の実施形態にかかる音声記録装置10について説明する。本実施形態の説明においては、図1および図2を参照して音声記録装置10が用いられる場面の一例を説明した後に、図3〜図10を参照して音声記録装置10の構成および動作を説明する。
(First embodiment)
First, the
図1は、本実施形態にかかる音声記録装置10が用いられる場面の一例を示した説明図である。図1に示した例では、被写体である子供が品川区立一番小学校の校門の前に立っており、映像撮像機能が実装された音声記録装置10を手に持った操作者が音声記録装置10を被写体に向けている。
FIG. 1 is an explanatory diagram showing an example of a scene in which the
また、被写体は、操作者の「おーい」という呼びかけに「はーい」という返事をしている。このとき、映像撮像機能が実装された音声記録装置10は、被写体の映像と共に操作者の「おーい」という呼びかけ、および被写体の「はーい」という返事を記録する。ここで、図2を参照して通常の音声記録方法によって記録される音声について説明する。
In addition, the subject responds “yes” to the operator's call “oi”. At this time, the
図2は、通常の音声記録方法によって記録される音声の時間領域の振幅を示した説明図である。音声は、音源が点音源であると仮定すると、収音される音量は音源と収音位置との距離の二乗に反比例する。すなわち、収音位置が音源から離れるほど収音される音量は小さくなる。したがって、収音位置に近い操作者の「おーい」という呼びかけは、図2(a)に示すような振幅を有する音声として収音される。 FIG. 2 is an explanatory diagram showing the amplitude in the time domain of audio recorded by a normal audio recording method. Assuming that the sound source is a point sound source, the volume of sound collected is inversely proportional to the square of the distance between the sound source and the sound collection position. That is, as the sound collection position moves away from the sound source, the collected sound volume decreases. Therefore, the operator's call “oi” close to the sound collection position is collected as a sound having an amplitude as shown in FIG.
一方、収音位置から操作者より離れている被写体の「はーい」という返事は、図2(b)に示したように操作者の声に比べて小さな振幅の音声として収音される。この場合、通常の音声記録方法によれば、図2(c)に示したように、単純に操作者の「おーい」という呼びかけと被写体の「はーい」という返事が重畳された音声が記録される。 On the other hand, the answer “yes” of the subject that is farther from the operator than the sound collection position is collected as a sound having a smaller amplitude than the voice of the operator as shown in FIG. In this case, according to the normal audio recording method, as shown in FIG. 2C, audio in which the operator's call “oi” and the subject “yes” are superimposed is recorded. .
しかし、図2(c)に示した音声には操作者の「おーい」という呼びかけが支配的に含まれ、被写体の「はーい」という返事が埋もれてしまっている。同様に、操作者による操作ノイズが被写体の発する音声と比較して相対的に大きく記録されてしまう。このため、被写体の発する音声が操作者に起因する音声によってマスキングされ、操作者の意図した適切な音量バランスで被写体の発する音声を記録できない場合が多いという問題があった。 However, the voice shown in FIG. 2 (c) predominantly includes an operator's call “Ooi”, and the subject's answer “Hai” is buried. Similarly, operation noise by the operator is recorded relatively large compared to the sound emitted by the subject. For this reason, there is a problem that the sound emitted from the subject is often masked by the sound originating from the operator, and the sound emitted from the subject cannot be recorded with an appropriate volume balance intended by the operator.
そこで、上記の問題を一着眼点とし、本実施形態にかかる音声記録装置10が創作されるに至った。本実施形態にかかる音声記録装置10は、操作者に起因する音声の音量比率を抑制し、被写体の発する音声と操作者に起因する音声とを適切な音量バランスで記録することができる。以下、このような音声記録装置10の詳細な構成および動作について説明する。
In view of the above, the
図3は、本実施形態にかかる音声処理装置の一例としての音声記録装置10の構成を示した機能ブロック図である。音声記録装置10は、音声収音部110と、音声判定部120と、音源分離部140と、音声混合部150と、記録部160と、記憶部170と、を備える。なお、図1においては音声記録装置10としてビデオカメラを示しているが、音声記録装置10はビデオカメラに限られず、PC(Personal Computer)、携帯電話、PHS(Personal Handyphone System)、携帯用音声処理装置、携帯用映像処理装置、PDA(Personal Digital Assistant)、家庭用ゲーム機器、携帯用ゲーム機器、などの情報処理装置であってもよい。
FIG. 3 is a functional block diagram showing the configuration of the
音声収音部110は、音声を収音し、収音した音声を離散量子化する。また、音声収音部110は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。図3に示した例では、音声収音部110は、左音声Lを収音する収音部と右音声Rを収音する収音部の2つを含む。音声収音部110は、離散量子化した左音声Lおよび右音声Rを入力音声として音声判定部120および音源分離部140へ出力する。
The
音声判定部120は、音声収音部110から入力された入力音声に、操作者の音声または操作者の動作に起因するノイズなど音声記録装置10の近傍から発せられた近傍音声(第一の音声)が含まれているか否かを判定する。かかる音声判定部120の詳細な構成を図4を参照して説明する。
The
図4は、音声判定部120の構成を示した機能ブロック図である。音声判定部120は、音量検出器124、平均音量検出器126および最大音量検出器128からなる音量検出部122と、スペクトル検出器132および音質検出器134からなる音質検出部130と、距離方向推定器136と、操作者音声推定器138と、を備える。なお、図4においては図面の明瞭性の観点から左音声Lおよび右音声Rを合わせて入力音声と示している。
FIG. 4 is a functional block diagram illustrating the configuration of the
音量検出器124は、所定長さのフレーム単位(例えば、数10msec)で与えられる入力音声の音量値列(振幅)を検出し、検出した入力音声の音量値列を平均音量検出器126、最大音量検出器128、音質検出器134および距離方向推定器136に出力する。
The
平均音量検出器126は、音量検出器124から入力されるフレーム単位の音量値列に基づいて、入力音声の音量平均値を例えばフレームごとに検出する。また、平均音量検出器126は、検出した音量平均値を音質検出器134および操作者音声推定器138に出力する。
The average
最大音量検出器128は、音量検出器124から入力されるフレーム単位の音量値列に基づいて、入力音声の音量最大値を例えばフレームごとに検出する。また、最大音量検出器128は、検出した入力音声の音量最大値を音質検出器134および操作者音声推定器138に出力する。
The maximum
スペクトル検出器132は、入力音声に例えばFFT(Fast Fourier Transform)処理を施し、入力音声の周波数領域における各スペクトルを検出する。スペクトル検出器132は、検出したスペクトルを音質検出器134および距離方向推定器136に出力する。
The
音質検出器134は、入力音声、音量平均値、音量最大値およびスペクトルが入力され、かかる入力に基づいて入力音声の人間の音声らしさ、音楽らしさ、定常性、インパルス性などを検出し、操作者音声推定器138に出力する。人間の音声らしさは、入力音声の一部または全体が人間の音声と一致するか否か、あるいは人間の音声とどの程度近似するかなどを示す情報であってもよい。また、音楽らしさは、入力音声の一部または全体が音楽であるか否か、あるいは音楽とどの程度近似するかなどを示す情報であってもよい。
The
定常性は、例えば空調音のように時間的にそれほど音声の統計的性質が変化しない性質を指す。インパルス性は、例えば打撃音、破裂音のように短時間にエネルギーが集中した雑音性の強い性質を指す。 The stationarity refers to a property that the statistical property of the voice does not change so much in time, for example, air-conditioning sound. Impulse property refers to a strong property of noise property in which energy is concentrated in a short time such as a hit sound and a plosive sound.
例えば、音質検出器134は、入力音声のスペクトル分布と人間の音声のスペクトル分布との一致度に基づいて人間の音声らしさを検出することができる。また、音質検出器134は、フレームごとの音量最大値を比較し、他のフレームと比較して音量最大値が大きいほどインパルス性が高いことを検出してもよい。
For example, the
なお、音質検出器134は、ゼロクロッシング法、LPC(Linear Predictive Coding)分析などの信号処理技術を用いて入力音声の音質を分析してもよい。ゼロクロッシング法によれば入力音声の基本周期が検出されるため、音質検出器134は該基本周期が人間の音声の基本周期(例えば100〜200Hz)に含まれるか否かに基づいて人間の音声らしさを検出してもよい。
Note that the
距離方向推定器136は、入力音声、入力音声の音量値列、入力音声のスペクトルなどが入力され、該入力に基づいて入力音声の音源または入力音声に含まれる支配的な音声が発せられた音源の方向情報および距離情報などの位置情報を推定する位置情報算出部としての機能を有する。かかる距離方向推定器136は、入力音声の位相、音量、音量値列、過去の平均音量値、最大音量値などによる音源の位置情報の推定方法を組み合わせることで、残響や映像記録装置10本体による音声の反射の影響が大きい場合でも総合的に音源位置を推定することができる。距離方向推定器136による方向情報および距離情報の推定方法の一例を図5〜図8を参照して説明する。
The
図5は、2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、音声収音部110を構成するマイクロホンM1およびマイクロホンM2に到達する各入力音声の位相と各入力音声の位相差が測定できる。さらに、位相差と、入力音声の周波数fおよび音速cの値から、入力音声の音源位置までのマイクロホンM1からの距離とマイクロホンM2からの距離との差を算出できる。音源は、当該距離差が一定である点の集合上に存在する。このような距離差が一定である点の集合は、双曲線となることが知られている。
FIG. 5 is an explanatory diagram showing a state in which the sound source position of the input sound is estimated based on the phase difference between the two input sounds. If it is assumed that the sound source is a point sound source, the phase difference between each input sound and the phase of each input sound that reaches the microphone M1 and the microphone M2 constituting the
例えば、マイクロホンM1が(x1、0)に位置し、マイクロホンM1が(x2、0)に位置すると仮定する(このように仮定しても一般性を失わない)。また、求める音源位置の集合上の点を(x、y)とおき、上記距離差をdとおくと、以下の数式1が成り立つ。
さらに、数式1は数式2のように展開でき、数式2を整理すると双曲線を表す数式3が導かれる。
また、距離方向推定器136は、マイクロホンM1およびマイクロホンM2の各々が収音した入力音声の音量差に基づいて音源がマイクロホンM1およびマイクロホンM2のどちらの近傍であるかを判定できるため、例えば図5に示したようにマイクロホンM2に近い双曲線1上に音源が存在すると判定することができる。
Further, since the
なお、位相差算出に用いる入力音声の周波数fは、マイクロホンM1およびマイクロホンM2間の距離に対して下記の数式4の条件を満たす必要がある。
図6は、3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。図6に示したような音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定した場合、マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れていれば、距離方向推定器136は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線1に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
FIG. 6 is an explanatory diagram showing a state in which the sound source position of the input sound is estimated based on the phase difference between the three input sounds. Assuming the arrangement of the microphone M3, the microphone M4, and the microphone M5 that constitute the
さらに、距離方向推定器136は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線2を算出し、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線3を算出することができる。その結果、距離方向推定器136は、双曲線2および双曲線3の交点P1を音源位置として推定することができる。
Further, the
図7は、2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、逆二乗則よりある点で観測される音量は距離の二乗に反比例する。図7に示したような音声収音部110を構成するマイクロホンM6およびマイクロホンM7を想定した場合、マイクロホンM6およびマイクロホンM7に到達する音量比が一定となる点の集合は円となる。距離方向推定器136は、音量検出器124から入力される音量の値から音量比を求め、音源の存在する円の半径及び中心位置を算出できる。
FIG. 7 is an explanatory diagram showing a state in which the sound source position of the input sound is estimated based on the volumes of the two input sounds. Assuming that the sound source is a point sound source, the sound volume observed at a certain point is inversely proportional to the square of the distance according to the inverse square law. Assuming the microphone M6 and the microphone M7 constituting the
図7に示したように、マイクロホンM6が(x3、0)に位置し、マイクロホンM7が(x4、0)に位置する場合(このように仮定しても一般性を失わない)、求める音源位置の集合上の点を(x、y)と置くと、各マイクロホンから音源までの距離r1、r2は以下の数式5のように表せる。
ここで、逆二乗則より以下の数式6が成り立つ。
数式6は正の定数d(例えば4)を用いて数式7にように変形される。
数式7をr1およびr2に代入し、整理すると以下の数式8が導かれる。
数式8より、距離方向推定器136は、図7に示したように、中心の座標が数式9で表され半径が数式10で表される円1上に音源が存在すると推定できる。
図8は、3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。図8に示したような音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定した場合、マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れていれば、距離方向推定器136は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線2に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
FIG. 8 is an explanatory diagram showing a state in which the sound source position of the input sound is estimated based on the volumes of the three input sounds. Assuming the arrangement of the microphone M3, the microphone M4, and the microphone M5 constituting the
さらに、距離方向推定器136は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の音量比に基づいて音源が存在し得る円2を算出し、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の音量比に基づいて音源が存在し得る円3を算出することができる。その結果、距離方向推定器136は、円2および円3の交点P2を音源位置として推定することができる。なお、4つ以上のマイクロホンを使用した場合には、距離方向推定器136は、空間的な音源の配置を含め、より精度の高い推定が可能となる。
Further, the
距離方向推定器136は、上記のように各入力音声の位相差や音量比に基づいて入力音声の音源の位置を推定し、推定した音源の方向情報や距離情報を操作者音声推定器138に出力する。以下の表1に、上述した音量検出部122、音質検出部130および距離方向推定器136の各構成の入出力をまとめた。
なお、入力音声に複数の音源から発せられた音声が重畳されている場合、距離方向推定器136は入力音声に支配的に含まれている音声の音源位置を正確に推定することは困難である。しかし、距離方向推定器136は入力音声に支配的に含まれている音声の音源位置に近い位置を推定することは可能である。また、当該推定された音源位置は音源分離部140において音声分離のための初期値として利用してもよいため、距離方向推定器136が推定する音源位置に誤差があっても当該音声記録装置10は所望の動作をすることができる。
When voices emitted from a plurality of sound sources are superimposed on the input voice, it is difficult for the
図4を参照して音声判定部120の構成の説明に戻ると、操作者音声推定器138は、入力音声の音量、音質または位置情報の少なくともいずれかに基づき、入力音声に操作者の音声または操作者の動作に起因するノイズなど音声記録装置10の近傍である特定音源から発せられた近傍音声が含まれているか否かを総合的に判定する。また、操作者音声推定器138は、入力音声に近傍音声が含まれていると判定した場合、音源分離部140に入力音声に近傍音声が含まれる旨(操作者音声存在情報)や距離方向推定器136により推定された位置情報などを出力する音声判定部としての機能を有する。
Returning to the description of the configuration of the
具体的には、操作者音声推定器138は、入力音声の音源の位置が映像を撮像する撮像部(図示せず。)の撮像方向の後方であると距離方向推定器136に推定され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声が含まれていると判定してもよい。ここで、図9に示すように、操作者は撮像部の撮像方向の後方、すなわちファインダーの左後方から音声記録装置10を操作する場合が多い(右利きで自分撮り以外の通常の撮影時)。
Specifically, the
したがって、操作者音声推定器138は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声として操作者の音声が支配的に含まれていると判定することができる。その結果、後述の音声混合部150により操作者の音声の音量比率が低減された混合音声を得ることができる。
Therefore, the
また、操作者音声推定器138は、入力音声の音源の位置が収音位置から設定距離(例えば、音声記録装置10の1m以内など音声記録装置10の近傍)の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に特定音源から発せられた近傍音声が含まれていると判定してもよい。ここで、音声記録装置10の操作者が音声記録装置10のボタンを操作したり音声記録装置10を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は音声記録装置10において発生するため、比較的大きな音量で収音される可能性が高い。
In addition, the
したがって、操作者音声推定器138は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に近傍音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、後述の音声混合部150により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。
Therefore, the
その他、操作者音声推定器138に入力される情報と、入力される情報に基づく操作者音声推定器138の判定結果の一例を以下の表2にまとめた。なお、近接センサー、温度センサーなどを組み合わせて用いて操作者音声推定器138における判定の精度をあげることも可能である。
図3を参照して音声記録装置10の構成の説明に戻ると、音源分離部140は、音声判定部120から操作者音声存在情報が入力されると、音声判定部120から入力される音源の位置情報に基づき、音声収音部110から入力される入力音声を操作者の音声などの近傍音声と、近傍音声以外の被写体の音声などの収音対象音声(第二の音声)とに分離する。その結果、音源分離部140は、入力される入力音声の数の倍の数の音声を出力する。図3においては、音源分離部140が左音声Lおよび右音声Rを入力音声として入力され、左近傍音声Lおよび右近傍音声Rを近傍音声として出力し、左収音対象音声Lおよび右収音対象音声Rを収音対象音声として出力する様子を示している。
Returning to the description of the configuration of the
具体的には、音源分離部140は、独立成分解析を用いた手法(ICA)、音の時間周波数成分間の重なりの少なさを利用する手法などを用いて音声を音源に応じて分離する音声分離部として機能する。
Specifically, the sound
音声混合部150は、音源分離部140から入力された近傍音声および収音対象音声を、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。かかる構成によれば、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部150は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置10によれば、収音対象音声が近傍音声に埋もれてしまうことを防止できる。
The
なお、音声混合部150は、入力される左近傍音声Lおよび左収音対象音声Lを混合して混合左音声Lを生成し、入力される右近傍音声Rおよび右収音対象音声Rを混合して混合右音声Rを生成し、混合左音声Lおよび混合右音声Rを混合音声として記録部160に出力する。
The
また、音声混合部150は、音源分離部140により分離された近傍音声および収音対象音声の平均音量比から適切な混合比率を算出し、算出した混合比率で近傍音声および収音対象音声を混合してもよい。また、音声混合部150は、前フレームに適用していた混合比率との差分が所定の上限値を超えない範囲で適用する混合比率を変化させてもよい。また、該混合比率はユーザ設定されるようにしてもよい。
In addition, the
記録部160は、音声混合部150から入力された混合音声を記憶部170に記録する。記憶部170は、EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPROM(Erasable Programmable Read Only Memory)などの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、CD−R(Compact Disk Recordable)/RW(ReWritable)、DVD−R(Digital Versatile Disk Recordable)/RW/+R/+RW/RAM(Ramdam Access Memory)およびBD(Blu−Ray Disc(登録商標))―R/BD−REなどの光ディスクや、MO(Magneto Optical)ディスクなどの記憶媒体であってもよい。なお、記憶部170は、被写体の映像データも記憶することができる。
The
このように本実施形態にかかる音声記録装置10によれば、記録部160が記憶部170に、近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。
As described above, according to the
以上、本実施形態にかかる音声記録装置10の構成を説明した。続いて、図10を参照して本実施形態にかかる音声記録装置10において実行される音声処理方法を説明する。
The configuration of the
図10は、本実施形態にかかる音声記録装置10において実行される音声処理方法の流れを示したフローチャートである。まず、音声記録装置10の音声収音部110は音声を収音する(S210)。入力音声が無かった場合には処理を終了し、入力音声があった場合には距離方向推定器136が入力音声の全体または一部が発せられた音源の距離や方向などの位置情報を推定する(S230)。
FIG. 10 is a flowchart showing the flow of the sound processing method executed in the
その後、操作者音声推定器138は入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれているか否かを判定する(S240)。操作者音声推定器138により入力音声に近傍音声が含まれていると判定された場合、音源分離部140は、入力音声を近傍音声とそれ以外の収音対象音声とに分離する(S250)。
Thereafter, the
続いて、音声混合部150が音源分離部140により分離された近傍音声と収音対象音声とを任意の比率で混合し、混合音声を生成する(S260)。S260の後、またはS240において入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれていないと判定された場合、記録部160は混合音声または入力音声を記憶部170に記録する(S270)。
Subsequently, the
以上説明したように、本実施形態にかかる音声記録装置10は、音源分離部140が、入力音声に含まれる特定音源から発せられた近傍音声を距離方向推定器136により推定された入力音声の音源の位置情報に基づいて分離し、音声混合部150が、近傍音声と入力音声に含まれる他の音声である収音対象音声とを、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。
As described above, in the
したがって、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部150は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置10によれば、近傍音声を相対的に抑制し、収音対象音声が近傍音声に埋もれてしまうことを防止できる。また、入力音声に含まれる操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を記録することができる。
Therefore, when the volume of the near voice emitted from the specific sound source is unnecessarily large among the input voices, the
また、音声記録装置10は、記憶部170に近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録できる。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。
In addition, the
また、本実施形態にかかる音声記録装置10は、入力音声をソフトウェア的に処理し近傍音声および収音対象音声の音量比率を調整した混合音声を記録できるため、マイクロホンの数などのハードウェア規模を縮小することができる。
In addition, since the
(第2の実施形態)
次に、本発明の第2の実施形態にかかる音声再生装置11について説明する。本実施形態にかかる音声再生装置11は、既に記憶されている音声に含まれる近傍音声の占める音量比率が調整された混合音声を再生することができる。以下、図11を参照して当該音声再生装置11の構成を説明する。
(Second Embodiment)
Next, the audio reproducing
図11は、本実施形態にかかる音声再生装置11の構成を示した機能ブロック図である。本実施形態にかかる音声再生装置11は、音声判定部120と、音源分離部140と、音声混合部150と、記憶部172と、再生部174と、音声出力部180と、を備える。
なお、本実施形態の説明においては、第1の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第1の実施形態と異なる構成に重きをおいて説明する。
FIG. 11 is a functional block diagram showing the configuration of the
In the description of the present embodiment, the description of the configuration that is substantially the same as the content described in the first embodiment will be omitted, and the description will be given with a focus on the configuration that is different from the first embodiment.
記憶部172は、音声の記録機能を有する任意の装置において記録された音声を記憶している。再生部174は、記憶部172が記憶している音声を読み出し、必要に応じてデコードを行なう。そして、再生部174は、記憶部172が記憶している音声を音声判定部120および音源分離部140に出力する。音声判定部120および音源分離部140は、再生部174からの出力を入力音声として扱い、第1の実施形態で説明した内容と実質的に同一な処理を行う。
The
音声出力部180は、音声混合部150により混合された混合音声を出力する。音声出力部180は、例えばスピーカであってもイヤホンであってもよい。なお、本実施形態にかかる記憶部172も、第1の実施形態における記憶部170と同様にEEPROM、EPRPMなどの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、CD−R/RW、DVD−R/RW/+R/+RW/RAMおよびBD(Blu−Ray Disc(登録商標))―R/BD−REなどの光ディスクや、MOディスクなどの記憶媒体であってもよい。
The
このように、本実施形態にかかる音声再生装置11は、音声判定部120、音源分離部140および音声混合部150が再生部174から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶部172に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。また、操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を出力することができる。
As described above, in the
(第3の実施形態)
次に、本発明の第3の実施形態にかかる音声再生装置12について説明する。本実施形態にかかる音声再生装置12は、入力音声にAGC(Auto Gain Control)が施されている場合、入力音声に含まれる収音対象音声の音量を逆補正し、収音対象音声を強調(ブースト)することができる。以下、図12および図13を参照し、本実施形態にかかる音声再生装置12の構成および動作を説明する。
(Third embodiment)
Next, an audio reproducing
図12は、本実施形態にかかる音声再生装置12の構成を示した機能ブロック図である。音声再生装置12は、音声判定部120と、音源分離部140と、音声混合部150と、記憶部172と、再生部174と、音声出力部180と、音量補正部190とを備える。
なお、本実施形態の説明においては、第2の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第2の実施形態と異なる構成に重きをおいて説明する。
FIG. 12 is a functional block diagram showing the configuration of the
In the description of the present embodiment, the description of the configuration that is substantially the same as the content described in the second embodiment will be omitted, and a description will be given with emphasis on the configuration different from the second embodiment.
本実施形態にかかる記憶部172は、一部または全体に音声判定部120と、音源分離部140と、音源混合部150と、記憶部172と、再生部174と、音声出力部180と、を備える。なお、本実施形態の説明においては、第1の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第1の実施形態と異なる構成に重きをおいて説明する。
The
本実施形態にかかる記憶部172は、一部または全体にAGC(音量補正)が施された音声を記憶している。ここで、AGCは、音量の過大入力に対して自動的に音量レベルを下げ、音割れ防止を一つの目的とするコンプレッサーの機構である。かかるAGCが施された音声の音量について図13を参照して説明する。
The
図13は、AGCの適用前の音声(原音)の音量と、AGC適用後の音声の音量を対比的に表した説明図である。AGCは、AGCの適用前の音声の音量が閾値thを越えると、アタックタイムとして設定された時間で所定の割合(ratio)まで音量を圧縮する。図13に示した例では、アタックタイムとして設定された時間で、AGCの適用前の音声の音量がおよそ1/2〜2/3程度に圧縮される場合を示している。その後、AGCの適用前の音声の音量が閾値thを下回ると、リリースタイムとして設定された時間内にAGCを解除する。 FIG. 13 is an explanatory diagram that compares the volume of the sound (original sound) before application of AGC and the volume of the sound after application of AGC. When the volume of the sound before application of AGC exceeds the threshold th, the AGC compresses the volume to a predetermined ratio (ratio) in the time set as the attack time. The example shown in FIG. 13 shows a case where the volume of the sound before application of AGC is compressed to about 1/2 to 2/3 in the time set as the attack time. Thereafter, when the volume of the sound before application of AGC falls below the threshold th, AGC is canceled within the time set as the release time.
ここで、音声の音量が閾値thを超えAGCが動作するのは、該音声の記録装置の近傍から過大レベルの近傍音声の入力があった場合が多い。すなわち、遠方音源の収音対象音声によってAGCが動作する場合は少ない。しかし、入力音声は全体としてAGCにより圧縮されるため、入力音声に含まれる近傍音声のみならず、もともと微弱な収音対象音声がさらに圧縮されてしまう問題があった。 Here, the sound volume exceeds the threshold th and the AGC operates in many cases when there is an input of an excessive level of near sound from the vicinity of the sound recording device. That is, there are few cases in which AGC is operated by the sound collection target voice of a distant sound source. However, since the input speech is compressed by AGC as a whole, there is a problem that not only the nearby speech included in the input speech but also the originally weakly collected sound is further compressed.
そこで、上記の問題を一着眼点とし、本実施形態にかかる音声再生装置12が創作されるに至った。本実施形態にかかる音声再生装置12は、音量補正部190の機能に基づき、入力音声にAGCが施されていた場合であっても収音対象音声をブーストすることができる。
In view of the above, the
音量補正部190は、音源分離部140により分離された近傍音声の音量の変化からAGCが適用されたであろうアタックタイムを検出し、音源分離部140により分離された収音対象音声において該アタックタイムに相当する区間を走査する。収音対象音声には、背景環境音や被写体が発した音声などが含まれ得るが、背景環境音のみ含まれる場合は音量レベルがほぼ一定であると近似することが可能である。したがって、音量補正部190は、収音対象音声の音量に所定レベル以上の変化が生じている区間にはAGCが施されたと判定することができる。
The sound
そこで、音量補正部190は、収音対象音声における当該区間の音量を該区間の前後区間の音量と同程度になるように調整する逆補正を行い、収音対象音声をブーストすることができる。
Therefore, the
なお、上記アタックタイムおよびリリースタイムの推定値、および音量補正部190が行なった逆補正の程度を保持しておくことにより、収音対象音声に被写体が発した音声が含まれる場合に有効活用することができる。すなわち、収音対象音声に被写体が発した音声が含まれる場合であっても、音量補正部190は近傍音声からアタックタイムを検出し、収音対象音声における該アタックタイムに相当する区間の前後にわたって音量値の走査を行う。音量補正部190は、走査の結果、アタックタイムまたはリリースタイムと一致する時間幅で音量値が変化している場合はAGCが動作したと判定し、逆補正を行なうことができる。
It should be noted that the estimated values of the attack time and release time and the degree of reverse correction performed by the sound
音声混合部150は、このように音量補正部190により音量が逆補正された収音対象音声と、音源分離部140により分離された近傍音声とを、全体に占める近傍音声の音量比率が抑制されるような音量比率で混合して混合音声を生成することができる。
In the
以上説明したように、本発明の第3の実施形態にかかる音声再生装置12は、近傍音声の音量が過大であったために入力音声の音量が全体として抑制され、収音対象音声の音量も抑制されてしまっている場合、入力音声の音量が抑制された程度に応じて収音対象音声の音量を増大させ、収音対象音声が過小となることを防止できる。
As described above, in the
なお、本実施形態においては音量補正部190を音声再生装置12に設ける場合を説明したが、第1の実施形態で説明した音声記録装置10に設けることで、入力音声にAGCが施されていてもAGCの程度に応じてブーストされた収音対象音声を含む混合音声を記憶部170に記録することも可能である。
In the present embodiment, the case where the sound
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to the example which concerns. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.
例えば、本明細書の音声記録装置10の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むとしてもよい。
For example, each step in the processing of the
また、図3には音声判定部120が音声収音部110により収音された入力音声に近傍音声が含まれるか否かを判定する例を示しているが、本発明はかかる例に限定されない。例えば、音声判定部120は、音源分離部140により分離された音声が入力され、該分離された音声の音源位置を推定し、該分離された音声に近傍音声が含まれるか否かを判定し、該分離された音声を音声混合部150に出力してもよい。なお、この場合、音源分離部140は初期値無しでブラインドに音声を音源ごとに分離する。
FIG. 3 shows an example in which the
また、音声記録装置10、音声再生装置11、音声再生装置12に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した音声記録装置10、音声再生装置11、音声再生装置12の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。また、音声記録装置10、音声再生装置11、音声再生装置12の各機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。
Further, hardware such as a CPU, a ROM, and a RAM incorporated in the
10 音声記録装置
11、12 音声再生装置
110 音声収音部
120 音声判定部
124 音量検出器
134 音質検出器
136 距離方向推定器
138 操作者音声推定器
140 音源分離部
150 音声混合部
160 記録部
170、172 記憶部
174 再生部
180 音声出力部
190 音量補正部
DESCRIPTION OF
Claims (15)
前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と;
前記音声分離部により分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合する音声混合部と;
を備えることを特徴とする、音声処理装置。 A sound determination unit for determining whether or not the first sound emitted from the specific sound source is included in the input sound;
When the sound determination unit determines that the first sound is included in the input sound, the input sound is the first sound and a second sound emitted from a sound source other than the specific sound source. A voice separation unit that separates into;
A sound mixing unit that mixes the first sound and the second sound separated by the sound separation unit at an arbitrary volume ratio;
An audio processing apparatus comprising:
前記第二の音声は、収音対象から発せられた音声を含むことを特徴とする、請求項2に記載の音声処理装置。 The first voice includes a voice attributed to an operator of the device used when picking up the input voice;
The voice processing apparatus according to claim 2, wherein the second voice includes a voice emitted from a sound collection target.
前記音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項4に記載の音声処理装置。 It further includes an imaging unit that captures images,
The sound determination unit includes a position information calculation unit that calculates position information of the sound source based on at least one of a volume or a phase of sound emitted from one or more sound sources included in the input sound, The position information calculation unit calculates that the position of the sound source of the sound is behind the imaging direction of the imaging unit, and when the input sound has a sound quality that matches or approximates a human sound, The speech processing apparatus according to claim 4, wherein the speech processing apparatus determines that the emitted first speech is included.
前記音声混合部により混合された混合音声を記憶媒体に記録する記録部と;
を備えることを特徴とする、請求項1に記載の音声処理装置。 A plurality of sound collection units for collecting the input voice;
A recording unit for recording the mixed audio mixed by the audio mixing unit on a storage medium;
The speech processing apparatus according to claim 1, comprising:
前記記憶媒体に記憶されている前記入力音声を再生し、前記位置情報算出部、前記音声判定部および前記音声分離部の少なくともいずれかに出力する再生部と;
を備えることを特徴とする、請求項1に記載の音声処理装置。 A storage medium storing the input voice;
A reproduction unit that reproduces the input voice stored in the storage medium and outputs the reproduced voice to at least one of the position information calculation unit, the voice determination unit, and the voice separation unit;
The speech processing apparatus according to claim 1, comprising:
を備えることを特徴とする、請求項1に記載の音声処理装置。 A volume correction unit that performs reverse correction on the volume of the second sound separated by the sound separation unit when the volume of the input sound is corrected;
The speech processing apparatus according to claim 1, comprising:
前記音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と;
前記音声分離部により分離された前記第一の音声と前記特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と;
を備えることを特徴とする、音声処理装置。 A speech separation unit for separating input speech;
A sound determination unit that determines whether or not the sound separated by the sound separation unit includes a first sound emitted from a specific sound source;
A sound mixing unit that mixes the first sound separated by the sound separation unit and the second sound emitted from a sound source other than the specific sound source at an arbitrary volume ratio;
An audio processing apparatus comprising:
入力音声に特定音源から発せられた第一の音声が含まれているか否かを前記音源の位置情報に基づいて判定する音声判定部と;
前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と;
前記音声分離部により分離された前記第一の音声と前記第二の音声とを、任意の音量比率で混合する音声混合部と;
を備えることを特徴とする音声処理装置として機能させるための、プログラム。 Computer
A sound determination unit that determines whether or not the first sound emitted from the specific sound source is included in the input sound based on the position information of the sound source;
When the sound determination unit determines that the first sound is included in the input sound, the input sound is the first sound and a second sound emitted from a sound source other than the specific sound source. A voice separation unit that separates into;
A sound mixing unit that mixes the first sound and the second sound separated by the sound separation unit at an arbitrary volume ratio;
A program for causing a voice processing apparatus to function.
前記音声判定部は、入力音声に含まれる1または2以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項12に記載のプログラム。 It further includes an imaging unit that captures images,
The sound determination unit includes a position information calculation unit that calculates position information of the sound source based on at least one of a volume or a phase of sound emitted from one or more sound sources included in the input sound, The position information calculation unit calculates that the position of the sound source of the sound is behind the imaging direction of the imaging unit, and when the input sound has a sound quality that matches or approximates a human sound, 13. The program according to claim 12, wherein it is determined that the first voice that is uttered is included.
前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離するステップと;
前記分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合するステップと;
を含むことを特徴とする、音声処理方法。 Determining whether or not a first sound emitted from a specific sound source is included in the input sound based on position information of the sound source;
Separating the input sound into the first sound and a second sound emitted from a sound source other than the specific sound source when it is determined that the first sound is included in the input sound; ;
Mixing the separated first sound and the second sound at an arbitrary volume ratio;
An audio processing method comprising:
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035410A JP4449987B2 (en) | 2007-02-15 | 2007-02-15 | Audio processing apparatus, audio processing method and program |
US12/069,844 US8422695B2 (en) | 2007-02-15 | 2008-02-13 | Sound processing apparatus, sound processing method and program |
CN2008100082947A CN101246690B (en) | 2007-02-15 | 2008-02-15 | Sound processing apparatus, and sound processing method |
US13/788,488 US9762193B2 (en) | 2007-02-15 | 2013-03-07 | Sound processing apparatus, sound processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035410A JP4449987B2 (en) | 2007-02-15 | 2007-02-15 | Audio processing apparatus, audio processing method and program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008197577A true JP2008197577A (en) | 2008-08-28 |
JP2008197577A5 JP2008197577A5 (en) | 2008-11-06 |
JP4449987B2 JP4449987B2 (en) | 2010-04-14 |
Family
ID=39706737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007035410A Expired - Fee Related JP4449987B2 (en) | 2007-02-15 | 2007-02-15 | Audio processing apparatus, audio processing method and program |
Country Status (3)
Country | Link |
---|---|
US (2) | US8422695B2 (en) |
JP (1) | JP4449987B2 (en) |
CN (1) | CN101246690B (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010112996A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
JP2010112995A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Call voice processing device, call voice processing method and program |
JP2010112994A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
JP2010187363A (en) * | 2009-01-16 | 2010-08-26 | Sanyo Electric Co Ltd | Acoustic signal processing apparatus and reproducing device |
WO2011027862A1 (en) * | 2009-09-04 | 2011-03-10 | 株式会社ニコン | Voice data synthesis device |
JP2011199855A (en) * | 2010-02-25 | 2011-10-06 | Nec Corp | Portable apparatus |
JP2011203048A (en) * | 2010-03-25 | 2011-10-13 | Tokyo Electric Power Co Inc:The | Apparatus and method of locating sound source |
JP2014502109A (en) * | 2010-12-03 | 2014-01-23 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Sound acquisition by extracting geometric information from direction of arrival estimation |
CN112203188A (en) * | 2020-07-24 | 2021-01-08 | 北京工业大学 | Automatic volume adjusting method |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9426405B2 (en) * | 2009-07-15 | 2016-08-23 | Vijay Sathya | System and method of determining the appropriate mixing volume for an event sound corresponding to an impact related events and determining the enhanced event audio |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
JP5741281B2 (en) * | 2011-07-26 | 2015-07-01 | ソニー株式会社 | Audio signal processing apparatus, imaging apparatus, audio signal processing method, program, and recording medium |
KR101219709B1 (en) * | 2011-12-07 | 2013-01-09 | 현대자동차주식회사 | Auto volume control method for mixing of sound sources |
US9197974B1 (en) * | 2012-01-06 | 2015-11-24 | Audience, Inc. | Directional audio capture adaptation based on alternative sensory input |
JP6225118B2 (en) * | 2012-01-17 | 2017-11-01 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Sound source position estimation |
JP5834948B2 (en) * | 2012-01-24 | 2015-12-24 | 富士通株式会社 | Reverberation suppression apparatus, reverberation suppression method, and computer program for reverberation suppression |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
CN104123950B (en) * | 2014-07-17 | 2015-11-25 | 努比亚技术有限公司 | A kind of way of recording and device |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
DE112015004185T5 (en) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systems and methods for recovering speech components |
CN107210824A (en) | 2015-01-30 | 2017-09-26 | 美商楼氏电子有限公司 | The environment changing of microphone |
CN106067996B (en) * | 2015-04-24 | 2019-09-17 | 松下知识产权经营株式会社 | Voice reproduction method, voice dialogue device |
CN105578097A (en) * | 2015-07-10 | 2016-05-11 | 宇龙计算机通信科技(深圳)有限公司 | Video recording method and terminal |
JP6727825B2 (en) * | 2016-02-02 | 2020-07-22 | キヤノン株式会社 | Audio processing device and audio processing method |
CN106483502B (en) * | 2016-09-23 | 2019-10-18 | 科大讯飞股份有限公司 | A kind of sound localization method and device |
JP6591477B2 (en) * | 2017-03-21 | 2019-10-16 | 株式会社東芝 | Signal processing system, signal processing method, and signal processing program |
CN106954126B (en) * | 2017-03-31 | 2020-01-10 | 深圳壹秘科技有限公司 | Audio information processing method and conference terminal thereof |
CN110575051B (en) * | 2018-06-11 | 2022-03-18 | 佛山市顺德区美的电热电器制造有限公司 | Cooking equipment, control method and device of cooking equipment and storage medium |
CN108810699B (en) * | 2018-06-19 | 2020-01-24 | 李金雄 | Sport Bluetooth earphone |
CN111192573B (en) * | 2018-10-29 | 2023-08-18 | 宁波方太厨具有限公司 | Intelligent control method for equipment based on voice recognition |
CN109639904B (en) * | 2019-01-25 | 2021-02-02 | 努比亚技术有限公司 | Mobile phone mode adjusting method, system and computer storage medium |
US11308949B2 (en) * | 2019-03-12 | 2022-04-19 | International Business Machines Corporation | Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule |
CN111370019B (en) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | Sound source separation method and device, and neural network model training method and device |
CN111698631B (en) * | 2020-05-22 | 2021-10-15 | 深圳市东微智能科技股份有限公司 | Automatic debugging method of audio equipment, audio equipment and audio system |
CN116095564B (en) * | 2023-04-10 | 2023-06-23 | 深圳市嘉润原新显科技有限公司 | Display mixing circuit and display |
CN116990755A (en) * | 2023-09-22 | 2023-11-03 | 海宁市微纳感知计算技术有限公司 | Method and system for positioning whistle sound source, electronic equipment and readable storage medium |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63152277A (en) | 1986-12-17 | 1988-06-24 | Matsushita Electric Ind Co Ltd | Portable video camera |
JP3131249B2 (en) | 1991-08-23 | 2001-01-31 | 日本放送協会 | Mixed audio signal receiver |
JP2742344B2 (en) * | 1991-10-09 | 1998-04-22 | 富士通株式会社 | Audio editing device |
JPH0543200U (en) | 1991-10-30 | 1993-06-11 | クラリオン株式会社 | Audio recording system device |
DE19854373B4 (en) * | 1998-11-25 | 2005-02-24 | Robert Bosch Gmbh | Method for controlling the sensitivity of a microphone |
JP2001084713A (en) | 1999-09-10 | 2001-03-30 | Nippon Hoso Kyokai <Nhk> | Microphone system for collecting sound according to separate sound-source integrated with video camera |
DE10043090A1 (en) * | 2000-09-01 | 2002-03-28 | Bosch Gmbh Robert | Method for reproducing audio signals from at least two different sources |
JP2002218583A (en) | 2001-01-17 | 2002-08-02 | Sony Corp | Sound field synthesis arithmetic method and device |
US7123727B2 (en) * | 2001-07-18 | 2006-10-17 | Agere Systems Inc. | Adaptive close-talking differential microphone array |
US20030059061A1 (en) * | 2001-09-14 | 2003-03-27 | Sony Corporation | Audio input unit, audio input method and audio input and output unit |
JP3852383B2 (en) | 2002-08-05 | 2006-11-29 | 日本ビクター株式会社 | Video playback device |
EP1570464A4 (en) * | 2002-12-11 | 2006-01-18 | Softmax Inc | System and method for speech processing using independent component analysis under stability constraints |
JP4143487B2 (en) | 2003-06-30 | 2008-09-03 | 株式会社東芝 | Time-series information control system and method, and time-series information control program |
JP2005341073A (en) | 2004-05-26 | 2005-12-08 | Sony Corp | Microphone |
US8687820B2 (en) * | 2004-06-30 | 2014-04-01 | Polycom, Inc. | Stereo microphone processing for teleconferencing |
JP4462617B2 (en) | 2004-11-29 | 2010-05-12 | 株式会社神戸製鋼所 | Sound source separation device, sound source separation program, and sound source separation method |
JP3906230B2 (en) * | 2005-03-11 | 2007-04-18 | 株式会社東芝 | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording the acoustic signal processing program |
DE102005032274B4 (en) * | 2005-07-11 | 2007-05-10 | Siemens Audiologische Technik Gmbh | Hearing apparatus and corresponding method for eigenvoice detection |
US7567898B2 (en) * | 2005-07-26 | 2009-07-28 | Broadcom Corporation | Regulation of volume of voice in conjunction with background sound |
US20070147635A1 (en) * | 2005-12-23 | 2007-06-28 | Phonak Ag | System and method for separation of a user's voice from ambient sound |
-
2007
- 2007-02-15 JP JP2007035410A patent/JP4449987B2/en not_active Expired - Fee Related
-
2008
- 2008-02-13 US US12/069,844 patent/US8422695B2/en active Active
- 2008-02-15 CN CN2008100082947A patent/CN101246690B/en not_active Expired - Fee Related
-
2013
- 2013-03-07 US US13/788,488 patent/US9762193B2/en active Active
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818805B2 (en) | 2008-11-04 | 2014-08-26 | Sony Corporation | Sound processing apparatus, sound processing method and program |
JP2010112995A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Call voice processing device, call voice processing method and program |
JP2010112994A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
JP2010112996A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
US8996367B2 (en) | 2008-11-04 | 2015-03-31 | Sony Corporation | Sound processing apparatus, sound processing method and program |
JP2010187363A (en) * | 2009-01-16 | 2010-08-26 | Sanyo Electric Co Ltd | Acoustic signal processing apparatus and reproducing device |
WO2011027862A1 (en) * | 2009-09-04 | 2011-03-10 | 株式会社ニコン | Voice data synthesis device |
CN102483928A (en) * | 2009-09-04 | 2012-05-30 | 株式会社尼康 | Voice data synthesis device |
CN102483928B (en) * | 2009-09-04 | 2013-09-11 | 株式会社尼康 | Voice data synthesis device |
JP2011055409A (en) * | 2009-09-04 | 2011-03-17 | Nikon Corp | Audio data combination device |
JP2011199855A (en) * | 2010-02-25 | 2011-10-06 | Nec Corp | Portable apparatus |
JP2011203048A (en) * | 2010-03-25 | 2011-10-13 | Tokyo Electric Power Co Inc:The | Apparatus and method of locating sound source |
JP2014502109A (en) * | 2010-12-03 | 2014-01-23 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Sound acquisition by extracting geometric information from direction of arrival estimation |
US9396731B2 (en) | 2010-12-03 | 2016-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Sound acquisition via the extraction of geometrical information from direction of arrival estimates |
US10109282B2 (en) | 2010-12-03 | 2018-10-23 | Friedrich-Alexander-Universitaet Erlangen-Nuernberg | Apparatus and method for geometry-based spatial audio coding |
CN112203188A (en) * | 2020-07-24 | 2021-01-08 | 北京工业大学 | Automatic volume adjusting method |
Also Published As
Publication number | Publication date |
---|---|
JP4449987B2 (en) | 2010-04-14 |
CN101246690A (en) | 2008-08-20 |
US8422695B2 (en) | 2013-04-16 |
US20130182857A1 (en) | 2013-07-18 |
CN101246690B (en) | 2011-07-13 |
US9762193B2 (en) | 2017-09-12 |
US20080199152A1 (en) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4449987B2 (en) | Audio processing apparatus, audio processing method and program | |
US8165416B2 (en) | Automatic gain and exposure control using region of interest detection | |
JP4952698B2 (en) | Audio processing apparatus, audio processing method and program | |
JP4441879B2 (en) | Signal processing apparatus and method, program, and recording medium | |
JP2010187363A (en) | Acoustic signal processing apparatus and reproducing device | |
US8687090B2 (en) | Method of removing audio noise and image capturing apparatus including the same | |
JP2012027186A (en) | Sound signal processing apparatus, sound signal processing method and program | |
US9967660B2 (en) | Signal processing apparatus and method | |
JP2003270034A (en) | Sound information analyzing method, apparatus, program, and recording medium | |
CN104937955B (en) | Automatic loud speaker Check up polarity | |
JP2011101110A (en) | Imaging apparatus | |
JP2012032648A (en) | Mechanical noise reduction device, mechanical noise reduction method, program and imaging apparatus | |
US20180350385A1 (en) | Audio processing apparatus and control method thereof | |
JP7247338B2 (en) | panorama image | |
CN108781310A (en) | The audio stream for the video to be enhanced is selected using the image of video | |
US20220260664A1 (en) | Audio processing | |
US20060012831A1 (en) | Electronic watermarking method and storage medium for storing electronic watermarking program | |
US11889260B2 (en) | Determination of sound source direction | |
JP3739673B2 (en) | Zoom estimation method, apparatus, zoom estimation program, and recording medium recording the program | |
CN104079822B (en) | Camera head, signal processing apparatus and method | |
JP4495704B2 (en) | Sound image localization emphasizing reproduction method, apparatus thereof, program thereof, and storage medium thereof | |
US11363374B2 (en) | Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium | |
EP3706432A1 (en) | Processing multiple spatial audio signals which have a spatial overlap | |
JP2008022069A (en) | Voice recording apparatus and voice recording method | |
JP6167483B2 (en) | Reproduction processing device, imaging device, and reproduction processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080922 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4449987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |