JP2007174011A - Sound pickup device - Google Patents
Sound pickup device Download PDFInfo
- Publication number
- JP2007174011A JP2007174011A JP2005365769A JP2005365769A JP2007174011A JP 2007174011 A JP2007174011 A JP 2007174011A JP 2005365769 A JP2005365769 A JP 2005365769A JP 2005365769 A JP2005365769 A JP 2005365769A JP 2007174011 A JP2007174011 A JP 2007174011A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- switching control
- intensity
- output signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
この発明は、外界の音を収音して電気信号を出力する収音装置に関する。 The present invention relates to a sound collection device that collects external sounds and outputs an electrical signal.
音声会議など、雑音の多い環境下において話者の音声の収音を行うためには、音源である話者の口から発する音声を高いS/N比で収音する収音装置が必要である。こういった要求に応えるための技術として、特許文献1および2は、単一指向性を持ったマイクロフォンを組み合わせ、各マイクロフォンの出力信号を重ね合わせて出力する技術を提案している。
上述した特許文献1および2に開示された技術によれば、特定の位置または方向から音声が発生する場合に限り、その音声を収音した各マイクロフォンの出力信号が同相で重ね合わされて出力される。従って、音源である話者の口から発する音声に対象を絞り、この音声を高いS/N比で収音することができる。しかしながら、広い周波数帯域に亙って、複数のマイクロフォンの出力信号を同位相で重ね合わせることは困難である。このため、特許文献1および2に開示された技術により収音を行うと、収音される音の周波数特性が損なわれるという問題がある。また、特許文献1および2に開示された技術は、話者の口の位置が移動する場合など、音源の位置が移動する場合に、その音源から発生する音声を高いS/N比で収音することが困難であるという問題がある。
According to the techniques disclosed in
この発明は、以上説明した事情に鑑みてなされたものであり、音源が移動する場合においても、周波数特性を損ねることなく、高いS/N比で収音を行うことができる収音装置を提供することを目的としている。 The present invention has been made in view of the circumstances described above, and provides a sound collection device capable of collecting sound with a high S / N ratio without impairing frequency characteristics even when the sound source moves. The purpose is to do.
この発明は、外界から音を収音して電気信号を出力する複数のマイクロフォンと、前記複数のマイクロフォンの各出力信号から出力対象となる音声信号を合成して出力する出力信号合成手段と、前記複数のマイクロフォンの各出力信号から少なくとも音声成分を抽出し、各信号の音声成分の強度またはS/N比を示す信号を出力する抽出手段と、前記抽出手段の出力信号に基づいて、前記複数のマイクロフォンの各出力信号のうち音声成分の強度またはS/N比の高い信号が前記出力信号合成手段により出力されるように前記出力信号合成手段を制御する切換制御処理を実行する切換制御手段とを具備することを特徴とする収音装置を提供する。
かかる発明によれば、複数のマイクロフォンの各出力信号のうち音声成分の強度またはS/N比の大きな信号が出力信号合成手段により出力される。従って、音源が移動する状況においても、音源から発生する音声を、周波数特性を損ねることなく、高いS/N比で収音することができる。
The present invention includes a plurality of microphones that collect sound from the outside world and output an electrical signal, output signal synthesis means that synthesizes and outputs an audio signal to be output from each output signal of the plurality of microphones, Extracting means for extracting at least a sound component from each output signal of the plurality of microphones and outputting a signal indicating the intensity or S / N ratio of the sound component of each signal, and based on the output signal of the extracting means, A switching control means for executing a switching control process for controlling the output signal synthesizing means so that a signal having a high sound component intensity or a high S / N ratio among the output signals of the microphones is output by the output signal synthesizing means; Provided is a sound collecting device.
According to this invention, the output signal synthesizing means outputs a signal having a large intensity or a high S / N ratio among the output signals of the plurality of microphones. Therefore, even in a situation where the sound source moves, sound generated from the sound source can be collected with a high S / N ratio without impairing frequency characteristics.
以下、図面を参照し、この発明の実施の形態を説明する。
<実施形態の構成>
図1はこの発明の一実施形態である収音装置の構成を示すブロック図である。図1に示すように、本実施形態における収音装置は、m個のマイクロフォン11−k(k=1〜m)を有する。図2および図3は、同収音装置におけるマイクロフォン11−k(k=1〜m)の実装例を各々示している。なお、これらの図では、マイクロフォンの個数mが3である場合の例が示されている。
Embodiments of the present invention will be described below with reference to the drawings.
<Configuration of Embodiment>
FIG. 1 is a block diagram showing a configuration of a sound collecting apparatus according to an embodiment of the present invention. As illustrated in FIG. 1, the sound collection device according to the present embodiment includes m microphones 11-k (k = 1 to m). 2 and 3 show examples of mounting the microphone 11-k (k = 1 to m) in the sound collecting device, respectively. In these drawings, an example in which the number m of microphones is 3 is shown.
本実施形態における収音装置は、独立した装置として構成される場合もあるし、他の装置に組み込まれる場合もある。図2は、前者の例である収音装置におけるマイクロフォンの実装例を示している。この収音装置では、スタンド501の上部に固定された水平なバー502に3個のマイクロフォン11−1〜11−3が固定されている。図3は、後者の例として、本実施形態に係る収音装置が組み込まれたノート型パソコンにおけるマイクロフォンの実装例を示している。この例では、ノート型パソコンのディスプレイ503の上部に3個のマイクロフォン11−1〜11−3が固定されている。
The sound collection device according to the present embodiment may be configured as an independent device or may be incorporated into another device. FIG. 2 shows a mounting example of a microphone in the sound collecting apparatus which is the former example. In this sound collecting device, three microphones 11-1 to 11-3 are fixed to a
本実施形態において用いられるマイクロフォン11−k(k=1〜m)は、受音感度が音の到来方向に依存する単一指向性マイクロフォンである。図2および図3に示す例において、マイクロフォンにおいて最大の受音感度が得られる方角を向いた軸を最大感度軸と呼ぶものとすると、マイクロフォン11−1〜11−3は、各々最大感度軸を収音装置またはノート型パソコンの斜め右、真正面、斜め左の各方角に向けている。このように本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は、各々の最大感度軸が放射線を描くように収音装置に固定されている。 The microphone 11-k (k = 1 to m) used in the present embodiment is a unidirectional microphone whose sound receiving sensitivity depends on the direction of arrival of sound. In the example shown in FIG. 2 and FIG. 3, assuming that the axis oriented in the direction in which the maximum sound receiving sensitivity is obtained in the microphone is called the maximum sensitivity axis, each of the microphones 11-1 to 11-3 has the maximum sensitivity axis. The sound pickup device or notebook computer is directed to the right, right front, and left diagonal directions. As described above, the m microphones 11-k (k = 1 to m) in the present embodiment are fixed to the sound collection device so that each maximum sensitivity axis draws radiation.
話者は、これらのマイクロフォン11−k(k=1〜m)を前にして発話するが、話者が動く場合には、その話者の音声を収音するのに適するマイクロフォンが話者の位置に応じて変化する。例えば図2および図3に示す例において、話者の口が収音装置またはノート型パソコンの左側にある場合には、その話者の口の方角に最大感度軸を向けているマイクロフォン11−1の出力信号のレベルが最大となり、この出力信号が話者の音声を示すものとして適している。しかし、話者が姿勢を変え、話者の口がマイクロフォン11−2の真正面に移動すると、マイクロフォン11−2の出力信号のレベルが最大となり、この出力信号を話者の音声を示すものとして採用した方がよい。 The speaker speaks in front of these microphones 11-k (k = 1 to m). When the speaker moves, a microphone suitable for picking up the voice of the speaker is selected. It changes according to the position. For example, in the example shown in FIGS. 2 and 3, when the speaker's mouth is on the left side of the sound pickup device or the notebook computer, the microphone 11-1 having the maximum sensitivity axis directed in the direction of the speaker's mouth. This output signal is suitable for indicating the speaker's voice. However, when the speaker changes posture and the speaker's mouth moves directly in front of the microphone 11-2, the level of the output signal of the microphone 11-2 becomes maximum, and this output signal is adopted as an indication of the speaker's voice. You should do it.
そこで、本実施形態における収音装置では、マイクロフォン11−k(k=1〜m)の各出力信号の音声成分のレベルを監視し、原則的に最大レベルの信号を選択して最終的なデジタルオーディオ信号SSとして出力し、収音装置全体としての指向性を音源(この例では話者の口)の方向に追従させる。そして、本実施形態における収音装置では、この最終的なデジタルオーディオ信号SSを受け取って処理する後段の装置(図示略)の便宜のため、このデジタルオーディオ信号SSのS/N比を示す信号(以下、S/N比信号という)を生成して出力するのである。以下、デジタルオーディオ信号SSおよびS/N比信号を得るための収音装置の回路構成を説明する。 Therefore, in the sound collection device according to the present embodiment, the level of the sound component of each output signal of the microphone 11-k (k = 1 to m) is monitored, and in principle, the signal of the maximum level is selected to obtain the final digital signal. The audio signal SS is output and the directivity of the entire sound collection device is made to follow the direction of the sound source (in this example, the speaker's mouth). In the sound collecting device according to the present embodiment, for the convenience of a subsequent device (not shown) that receives and processes the final digital audio signal SS, a signal (S / N ratio) of the digital audio signal SS ( Hereinafter, the signal is generated and output). Hereinafter, the circuit configuration of the sound collection device for obtaining the digital audio signal SS and the S / N ratio signal will be described.
図1において、A/D変換器12−k(k=1〜m)は、マイクロフォン11−k(k=1〜m)から出力されるアナログオーディオ信号を一定のサンプリング周期でサンプリングし、サンプル値を示すデジタルオーディオ信号S−k(k=1〜m)に変換する。デジタルオーディオ信号S−k(k=1〜m)は、抽出部20−k(k=1〜m)に各々入力されるとともに、出力信号合成部30に入力される。
In FIG. 1, an A / D converter 12-k (k = 1 to m) samples an analog audio signal output from a microphone 11-k (k = 1 to m) at a constant sampling period, and samples values. Is converted into a digital audio signal Sk (k = 1 to m). The digital audio signals Sk (k = 1 to m) are respectively input to the extraction unit 20-k (k = 1 to m) and also input to the output
抽出部20−k(k=1〜m)は、デジタルオーディオ信号S−k(k=1〜m)の各々から音声成分の強度を示す音声強度信号Es−k(k=1〜m)および雑音成分の強度を示す雑音強度信号En−k(k=1〜m)を抽出する回路である。本実施形態では、音声強度信号Es−k(k=1〜m)のレベル比較によりデジタルオーディオ信号S−k(k=1〜m)のいずれを最終的なデジタルオーディオ信号SSとして出力するかの判断を行う。また、本実施形態では、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)からS/N比信号を演算する。 The extraction unit 20-k (k = 1 to m) is a voice intensity signal Es-k (k = 1 to m) indicating the intensity of the voice component from each of the digital audio signals Sk (k = 1 to m) and This is a circuit for extracting a noise intensity signal En-k (k = 1 to m) indicating the intensity of the noise component. In the present embodiment, which of the digital audio signals Sk (k = 1 to m) is output as the final digital audio signal SS by the level comparison of the sound intensity signal Es-k (k = 1 to m). Make a decision. In this embodiment, the S / N ratio signal is calculated from the voice intensity signal Es-k (k = 1 to m) and the noise intensity signal En-k (k = 1 to m).
図4は抽出部20−k(k=1〜m)の各々の構成を示すブロック図である。図4において、BPF(バンドパスフィルタ;帯域通過フィルタ)21は、例えば300〜3000Hzの通過帯域を有し、デジタルオーディオ信号S−kに含まれる音声周波数成分を通過させる。このBPF21の出力信号は、デジタルオーディオ信号S−kにおける音声成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBPF21の出力信号をそのまま音声強度信号Es−kとして出力すると、デジタルオーディオ信号SSとして選択されるデジタルオーディオ信号S−kが頻繁に切り換えられることとなり、動作が不安定になる。そこで、BPF21の後段にエンベロープ生成部22が設けられている。このエンベロープ生成部22は、BPF21の出力信号の急激な変化を緩和したエンベロープ(包絡線)を示す音声強度信号Es−kを出力する。具体的にはエンベロープ生成部22は、実効値算出回路と、LPF(ローパスフィルタ)とを有している。ここで、実効値算出回路は、BPF21の出力信号を所定個数のサンプルからなるフレームに区切り、フレーム毎に各サンプルの2乗平均である実効値を算出する。LPFは、フレーム毎に得られる実効値の急激な変化を取り除き、実効値のエンベロープを示す音声強度信号Es−kを出力する。
FIG. 4 is a block diagram showing the configuration of each of the extraction units 20-k (k = 1 to m). In FIG. 4, a BPF (band pass filter; band pass filter) 21 has a pass band of 300 to 3000 Hz, for example, and passes an audio frequency component included in the digital audio signal Sk. The output signal of the
BEF(バンドエリミネーションフィルタ;帯域除去フィルタ)23は、例えば300〜3000Hzの遮断帯域を有し、デジタルオーディオ信号S−kに含まれる遮断帯域以外の帯域の成分を通過させる。このBEF23の出力信号は、デジタルオーディオ信号S−kにおける雑音成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBEF23の出力信号をそのまま雑音強度信号En−kとして出力すると、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)から演算されるS/N比信号が不安定なものとなる。そこで、BEF23の後段にエンベロープ生成部22と同様なエンベロープ生成部24が設けられている。このエンベロープ生成部24は、このBEF23の出力信号の急激な変化を緩和したエンベロープを示す雑音強度信号En−kを出力する。
A BEF (band elimination filter; band elimination filter) 23 has a cut-off band of, for example, 300 to 3000 Hz, and allows a band component other than the cut-off band included in the digital audio signal Sk to pass therethrough. The output signal of the
図5は抽出部20−k(k=1〜m)の他の構成例を示すブロック図である。この例では、図4におけるBEF23が減算器25に置き換えられている。この減算器25は、デジタルオーディオ信号S−kからBPF21の出力信号を減算してエンベロープ生成部24に供給する。この構成においても、図4に示すものと同様な音声強度信号Es−kおよび雑音強度信号En−kがエンベロープ生成部22および24から各々出力される。
FIG. 5 is a block diagram illustrating another configuration example of the extraction unit 20-k (k = 1 to m). In this example, the BEF 23 in FIG. The
図1において、出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)のうちの1つを選択してデジタルオーディオ信号SSとして出力し、あるいはデジタルオーディオ信号S−k(k=1〜m)のうちの2つの信号にクロスフェードを施してデジタルオーディオ信号SSを出力する回路である。この出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)に係数a−k(k=1〜m)を各々乗じて出力する乗算器31−k(k=1〜m)と、乗算器31−k(k=1〜m)の出力信号を加算してデジタルオーディオ信号SSとして出力する加算器32と、係数a−k(k=1〜m)を制御する合成制御部33とにより構成されている。
In FIG. 1, the output
切換制御部40は、音声強度信号Es−k(k=1〜m)を監視し、監視結果に基づき、選択信号MnewおよびMoldと、クロスフェード信号CFとを出力する回路である。ここで、選択信号Mnewは、デジタルオーディオ信号S−k(k=1〜m)のうち最終的なデジタルオーディオ信号SSとするのに最も相応しいもののインデックスkを示す信号である。また、選択信号Moldは、選択信号Mnewが現在の値に変更される直前の値を示す信号である。切換制御部40は、原則として、周期的な検証パルスPcが与えられる度に、この選択信号MnewおよびMoldの検証および必要な更新を行うための切換制御処理を行う。この切換制御処理では、クロスフェード信号CFが“1”である期間を除き、音声強度信号Es−k(k=1〜m)のレベル比較を行い、大雑把に言えば、最大レベルの音声強度信号Es−kのインデックスkを示すように選択信号Mnewの更新を行う。また、切換制御処理では、選択信号Mnewの内容を変える場合、その変化前の選択信号Mnewの内容により選択信号Moldを更新する。なお、切換制御処理には、各種の態様が考えられるが、説明の重複を避けるため、その詳細については本実施形態の動作説明において明らかにする。
The switching
出力信号合成部30における合成制御部33は、このようにして更新される選択信号Mnewを監視し、選択信号Mnewにより指定されるインデックスkを持ったデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして出力されるように、係数a−k(k=1〜m)の値の制御を行う。具体的には、合成制御部33は、選択信号Mnewにより指定されるインデックスkを持った係数a−kを「1」とし、他の係数を「0」とする。
The
ここで、本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は相互に方向の異なる最大感度軸を有しているため、一般的にデジタルオーディオ信号S−k(k=1〜m)間にはレベル差がある。このため、選択信号Mnewの内容が変化したとき、それに合わせて、デジタルオーディオ信号SSとなるデジタル信号S−kを直ちに切り換えると、デジタルオーディオ信号SSに不自然な不連続が生じる。そこで、本実施形態において切換制御部40は、選択信号MnewおよびMoldの内容を変化させるときには、所定期間を要して出力信号合成部30にクロスフェードを実行させる。
Here, since the m microphones 11-k (k = 1 to m) in the present embodiment have the maximum sensitivity axes whose directions are different from each other, the digital audio signal Sk (k = 1) is generally used. There is a level difference between ~ m). For this reason, when the content of the selection signal Mnew changes, if the digital signal Sk that is the digital audio signal SS is immediately switched accordingly, an unnatural discontinuity occurs in the digital audio signal SS. Therefore, in the present embodiment, the switching
具体的には、切換制御部40は、選択信号MnewおよびMoldの内容を変化させた場合には、その時点においてクロスフェード信号CFを“0”から“1”に立ち上げ、クロスフェード信号CFを所定期間に亙って“1”とした後、再び“0”に戻す。出力信号合成部30における合成制御部33は、クロスフェード信号CFが“1”である期間に、選択信号Mnewによりインデックスが指定される係数(例えばa−newkとする)を「0」から「1」に、選択信号Moldによりインデックスが指定される係数(例えばa−oldkとする)を「1」から「0」に連続的に変化させる。このようにして、新旧2つのデジタルオーディオ信号S−kのクロスフェードが行われるため、デジタルオーディオ信号SSには不自然な不連続が発生しない。
Specifically, when the contents of the selection signals Mnew and Mold are changed, the switching
S/N比信号生成部50は、音声強度信号Es−k(k=1〜m)の中から選択信号Mnewにより指定されたインデックスkを持つものをS成分として選択し、雑音強度信号En−k(k=1〜m)のうち最も強度の高いものをN成分として選択し、S成分の信号レベルをN成分の信号レベルにより除算した結果をS/N比信号として出力する回路である。また、出力部60は、出力信号合成部30から得られる最終的なデジタルオーディオ信号SSとS/N比信号生成部50から得られるS/N比信号とを出力する回路である。
以上が本実施形態の構成である。
The S / N ratio
The above is the configuration of the present embodiment.
<実施形態の動作>
(1)全体動作
次に本実施形態の動作について説明する。図6は本実施形態の動作例を示すタイムチャートである。この動作例は、図2または図3に例示したような3個のマイクロフォン11−k(k=1〜3)を有する収音装置の動作例である。この動作例のように、本実施形態では、周期的な検証パルスPcが発生する度に、切換制御部40により切換制御処理が実行され、音声強度信号Es−k(k=1〜3)のレベル比較が行われる。
<Operation of Embodiment>
(1) Overall Operation Next, the operation of this embodiment will be described. FIG. 6 is a time chart showing an operation example of the present embodiment. This operation example is an operation example of a sound collection device having three microphones 11-k (k = 1 to 3) as illustrated in FIG. 2 or FIG. As in this operation example, in this embodiment, every time the periodic verification pulse Pc is generated, the switching
この動作例では、音源である話者の口が収音装置の正面から右側に移動している。音源が収音装置の正面にある場合、音声強度信号Es−k(k=1〜3)のうち音声強度信号Es−2のレベルが最大となる。このため、繰り返し実行される切換制御処理では、選択信号Mnewは、中央のマイクロフォン11−2から得られるデジタルオーディオ信号S−2を指定するインデックスである「2」とされる。 In this operation example, the speaker's mouth, which is a sound source, moves from the front of the sound collection device to the right side. When the sound source is in front of the sound collection device, the level of the sound intensity signal Es-2 is the maximum among the sound intensity signals Es-k (k = 1 to 3). Therefore, in the switching control process that is repeatedly executed, the selection signal Mnew is set to “2”, which is an index that designates the digital audio signal S-2 obtained from the central microphone 11-2.
しかし、音源が収音装置の中央から右側に移動してゆくと、音声強度信号Es−2のレベルが次第に低下し、音声強度信号Es−3のレベルが次第に上昇する。そして、動作例では、時刻t1において切換制御処理が実行されたとき、音声強度信号Es−2およびEs−3のレベルの大小関係が逆転しているため、選択信号Mnewが「3」とされ、選択信号Moldが「2」とされる。そして、この時点以降、所定期間に亙ってクロスフェード信号CFが“1”とされる。このクロスフェード信号CFが“1”である間は、検証パルスPcが発生しても切換制御処理は実行されない。 However, as the sound source moves from the center of the sound collecting device to the right side, the level of the sound intensity signal Es-2 gradually decreases and the level of the sound intensity signal Es-3 gradually increases. In the operation example, when the switching control process is executed at time t1, the magnitude relationship between the levels of the sound intensity signals Es-2 and Es-3 is reversed, so the selection signal Mnew is set to “3”. The selection signal Mold is set to “2”. After this point, the crossfade signal CF is set to “1” for a predetermined period. While the crossfade signal CF is “1”, the switching control process is not executed even if the verification pulse Pc is generated.
出力信号合成部30では、このクロスフェード信号CFが“1”である期間を要して、デジタルオーディオ信号S−2に乗じる係数a−2を「1」から「0」に低下させる動作と、デジタルオーディオ信号S−3に乗じる係数a−3を「0」から「1」に上昇させる動作とが行われる。これにより最終的に出力されるデジタルオーディオ信号SSは、デジタルオーディオ信号S−2からデジタルオーディオ信号S−3へと自然に移行する。
The
S/N比信号生成部50では、上述したように音声強度信号Es−k(k=1〜3)と雑音強度信号En−k(k=1〜3)とからS/N比信号が演算される。この動作例の場合、選択信号Mnewが「2」である期間は、このインデックス「2」に対応した音声強度信号Es−2と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。また、選択信号Mnewが「3」である期間は、このインデックス「3」に対応した音声強度信号Es−3と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。出力部60は、このようにして得られるデジタルオーディオ信号SSとS/N比信号とを後段の装置に出力する。
As described above, the S / N ratio
(2)切換制御処理の諸態様
本実施形態において切換制御部40が実行する切換制御処理は、話者の口の位置の移動に追従できる程度の応答性があれば足りる。切換制御処理が音声強度信号Es−k(k=1〜m)の変化にあまりに過敏に応答すると、最終的なデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられ、最終的なデジタルオーディオ信号SSが聴感上不自然なものとなる。以下、m=3である場合を例に、このような不都合を防止するための切換制御処理の諸態様について説明する。
(2) Various aspects of the switching control process The switching control process executed by the switching
a.第1の態様
この態様では、音声のレベルと暗騒音のレベルとの境界である閾値thを利用し、音声強度信号Es−k(k=1〜3)のうち閾値th以上のレベルのものだけをデジタルオーディオ信号S−kの選択における判断の資料とする。図7(a)および(b)は、この態様における切換制御処理の実行例を示している。図7(a)および(b)に示す各例では、時刻t11および時刻t12に検証パルスPcが発生し、切換制御処理が実行されている。なお、これらの図では、図示が煩雑になるのを防止するため、時刻t11およびt12において発生した音声強度信号Es−k(k=1〜3)を左右方向に並べて図示している。
a. First Aspect In this aspect, a threshold th that is a boundary between a voice level and a background noise level is used, and only those having a level equal to or higher than the threshold th among voice intensity signals Es-k (k = 1 to 3). Are used as materials for determination in the selection of the digital audio signal Sk. FIGS. 7A and 7B show an execution example of the switching control process in this mode. In each example shown in FIGS. 7A and 7B, the verification pulse Pc is generated at time t11 and time t12, and the switching control process is executed. In these drawings, in order to prevent the illustration from being complicated, the sound intensity signals Es-k (k = 1 to 3) generated at times t11 and t12 are shown side by side in the horizontal direction.
図7(a)に示す例において、時刻t11における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。時刻t12における切換制御処理では、音声強度信号Es−1のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「1」とされ、デジタルオーディオ信号S−1がデジタルオーディオ信号SSとして選択される。 In the example shown in FIG. 7A, in the switching control process at time t11, since the level of the voice strength signal Es-2 is the maximum and is equal to or higher than the threshold th, the selection signal Mnew is “2”. The digital audio signal S-2 is selected as the digital audio signal SS. In the switching control process at time t12, since the level of the sound intensity signal Es-1 is the maximum and is equal to or higher than the threshold th, the selection signal Mnew is set to “1”, and the digital audio signal S-1 is converted to the digital audio signal. Selected as SS.
ところが、図7(b)に示す例では、時刻t12における切換制御処理において、いずれの音声強度信号Es−k(k=1〜3)のレベルも閾値thに達しておらず、デジタルオーディオ信号S−kを選択するための判断の資料となる音声強度信号Es−kがない。このため、時刻t12における切換制御処理では、時刻t11における切換制御処理において得られた選択信号Mnew=「2」が維持される。 However, in the example shown in FIG. 7B, in the switching control process at time t12, the level of any voice intensity signal Es-k (k = 1 to 3) has not reached the threshold th, and the digital audio signal S There is no voice intensity signal Es-k that serves as a reference for selecting -k. For this reason, in the switching control process at time t12, the selection signal Mnew = “2” obtained in the switching control process at time t11 is maintained.
この態様によれば、暗騒音のレベルの範囲内において音声強度信号Es−k(k=1〜3)のレベルの大小関係が変化しても、そのような変化は無視され、現状の選択信号Mnewが維持される。従って、収音される音声のレベルが低いときにデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。 According to this aspect, even if the magnitude relationship of the level of the voice intensity signal Es-k (k = 1 to 3) changes within the range of the background noise level, such a change is ignored, and the current selection signal Mnew is maintained. Therefore, it is possible to prevent the digital audio signal Sk that becomes the digital audio signal SS from being frequently switched when the level of collected sound is low.
b.第2の態様
この態様においても、第1の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、あるデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、そのデジタルオーディオ信号S−kに対応した音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であるだけでは不十分である。デジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、それに対応した音声強度信号Es−kのレベルが、前回の切換制御処理においてレベルが最大であった音声強度信号のレベルを越えていなければならない。
b. Second Mode Also in this mode, as in the first mode, only the voice intensity signal Es-k (k = 1 to 3) having a level equal to or higher than the threshold th is used as a material for determination in the switching control process. Further, in this aspect, in order to select a digital audio signal Sk as the digital audio signal SS in the switching control process, the level of the audio intensity signal Es-k corresponding to the digital audio signal Sk is set. It is not sufficient that the maximum is the voice intensity signal Es-k (k = 1 to 3). In order for the digital audio signal Sk to be selected as the digital audio signal SS, the level of the voice strength signal Es-k corresponding to the digital audio signal SS is the level of the voice strength signal that has the maximum level in the previous switching control process. It must be exceeded.
図8は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t22における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t21の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCだけ大きい。このため、時刻t22の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。 FIG. 8 shows an execution example of the switching control process in this mode. In this example, in the switching control process at time t22, the level of the sound intensity signal Es-2 is the maximum and is equal to or greater than the threshold th. Further, the level of the voice strength signal Es-2 is higher by a positive value iVGC than the level of the voice strength signal Es-1 that has the maximum level in the previous switching control process (switching control process at time t21). Therefore, in the switching control process at time t22, the selection signal Mnew is set to “2”, and the digital audio signal S-2 is selected as the digital audio signal SS.
図示は省略したが、仮に時刻t22の切換制御処理において最大である音声強度信号Es−2のレベルが、時刻t21の切換制御処理時における音声強度信号Es−1のレベル以下である場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。 Although illustration is omitted, if the level of the voice strength signal Es-2 that is maximum in the switching control process at time t22 is equal to or lower than the level of the voice strength signal Es-1 at the time of switching control process at time t21, The digital audio signal S-2 is not selected as the digital audio signal SS.
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に明確な変化が生じた場合に限り、選択信号Mnewの切り換えが行われるので、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。 According to this aspect, the selection signal Mnew is switched only when there is a clear change in the magnitude relationship of the voice intensity signal Es-k (k = 1 to 3), so that the digital audio signal SS becomes the digital audio signal SS. It is possible to prevent the audio signal S-k from being frequently switched.
c.第3の態様
この態様は、第2の態様における選択信号Mnewの安定性をさらに高めたものである。この態様においても、第1および第2の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、ある音声強度信号Es−kに対応したデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、次の条件を満たすことが必要である。
条件1:その音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であること。
条件2:その音声強度信号Es−kの前回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCと、その音声強度信号Es−kの前々回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCRとを比較した場合に、iVGCR>iVGCであること。
c. Third Aspect In this aspect, the stability of the selection signal Mnew in the second aspect is further enhanced. Also in this aspect, as in the first and second aspects, only the sound intensity signal Es-k (k = 1 to 3) having a level equal to or higher than the threshold th is used as a material for determination in the switching control process. In this aspect, in order to select the digital audio signal Sk corresponding to a certain sound intensity signal Es-k as the digital audio signal SS in the switching control process, it is necessary to satisfy the following condition. .
Condition 1: The level of the voice strength signal Es-k is the maximum among the voice strength signals Es-k (k = 1 to 3).
Condition 2: Increment iVGC of the voice strength signal Es-k with respect to the maximum level voice strength signal in the previous switching control processing and the increment of the voice strength signal Es-k with respect to the maximum level voice strength signal in the previous switching control processing. iVGCR> iVGC when compared with iVGCR.
図9は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t33における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t32の切換制御処理)においてレベルが最大であった音声強度信号Es−2のレベルよりも正の値iVGCだけ大きい。さらに、時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前々回の切換制御処理(時刻t31の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCRだけ大きい。そして、iVGCR>iVGCである。このため、時刻t33の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。 FIG. 9 shows an execution example of the switching control process in this mode. In this example, in the switching control process at time t33, the level of the sound intensity signal Es-2 is the maximum and is equal to or greater than the threshold th. Further, the level of the voice strength signal Es-2 at the time of the switching control process at time t33 is higher than the level of the voice strength signal Es-2 that has the maximum level in the previous switching control process (switching control process at time t32). Is also increased by a positive value iVGC. Furthermore, the level of the voice strength signal Es-2 at the time of the switching control process at time t33 is higher than the level of the voice strength signal Es-1 that has the maximum level in the previous switching control process (switching control process at time t31). Increased by a positive value iVGCR. And iVGCR> iVGC. Therefore, in the switching control process at time t33, the selection signal Mnew is set to “2”, and the digital audio signal S-2 is selected as the digital audio signal SS.
図示は省略したが、仮に時刻t33の切換制御処理において音声強度信号Es−2のレベルが最大であったとしても、iVGCR>iVGCなる条件が満たされない場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。 Although illustration is omitted, if the condition of iVGCR> iVGC is not satisfied even if the level of the audio intensity signal Es-2 is maximum in the switching control process at time t33, the digital audio signal S-2 is digital. It is not selected as the audio signal SS.
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に一時的な変化があってもそれは無視され、ある音声強度信号Es−kが最大レベルであり、かつ、増加傾向にあることが明らかに認められる場合に限り、それに対応したデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして選択される。従って、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。 According to this aspect, even if there is a temporary change in the magnitude relationship of the voice strength signal Es-k (k = 1 to 3), it is ignored, and a certain voice strength signal Es-k is at the maximum level, and Only when it is clearly recognized that there is an increasing tendency, the corresponding digital audio signal Sk is selected as the final digital audio signal SS. Therefore, it is possible to prevent the digital audio signal Sk as the digital audio signal SS from being frequently switched.
(3)デジタルオーディオ信号SSおよびS/N比信号の出力の態様
出力部60におけるデジタルオーディオ信号SSおよびS/N比信号の出力に関しては各種の態様がある。
(3) Modes of Output of Digital Audio Signal SS and S / N Ratio Signal There are various modes for the output of the digital audio signal SS and S / N ratio signal in the
ある態様において、出力部60は、図10に例示するように、1サンプル毎にS/N比信号とデジタルオーディオ信号SSの組を出力する。この場合において、S/N比信号とデジタルオーディオ信号の各サンプルは、別々のワードであってもよいが、例えばS/N比信号を上位ビット列、デジタルオーディオ信号SSを下位ビット列とするワードを順次出力するように出力部60を構成してもよい。この態様によれば、収音装置の出力信号を受け取る後段の装置は、任意のタイミングにおいて、デジタルオーディオ信号とそれに対応したS/N比信号を得ることができるという利点がある。
In an aspect, the
他の態様において、出力部60は、図11に例示するように、デジタルオーディオ信号SSを所定個数のサンプルからなるフレームに分割し、フレーム単位でそのフレームにおける代表的なS/N比信号(例えば平均値)と、そのフレームに属する所定個数のデジタルオーディオ信号SSのサンプルとを出力する。この態様によれば、全体としてのデータ量を減らすことができるという利点がある。
In another aspect, as illustrated in FIG. 11, the
<実施形態の効果>
以上のように本実施形態では、音源の位置が変化する状況においても、音声成分の強度が最大であるデジタルオーディオ信号S−kが選択され、最終的なデジタルオーディオ信号SSとして出力される。従って、音源の位置の変化によらず、常に最大の受音感度でデジタルオーディオ信号を取得することができる。また、本実施形態では、最終的なデジタルオーディオ信号SSとして出力するデジタルオーディオ信号を切り換える場合に、一定時間を要して、新旧2つのデジタルオーディオ信号間でクロスフェードを行うので、出力されるデジタルオーディオ信号SSに不自然な不連続を生じさせないという利点がある。
<Effect of embodiment>
As described above, in this embodiment, even in a situation where the position of the sound source changes, the digital audio signal Sk having the maximum sound component intensity is selected and output as the final digital audio signal SS. Therefore, a digital audio signal can always be acquired with the maximum sound receiving sensitivity regardless of the change in the position of the sound source. Further, in the present embodiment, when switching the digital audio signal to be output as the final digital audio signal SS, a certain time is required and a crossfade is performed between the old and new digital audio signals. There is an advantage that an unnatural discontinuity does not occur in the audio signal SS.
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば上記実施形態では、音声強度信号Es−k(k=1〜m)に基づいて、最終的なデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kの選択を行ったが、音声強度信号Es−k(k=1〜m)の各々を雑音強度信号En−k(k=1〜m)の各々により除算してS/N比信号S/N−k(k=1〜m)を生成し、最もレベルの高いS/N比信号S/N−kに対応したデジタルオーディオ信号S−kを最終的なデジタルオーディオ信号SSとして選択してもよい。この態様によれば、例えば特定の方向において雑音が発生した場合に、雑音を収音したマイクロフォンの出力信号に基づいて生成された雑音強度信号のレベルが増大し、同マイクロフォンから得られたデジタルオーディオ信号が最終的なデジタルオーディオ信号SSとして選択されるのを回避することができる。従って、局所的な雑音が突発的に発生する状況下でも、高いS/N比で収音を行うことができる。
<Other embodiments>
Although one embodiment of the present invention has been described above, other embodiments are possible for the present invention. For example, in the above-described embodiment, the digital audio signal Sk that is the final digital audio signal SS is selected based on the audio intensity signal Es-k (k = 1 to m). Each of k (k = 1 to m) is divided by each of noise intensity signals En-k (k = 1 to m) to generate an S / N ratio signal S / Nk (k = 1 to m). The digital audio signal Sk corresponding to the S / N ratio signal S / Nk having the highest level may be selected as the final digital audio signal SS. According to this aspect, for example, when noise occurs in a specific direction, the level of the noise intensity signal generated based on the output signal of the microphone that picks up the noise increases, and the digital audio obtained from the microphone is increased. It can be avoided that the signal is selected as the final digital audio signal SS. Therefore, sound can be collected with a high S / N ratio even in a situation where local noise suddenly occurs.
11−k(k=1〜m)……マイクロフォン、12−k(k=1〜m)……A/D変換器、20−k(k=1〜m)……抽出部、30……出力信号合成部、31−k(k=1〜m)……乗算器、32……加算器、33……合成制御部、40……切換制御部、50……S/N比信号生成部、60……出力部。 11-k (k = 1 to m)... Microphone, 12-k (k = 1 to m)... A / D converter, 20-k (k = 1 to m). Output signal synthesis unit, 31-k (k = 1 to m)... Multiplier, 32... Adder, 33... Synthesis control unit, 40 ... switching control unit, 50 ... S / N ratio signal generation unit , 60 ... Output section.
Claims (9)
前記複数のマイクロフォンの各出力信号から出力対象となる音声信号を合成して出力する出力信号合成手段と、
前記複数のマイクロフォンの各出力信号から少なくとも音声成分を抽出し、各信号の音声成分の強度またはS/N比を示す信号を出力する抽出手段と、
前記抽出手段の出力信号に基づいて、前記複数のマイクロフォンの各出力信号のうち音声成分の強度またはS/N比の高い信号が前記出力信号合成手段により出力されるように前記出力信号合成手段を制御する切換制御処理を実行する切換制御手段と
を具備することを特徴とする収音装置。 Multiple microphones that pick up sound from the outside world and output electrical signals;
Output signal synthesis means for synthesizing and outputting an audio signal to be output from each output signal of the plurality of microphones;
Extraction means for extracting at least a sound component from each output signal of the plurality of microphones and outputting a signal indicating the intensity or S / N ratio of the sound component of each signal;
Based on the output signal of the extracting means, the output signal synthesizing means is arranged so that a signal having a high intensity of a sound component or a high S / N ratio among the output signals of the plurality of microphones is output by the output signal synthesizing means. And a switching control means for executing a switching control process for controlling the sound collecting device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005365769A JP2007174011A (en) | 2005-12-20 | 2005-12-20 | Sound pickup device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005365769A JP2007174011A (en) | 2005-12-20 | 2005-12-20 | Sound pickup device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007174011A true JP2007174011A (en) | 2007-07-05 |
Family
ID=38300026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005365769A Withdrawn JP2007174011A (en) | 2005-12-20 | 2005-12-20 | Sound pickup device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007174011A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009124286A (en) * | 2007-11-13 | 2009-06-04 | Sony Ericsson Mobilecommunications Japan Inc | Audio signal processing apparatus, audio signal processing method, and communication terminal |
EP2245862A1 (en) * | 2008-01-29 | 2010-11-03 | QUALCOMM Incorporated | Improving sound quality by intelligently selecting between signals from a plurality of microphones |
JP2011119898A (en) * | 2009-12-02 | 2011-06-16 | Nippon Telegr & Teleph Corp <Ntt> | Device, method and program for acquiring sound |
JP2011244232A (en) * | 2010-05-19 | 2011-12-01 | Fujitsu Ltd | Microphone array apparatus and program executed by the same |
JP2013005451A (en) * | 2011-06-20 | 2013-01-07 | Polycom Inc | Automatic camera selection for videoconferencing |
JP2017108441A (en) * | 2012-11-12 | 2017-06-15 | ヤマハ株式会社 | Host device and microphone unit |
-
2005
- 2005-12-20 JP JP2005365769A patent/JP2007174011A/en not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364478B2 (en) | 2007-11-13 | 2013-01-29 | Sony Mobile Communicatins Japan, Inc. | Audio signal processing apparatus, audio signal processing method, and communication terminal |
JP2009124286A (en) * | 2007-11-13 | 2009-06-04 | Sony Ericsson Mobilecommunications Japan Inc | Audio signal processing apparatus, audio signal processing method, and communication terminal |
EP2245862A1 (en) * | 2008-01-29 | 2010-11-03 | QUALCOMM Incorporated | Improving sound quality by intelligently selecting between signals from a plurality of microphones |
JP2014045507A (en) * | 2008-01-29 | 2014-03-13 | Qualcomm Incorporated | Improving sound quality by intelligently selecting among signals from plural microphones |
JP2011119898A (en) * | 2009-12-02 | 2011-06-16 | Nippon Telegr & Teleph Corp <Ntt> | Device, method and program for acquiring sound |
JP2011244232A (en) * | 2010-05-19 | 2011-12-01 | Fujitsu Ltd | Microphone array apparatus and program executed by the same |
US8891780B2 (en) | 2010-05-19 | 2014-11-18 | Fujitsu Limited | Microphone array device |
US10140969B2 (en) | 2010-05-19 | 2018-11-27 | Fujitsu Limited | Microphone array device |
JP2013005451A (en) * | 2011-06-20 | 2013-01-07 | Polycom Inc | Automatic camera selection for videoconferencing |
US9030520B2 (en) | 2011-06-20 | 2015-05-12 | Polycom, Inc. | Automatic camera selection for videoconferencing |
JP2017108441A (en) * | 2012-11-12 | 2017-06-15 | ヤマハ株式会社 | Host device and microphone unit |
US10250974B2 (en) | 2012-11-12 | 2019-04-02 | Yamaha Corporation | Signal processing system and signal processing method |
US11190872B2 (en) | 2012-11-12 | 2021-11-30 | Yamaha Corporation | Signal processing system and signal processing meihod |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5098404B2 (en) | Voice processing method and voice processing apparatus | |
CN102821339B (en) | Signal handling equipment and signal processing method | |
JP2007174011A (en) | Sound pickup device | |
JP2007133035A (en) | Digital sound recording device, digital sound recording method, and program and storage medium thereof | |
JP6931819B2 (en) | Voice processing device, voice processing method and voice processing program | |
JP2008103879A (en) | Audio reproducer | |
JPH10257596A (en) | Speech speed conversion method and its device | |
US10783903B2 (en) | Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method | |
JP2011061422A (en) | Information processing apparatus, information processing method, and program | |
US11094305B2 (en) | Information processing device, tempo detection device and video processing system | |
JP5342945B2 (en) | Audio signal amplitude adjusting apparatus and audio signal amplitude adjusting method | |
JP5728215B2 (en) | Audio processing apparatus and method, and imaging apparatus | |
EP2947658A1 (en) | Memory control device, playback control device, and recording medium | |
JP4536020B2 (en) | Voice input device and method having noise removal function | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
CN112019967A (en) | Earphone noise reduction method and device, earphone equipment and storage medium | |
WO2012098856A1 (en) | Hearing aid and hearing aid control method | |
JPH0556499A (en) | Digital hearing aid | |
JP2006216188A (en) | Electronic equipment and control method therefor | |
JP4527654B2 (en) | Voice communication device | |
JP2007171316A (en) | Sound pickup device | |
JP5359744B2 (en) | Sound processing apparatus and program | |
JP5470729B2 (en) | Signal processing apparatus and signal processing method | |
JP2022002361A (en) | Signal processing apparatus, signal processing program, and signal processing method | |
JP2007166315A (en) | Signal processor and signal processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090303 |