JP2017022521A - Directivity control system and voice output control method - Google Patents

Directivity control system and voice output control method Download PDF

Info

Publication number
JP2017022521A
JP2017022521A JP2015138014A JP2015138014A JP2017022521A JP 2017022521 A JP2017022521 A JP 2017022521A JP 2015138014 A JP2015138014 A JP 2015138014A JP 2015138014 A JP2015138014 A JP 2015138014A JP 2017022521 A JP2017022521 A JP 2017022521A
Authority
JP
Japan
Prior art keywords
sound
unit
output
privacy protection
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015138014A
Other languages
Japanese (ja)
Other versions
JP6569853B2 (en
Inventor
宏之 松本
Hiroyuki Matsumoto
宏之 松本
良一 湯下
Ryoichi Yushimo
良一 湯下
信太郎 吉國
Shintaro Yoshikuni
信太郎 吉國
徳田 肇道
Tadamichi Tokuda
肇道 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2015138014A priority Critical patent/JP6569853B2/en
Publication of JP2017022521A publication Critical patent/JP2017022521A/en
Application granted granted Critical
Publication of JP6569853B2 publication Critical patent/JP6569853B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent deterioration of privacy protection for a person, while preventing the content of a voice uttered by a person from being known by others when the voice is uttered by the person in a privacy protection area.SOLUTION: A motion detector of a camera device CA detects a motion of a person in an imaging area. A signal processor 33 of a directivity control device 30 detects a sound source of a voice in the imaging area which are collected by a microphone array device MA. When the motion of the person is detected by the motion detector and the sound source detected by the signal processor 33 is located within a privacy protection area range, an output controller 35 controls the voice in the imaging area which are collected by the microphone array device MA, and output from a speaker device 37. While the sound pressure collected by the microphone array device MA exceeds a sound pressure threshold value, a beep sound, as an alternative sound, is output from the speaker device 37.SELECTED DRAWING: Figure 1

Description

本発明は、収音された音声の出力を制御する指向性制御システム及び音声出力制御方法に関する。   The present invention relates to a directivity control system and a sound output control method for controlling the output of collected sound.

従来、マイクアレイ装置から音声の収音位置に向かう指向方向に指向性を形成する指向性制御システムが知られている(例えば、特許文献1参照)。特許文献1の指向性制御システムは、指定された音声の収音位置が既定のプライバシー保護エリアの範囲内である場合に、マイクアレイ装置により収音された音声の音声データの出力を抑制する。   2. Description of the Related Art Conventionally, a directivity control system that forms directivity in a directivity direction from a microphone array device toward a sound collection position is known (see, for example, Patent Document 1). The directivity control system disclosed in Patent Document 1 suppresses output of audio data of sound collected by the microphone array device when the designated sound collection position is within a predetermined privacy protection area.

特開2015−029241号公報Japanese Patent Laying-Open No. 2015-029241

しかしながら、特許文献1の構成では、プライバシー保護エリアに近接する外側の位置が音声の収音位置に指定されてしまうと、プライバシー保護エリア内の音が外側に漏れて聞こえてしまい、会話の内容が他人に知られてしまう等、プライバシー保護エリア内にいる人物のプライバシー保護が不十分であるという課題があった。   However, in the configuration of Patent Document 1, if the outside position close to the privacy protection area is designated as the sound collection position, the sound in the privacy protection area leaks outside and is heard, and the content of the conversation is There is a problem that the privacy protection of the person in the privacy protection area is insufficient, such as being known to others.

本発明は、上述した従来の課題を解決するために、プライバシー保護エリア内で人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制する指向性制御システム及び音声出力制御方法を提供することを目的とする。   In order to solve the above-described conventional problems, the present invention can protect the privacy of a person without causing others to know the content of the voice emitted by the person even if the person makes a sound in the privacy protection area. An object is to provide a directivity control system and an audio output control method for suppressing deterioration.

本発明は、撮像エリアの映像を撮像可能な撮像部と、前記撮像エリアの音声を収音する収音部と、前記撮像部により撮像された前記撮像エリアの映像データを表示する表示部と、前記収音部により収音された前記撮像エリアの音声データを出力する音声出力部と、前記表示部に表示された前記撮像エリアの映像データに対して指定されたプライバシー保護エリアの位置情報を記憶する第1メモリと、前記収音部により収音された前記撮像エリアの音声データの音源を検出する第1検出部と、前記撮像エリアにおける人物の動きを検出する第2検出部と、前記第2検出部により前記人物の動きが検出され、かつ、前記第1検出部により検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、前記収音部により収音された前記撮像エリアの音声データの前記音声出力部における出力を制御する出力制御部と、を備える、指向性制御システムを提供する。   The present invention includes an imaging unit capable of capturing an image of an imaging area, a sound collection unit that collects sound of the imaging area, a display unit that displays video data of the imaging area captured by the imaging unit, An audio output unit that outputs audio data of the imaging area picked up by the sound pickup unit, and location information of the privacy protection area designated for the video data of the imaging area displayed on the display unit are stored A first detection unit that detects a sound source of the audio data of the imaging area picked up by the sound pickup unit, a second detection unit that detects the movement of a person in the imaging area, and the first When the movement of the person is detected by two detection units and the sound source detected by the first detection unit is within the privacy protection area, the sound collected by the sound collection unit is collected. And an output control unit which controls the output at the audio output of the audio data of the image area, to provide a directional control system.

また、本発明は、撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、前記撮像部において、撮像エリアの映像を撮像し、前記収音部において、前記撮像エリアの音声を収音し、前記撮像エリアの映像データが表示された表示部に対して指定されたプライバシー保護エリアの位置情報をメモリに記憶し、前記収音部により収音された前記撮像エリアの音声データの音源を検出し、前記撮像エリアにおける人物の動きを検出し、前記人物の動きが検出され、かつ検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、前記収音部により収音された前記撮像エリアの音声データの出力を制御する、音声出力制御方法を提供する。   The present invention is also an audio output control method in a directivity control system having an imaging unit and a sound collection unit, wherein the imaging unit captures an image of an imaging area, and the sound collection unit Audio is picked up, the location information of the privacy protection area designated for the display unit on which the video data of the image pickup area is displayed is stored in a memory, and the sound of the image pickup area picked up by the sound pickup unit When the sound source of the data is detected, the movement of the person in the imaging area is detected, the movement of the person is detected, and the detected sound source is within the range of the privacy protection area, the sound collection unit Provided is an audio output control method for controlling output of collected audio data of the imaging area.

本発明によれば、プライバシー保護エリア内で人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制することができる。   ADVANTAGE OF THE INVENTION According to this invention, even if an audio | voice is uttered by a person in a privacy protection area, the content of the audio | voice which the person uttered is not known to others, but deterioration of a person's privacy protection can be suppressed.

第1の実施形態の指向性制御システムの内部構成の一例を示すブロック図The block diagram which shows an example of an internal structure of the directivity control system of 1st Embodiment. マイクアレイ装置により収音された音声に対して、特定の方向に指向性を形成する原理の一例の説明図Explanatory drawing of an example of the principle which forms directivity in a specific direction with respect to the sound picked up by the microphone array device カメラ装置の内部構成の一例を示すブロック図Block diagram showing an example of the internal configuration of the camera device (A)プライバシー保護エリアを指定する前の音声処理動作の一例を説明する図、(B)プライバシー保護エリアを指定した後の音声処理動作の一例を説明する図(A) A figure explaining an example of voice processing operation before designating a privacy protection area, (B) A figure explaining an example of voice processing operation after designating a privacy protection area 第1の実施形態の指向性制御装置の音声処理手順の一例を説明するフローチャートThe flowchart explaining an example of the audio | voice processing procedure of the directivity control apparatus of 1st Embodiment. 動き検出動作を説明する図Diagram explaining motion detection operation カメラ装置で撮像される撮像エリアに音源が存在しかつ人物の動きが無い場合の音声処理動作を説明する図The figure explaining audio | voice processing operation | movement when a sound source exists in the imaging area imaged with a camera apparatus, and there is no movement of a person 図7と同様のカメラ装置で撮像される撮像エリアに音源が存在しかつ人物の動きが有る場合の音声処理動作を説明する図The figure explaining audio | voice processing operation | movement when a sound source exists in the imaging area imaged with the camera apparatus similar to FIG. 7, and there exists a person's motion. (A)プライバシー保護エリアを指定する前の音声処理動作の一例を説明する図、(B)プライバシー保護エリアを指定した後の音声処理動作の一例を説明する図(A) A figure explaining an example of voice processing operation before designating a privacy protection area, (B) A figure explaining an example of voice processing operation after designating a privacy protection area 第2の実施形態の指向性制御装置30の音声処理手順の一例を説明するフローチャートThe flowchart explaining an example of the audio | voice processing procedure of the directivity control apparatus 30 of 2nd Embodiment. 各実施形態の変形例におけるマイクアレイ装置の内部構成の一例を示すブロック図The block diagram which shows an example of the internal structure of the microphone array apparatus in the modification of each embodiment

以下、適宜図面を参照しながら、本発明に係る指向性制御システム及び音声出力制御方法を具体的に開示した各実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。   Hereinafter, each embodiment specifically disclosing the directivity control system and the audio output control method according to the present invention will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. For example, detailed descriptions of already well-known matters and repeated descriptions for substantially the same configuration may be omitted. This is to avoid the following description from becoming unnecessarily redundant and to facilitate understanding by those skilled in the art. The accompanying drawings and the following description are provided to enable those skilled in the art to fully understand the present disclosure, and are not intended to limit the subject matter described in the claims.

(第1の実施形態)
図1は、第1の実施形態の指向性制御システム10の内部構成の一例を示すブロック図である。指向性制御システム10は、カメラ装置CAと、マイクアレイ装置MAと、指向性制御装置30とを含む構成である。カメラ装置CA、マイクアレイ装置MA及び指向性制御装置30は、ネットワークNWを介して相互にデータ通信可能に接続されている。ネットワークNWは、有線ネットワーク(例えばイントラネット、インターネット)でもよいし、無線ネットワーク(例えば無線LAN(Local Area Network))でもよい。
(First embodiment)
FIG. 1 is a block diagram illustrating an example of an internal configuration of a directivity control system 10 according to the first embodiment. The directivity control system 10 includes a camera device CA, a microphone array device MA, and a directivity control device 30. The camera device CA, the microphone array device MA, and the directivity control device 30 are connected to each other via a network NW so that data communication is possible. The network NW may be a wired network (for example, an intranet or the Internet) or a wireless network (for example, a wireless LAN (Local Area Network)).

撮像部の一例としてのカメラ装置CAは、例えば室内の天井に設置された全方位カメラであり、自装置が設置された撮像空間(つまり、撮像エリア)を撮像可能な監視カメラとして機能する。なお、カメラ装置CAは、全方位カメラに限られず、画角が固定された固定カメラでもよいし、パン・チルト・ズーム動作自在なPTZ(Pan Tilt Zoom)カメラでもよい。   A camera device CA as an example of an imaging unit is an omnidirectional camera installed on, for example, an indoor ceiling, and functions as a monitoring camera capable of imaging an imaging space (that is, an imaging area) in which the device is installed. The camera apparatus CA is not limited to an omnidirectional camera, and may be a fixed camera with a fixed angle of view or a PTZ (Pan Tilt Zoom) camera capable of pan / tilt / zoom operations.

カメラ装置CAは、映像を撮像した時刻(つまり、撮像時刻)を映像データと対応付けて記憶し、撮像時刻のデータを含む映像データを、ネットワークNWを介して指向性制御装置30に送信する。   The camera device CA stores the time at which the video is captured (that is, the imaging time) in association with the video data, and transmits the video data including the imaging time data to the directivity control device 30 via the network NW.

収音部の一例としてのマイクアレイ装置MAは、例えば室内の天井に設置された全方位マイクアレイ装置であり、自装置が設置された収音空間(収音エリア)における全方位(つまり、360度の方位)の音声を収音する。本実施形態では、撮像エリアと収音エリアは略同一である。マイクアレイ装置MAは、中央に開口部が形成された筐体を有し、更に、この開口部の周囲に円周方向に沿って同心円状に配置された複数のマイクロホンユニットを有する。マイクロホンユニット(以下、単にマイクロホンと称する)には、例えば高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が用いられる。   The microphone array device MA as an example of the sound collection unit is, for example, an omnidirectional microphone array device installed on a ceiling in a room, and is omnidirectional (that is, 360) in a sound collection space (sound collection area) where the device is installed. (Sound direction). In the present embodiment, the imaging area and the sound collection area are substantially the same. The microphone array apparatus MA has a housing having an opening formed at the center, and further has a plurality of microphone units arranged concentrically around the opening in the circumferential direction. For example, a high sound quality small electret condenser microphone (ECM) is used for a microphone unit (hereinafter simply referred to as a microphone).

マイクアレイ装置MAは、収音した音声データを、収音した時刻(つまり、収音時刻)と対応付けて記憶するとともに、収音時刻のデータを含む音声データを、ネットワークNWを介して、指向性制御装置30に送信する。   The microphone array device MA stores the collected sound data in association with the time of sound collection (that is, the sound collection time) and directs the sound data including the sound collection time data via the network NW. To the control device 30.

指向性制御装置30は、例えばマイクアレイ装置MA及びカメラ装置CAが設置された室内の外に設置される据置型のPC(Personal Computer)であり、マイクアレイ装置MAで収音された全方位の音声に対し指向性を形成し、その指向方向の音声を強調する。また、指向性制御装置30は、撮像エリア内の音源の位置(以下、「音声位置」ともいう)を検出して推定し、この推定された音源の位置がプライバシー保護エリアの範囲内である場合に所定のマスク処理を行う。マスク処理の詳細については後述する。なお、指向性制御装置30は、PCの代わりに、携帯電話機、タブレット端末、スマートフォン等の通信端末でもよい。   The directivity control device 30 is, for example, a stationary PC (Personal Computer) installed outside the room in which the microphone array device MA and the camera device CA are installed, and is omnidirectional in sound collected by the microphone array device MA. Directivity is formed with respect to the voice, and the voice in that direction is emphasized. Further, the directivity control device 30 detects and estimates the position of a sound source in the imaging area (hereinafter also referred to as “sound position”), and the estimated sound source position is within the range of the privacy protection area. A predetermined mask process is performed. Details of the mask processing will be described later. The directivity control device 30 may be a communication terminal such as a mobile phone, a tablet terminal, or a smartphone instead of the PC.

指向性制御装置30は、通信部31と、操作部32と、信号処理部33と、ディスプレイ装置36と、スピーカ装置37と、メモリ38と、設定管理部39とを少なくとも含む構成である。信号処理部33は、音圧算出部34及び出力制御部35を含む。   The directivity control device 30 includes at least a communication unit 31, an operation unit 32, a signal processing unit 33, a display device 36, a speaker device 37, a memory 38, and a setting management unit 39. The signal processing unit 33 includes a sound pressure calculation unit 34 and an output control unit 35.

位置情報設定部の一例としての設定管理部39は、初期設定として、カメラ装置CAで撮像された映像が表示されたディスプレイ装置36に対し、ユーザによって指定されたプライバシー保護エリアの座標を、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標に変換する。この変換処理では、設定管理部39は、プライバシー保護エリアの指定に応じて、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標(θMAh,θMAv)を算出する。この座標算出処理の詳細については、例えば特許文献1に記載されている。ここで、θMAhはマイクアレイ装置MAから音声位置に向かう指向方向の水平角を表し、θMAvはマイクアレイ装置MAから音声位置に向かう指向方向の垂直角を表す。音声位置は、操作部32がディスプレイ装置36に表示された映像データにおいてユーザの指又はスタイラスペンによって指定された指定位置に対応する実際の位置である。なお、この変換処理は、信号処理部33により行われてもよい。   As an initial setting, the setting management unit 39 as an example of the position information setting unit displays the coordinates of the privacy protection area designated by the user on the display device 36 on which the image captured by the camera device CA is displayed. It is converted into coordinates indicating the directivity direction from the device MA toward the voice area corresponding to the privacy protection area. In this conversion process, the setting management unit 39 calculates coordinates (θMAh, θMAv) indicating the directivity direction from the microphone array apparatus MA toward the audio area corresponding to the privacy protection area, in accordance with the designation of the privacy protection area. Details of this coordinate calculation processing are described in, for example, Patent Document 1. Here, θMAh represents a horizontal angle in the directing direction from the microphone array apparatus MA to the sound position, and θMAv represents a vertical angle in the directing direction from the microphone array apparatus MA to the sound position. The audio position is an actual position corresponding to a designated position designated by the user's finger or stylus pen in the video data displayed on the display device 36 by the operation unit 32. Note that this conversion process may be performed by the signal processing unit 33.

また、設定管理部39は、第1メモリの一例としてのメモリ39zを有し、カメラ装置CAで撮像された映像が表示されたディスプレイ装置36に対しユーザによって指定されたプライバシー保護エリアの位置座標と、変換されたプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標とをメモリ39zに記憶する。   The setting management unit 39 includes a memory 39z as an example of the first memory, and the position coordinates of the privacy protection area designated by the user with respect to the display device 36 on which the video image captured by the camera device CA is displayed. The coordinates indicating the directivity direction toward the voice area corresponding to the converted privacy protection area are stored in the memory 39z.

更に、設定管理部39は、マイクアレイ装置MAで収音された音声の音圧pと比較される音圧閾値shをメモリ39zに設定する。ここで、音圧pは、マイクアレイ装置MAで収音される音の大きさを表しており、スピーカ装置37から出力される音の大きさを表す音量とは区別している。また、音圧閾値shは、例えばマイクアレイ装置MAで収音されてスピーカ装置37から出力される音声をユーザが聞き取れない、或いは、聞き取れても音声の内容が分からないような値に設定される。   Furthermore, the setting management unit 39 sets a sound pressure threshold sh to be compared with the sound pressure p of the sound collected by the microphone array device MA in the memory 39z. Here, the sound pressure p represents the volume of sound collected by the microphone array device MA, and is distinguished from the volume representing the volume of sound output from the speaker device 37. The sound pressure threshold sh is set to a value such that the user cannot hear the sound collected by the microphone array device MA and output from the speaker device 37, or the content of the sound is not known even if the user can hear it. .

通信部31は、カメラ装置CAが送信した撮像時刻のデータを含む映像データ、及びマイクアレイ装置MAが送信した収音時刻のデータを含む音声データを受信して信号処理部33に出力する。   The communication unit 31 receives video data including imaging time data transmitted from the camera device CA and audio data including sound collection time data transmitted from the microphone array device MA, and outputs them to the signal processing unit 33.

操作部32は、ユーザの入力操作の内容を信号処理部33に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等のポインティングデバイスで構成される。また、操作部32は、例えばディスプレイ装置36の画面に対応して配置され、ユーザの指やスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。   The operation unit 32 is a user interface (UI) for notifying the signal processing unit 33 of the content of a user input operation, and is configured by a pointing device such as a mouse or a keyboard. In addition, the operation unit 32 may be configured using, for example, a touch panel or a touch pad that is arranged corresponding to the screen of the display device 36 and can be input with a user's finger or stylus pen.

操作部32は、ディスプレイ装置36に表示されたカメラ装置CAの映像データ(図4(A)参照)の中で、ユーザがプライバシー保護を希望するエリアであるプライバシー保護エリアPRA(図中、点線枠)を指定し、指定されたプライバシー保護エリアの位置を表す座標データを取得して信号処理部33に出力する。   The operation unit 32 includes a privacy protection area PRA (a dotted line frame in the figure) which is an area where the user desires privacy protection in the video data (see FIG. 4A) of the camera device CA displayed on the display device 36. ) Is acquired, and coordinate data representing the position of the specified privacy protection area is acquired and output to the signal processing unit 33.

メモリ38は、例えばRAM(Random Access Memory)を用いて構成され、指向性制御装置30が動作する際、プログラムメモリ、データメモリ、ワークメモリとして機能する。第2メモリの一例としてのメモリ38は、マイクアレイ装置MAで収音される音声の音声データを収音時刻とともに記憶する。信号処理部33は、メモリ38に記憶された音声データを用いて、マイクアレイ装置MAで収音された音声がプライバシー保護エリア内で検出されたか否かを判定する。従って、マイクアレイ装置MAで収音された音声の収音時間より若干遅れて(リアルタイムより僅かに遅れて)音声が再生される。この遅れ時間は、マイクアレイ装置MAが音声を収音してから、その音声がプライバシー保護エリア内で検出されたものであるか否かを判定する処理に要する時間である。また、メモリ38に音声データを一旦記憶しておくことで、後述するように、信号処理部33は、プライバシー保護エリアPRAからの音声が検出された時刻より所定時間前から収音されてメモリ38に記憶された音声の出力を制御することも可能となる。このように、メモリ38は音声データを一時的に記憶するバッファメモリとしても機能する。   The memory 38 is configured using, for example, a RAM (Random Access Memory), and functions as a program memory, a data memory, and a work memory when the directivity control device 30 operates. The memory 38 as an example of the second memory stores the sound data of the sound collected by the microphone array apparatus MA together with the sound collection time. The signal processing unit 33 uses the audio data stored in the memory 38 to determine whether or not the audio collected by the microphone array apparatus MA has been detected in the privacy protection area. Accordingly, the sound is reproduced with a slight delay (slightly behind real time) from the sound collection time of the sound collected by the microphone array device MA. This delay time is the time required for the process of determining whether or not the sound is detected within the privacy protection area after the microphone array apparatus MA has picked up the sound. Further, once the audio data is stored in the memory 38, as will be described later, the signal processing unit 33 is picked up from a predetermined time before the time when the audio from the privacy protection area PRA is detected, and is stored in the memory 38. It is also possible to control the output of the sound stored in. Thus, the memory 38 also functions as a buffer memory that temporarily stores audio data.

信号処理部33は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、指向性制御装置30の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。   The signal processing unit 33 is configured using, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or a DSP (Digital Signal Processor), and is used for overall control of the operation of each unit of the directivity control device 30. Control processing, data input / output processing between other units, data calculation (calculation) processing, and data storage processing are performed.

第1検出部の一例としての信号処理部33は、マイクアレイ装置MAで音声が収音された場合、音源の方向がプライバシー保護エリアの範囲内であるか否かを判定する。この方法では、信号処理部33は、例えば撮像エリアを複数のブロックに分割し、ブロック毎に音声の指向性を形成し、その指向方向に既定の閾値を超える音声があるか否かを判定し、撮像エリア内の音声位置を推定する。また、信号処理部33が音声位置を推定する方法は、例えば『論文「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」西浦敬信等、電子情報通信学会論文誌D−11 Vol.J83−D−11 No.8 pp.1713−1721 2000年8月』の文献に記載されている方法でもよい。   The signal processing unit 33 as an example of the first detection unit determines whether or not the direction of the sound source is within the privacy protection area when sound is collected by the microphone array apparatus MA. In this method, for example, the signal processing unit 33 divides the imaging area into a plurality of blocks, forms sound directivity for each block, and determines whether there is sound exceeding a predetermined threshold in the directivity direction. The sound position in the imaging area is estimated. The method of estimating the voice position by the signal processing unit 33 is described in, for example, “Paper“ Estimation of multiple sound source positions based on the CSP method using a microphone array ”Takanobu Nishiura et al., IEICE Transactions D-11 Vol. J83-D-11 No. 8 pp. 1713-1721 August 2000 ”may be used.

また、信号処理部33は、マイクアレイ装置MAが収音した音声データに対し、信号処理部33がプライバシー保護エリア内の位置に指向性を形成する処理を行い、その指向方向に音声が検出されているか否かを判定する方法でもよい。この場合、信号処理部33は、音声位置がプライバシー保護エリアの範囲内にあるか否かを判定できるが、プライバシー保護エリアの外側に音声位置があっても、その位置は特定されない。   In addition, the signal processing unit 33 performs processing for forming directivity at a position in the privacy protection area for the audio data collected by the microphone array apparatus MA, and the sound is detected in the directivity direction. It may be a method of determining whether or not. In this case, the signal processing unit 33 can determine whether or not the voice position is within the range of the privacy protection area, but even if the voice position is outside the privacy protection area, the position is not specified.

信号処理部33内の音圧算出部34は、マイクアレイ装置MAで収音される音声のうち、プライバシー保護エリアPRAで収音された音声の音圧を計算する。   The sound pressure calculator 34 in the signal processor 33 calculates the sound pressure of the sound collected in the privacy protection area PRA among the sounds collected by the microphone array device MA.

信号処理部33内の出力制御部35は、カメラ装置CA、マイクアレイ装置MA、ディスプレイ装置36及びスピーカ装置37の動作を制御し、カメラ装置CAから送信された映像データをディスプレイ装置36に出力させ、マイクアレイ装置MAから送信された音声データをスピーカ装置37に音声出力させる。出力制御部35は、マイクアレイ装置MAが収音して指向性制御装置30に送信した音声データを用いて指向性の形成処理を行うことで、信号処理部33により算出された収音方向の座標(θMAh,θMAv)に対応する指向方向に、音声データの指向性を形成する。   The output control unit 35 in the signal processing unit 33 controls operations of the camera device CA, the microphone array device MA, the display device 36, and the speaker device 37, and causes the display device 36 to output video data transmitted from the camera device CA. The audio data transmitted from the microphone array device MA is output to the speaker device 37 as audio. The output control unit 35 performs directivity formation processing using the audio data collected by the microphone array device MA and transmitted to the directivity control device 30, so that the sound collection direction calculated by the signal processing unit 33 is obtained. The directivity of the audio data is formed in the directivity direction corresponding to the coordinates (θMAh, θMAv).

また、出力制御部35は、算出された指向方向を示す座標データを基に、音声位置が予め指定されたプライバシー保護エリアPRA(図4(A)参照)内に含まれるか否かを判定する。出力制御部35は、プライバシー保護エリアPRA内に含まれると判定し、かつ、音圧算出部34によって算出されたプライバシー保護エリアPRA内の音圧pが音圧閾値shを超えたと判定した場合、マイクアレイ装置MAにより収音された音声の出力を制御する。例えば、出力制御部35は、マイクアレイ装置MAにより収音された音声に代えて、所定の代替音(例えば通称「ピー音」)を再生して出力する。ピー音は1kHz等の正弦波(サイン波)を有する音声であり、その音声波形のデータは出力制御部35内のメモリに予め登録されている。なお、代替音は「ピー音」に限るものではなく、メロディ音やノイズ音等であってもよいし、「ただいま音声をマスクしています」等のアナウンスでもよい。つまり、誰が発した声であるか、その声を発した人物の特定が困難になるように音声が出力されれば、音声の出力制御の方法は限定されない。   Further, the output control unit 35 determines whether or not the audio position is included in the designated privacy protection area PRA (see FIG. 4A) based on the coordinate data indicating the calculated directivity direction. . When the output control unit 35 determines that the sound pressure is included in the privacy protection area PRA and the sound pressure p in the privacy protection area PRA calculated by the sound pressure calculation unit 34 exceeds the sound pressure threshold sh, Controls the output of the sound collected by the microphone array device MA. For example, the output control unit 35 reproduces and outputs a predetermined alternative sound (for example, commonly called “beep sound”) instead of the sound collected by the microphone array device MA. The beep sound is a sound having a sine wave (sine wave) of 1 kHz or the like, and data of the sound waveform is registered in advance in a memory in the output control unit 35. Note that the alternative sound is not limited to the “beep sound”, and may be a melody sound or a noise sound, or an announcement such as “I am currently masking the voice”. In other words, as long as the voice is output so that it is difficult to identify the person who uttered the voice and the person who uttered the voice, the method for controlling the output of the voice is not limited.

表示部の一例としてのディスプレイ装置36は、カメラ装置CAが撮像した映像データを画面に表示する。   The display device 36 as an example of a display unit displays video data captured by the camera device CA on a screen.

音声出力部の一例としてのスピーカ装置37は、マイクアレイ装置MAが収音した音声データ、又は信号処理部33が指向方向(θMAh,θMAv)に指向性が形成されたマイクアレイ装置MAが収音した音声データを音声出力する。なお、ディスプレイ装置36及びスピーカ装置37は、指向性制御装置30とは別体の装置として構成されてもよい。   The speaker device 37 as an example of the audio output unit collects the audio data collected by the microphone array device MA or the microphone array device MA in which the signal processing unit 33 has directivity formed in the directivity direction (θMAh, θMAv). Audio data is output. The display device 36 and the speaker device 37 may be configured as separate devices from the directivity control device 30.

図2は、マイクアレイ装置MAにより収音された音声に対して、特定の方向に指向性を形成する原理の一例の説明図である。指向性制御装置30は、マイクアレイ装置MAから送信された音声データを用いて、音声データの指向性制御処理によって各々のマイクロホンMA1〜MAnにより収音された各音声データを加算し、マイクアレイ装置MAの各マイクロホンMA1〜MAnの位置から特定の方向への音声(音量レベル)を強調(増幅)するために、特定方向への指向性を形成した音声データを生成する。特定の方向とは、マイクアレイ装置MAから操作部32で指定された音声位置に向かう方向である。なお、マイクアレイ装置MAによって収音される音声の指向性を形成するための音声データの指向性制御処理に関する技術は、例えば特開2014−143678号公報や特開2015−029241号公報(特許文献1)等に示されるように、公知の技術である。   FIG. 2 is an explanatory diagram of an example of the principle of forming directivity in a specific direction with respect to the sound collected by the microphone array apparatus MA. The directivity control device 30 uses the sound data transmitted from the microphone array device MA to add the sound data collected by each of the microphones MA1 to MAn by the sound data directivity control processing, and the microphone array device. In order to emphasize (amplify) the sound (volume level) in the specific direction from the position of each of the microphones MA1 to MAn of the MA, sound data having directivity in the specific direction is generated. The specific direction is a direction from the microphone array device MA toward the sound position designated by the operation unit 32. For example, Japanese Unexamined Patent Application Publication No. 2014-143678 and Japanese Unexamined Patent Application Publication No. 2015-029241 (Patent Documents) are related to the directivity control processing of audio data for forming the directivity of audio collected by the microphone array device MA. As shown in 1) and the like, this is a known technique.

図2では、説明を分かり易くするため、マイクロホンは直線上に一次元配列としている。この場合、指向性は面内の二次元空間になるが、三次元空間で指向性を形成するためには、マイクロホンを二次元配列にして同様な処理方法を行えば良い。   In FIG. 2, the microphones are arranged in a one-dimensional array on a straight line for easy understanding. In this case, the directivity is an in-plane two-dimensional space, but in order to form the directivity in the three-dimensional space, a similar processing method may be performed by arranging the microphones in a two-dimensional array.

音源80から発した音波は、マイクアレイ装置MAに内蔵される各マイクロホンMA1,MA2,MA3,〜,MA(n−1),MAnに対し、ある一定の角度(入射角=(90−θ)[度])で入射する。入射角θは、マイクアレイ装置MAから音声位置に向かう指向方向の水平角θMAhでも垂直角θMAvでもよい。   The sound wave emitted from the sound source 80 is a certain angle (incident angle = (90−θ)) with respect to each of the microphones MA1, MA2, MA3,..., MA (n−1), MAn built in the microphone array apparatus MA. [Degree]). The incident angle θ may be the horizontal angle θMAh or the vertical angle θMAv in the directing direction from the microphone array device MA toward the sound position.

音源80は、例えばマイクアレイ装置MAが収音する収音方向に存在するカメラ装置CAの被写体である人物の会話であり、マイクアレイ装置MAの筐体21の面上に対し、所定角度θの方向に存在する。また、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAn間の間隔dは一定とする。   The sound source 80 is, for example, a conversation of a person who is a subject of the camera device CA existing in the sound collection direction in which the microphone array device MA collects sound, and has a predetermined angle θ with respect to the surface of the casing 21 of the microphone array device MA. Exists in the direction. Further, the distance d between the microphones MA1, MA2, MA3,..., MA (n−1), MAn is constant.

音源80から発した音波は、最初にマイクロホンMA1に到達して収音され、次にマイクロホンMA2に到達して収音され、同様に次々に収音され、最後にマイクロホンMAnに到達して収音される。   The sound wave emitted from the sound source 80 first reaches the microphone MA1 and is collected, then reaches the microphone MA2 and is collected one after another, and is collected one after another, and finally reaches the microphone MAn and is collected. Is done.

マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnが収音したアナログの音声データを、A/D変換器241,242,243,〜,24(n−1),24nにおいてデジタルの音声データにAD変換する。   The microphone array device MA converts analog audio data collected by the microphones MA1, MA2, MA3,..., MA (n−1), MAn into A / D converters 241, 242, 243,. -1) AD conversion into digital audio data at 24n.

更に、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nにおいて、各々のマイクロホンMA1,MA2,MA3,…,MA(n−1),MAnにおける到達時間差に対応する遅延時間を与えて全ての音波の位相をそろえた後、加算器26において遅延処理後の音声データを加算する。これにより、マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnに、所定角度θの方向に音声データの指向性を形成する。   Further, the microphone array apparatus MA includes a difference in arrival time in each of the microphones MA1, MA2, MA3, ..., MA (n-1), MAn in the delay units 251, 252, 253, ..., 25 (n-1), 25n. After the delay times corresponding to are provided and the phases of all the sound waves are aligned, the adder 26 adds the audio data after the delay processing. Thereby, the microphone array apparatus MA forms the directivity of the audio data in the direction of the predetermined angle θ in each of the microphones MA1, MA2, MA3,..., MA (n−1), MAn.

このように、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nに設定される遅延時間D1,D2,D3,〜,Dn−1,Dnを変更することで、収音した音声データの指向性を簡易に形成することができる。   Thus, the microphone array apparatus MA changes the delay times D1, D2, D3,..., Dn-1, Dn set in the delay units 251, 252, 253,..., 25 (n-1), 25n. Thus, the directivity of the collected voice data can be easily formed.

図3は、カメラ装置CAの内部構成の一例を示すブロック図である。カメラ装置CAは、CPU41、通信部42、電源供給部44、イメージエリアセンサ45、メモリ46及びネットワークコネクタ47を有する。   FIG. 3 is a block diagram illustrating an example of the internal configuration of the camera apparatus CA. The camera device CA includes a CPU 41, a communication unit 42, a power supply unit 44, an image area sensor 45, a memory 46, and a network connector 47.

CPU41は、カメラ装置CAの各部を統括的に制御する。また、CPU41は、イメージエリアセンサ45で撮像された画像を基に、撮像エリアSA内の人物の動きを検出する動き検出部41zを有する。人物の動きを検出する方法としては、様々な公知技術がある。例えば、第2検出部の一例としての動き検出部41zは、撮像された画像フレーム間の差分を演算し、この画像フレーム差分から得られる動き領域の中に、縦の長さ及び横の長さの比率が人物と想定される範囲内のものがある場合、その動き領域を人物の動きとして検出する。   CPU41 controls each part of camera apparatus CA centralizedly. In addition, the CPU 41 includes a motion detection unit 41z that detects the movement of a person in the imaging area SA based on the image captured by the image area sensor 45. There are various known techniques for detecting the movement of a person. For example, the motion detection unit 41z as an example of the second detection unit calculates a difference between the captured image frames, and the vertical length and the horizontal length are included in the motion region obtained from the image frame difference. If there is a ratio within a range that is assumed to be a person, the movement area is detected as a person's movement.

イメージエリアセンサ45は、撮像エリアSAを撮像して画像データを取得するものであり、CMOS(相補性金属酸化膜半導体)センサを有する。なお、CMOSセンサの代わりに、CCD(電荷結合素子)センサが用いられてもよい。   The image area sensor 45 captures the imaging area SA and acquires image data, and includes a CMOS (complementary metal oxide semiconductor) sensor. A CCD (charge coupled device) sensor may be used instead of the CMOS sensor.

メモリ46は、動作プログラムや設定値のデータが格納されたROM、画像データやワークデータを記憶するRAM、及びカメラ装置CAに挿抜自在に接続され、各種データが記憶されるメモリカードを有する。   The memory 46 includes a ROM that stores operation programs and setting value data, a RAM that stores image data and work data, and a memory card that is detachably connected to the camera apparatus CA and stores various data.

通信部42は、ネットワークコネクタ47を介して接続されるネットワークNWとのデータ通信を制御するネットワークインタフェース(I/F)である。   The communication unit 42 is a network interface (I / F) that controls data communication with the network NW connected via the network connector 47.

電源供給部44は、カメラ装置CAの各部に直流電源を供給し、また、ネットワークコネクタ47を介してネットワークNWに接続される機器に直流電源を供給する。ネットワークコネクタ47は、画像データ等の通信データを伝送し、また、ネットワークケーブルを介して給電可能なコネクタである。   The power supply unit 44 supplies DC power to each unit of the camera apparatus CA, and supplies DC power to devices connected to the network NW via the network connector 47. The network connector 47 is a connector capable of transmitting communication data such as image data and supplying power via a network cable.

上記構成を有する指向性制御システム10の動作を示す。   An operation of the directivity control system 10 having the above configuration will be described.

図4(A)は、プライバシー保護エリアPRAを指定する前の音声処理動作の一例を説明する図である。カメラ装置CAによって撮像される撮像エリアSAは、応接スペース71の内側である。応接スペース71では、2人の人物p1,p2がそれぞれ椅子に73、74に腰かけた状態で向かい合って会話している。指向性制御装置30のスピーカ装置37からは、マイクアレイ装置MAで収音された、人物p1が発声した「Hello」の音声が出力されている。ユーザは、指向性制御装置30のディスプレイ装置36の画面に表示されたカメラ装置CAの撮像映像に対し、指FGで画面をなぞるようにプライバシー保護エリアPRAを指定する。ここでは、人物p2を囲むように、プライバシー保護エリアPRAが指定される。なお、プライバシー保護エリアの指定は、これに限らず、範囲を表す位置座標をキーボードから直接入力し、又は映像に現れる特定の顔画像を認識し、その顔画像を囲む範囲に設定する等の画像処理によって行われてもよい。   FIG. 4A is a diagram for explaining an example of an audio processing operation before designating the privacy protection area PRA. The imaging area SA imaged by the camera device CA is inside the reception space 71. In the reception space 71, two persons p1 and p2 are conversing with each other in a state of sitting on chairs 73 and 74, respectively. From the speaker device 37 of the directivity control device 30, “Hello” sound that is picked up by the microphone array device MA and uttered by the person p 1 is output. The user designates the privacy protection area PRA so that the captured image of the camera device CA displayed on the screen of the display device 36 of the directivity control device 30 is traced with the finger FG. Here, the privacy protection area PRA is designated so as to surround the person p2. The designation of the privacy protection area is not limited to this, and the position coordinates representing the range are directly input from the keyboard, or a specific face image appearing in the video is recognized and set in a range surrounding the face image. It may be performed by processing.

図4(B)は、プライバシー保護エリアPRAを指定した後の音声処理動作の一例を説明する図である。設定管理部39が、ユーザによって指定されたプライバシー保護エリアPRAの位置座標をメモリ39zに保存すると、撮像エリアSAに対してプライバシー保護エリアPRAが設定される。応接スペース71では、人物p1が「Hello」と発声し、人物p2が「Thanks」と発声している。人物p2はプライバシー保護エリアPRA内であるので、人物p2が発声している期間、マイクアレイ装置MAで収音される音声は、マスク処理され、スピーカ装置37からは出力制御部35によって再生された「ピー音」だけが出力される。   FIG. 4B is a diagram for explaining an example of the voice processing operation after the privacy protection area PRA is designated. When the setting management unit 39 stores the position coordinates of the privacy protection area PRA designated by the user in the memory 39z, the privacy protection area PRA is set for the imaging area SA. In the reception space 71, the person p1 utters “Hello” and the person p2 utters “Thanks”. Since the person p2 is within the privacy protection area PRA, the sound picked up by the microphone array device MA is masked during the period when the person p2 is uttered, and is reproduced by the output control unit 35 from the speaker device 37. Only “beep” is output.

図5は、第1の実施形態の指向性制御装置30の音声処理手順の一例を説明するフローチャートである。まず、指向性制御装置30内の設定管理部39は、初期設定を行う(S1)。この初期設定では、カメラ装置CAで撮像された映像の映像データが表示されたディスプレイ装置36に対し、ユーザが指FG或いはスタイラスペンで点線枠にて囲むようにプライバシー保護エリアPRA(図4(A)参照)を指定する。   FIG. 5 is a flowchart illustrating an example of a voice processing procedure of the directivity control device 30 according to the first embodiment. First, the setting management unit 39 in the directivity control device 30 performs initial setting (S1). In this initial setting, the privacy protection area PRA (FIG. 4A) is displayed so that the user surrounds the display device 36 on which the video data of the image captured by the camera device CA is displayed with a dotted frame with a finger FG or a stylus pen. )) Is specified.

設定管理部39は、指定されたプライバシー保護エリアPRAの座標を、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標に変換する。更に、設定管理部39は、マイクアレイ装置MAで収音された音圧pと比較されるための音圧閾値shを設定する。音圧閾値shは、前述したように、マイクアレイ装置MAで収音され、スピーカ装置37から出力される音声をユーザが聞き取れない、或いは聞き取れてもその内容が分からないような値に設定される。   The setting management unit 39 converts the coordinates of the designated privacy protection area PRA into coordinates indicating the directivity direction from the microphone array device MA toward the voice area corresponding to the privacy protection area. Furthermore, the setting management unit 39 sets a sound pressure threshold sh for comparison with the sound pressure p collected by the microphone array apparatus MA. As described above, the sound pressure threshold sh is set to such a value that the user cannot hear the sound collected by the microphone array device MA and output from the speaker device 37, or the contents cannot be understood even if the user can hear it. .

通信部31は、マイクアレイ装置MAから出力される音声データを受信して入力する(S2)。更に、通信部31は、カメラ装置CAから出力される画像データを受信して入力する(S3)。   The communication unit 31 receives and inputs audio data output from the microphone array apparatus MA (S2). Further, the communication unit 31 receives and inputs image data output from the camera device CA (S3).

信号処理部33は、動き検出部41zが画像データに対し画像処理を行った結果、人物の動きを検出したか否かを判別する(S4)。ここでは、指向性制御装置30は、カメラ装置CAから映像データを受信する際、画像データに対し画像処理を行った結果、得られた人物の動き情報を同時に受信する。この人物の動きの検出は、カメラ装置CAが撮像した撮像エリアSA内の全領域の画像に対して行われてもよいし、撮像エリアSA内に設定されたプライバシー保護エリアPRA内の画像に対してだけ行われてもよい。また、ここでは、カメラ装置CA内の動き検出部41zが画像データに対し画像処理を行って人物の動きを検出したが、指向性制御装置30内の信号処理部33がカメラ装置CAから受信した映像データに含まれる画像データに対し画像処理を行い、人物の動きを検出するようにしてもよい。   The signal processing unit 33 determines whether or not the motion of the person is detected as a result of the image processing performed on the image data by the motion detection unit 41z (S4). Here, the directivity control device 30 simultaneously receives the motion information of the person obtained as a result of performing image processing on the image data when receiving video data from the camera device CA. The detection of the movement of the person may be performed on an image of the entire area in the imaging area SA captured by the camera apparatus CA, or on an image in the privacy protection area PRA set in the imaging area SA. It may be done only. Also, here, the motion detection unit 41z in the camera apparatus CA performs image processing on the image data to detect the movement of the person, but the signal processing unit 33 in the directivity control apparatus 30 receives from the camera apparatus CA. Image processing may be performed on the image data included in the video data to detect the movement of the person.

人物の動きが検出されなかった場合、信号処理部33の処理は、ステップS7に進む。一方、人物の動きが検出された場合、信号処理部33は、マイクアレイ装置MAで収音された音声データの音源がプライバシー保護エリアPRA内にあるか否かを判定する。プライバシー保護エリアPRA内にあると判定された場合、音圧算出部34は、その音圧を計算する(S5)。ここで、マイクアレイ装置MAで収音された音声データの音源がプライバシー保護エリアPRA内にあるか否かの判定は、前述したいずれかの方法で行われる。   If no movement of the person is detected, the processing of the signal processing unit 33 proceeds to step S7. On the other hand, when the movement of a person is detected, the signal processing unit 33 determines whether the sound source of the audio data collected by the microphone array device MA is in the privacy protection area PRA. When it is determined that it is within the privacy protection area PRA, the sound pressure calculation unit 34 calculates the sound pressure (S5). Here, the determination as to whether the sound source of the audio data collected by the microphone array apparatus MA is within the privacy protection area PRA is performed by any of the methods described above.

出力制御部35は、音圧算出部34によって計算された音圧pと、設定管理部39内のメモリ39zに記憶された音圧閾値shとを比較し、音圧pが音圧閾値sh以下であるか否かを判別する(S6)。音圧pが音圧閾値sh以下である場合、出力制御部35は、マイクアレイ装置MAで収音された音声をそのままスピーカ装置37から出力させる(S7、図4(A)参照)。この後、指向性制御装置30の処理は、ステップS2に戻る。   The output control unit 35 compares the sound pressure p calculated by the sound pressure calculation unit 34 with the sound pressure threshold sh stored in the memory 39z in the setting management unit 39, and the sound pressure p is equal to or less than the sound pressure threshold sh. It is determined whether or not (S6). When the sound pressure p is less than or equal to the sound pressure threshold sh, the output control unit 35 causes the speaker device 37 to output the sound collected by the microphone array device MA as it is (see S7, FIG. 4A). Thereafter, the process of the directivity control device 30 returns to step S2.

一方、ステップS4で音圧pが音圧閾値shを超える場合、出力制御部35は、マイクアレイ装置MAで収音された音声データの代替音であるピー音(例えば1kHzの正弦波を有する音)のデータをスピーカ装置37から出力させる(S8、図4(B)参照)。この後、指向性制御装置30の処理は、ステップS2に戻る。   On the other hand, when the sound pressure p exceeds the sound pressure threshold sh in step S4, the output control unit 35 generates a beep sound (for example, a sound having a sine wave of 1 kHz) that is an alternative sound of the sound data collected by the microphone array device MA. ) Is output from the speaker device 37 (S8, see FIG. 4B). Thereafter, the process of the directivity control device 30 returns to step S2.

図6は、動き検出動作を説明する図である。図6では、カメラ装置CAによって事務所の一角が映像として撮像される。ここでは、この事務所の一角は、プライバシー保護エリアPRAに設定されている。また、説明を分かり易くするために、一例として、連続的に撮像される画像フレームのうち、100フレーム毎に画像フレームを抽出し、これらの画像フレーム間の差分を演算する場合を示す。100フレーム毎に画像フレームを抽出することで、たとえ人物の動きが遅くても、フレーム間差分により動き領域が検出し易くなる。なお、カメラ装置CAで撮像される画像のフレームレートが低い場合には、例えばカメラ装置CAが静止画を1秒ごとに1枚撮像するような場合には、隣接する画像フレーム間の差分を演算しても、人物の遅い動きによる動き領域は十分に検出される。図6に示す映像には、人物hm1が歩きながら携帯電話gtを操作し、会話を行っているシーンが含まれる。   FIG. 6 is a diagram for explaining the motion detection operation. In FIG. 6, a corner of the office is captured as an image by the camera device CA. Here, one corner of this office is set in the privacy protection area PRA. In addition, in order to make the explanation easy to understand, as an example, a case where an image frame is extracted every 100 frames out of continuously captured image frames and a difference between these image frames is calculated is shown. By extracting an image frame every 100 frames, even if the movement of a person is slow, it becomes easy to detect a motion region by a difference between frames. When the frame rate of an image captured by the camera device CA is low, for example, when the camera device CA captures one still image per second, the difference between adjacent image frames is calculated. Even so, the motion region due to the slow motion of the person is sufficiently detected. The video illustrated in FIG. 6 includes a scene in which the person hm1 operates the mobile phone gt while walking and has a conversation.

画像フレームGZ1と画像フレームGZ2の間では、画像フレーム間で差分が生じず、人物の動きは検出されない。続く、画像フレームGZ2と画像フレームGZ3の間では、画像フレーム間に差分が有り、動き領域として人物hm1の動きが検出される。同様に、画像フレームGZ3と画像フレームGZ4の間、画像フレームGZ4と画像フレームGZ5の間、画像フレームGZ5と画像フレームGZ6の間でも、画像フレーム間で差分が有り、動き領域として人物hm1の動きが検出される。その後、再び、画像フレームGZ6と画像フレームGZ7の間では、画像フレーム間で差分が生じず、動き領域として人物の動きが検出されない。従って、人物hm1の動きが検出された、画像フレームGZ2〜GZ6の区間では、人物hm1が発する音声の音圧が音圧閾値shを超えていると、人物hm1が発する音声はマスク処理される。   There is no difference between the image frames between the image frames GZ1 and GZ2, and no human motion is detected. Subsequently, there is a difference between the image frames GZ2 and GZ3, and the motion of the person hm1 is detected as a motion region. Similarly, there is a difference between the image frames between the image frame GZ3 and the image frame GZ4, between the image frame GZ4 and the image frame GZ5, and between the image frame GZ5 and the image frame GZ6. Detected. Thereafter, again, no difference occurs between the image frames GZ6 and GZ7, and the movement of the person is not detected as a motion region. Therefore, in the section of the image frames GZ2 to GZ6 where the movement of the person hm1 is detected, if the sound pressure of the sound emitted by the person hm1 exceeds the sound pressure threshold sh, the sound emitted by the person hm1 is masked.

図7は、カメラ装置CAで撮像される撮像エリアSAに音源が存在しかつ人物の動きが無い場合の音声処理動作を説明する図である。この撮像エリアSAは、プライバシー保護エリアPRAに設定された、エレベータELの周辺である。エレベータELの両側には、スピーカSP及び固定電話機TLが設置されている。この状況では、スピーカSPは音楽を出力し、また、固定電話機TLが鳴動しているが、エレベータELの周辺には、人物の動きが無いので、マイクアレイ装置MAで収音された音声をマスク処理してスピーカ装置37から出力させる制御は行われない。このように、撮像された画像フレーム間で人物の動きが検出されない場合、音声が検出されても人物が発した音声である可能性は低いので、音声を秘匿化する必要が無く、無用な処理を省くことができる。これにより、処理の軽減が図れる。   FIG. 7 is a diagram for explaining an audio processing operation when a sound source exists in the imaging area SA imaged by the camera device CA and there is no movement of a person. The imaging area SA is the vicinity of the elevator EL set in the privacy protection area PRA. A speaker SP and a fixed telephone TL are installed on both sides of the elevator EL. In this situation, the speaker SP outputs music and the fixed telephone TL is ringing, but since there is no movement of the person around the elevator EL, the sound collected by the microphone array apparatus MA is masked. Control for processing and outputting from the speaker device 37 is not performed. In this way, when the movement of a person is not detected between the captured image frames, it is unlikely that the voice is generated by the person even if the voice is detected, so there is no need to conceal the voice and useless processing Can be omitted. As a result, processing can be reduced.

図8は、図7と同様のカメラ装置CAで撮像される撮像エリアSAに音源が存在しかつ人物の動きが有る場合の音声処理動作を説明する図である。この状況では、スピーカSPは音楽を出力し、また、固定電話機TLが鳴動し、さらに、エレベータELの前には、2人の人物hm2,hm3が会話しながら握手している。この場合、撮像された画像フレームに含まれる全ての音源から発せられる音声の音圧(総量又は平均値)が音圧閾値shを超えていると、マイクアレイ装置MAで収音された音声をマスク処理してスピーカ装置37から出力させる制御が行われる。   FIG. 8 is a diagram illustrating an audio processing operation when a sound source exists in the imaging area SA imaged by the camera apparatus CA similar to FIG. 7 and there is a person's movement. In this situation, the speaker SP outputs music, the fixed telephone TL rings, and two people hm2 and hm3 are shaking hands while talking before the elevator EL. In this case, if the sound pressure (total amount or average value) of sounds emitted from all sound sources included in the captured image frame exceeds the sound pressure threshold sh, the sound collected by the microphone array apparatus MA is masked. Control for processing and outputting from the speaker device 37 is performed.

以上により、第1の実施形態の指向性制御システム10では、カメラ装置CAは、撮像エリアSAの映像を撮像する。マイクアレイ装置MAは、撮像エリアSAの音声を収音する。ディスプレイ装置36は、カメラ装置CAにより撮像された撮像エリアSAの映像データを表示する。スピーカ装置37は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を出力する。設定管理部39は、ディスプレイ装置36に表示された撮像エリアSAの映像データに対して指定されたプライバシー保護エリアPRAの位置情報をメモリ39zに記憶しておく。信号処理部33は、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音源を検出する。カメラ装置CAの動き検出部41zは、撮像エリアSAにおける人物の動きを検出する。動き検出部41zにより人物の動きが検出され、かつ、信号処理部33により検出された音源がプライバシー保護エリアPRAの範囲内である場合に、出力制御部35は、マイクアレイ装置MAにより収音され、スピーカ装置37から出力される撮像エリアSAの音声を制御する。従って、マイクアレイ装置MAで収音される音圧pが音圧閾値shを超えている間(期間)、代替音であるピー音がスピーカ装置37から出力される。   As described above, in the directivity control system 10 of the first embodiment, the camera device CA captures an image of the imaging area SA. The microphone array device MA picks up the sound of the imaging area SA. The display device 36 displays video data of the imaging area SA captured by the camera device CA. The speaker device 37 outputs the sound of the imaging area SA picked up by the microphone array device MA. The setting management unit 39 stores the position information of the privacy protection area PRA specified for the video data of the imaging area SA displayed on the display device 36 in the memory 39z. The signal processing unit 33 detects the sound source of the sound in the imaging area SA collected by the microphone array device MA. The motion detection unit 41z of the camera device CA detects a person's motion in the imaging area SA. When the motion of the person is detected by the motion detector 41z and the sound source detected by the signal processor 33 is within the privacy protection area PRA, the output controller 35 is picked up by the microphone array device MA. The sound of the imaging area SA output from the speaker device 37 is controlled. Therefore, while the sound pressure p collected by the microphone array device MA exceeds the sound pressure threshold sh (period), a beep sound as an alternative sound is output from the speaker device 37.

このように、カメラ装置CAによって撮像された撮像エリアSAで人物の動きが検出され、かつ撮像エリアSAのうち、プライバシー保護エリアPRA内で発声があった場合、その期間、マイクアレイ装置MAで収音された音声全体が代替音(「ピー音」)に変わるので、プライバシー保護エリアPRAを含め、撮像エリアSA内で発声した全ての音声の内容が分からなくなる。これにより、プライバシー保護エリア内で音声が発せられても、その内容が他人に知られることなく、プライバシー保護を向上できる。また、代替音である「ピー音」は、TV放送でもよく使われている音声であるので、これを聞いたユーザは、音声が秘匿化(マスク処理)されていることを容易に知ることができる。   As described above, when the movement of a person is detected in the imaging area SA imaged by the camera apparatus CA and the utterance is made in the privacy protection area PRA in the imaging area SA, the microphone array apparatus MA collects the voice during that period. Since the entire sound that has been sounded is changed to a substitute sound (“beep sound”), the contents of all the sound uttered in the imaging area SA including the privacy protection area PRA cannot be understood. Thereby, even if sound is emitted in the privacy protection area, the content can be improved without being known to others. In addition, “Peep”, which is an alternative sound, is a sound that is often used in TV broadcasting, so that a user who hears it can easily know that the sound is concealed (mask processing). it can.

また、撮像エリアで人物の動きが検出された場合に限って、マイクアレイ装置MAで収音された音声がピー音に代わるので、人物が発した可能性が高い音声だけを秘匿化することができ、不必要な音声を秘匿化しなくて済む。   Further, only when a movement of a person is detected in the imaging area, the sound collected by the microphone array device MA is replaced by a beep sound, so that only the sound that is likely to be emitted by the person may be concealed. It is possible, and unnecessary voices need not be concealed.

これにより、プライバシー保護エリア内で人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制することができる。   As a result, even if a voice is uttered by a person in the privacy protection area, the content of the voice uttered by the person is not known to other people, and deterioration of the privacy protection of the person can be suppressed.

また、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音圧pが音圧閾値shを超える場合、出力制御部35は、スピーカ装置37の出力をマスク処理により制御し、一方、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音圧が音圧閾値shを超えない場合、出力制御部35は、スピーカ装置37の出力に対しマスク処理による制御を行わない。   When the sound pressure p of the sound of the imaging area SA collected by the microphone array device MA exceeds the sound pressure threshold sh, the output control unit 35 controls the output of the speaker device 37 by mask processing, while the microphone When the sound pressure of the sound of the imaging area SA picked up by the array device MA does not exceed the sound pressure threshold sh, the output control unit 35 does not control the output of the speaker device 37 by mask processing.

これにより、プライバシー保護エリアPRAの範囲内で音声が発せられても、その音圧が低い場合には、マスク処理により音声の出力を制御することなく、そのまま出力させることで、不要な処理を省くことができ、処理の負荷を軽減できる。   As a result, even if sound is emitted within the privacy protection area PRA, if the sound pressure is low, unnecessary processing is omitted by outputting the sound as it is without controlling the sound output by mask processing. Can reduce the processing load.

また、出力制御部35は、マイクアレイ装置MAにより収音された音声を代替音に代えてスピーカ装置37から出力させる。撮像エリアSA内の音声全体が代替音(ピー音)に変わるので、プライバシー保護エリアから外れた人物(図4では人物p1)が発する音声から会話の内容を推測することも難しく、秘匿性が高まる。   Further, the output control unit 35 causes the speaker device 37 to output the sound collected by the microphone array device MA instead of the substitute sound. Since the entire sound in the imaging area SA is changed to a substitute sound (beep sound), it is difficult to guess the content of the conversation from the sound emitted by the person (person p1 in FIG. 4) who is out of the privacy protection area, and the confidentiality is improved. .

また、指向性制御装置30内の設定管理部39は、操作部32からプライバシー保護エリアPRAの指定操作を受け付けると、指定操作に応じた位置座標を指定されたプライバシー保護エリアの位置情報に設定する。例えば、カメラ装置CAによって撮像される映像に対し、指FGで画面をなぞるようにプライバシー保護エリアPRAを指定することで、ユーザはプライバシー保護エリアを任意に設定できる。   When the setting management unit 39 in the directivity control device 30 receives a designation operation for the privacy protection area PRA from the operation unit 32, the setting management unit 39 sets the position coordinates corresponding to the designation operation as the position information of the designated privacy protection area. . For example, the user can arbitrarily set the privacy protection area by designating the privacy protection area PRA so that the image captured by the camera apparatus CA is traced with the finger FG.

また、信号処理部33は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を収音時刻とともにメモリ38に記憶する。出力制御部35は、信号処理部33により検出された音源がプライバシー保護エリアPRAの範囲内である場合に、音源が検出される所定時間前からメモリ38に記憶された音声のスピーカ装置37からの出力を制御する。   Further, the signal processing unit 33 stores the sound of the imaging area SA picked up by the microphone array device MA in the memory 38 together with the sound pickup time. When the sound source detected by the signal processing unit 33 is within the privacy protection area PRA, the output control unit 35 receives the sound from the speaker device 37 stored in the memory 38 from a predetermined time before the sound source is detected. Control the output.

このように、プライバシー保護エリアPRAからの音声が検出される所定時間前から、音声出力が制御されるので、音声検出から代替音を出力するまでの処理に要する僅かな時間(例えば3秒程度の数秒間)、プライバシー保護エリア内の音声の冒頭部分(出だし部分)がマスク処理されることなく出力されることを防止できる。従って、音声の冒頭部分から内容が察せられることも回避される。この場合、一旦、収音した音声データをメモリに記憶した後に音声を再生する事後再生、或いはマイクアレイ装置MAで収音される音声の収音時間より少し遅れて(リアルタイムよりディレイをかけて)音声を再生する場合に有効である。所定時間は、マイクアレイ装置MAが音声を収音してから、その音声がプライバシー保護エリア内で検出されたものであるか否かを判定するまでに要する僅かな時間(例えば3秒程度の数秒間)である。   As described above, since the sound output is controlled from a predetermined time before the sound from the privacy protection area PRA is detected, a short time (for example, about 3 seconds) required from the sound detection to the output of the substitute sound. For several seconds, it is possible to prevent the beginning portion (starting portion) of the voice in the privacy protection area from being output without being masked. Accordingly, it is possible to avoid the content being perceived from the beginning of the voice. In this case, once the collected sound data is stored in the memory, the sound is played back after the playback, or the sound collection time of the sound collected by the microphone array device MA is slightly delayed (with a delay from real time). This is effective when playing back audio. The predetermined time is a short time (for example, a number of about 3 seconds) required for determining whether or not the voice is detected in the privacy protection area after the microphone array apparatus MA picks up the voice. Second).

また、撮像エリアSAで撮像された人物の動きが検出されない場合、指向性制御装置30は、音声の出力を制御することなく、そのま音声を出力させるので、無用な処理を省くことができ、処理の軽減が図れる。   Further, when the movement of the person imaged in the imaging area SA is not detected, the directivity control device 30 outputs the voice as it is without controlling the output of the voice, so that unnecessary processing can be omitted. Processing can be reduced.

(第2の実施形態)
前述した第1の実施形態では、プライバシー保護エリアで音声が発せられた場合、撮像エリア内で検出された全ての音声の代替音としてピー音を出力する場合を示したが、第2の実施形態では、プライバシー保護エリアで音声が発せられた場合、全ての音声を消去(ミュート)して無音状態にする場合を示す。
(Second Embodiment)
In the first embodiment described above, when a sound is emitted in the privacy protection area, a case where a beep sound is output as a substitute sound for all the sounds detected in the imaging area has been described. Then, when the voice is emitted in the privacy protection area, the case where all the voices are erased (muted) to be in a silent state is shown.

第2の実施形態における指向性制御システムのハードウェア構成は、前述した第1の実施形態と同じであるので、同一の符号を用いることでその説明を省略する。   Since the hardware configuration of the directivity control system in the second embodiment is the same as that of the first embodiment described above, description thereof is omitted by using the same reference numerals.

図9(A)は、プライバシー保護エリアPRAを指定する前の音声処理動作の一例を説明する図である。図4(A)と同様、撮像エリアSAの内側にある応接スペース71では、2人の人物p1,p2がそれぞれ椅子に73、74に腰かけた状態で向かい合って会話している。指向性制御装置30のスピーカ装置37からは、人物p1が発声した「Hello」の音声が出力されている。ユーザは、指向性制御装置30のディスプレイ装置36の画面に表示された、カメラ装置CAによって撮像された映像に対し、指FG又はスタイラスペンで画面をなぞるようにプライバシー保護エリアPRAを指定する。ここでは、人物p2を囲むように、プライバシー保護エリアPRAが指定される。   FIG. 9A is a diagram for explaining an example of the voice processing operation before designating the privacy protection area PRA. As in FIG. 4A, in the reception space 71 inside the imaging area SA, two persons p1 and p2 are conversing face to face while sitting on chairs 73 and 74, respectively. The speaker device 37 of the directivity control device 30 outputs “Hello” sound uttered by the person p1. The user designates the privacy protection area PRA so that the image captured by the camera device CA displayed on the screen of the display device 36 of the directivity control device 30 is traced with the finger FG or the stylus pen. Here, the privacy protection area PRA is designated so as to surround the person p2.

図9(B)は、プライバシー保護エリアPRAを指定した後の音声処理動作の一例を説明する図である。設定管理部39が、ユーザによって指定されたプライバシー保護エリアPRAの座標をメモリ39zに保存すると、撮像エリアSAに対しプライバシー保護エリアPRAが設定される。応接スペース71では、人物p1が「Hello」と発声し、人物p2が「Thanks」と発声している。人物p2はプライバシー保護エリアPRA内であるので、人物p2が発声している期間、スピーカ装置37からは、再生中の音声が中断されて無音となる。   FIG. 9B is a diagram for explaining an example of the voice processing operation after the privacy protection area PRA is designated. When the setting management unit 39 stores the coordinates of the privacy protection area PRA designated by the user in the memory 39z, the privacy protection area PRA is set for the imaging area SA. In the reception space 71, the person p1 utters “Hello” and the person p2 utters “Thanks”. Since the person p2 is in the privacy protection area PRA, during the period when the person p2 is speaking, the sound being reproduced is interrupted and becomes silent.

図10は、第2の実施形態の指向性制御装置30の音声処理手順の一例を説明するフローチャートである。第1の実施形態における図5と同一のステップ処理については、同一のステップ番号を付すことにより、その説明を省略する。   FIG. 10 is a flowchart illustrating an example of a voice processing procedure of the directivity control device 30 according to the second embodiment. About the same step process as FIG. 5 in 1st Embodiment, the description is abbreviate | omitted by attaching | subjecting the same step number.

ステップS6で音圧pが音圧閾値shを超える場合、出力制御部35は、スピーカ装置37から何も音声を出力させない。つまり、指向性制御装置30の処理は、そのままステップS2に戻る。   When the sound pressure p exceeds the sound pressure threshold sh in step S <b> 6, the output control unit 35 does not output any sound from the speaker device 37. That is, the process of the directivity control device 30 returns to step S2 as it is.

以上により、第2の実施形態の指向性制御システム10では、プライバシー保護エリアPRA内で発声があった場合、その期間、マイクアレイ装置MAで収音された撮像エリアSA内の全ての音声の出力が遮断される。これにより、プライバシー保護エリアPRAから発せられた音声も当然に聞こえなくなる(つまり、無音状態となる)。   As described above, in the directivity control system 10 according to the second embodiment, when there is a utterance in the privacy protection area PRA, output of all the sounds in the imaging area SA collected by the microphone array device MA during that period. Is cut off. As a result, the sound emitted from the privacy protection area PRA is naturally inaudible (that is, the sound is silenced).

なお、音声出力を制限する際、無音にする代わりに、音圧を所定の音圧まで下げる、例えば1/10に低減させてもよい。音圧を下げることで、プライバシー保護エリアPRA内から音声が僅かに聞こえても、何を話しているのかその内容を分からなくすることができる。従って、プライバシー保護エリアPRA内にいる人物のプライバシー保護を向上できるので、プライバシー保護エリアPRA内にいる人物のプライバシーの劣化を抑制可能となる。   Note that when limiting the sound output, instead of silence, the sound pressure may be lowered to a predetermined sound pressure, for example, 1/10. By lowering the sound pressure, it is possible to make it difficult to understand what is being spoken even if the sound is slightly heard from within the privacy protection area PRA. Accordingly, since the privacy protection of the person in the privacy protection area PRA can be improved, it is possible to suppress the deterioration of the privacy of the person in the privacy protection area PRA.

(各実施形態の変形例)
前述した各実施形態では、指向性制御装置がプライバシー保護エリアの位置情報(つまり、位置座標)を記憶し、検出された音声位置がプライバシー保護エリアに含まれる場合、代替音としてピー音を出力する、或いは無音化していた。各実施形態の変形例(以下、単に「変形例」という)では、指向性制御装置の代わりに、これらの処理をマイクアレイ装置が行う場合を示す。
(Modification of each embodiment)
In each of the embodiments described above, the directivity control device stores the position information (that is, position coordinates) of the privacy protection area, and outputs a beep sound as an alternative sound when the detected voice position is included in the privacy protection area. Or it was silenced. In the modified example of each embodiment (hereinafter simply referred to as “modified example”), a case is shown in which the microphone array device performs these processes instead of the directivity control device.

図11は、各実施形態の変形例におけるマイクアレイ装置MBの内部構成の一例を示すブロック図である。変形例のマイクアレイ装置MBにおいて、前述した第1及び第2の実施形態におけるマイクアレイ装置MAと同一の構成要素については同一の符号を用いることでその説明を省略する。   FIG. 11 is a block diagram illustrating an example of the internal configuration of the microphone array apparatus MB according to a modification of each embodiment. In the microphone array device MB of the modification, the same components as those in the microphone array device MA in the first and second embodiments described above are denoted by the same reference numerals, and the description thereof is omitted.

マイクアレイ装置MBは、複数のマイクロホンMB1、MB2、…、MBn、アンプ231,232,…,23n、A/D変換器241,242,243,…,24n、CPU25、符号化部28及び通信部29を有する。   The microphone array device MB includes a plurality of microphones MB1, MB2,..., MBn, amplifiers 231, 232,..., 23n, A / D converters 241, 242, 243,. 29.

アンプ231,232,…,23nは、複数のマイクロホンMB1、MB2、…、MBnで収音した音声信号を増幅する。A/D変換器241,242,243,…,24nは、それぞれアンプ231,232,…,23nによって増幅された音声信号をデジタル音声データに変換する。   The amplifiers 231, 232,..., 23n amplify the sound signals collected by the plurality of microphones MB1, MB2,. The A / D converters 241, 242, 243,..., 24n convert the audio signals amplified by the amplifiers 231, 232,.

CPU25は、複数のマイクロホンMB1、MB2、…、MBnで収音し、A/D変換器241,242,243,…,24nによって変換された音声データを入力し、これらの音声データを基に、音声出力処理を行う。また、CPU25は、通信部29を介して受信したプライバシー保護エリアPRAの位置情報(つまり、位置座標)を内部メモリに記憶している。また、CPU25は、撮像エリアSA内で発せられた音声の位置を検出し、検出された音声位置がプライバシー保護エリアPRA内の位置座標と一致した場合、マイクロホンMB1,MB2,…,MBnで収音され、A/D変換器241,242,243,…,24nでそれぞれ変換された音声データの音声に対し、前述したようなマスク処理(「ピー音」の出力或いは無音化)を行う。   The CPU 25 picks up sound with a plurality of microphones MB1, MB2,..., MBn, inputs sound data converted by the A / D converters 241, 242, 243,..., 24n, and based on these sound data, Perform audio output processing. Further, the CPU 25 stores the position information (that is, position coordinates) of the privacy protection area PRA received via the communication unit 29 in the internal memory. Further, the CPU 25 detects the position of the sound emitted in the imaging area SA, and when the detected sound position matches the position coordinates in the privacy protection area PRA, the sound is collected by the microphones MB1, MB2,. .., 24n is subjected to the masking process ("peep" output or silence) as described above for the voice data converted by the A / D converters 241, 242, 243,.

符号化部28は、CPU25から出力される音声データを符号化し、ネットワークNWで伝送可能な音声パケットを生成する。通信部29は、符号化部28によって符号化された音声データを、ネットワークNWを介して指向性制御装置30に送信し、また、ネットワークNWを介して指向性制御装置30から送信されるプライバシー保護エリアPRAの位置情報を受信し、また、ネットワークNWを介してカメラ装置CAから送信される人物の動き情報を受信する。   The encoding unit 28 encodes audio data output from the CPU 25 and generates an audio packet that can be transmitted through the network NW. The communication unit 29 transmits the voice data encoded by the encoding unit 28 to the directivity control device 30 via the network NW, and privacy protection transmitted from the directivity control device 30 via the network NW. The position information of the area PRA is received, and the movement information of the person transmitted from the camera apparatus CA via the network NW is received.

以上により、変形例のマイクアレイ装置MBは、収音した音声データを、収音した時刻(収音時刻)と対応付けて記憶するとともに、記憶した音声データ及び収音時刻のデータを、ネットワークNWを介して、指向性制御装置30に送信する。また、マイクアレイ装置MBは、カメラ装置CAから受信した人物の動き情報を基に、人物の動きの有無を判定し、人物の動きが検出された場合、収音した音声データの音声位置がプライバシー保護エリアPRAの位置情報と一致するか否かを判定し、プライバシー保護エリアPRAに含まれる場合、代替音としてピー音を出力或いは無音化する。なお、代替音がこれに限られないことは前述した第1の実施形態と同様である。   As described above, the microphone array device MB according to the modified example stores the collected voice data in association with the collected time (sound collection time), and stores the stored voice data and the collected sound time data in the network NW. To the directivity control device 30. Further, the microphone array apparatus MB determines the presence or absence of a person's movement based on the person's movement information received from the camera apparatus CA. If a person's movement is detected, the voice position of the collected voice data is privacy. It is determined whether or not it matches the position information of the protection area PRA, and when included in the privacy protection area PRA, a beep sound is output or silenced as an alternative sound. Note that the alternative sound is not limited to this, as in the first embodiment described above.

ここでは、マイクアレイ装置MBは、カメラ装置CAから人物の動き情報を受信する場合を示したが、カメラ装置CAから映像データを受信し、映像データに含まれる画像データに対し、画像処理を行って人物の動きを検出するようにしてもよい。   Here, the microphone array device MB has shown the case of receiving human motion information from the camera device CA. However, the microphone array device MB receives video data from the camera device CA and performs image processing on the image data included in the video data. Thus, the movement of a person may be detected.

また、変形例の指向性制御システムでは、マイクアレイ装置MBからネットワークNWを介して送信される音声データは、マスク処理されているので、途中で盗聴されても情報が漏れることはなく、安全に音声データを送信できる。また、この場合、音声データには、マスク処理されていることを付属情報として、音声データのヘッダに付加してもよく、付加しておくことで音声データを受け取った側では、音声データがマスク処理されていることを即座に知ることができる。なお、付属情報には、時刻情報や位置情報等が含まれてもよい。   Further, in the modified directivity control system, the voice data transmitted from the microphone array device MB via the network NW is masked, so that information is not leaked even if it is intercepted on the way, and it is safe. Audio data can be transmitted. In this case, the audio data may be added to the header of the audio data as ancillary information as being masked, and the audio data is masked on the side receiving the audio data. You can know immediately that it is being processed. Note that the attached information may include time information, position information, and the like.

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。   While various embodiments have been described above with reference to the drawings, it goes without saying that the present invention is not limited to such examples. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.

例えば、上記各実施形態では、マイクアレイ装置で検出される音声の音声位置がプライバシー保護エリア内である場合、撮像エリアSAで検出された音声を必ずマスク処理(代替音、無音化等)していたが、ユーザによってはマスク処理しなくてもよい。例えば、指向性制御装置を操作するユーザが、一般ユーザである場合、マスク処理し、管理者等の権限のあるユーザである場合、マスク処理しないようにすることも可能である。いずれのユーザであるかは、例えば、指向性制御装置にログインする際のユーザID等によって判断可能である。   For example, in each of the above embodiments, when the sound position of the sound detected by the microphone array device is within the privacy protection area, the sound detected in the imaging area SA is always masked (alternative sound, silence, etc.). However, some users may not perform mask processing. For example, when the user who operates the directivity control device is a general user, it is possible to perform mask processing, and when the user is an authorized user such as an administrator, the mask processing may be disabled. Which user is the user can be determined by, for example, a user ID when logging in to the directivity control device.

また、出力制御部35は、マイクアレイ装置MAにより収音された音声の音声データに対してボイスチェンジ処理(加工処理)を施してもよい。ボイスチェンジ処理の一例として、出力制御部35は、例えばマイクアレイ装置MAにより収音された音声の音声データの周波数(ピッチ)の高低を大きく変化させる。つまり、スピーカ装置37から出力される音声の周波数を音声の内容が分かりにくくなるような他の周波数に変更することで、プライバシー保護エリア内から聞こえる音声の内容を分からなくすることができる。従って、マイクアレイ装置MAで収音された音声の内容を知ろうとしても難しくなる。このように、出力制御部35は、マイクアレイ装置MAにより収音された音声を加工処理してスピーカ装置37から出力させることで、プライバシー保護エリアPRA内に存在する被写体(例えば人物)のプライバシーを効果的に保護することができる。   Further, the output control unit 35 may perform voice change processing (processing processing) on the voice data collected by the microphone array apparatus MA. As an example of the voice change process, the output control unit 35 greatly changes the frequency (pitch) level of the voice data of the voice collected by the microphone array device MA, for example. That is, by changing the frequency of the audio output from the speaker device 37 to another frequency that makes it difficult to understand the audio content, the audio content that can be heard from within the privacy protection area can be made unknown. Therefore, it becomes difficult to know the contents of the sound collected by the microphone array apparatus MA. In this way, the output control unit 35 processes the sound collected by the microphone array device MA and outputs the processed sound from the speaker device 37, thereby protecting the privacy of a subject (for example, a person) existing in the privacy protection area PRA. It can be effectively protected.

更に、出力制御部35は、ユーザの指又はスタイラスペンによって画面上で指定された指定位置に対応する音声位置がプライバシー保護エリアPRAに含まれる旨を、画面上でユーザに対して明示的に通知してもよい。   Furthermore, the output control unit 35 explicitly notifies the user on the screen that the audio position corresponding to the designated position designated on the screen by the user's finger or stylus pen is included in the privacy protection area PRA. May be.

また、第1、第2の実施形態では、カメラ装置CAのCPU41に内蔵された動き検出部41zが人物の動きを検出していたが、カメラ装置CAは撮像エリアSAを撮像し、撮像された映像データを指向性制御装置30あるいはマイクアレイ装置MAに送信するだけでもよい。この場合、指向性制御装置30あるいはマイクアレイ装置MAに備わる動き検出部が映像データを基に人物の動きを検出することになる。   In the first and second embodiments, the motion detection unit 41z built in the CPU 41 of the camera apparatus CA detects a person's movement. However, the camera apparatus CA images and captures the imaging area SA. The video data may be simply transmitted to the directivity control device 30 or the microphone array device MA. In this case, the motion detection unit provided in the directivity control device 30 or the microphone array device MA detects the motion of the person based on the video data.

本発明は、収音された音声を出力する際、プライバシー保護エリア内で音声が発せられても、その内容が他人に知られることなく、プライバシー保護を向上できる指向性制御システム及び音声出力制御方法として有用である。   The present invention relates to a directivity control system and an audio output control method capable of improving privacy protection without outputting the contents even if the audio is emitted in the privacy protection area when outputting the collected audio. Useful as.

10 指向性制御システム
21 筐体
25,41 CPU
26 加算器
28 符号化部
29,42 通信部
30 指向性制御装置
31 通信部
32 操作部
33 信号処理部
34 音圧算出部
35 出力制御部
36 ディスプレイ装置
37 スピーカ装置
38,39z,46 メモリ
39 設定管理部
41z 動き検出部
44 電源供給部
45 イメージエリアセンサ
47 ネットワークコネクタ
71 応接スペース
73,74 椅子
80 音源
231,232,…,23n アンプ
241,242,243,…,24n A/D変換器
251,252,253,…,25n 遅延器
CA カメラ装置
EL エレベータ
FG 指
GZ1,GZ2,…,GZ7 画像フレーム
gt 携帯電話
NW ネットワーク
MA,MB マイクアレイ装置
MA1,MA2,…,MAn,MB1,MB2,…,MBn マイクロホン
PRA プライバシー保護エリア
p1,p2,hm1,hm2,hm3 人物
SA 撮像エリア
SP スピーカ
TL 固定電話機
10 Directivity control system 21 Case 25, 41 CPU
26 adder 28 encoding unit 29, 42 communication unit 30 directivity control device 31 communication unit 32 operation unit 33 signal processing unit 34 sound pressure calculation unit 35 output control unit 36 display device 37 speaker device 38, 39z, 46 memory 39 setting Management unit 41z Motion detection unit 44 Power supply unit 45 Image area sensor 47 Network connector 71 Reception space 73, 74 Chair 80 Sound source 231, 232, ..., 23n Amplifier 241, 242, 243, ..., 24n A / D converter 251 252, 253,..., 25n Delay device CA Camera device EL Elevator FG Finger GZ1, GZ2,..., GZ7 Image frame gt MBn Microphone PRA Privacy protection area p1, p2, hm1, hm2, hm3 person SA imaging area SP speaker TL fixed telephone

Claims (9)

撮像エリアの映像を撮像可能な撮像部と、
前記撮像エリアの音声を収音する収音部と、
前記撮像部により撮像された前記撮像エリアの映像データを表示する表示部と、
前記収音部により収音された前記撮像エリアの音声データを出力する音声出力部と、
前記表示部に表示された前記撮像エリアの映像データに対して指定されたプライバシー保護エリアの位置情報を記憶する第1メモリと、
前記収音部により収音された前記撮像エリアの音声データの音源を検出する第1検出部と、
前記撮像エリアにおける人物の動きを検出する第2検出部と、
前記第2検出部により前記人物の動きが検出され、かつ前記第1検出部により検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、前記収音部により収音された前記撮像エリアの音声データの前記音声出力部における出力を制御する出力制御部と、を備える、
指向性制御システム。
An imaging unit capable of capturing an image of the imaging area;
A sound collection unit for collecting the sound of the imaging area;
A display unit for displaying video data of the imaging area captured by the imaging unit;
An audio output unit for outputting audio data of the imaging area collected by the sound collection unit;
A first memory for storing position information of a privacy protection area designated for video data of the imaging area displayed on the display unit;
A first detection unit that detects a sound source of audio data of the imaging area collected by the sound collection unit;
A second detector for detecting the movement of a person in the imaging area;
The imaging picked up by the sound pickup unit when the movement of the person is detected by the second detection unit and the sound source detected by the first detection unit is within the privacy protection area. An output control unit for controlling the output of the audio data of the area in the audio output unit,
Directional control system.
請求項1に記載の指向性制御システムであって、
前記出力制御部は、前記第2検出部により前記人物の動きが検出され、かつ前記第1検出部により検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、
前記収音部により収音された前記撮像エリアの音声データの音圧が閾値を超えると、前記音声出力部における出力を制御し、
前記収音部により収音された前記撮像エリアの音声データの音圧が閾値を超えるまでは、前記音声出力部における出力の制御を省略する、
指向性制御システム。
The directivity control system according to claim 1,
The output control unit, when the movement of the person is detected by the second detection unit and the sound source detected by the first detection unit is within the privacy protection area,
When the sound pressure of the sound data of the imaging area picked up by the sound pickup unit exceeds a threshold, the output in the sound output unit is controlled,
Until the sound pressure of the sound data of the imaging area picked up by the sound pickup unit exceeds a threshold, control of output in the sound output unit is omitted.
Directional control system.
請求項1に記載の指向性制御システムであって、
前記出力制御部は、前記音声出力部における出力を制御する際、前記収音部により収音された音声データを所定の代替音のデータに代えて前記音声出力部から出力させる、
指向性制御システム。
The directivity control system according to claim 1,
The output control unit, when controlling the output in the sound output unit, to output the sound data collected by the sound collection unit from the sound output unit instead of data of a predetermined alternative sound,
Directional control system.
請求項1に記載の指向性制御システムであって、
前記出力制御部は、前記音声出力部における出力を制御する際、前記収音部により収音された音声データの出力を制限する、
指向性制御システム。
The directivity control system according to claim 1,
The output control unit restricts the output of the voice data collected by the sound collection unit when controlling the output in the voice output unit,
Directional control system.
請求項1に記載の指向性制御システムであって、
前記出力制御部は、前記音声出力部における出力を制御する際、前記収音部により収音された音声データを加工処理して出力させる、
指向性制御システム。
The directivity control system according to claim 1,
The output control unit, when controlling the output in the audio output unit, to process and output the audio data collected by the sound collection unit,
Directional control system.
請求項1に記載の指向性制御システムであって、
前記表示部に対する前記プライバシー保護エリアの指定操作に応じて、指定された位置の座標を、前記プライバシー保護エリアの位置情報として設定する位置情報設定部、を更に備える、
指向性制御システム。
The directivity control system according to claim 1,
A position information setting unit that sets coordinates of a specified position as position information of the privacy protection area in response to a designation operation of the privacy protection area with respect to the display unit;
Directional control system.
請求項1に記載の指向性制御システムであって、
前記収音部により収音された前記撮像エリアの音声データを収音時刻とともに記憶する第2メモリ、を更に備え、
前記出力制御部は、前記第2検出部により前記人物の動きが検出され、かつ前記第1検出部により検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、前記音源が検出された時刻より所定時間前の収音に基づいて前記第2メモリに記憶された音声データの前記音声出力部における出力を制御する、
指向性制御システム。
The directivity control system according to claim 1,
A second memory for storing the sound data of the imaging area picked up by the sound pickup unit together with the sound pickup time;
The output control unit detects the sound source when the movement of the person is detected by the second detection unit and the sound source detected by the first detection unit is within the privacy protection area. Controlling the output of the audio data stored in the second memory in the audio output unit based on the sound collected a predetermined time before the specified time,
Directional control system.
請求項1に記載の指向性制御システムであって、
前記出力制御部は、前記第2検出部により前記人物の動きが検出されなかった場合、前記収音部により収音された前記撮像エリアの音声データを前記音声出力部に出力させる、
指向性制御システム。
The directivity control system according to claim 1,
The output control unit causes the audio output unit to output audio data of the imaging area collected by the sound collection unit when the movement of the person is not detected by the second detection unit.
Directional control system.
撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、
前記撮像部において、撮像エリアの映像を撮像し、
前記収音部において、前記撮像エリアの音声を収音し、
前記撮像エリアの映像データが表示された表示部に対して指定されたプライバシー保護エリアの位置情報をメモリに記憶し、
前記収音部により収音された前記撮像エリアの音声データの音源を検出し、
前記撮像エリアにおける人物の動きを検出し、
前記人物の動きが検出され、かつ検出された前記音源が前記プライバシー保護エリアの範囲内である場合に、前記収音部により収音された前記撮像エリアの音声データの出力を制御する、
音声出力制御方法。
An audio output control method in a directivity control system having an imaging unit and a sound collection unit,
In the imaging unit, capture an image of the imaging area,
In the sound collection unit, the sound of the imaging area is collected,
Storing the location information of the privacy protection area designated for the display unit on which the video data of the imaging area is displayed in a memory;
Detecting a sound source of audio data of the imaging area collected by the sound collection unit,
Detecting the movement of a person in the imaging area;
When the movement of the person is detected and the detected sound source is within the range of the privacy protection area, the audio data output of the imaging area collected by the sound collection unit is controlled.
Audio output control method.
JP2015138014A 2015-07-09 2015-07-09 Directivity control system and audio output control method Active JP6569853B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015138014A JP6569853B2 (en) 2015-07-09 2015-07-09 Directivity control system and audio output control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015138014A JP6569853B2 (en) 2015-07-09 2015-07-09 Directivity control system and audio output control method

Publications (2)

Publication Number Publication Date
JP2017022521A true JP2017022521A (en) 2017-01-26
JP6569853B2 JP6569853B2 (en) 2019-09-04

Family

ID=57888370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015138014A Active JP6569853B2 (en) 2015-07-09 2015-07-09 Directivity control system and audio output control method

Country Status (1)

Country Link
JP (1) JP6569853B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995495A (en) * 2017-11-23 2018-05-04 华中科技大学 Video moving object trace tracking method and system under a kind of secret protection
CN115552519A (en) * 2020-05-11 2022-12-30 三菱电机楼宇解决方案株式会社 Sound source determination device, sound source determination method, and sound source determination program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995495A (en) * 2017-11-23 2018-05-04 华中科技大学 Video moving object trace tracking method and system under a kind of secret protection
CN115552519A (en) * 2020-05-11 2022-12-30 三菱电机楼宇解决方案株式会社 Sound source determination device, sound source determination method, and sound source determination program

Also Published As

Publication number Publication date
JP6569853B2 (en) 2019-09-04

Similar Documents

Publication Publication Date Title
US10497356B2 (en) Directionality control system and sound output control method
US20210158828A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
JP5581329B2 (en) Conversation detection device, hearing aid, and conversation detection method
JP5857674B2 (en) Image processing apparatus and image processing system
JP6289121B2 (en) Acoustic signal processing device, moving image photographing device, and control method thereof
JP6493860B2 (en) Monitoring control system and monitoring control method
CN103561367B (en) By microphone array, undesirably noise is carried out the system and method for automatic mic mute
JPWO2011158506A1 (en) Hearing aid, signal processing method and program
JP6447976B2 (en) Directivity control system and audio output control method
EP4064692A1 (en) Smart audio muting in a videoconferencing system
CN116324969A (en) Hearing enhancement and wearable system with positioning feedback
JP6569853B2 (en) Directivity control system and audio output control method
KR20150066883A (en) Image processing method and device
JP2011066668A (en) Echo canceler, echo canceling method, and program of echo canceler
WO2015151130A1 (en) Sound processing apparatus, sound processing system, and sound processing method
JP2007251355A (en) Relaying apparatus for interactive system, interactive system, and interactive method
JP2016219965A (en) Directivity control system and speech output control method
JP2016219966A (en) Directivity control system and voice output control method
EP3528509B9 (en) Audio data arrangement
JP2014216787A (en) Conference terminal apparatus and amplification factor registration method
JP2010122881A (en) Terminal device
JP2015056676A (en) Sound processing device and program
EP4075822B1 (en) Microphone mute notification with voice activity detection
JP2020053882A (en) Communication device, communication program, and communication method
TWI775119B (en) Apparatus and method for noise filtration and non-transitory computer-readable storage medium associated therewith

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190723

R151 Written notification of patent or utility model registration

Ref document number: 6569853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151