JP2023020567A - データ処理装置、データ処理方法およびプログラム - Google Patents
データ処理装置、データ処理方法およびプログラム Download PDFInfo
- Publication number
- JP2023020567A JP2023020567A JP2021125989A JP2021125989A JP2023020567A JP 2023020567 A JP2023020567 A JP 2023020567A JP 2021125989 A JP2021125989 A JP 2021125989A JP 2021125989 A JP2021125989 A JP 2021125989A JP 2023020567 A JP2023020567 A JP 2023020567A
- Authority
- JP
- Japan
- Prior art keywords
- sound data
- gain
- data
- processing
- agc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 137
- 238000003672 processing method Methods 0.000 title claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000003384 imaging method Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 28
- 230000000593 degrading effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 24
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006866 deterioration Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000012905 input function Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Studio Devices (AREA)
- Control Of Amplification And Gain Control (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】音データの解析精度の低下を抑制しつつ、音データのAGCを可能とするデータ処理装置、データ処理方法及びプログラムを提供する。【解決手段】データ処理装置は、マイク102を介して入力された音データ106をコピーした音データ107を生成する音データコピー部111と、音データ106にAGCゲインをかけて出力するとともに、音データ107にAGCゲインをかけないで出力するゲイン処理部112と、AGCゲインがかけられた音データ106を配信する音データ配信処理部104と、AGCゲインがかけられてない音データ107を解析する音データ解析処理部105と、を備える。【選択図】図1
Description
本発明は、データ処理装置、データ処理方法およびプログラムに関する。
ネットワーク、専用線またはリモコン等を介して制御されるカメラには音声入力機能が備わっていることがある。音声入力機能には、音声レベルが常に適切な音量レベルになるように、自動で利得(ゲイン)を調整するAGC(Auto Gain Contorol)機能がある。このAGC機能では、大きな音声が入力されると、ゲインが下がり、小さな音声が入力されると、ゲインが上がる。
音声入力機能を備えたカメラの搭載機能には、音声認識機能(設定値以上の音量が入ればイベントが上がるなど)と呼ばれる音声を用いた解析機能が複数ある。音声を用いた解析機能は、AGC機能によってゲインが変動した場合、正常に機能しない場合がある。
音声入力機能を備えたカメラの搭載機能には、音声認識機能(設定値以上の音量が入ればイベントが上がるなど)と呼ばれる音声を用いた解析機能が複数ある。音声を用いた解析機能は、AGC機能によってゲインが変動した場合、正常に機能しない場合がある。
特許文献1には、背景音であるエンジン音がAGC機能により増幅されるのを防止するため、エンジンの回転数から、エンジンが発するノイズ音とその周波数を推定し、そのノイズ音を低減させるためにバンドパスフィルタをかける技術が開示されている。
特許文献2には、増幅された音声信号に対して音声認識を利用するアプリケーションが実行される時、AGCをオフにする技術が開示されている。
しかしながら、特許文献1に開示された技術では、エンジンが発するノイズ音を低減させるために、バンドパスフィルタをかけると、そのノイズ音と同じ周波数帯の本来取りたい音声レベルも下がる。このため、そのノイズ音と同じ周波数帯に検出したい音声があった場合、音声解析の検知性能が低下する。
特許文献2に開示された技術では、音声認識を利用するアプリケーションが実行される時にAGC機能がオフにされるので、音声配信の音量が大きすぎて飽和したり、小さすぎて聞こえなかったりする。
本発明が解決しようとする課題は、音データの解析精度の低下を抑制しつつ、音データのAGCを可能とすることである。
特許文献2に開示された技術では、音声認識を利用するアプリケーションが実行される時にAGC機能がオフにされるので、音声配信の音量が大きすぎて飽和したり、小さすぎて聞こえなかったりする。
本発明が解決しようとする課題は、音データの解析精度の低下を抑制しつつ、音データのAGCを可能とすることである。
一態様に係るデータ処理装置は、第1音データをコピーした第2音データを生成するコピー手段と、前記第1音データと前記第2音データとの少なくとも一方に第1ゲインをかける処理手段と、を備える。
本発明の1つの態様によれば、音データの解析精度の低下を抑制しつつ、音データのAGCが可能となる。
以下、添付図面を参照して本発明の実施形態を詳細に説明する。なお、以下の実施形態は本発明を限定するものではなく、また、実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。実施形態の構成は、本発明が適用される装置の仕様や各種条件(使用条件、使用環境等)によって適宜修正または変更され得る。本発明の技術的範囲は、特許請求の範囲によって確定され、以下の個別の実施形態によって限定されない。
<第1実施形態>
図1は、第1実施形態に係るデータ処理装置の概略構成例を示すブロック図である。
図1に示す各機能ブロックのうち、ソフトウェアにより実現される機能については、各機能ブロックの機能を提供するためのプログラムがROM(Read Only Memory)等のメモリに記憶される。そして、そのプログラムをRAM(Random Access Memory)に読み出してCPU(Central Processing Unit)が実行することにより実現される。ハードウェアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能ブロックの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてゲートアレイ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、図1に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。
図1は、第1実施形態に係るデータ処理装置の概略構成例を示すブロック図である。
図1に示す各機能ブロックのうち、ソフトウェアにより実現される機能については、各機能ブロックの機能を提供するためのプログラムがROM(Read Only Memory)等のメモリに記憶される。そして、そのプログラムをRAM(Random Access Memory)に読み出してCPU(Central Processing Unit)が実行することにより実現される。ハードウェアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能ブロックの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてゲートアレイ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、図1に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。
図1において、データ処理装置は、音データ処理部101、音データ配信処理部104および音データ解析処理部105を備える。音データ処理部101は、音データコピー部111およびゲイン処理部112を備える。ゲイン処理部112は、AGC部103を備える。
音データ処理部101は、マイク102を介して入力された音データを処理することで、同一音の入力に対して音量が互いに異なる2つの音データを生成し、音データ配信処理部104および音データ解析処理部105にそれぞれ出力する。このとき、音データ処理部101は、2つの音データの少なくとも一方については、ゲインをかけた音データとすることができる。例えば、音データ処理部101は、AGCゲインをかけた音データと、AGCゲインをかけない音データを生成する。そして、音データ処理部101は、AGCゲインをかけた音データを音データ配信処理部104に出力し、AGCゲインをかけない音データを音データ解析処理部105に出力することができる。
音データコピー部111は、マイク102を介して入力された音データ106をコピーした音データ107を生成する。
ゲイン処理部112は、音データ106にAGCゲインをかけて出力するとともに、音データ107にAGCゲインをかけないで出力する。AGC部103は、音データ106にAGCゲインをかける。
ゲイン処理部112は、音データ106にAGCゲインをかけて出力するとともに、音データ107にAGCゲインをかけないで出力する。AGC部103は、音データ106にAGCゲインをかける。
音データ配信処理部104は、AGCゲインがかけられた音データ106を配信する。AGCゲインがかけられた音データ106の配信には、ネットワークまたは専用線を用いてもよい。AGCゲインがかけられた音データ106の配信先は、例えば、撮像装置に接続された情報処理装置である。
音データ解析処理部105は、AGCゲインがかけられてない音データ107を解析する。音データ107の解析処理は、音データ107の認識処理を含んでもよいし、音データ107の周波数分析処理を含んでもよい。音データ107の認識処理は、例えば、ガラスが割れた音などの異常音の認識処理を含んでもよい。
ここで、ゲイン処理部112は、音データ配信処理部104に出力される音データ106にAGCゲインをかけることにより、音データの配信時の音量が大きすぎて飽和したり、小さすぎて聞こえなかったりするのを防止することができる。
また、ゲイン処理部112は、音データ解析処理部105に出力される音データ107にAGCゲインをかけないようにすることにより、解析対象となるデータが抑圧されるのを防止することができ、音データ107の解析精度の低下を抑制することができる。このとき、音データコピー部111は、AGCゲインがかけられる前に音データ106をコピーすることにより、マイク102で収音された音について、解析精度の低下を抑制しつつ、適正化された音量で配信を実現できる。
また、ゲイン処理部112は、音データ解析処理部105に出力される音データ107にAGCゲインをかけないようにすることにより、解析対象となるデータが抑圧されるのを防止することができ、音データ107の解析精度の低下を抑制することができる。このとき、音データコピー部111は、AGCゲインがかけられる前に音データ106をコピーすることにより、マイク102で収音された音について、解析精度の低下を抑制しつつ、適正化された音量で配信を実現できる。
図2は、第1実施形態に係る撮像装置の概略構成例を示すブロック図である。なお、図2では、撮像装置としてマイク付きパンチルトカメラを例にとる。この撮像装置は、例えば、監視カメラとして用いることができる。
図2において、カメラ200は、撮像部201、パンチルト駆動部202、マイク203、演算処理部204、パンチルト制御部205およびシステム制御部207を備える。カメラ200は、クライアント装置208と相互に通信可能な状態に接続されている。クライアント装置208は、例えば、パーソナルコンピュータなどの情報処理装置である。ユーザは、クライアント装置208からカメラ200に様々なコマンドを送信することができる。
撮像部201は、被写体からの光に基づいて撮像を行う。このとき、撮像部201は、撮像面に集光された光を画素ごとに電気信号に変換し、演算処理部204に出力する。撮像部201は、フォーカスレンズ、ズームレンズなどを含む撮像用レンズ、撮像素子、それらを駆動するメカ駆動系および駆動回路などを備える。撮像素子は、例えば、CCD(Charge Coupled Device)センサまたはCMOS(Complementary Metal Oxide Semiconductor)センサである。
パンチルト駆動部202は、カメラ200のパン(水平方向回転)駆動およびチルト(垂直方向回転)駆動を実施する。パンチルト駆動部202は、パンチルト動作を行うメカ駆動系、駆動源のモータおよびモータドライバなどを備える。
演算処理部204は、撮像部201によって変換された電気信号に対してノイズ除去およびガンマ補正などの画像処理を行って画像データを生成し、システム制御部207へ伝達する。また、演算処理部204は、システム制御部207より受信したコマンドの処理も行う。例えば、演算処理部204は、システム制御部207からズーム位置またはフォーカス位置の変更指示を受信した場合は、フォーカスレンズまたはズームレンズが指示された位置になるよう駆動させる。また、演算処理部204は、システム制御部207から画質調整の指示を受信した場合は、画質の調整を行う。また、演算処理部204は、パンチルト制御部205に送信するパンチルト位置情報に関する演算を行う。
また、演算処理部204は、マイク203を介して入力された音データに関する演算を行い、音データ解析処理を行う。このとき、演算処理部204は、マイク203を介して入力された音データをコピーし、AGCゲインをかけた音データと、AGCゲインをかけない音データを生成することができる。そして、演算処理部204は、AGCゲインをかけた音データを配信処理し、AGCゲインをかけない音データを解析処理することができる。
パンチルト制御部205は、システム制御部207を介して演算処理部204で受信したパンチルト制御に関するコマンドの処理を行い、パンチルト駆動部202を制御する。例えば、パンチルト制御部205は、パンチルト制御に関するコマンドの指示に基づいて、パンチルト駆動部202の駆動量、速度および加減速を制御したり、パンチルト駆動部202の初期化動作などを行う。
システム制御部207は、パンチルトカメラ200全体を制御する。例えば、システム制御部207は、演算処理部204で生成された画像データをクライアント装置208に配信する。また、システム制御部207は、クライアント装置208から送られたカメラ制御コマンドを解析し、演算処理部204に関するコマンドを撮像部201へ伝達する。また、システム制御部207は、カメラ制御コマンドに対するレスポンスをクライアント装置208へ送信する。
また、システム制御部207は、演算処理部204から出力された音データをクライアント装置208に配信する。このとき、システム制御部207は、撮像部201の撮像時にマイク203で収音された音データを画像データとともにクライアント装置208に配信してもよい。あるいは、システム制御部207は、マイク203で収音された音データを単独でクライアント装置208に配信してもよい。また、システム制御部207は、AGCゲインをかけない音データの解析処理に基づいて検出されたイベントの発生をクライアント装置208に伝えるようにしてもよい。例えば、システム制御部207は、AGCゲインをかけない音データの解析処理に基づいてガラスが割れる音が検出された場合、イベントの発生をクライアント装置208に伝えるようにしてもよい。
なお、本実施形態におけるカメラ200は、図2で示した構成に限られるものではない。例えば、カメラ200は、SDI(Serial Digital Interface)またはHDMI(High-Definition Multimedia Interface)(登録商標)などの映像出力端子を備えてもよい。また、カメラ200は、音データ入出力部または外部デバイス入出力部を備えてもよい。
図3は、第1実施形態に係るデータ処理装置の構成例を示すブロック図である。
図3において、図2の演算処理部204は、AD変換部302、フィルタ処理部303、PCM(Pulse Code Modulation)変換部304、AGC部305、音データ圧縮部306および音データ配信処理部307を備える。また、演算処理部204は、音データコピー部308および音データ解析処理部308を備える。
図3において、図2の演算処理部204は、AD変換部302、フィルタ処理部303、PCM(Pulse Code Modulation)変換部304、AGC部305、音データ圧縮部306および音データ配信処理部307を備える。また、演算処理部204は、音データコピー部308および音データ解析処理部308を備える。
AD変換部302において、マイク301で取得された音データは、アナログ信号からデジタル信号に変換される。
次に、フィルタ処理部303において、デジタル信号に変換された音データから、不要な高周波成分および低周波成分がカットされる。
次に、PCM変換部304において、フィルタ処理部303から出力された音データは、PCM信号に変換され、その変換後の音データP1は、AGC部305および音データコピー部308に出力される。
次に、フィルタ処理部303において、デジタル信号に変換された音データから、不要な高周波成分および低周波成分がカットされる。
次に、PCM変換部304において、フィルタ処理部303から出力された音データは、PCM信号に変換され、その変換後の音データP1は、AGC部305および音データコピー部308に出力される。
次に、AGC部305において、音データP1にAGCゲインがかけられ、音データP1の音量が適正化された音データP3が生成される。
次に、音データ圧縮部306において、AGCゲインがかけられた音データP3は、配信時の帯域を確保するためのデータ圧縮が施され、音データ配信処理部307を介して配信される。
次に、音データ圧縮部306において、AGCゲインがかけられた音データP3は、配信時の帯域を確保するためのデータ圧縮が施され、音データ配信処理部307を介して配信される。
一方、音データコピー部308において、PCM信号に変換後の音データP1がコピーされた音データP2が生成される。そして、音データ解析処理部308において、音データコピー部308でコピーされた音データP2は、AGCゲインがかけられることなく音データ解析処理部308に送られ、解析処理が実施される。
図4は、第1実施形態に係る音データコピー処理を示すフローチャートである。
なお、図4の各ステップは、図2の撮像装置200の記憶部に記憶されたプログラムを演算処理部204が読み出し、実行することで実現される。また、図4に示すフローチャートの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASICにより実現するようにしてもよい。
この場合、図4に示すフローチャートにおける各ブロックは、ハードウェアブロックと見做すことができる。なお、複数のブロックをまとめて1つのハードウェアブロックとして構成してもよく、1つのブロックを複数のハードウェアブロックとして構成してもよい。
なお、図4の各ステップは、図2の撮像装置200の記憶部に記憶されたプログラムを演算処理部204が読み出し、実行することで実現される。また、図4に示すフローチャートの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASICにより実現するようにしてもよい。
この場合、図4に示すフローチャートにおける各ブロックは、ハードウェアブロックと見做すことができる。なお、複数のブロックをまとめて1つのハードウェアブロックとして構成してもよく、1つのブロックを複数のハードウェアブロックとして構成してもよい。
図4において、演算処理部204は、音データ解析処理を実施するかどうかを判断する(ステップS41)。演算処理部204は、音データ解析処理を実施しない場合、処理を終了する。一方、演算処理部204は、音データ解析処理を実施する場合、AGC機能がONかどうかを判断する(ステップS42)。演算処理部204は、AGC機能がOFFの場合、処理を終了する。一方、演算処理部204は、AGC機能がONの場合、音データコピー処理を行う(ステップS43)。
なお、図4の処理は、消費電力を低減するため、音データコピー処理をハードウェア上で行う場合に適用するのが好ましい。ソフトウェア処理等を採用し、消費電力の増大の懸念が小さい場合は、演算処理部204は、マイク203を介して入力された音データのコピー処理を常時行ってもよい。
<第2実施形態>
図5は、第2実施形態に係るデータ処理装置の概略構成例を示すブロック図である。
図5において、このデータ処理装置は、図3の音データコピー部308の代わりに、音データコピー部501およびゲイン制御部502を備える。
図5は、第2実施形態に係るデータ処理装置の概略構成例を示すブロック図である。
図5において、このデータ処理装置は、図3の音データコピー部308の代わりに、音データコピー部501およびゲイン制御部502を備える。
音データコピー部501は、マイク301を介して入力された音データをコピーする。このとき、音データコピー部501は、AGC部305でAGCゲインがかけられる前の音データP1をコピーしてもよいし、AGC部305でAGCゲインがかけられた後の音データP3をコピーしてもよい。
ゲイン制御部502は、音データコピー部501でコピーされた音データに対し、AGC部305でかけられるAGCゲインとは異なるゲインをかけることができる。例えば、ゲイン制御部502は、キャリブレーション時のAGCゲインを記憶し、音データコピー部501でコピーされた音データにキャリブレーション時のAGCゲインかけるようにしてもよい。音データ解析処理の内部設定行うキャリブレーション期間では、AGC部305でゲインがかけられた後の音データP3をコピーして音データ解析処理に使用する。このとき、ゲイン制御部502は、キャリブレーション時のAGCゲインを保存し、キャリブレーション後に同じAGCゲインをかける。この場合、ゲイン制御部502は、音データのコピーには、AGC部305でゲインがかけられる前の音データP1を用いる。
これにより、ゲイン制御部502は、データ解析処理データで使用する音データに対し、キャリブレーション期間中に保存された一定のゲインをかけることができる。このため、データ解析処理で使用する音データの音量を適正化することができ、音データ解析処理の精度の低下を抑制することができる。
また、ゲイン制御部502は、AGC部305でゲインがかけられた後の音データP3をキャリブレーション期間後にも使用してもよい。このとき、ゲイン制御部502は、AGC部305でかけられたAGCゲインを打ち消すために、そのAGCゲインと符号が逆のマイナスゲインを音データP3にかけるようにしてもよい。
これにより、AGC部305でゲインがかけられる前の音データP1をコピーできず、AGC部305でゲインがかけられた音データP3をコピーせざる得ないシステムでも、音データ解析処理部308は、ゲインが固定された音データを解析できる。
また、ゲイン制御部502は、AGC部305でゲインがかけられた後の音データP3について、そのゲインの変化に応じて音データP3の検知スレッショルドを変化させるようにしてもよい。例えば、音データ解析処理部308は、音データP3の一定以上の音量を検知する場合、ゲイン制御部502は、AGC部305でかけられたゲイン分だけ音量の検知スレッショルドを下げることができる。
これにより、音データ解析処理部308は、解析対象が変化し、音データ解析の検知レベルを下げた方が望ましい場合においても、AGC部305でかけられたゲインに対応しつつ、音データ解析を実施することができる。
<第3実施形態>
図6は、第3実施形態に係るデータ処理装置のゲイン設定例を示す図である。
図6において、図5のゲイン制御部502は、図2のカメラ200の内部駆動部に応じて内部駆動部の駆動中に音データにマイナスゲインをかける。カメラ200の内部駆動部は、例えば、パン駆動部(Pan)、チルト駆動部(Tilt)、撮像部201のズーム部(Zoom)およびフォーカス部(Focus)である。マイナスゲインは、これらの内部駆動部ごとに設定することができる。マイナスゲインは、内部駆動部が動作中に発する駆動音の大きさに応じて設定することができる。
図6は、第3実施形態に係るデータ処理装置のゲイン設定例を示す図である。
図6において、図5のゲイン制御部502は、図2のカメラ200の内部駆動部に応じて内部駆動部の駆動中に音データにマイナスゲインをかける。カメラ200の内部駆動部は、例えば、パン駆動部(Pan)、チルト駆動部(Tilt)、撮像部201のズーム部(Zoom)およびフォーカス部(Focus)である。マイナスゲインは、これらの内部駆動部ごとに設定することができる。マイナスゲインは、内部駆動部が動作中に発する駆動音の大きさに応じて設定することができる。
これにより、内部駆動部が動作中に駆動音が発生する場合においても、解析処理に用いられる音データに重畳される駆動音を低減させることができ、カメラ200の内部騒音による音データ解析処理の誤作動を防止することができる。
<第4実施形態>
図7は、第4実施形態に係るデータ処理装置のハードウェア構成例を示すブロック図である。
図7において、データ処理装置10は、図2のカメラ200の機能のうち、ソフトウェアにより実現される機能をカメラ200上で実現することができる。このとき、データ処理装置10は、図1の演算処理部204の機能を実現することができる。
図7は、第4実施形態に係るデータ処理装置のハードウェア構成例を示すブロック図である。
図7において、データ処理装置10は、図2のカメラ200の機能のうち、ソフトウェアにより実現される機能をカメラ200上で実現することができる。このとき、データ処理装置10は、図1の演算処理部204の機能を実現することができる。
データ処理装置10は、プロセッサ11、通信制御部12、通信インタフェース13、主記憶部14、補助記憶部15および入出力インタフェース17を備える。プロセッサ11、通信制御部12、通信インタフェース13、主記憶部14、補助記憶部15および入出力インタフェース17は、内部バス16を介して相互に接続されている。主記憶部14および補助記憶部15は、プロセッサ11からアクセス可能である。
また、データ処理装置10の外部には、イメージセンサ20、マイク21および駆動部22が設けられている。イメージセンサ20、マイク21および駆動部22は、入出力インタフェース17を介して内部バス16に接続されている。イメージセンサ20は、例えば、CCDセンサまたはCMOSセンサである。マイク21は、例えば、図2のマイク203である。駆動部22は、例えば、図2のパンチルト駆動部205、撮像部201のズーム部およびフォーカス部である。
プロセッサ11は、データ処理装置10全体の動作制御を司る。プロセッサ11は、CPUであってもよいし、GPU(Graphics Processing Unit)であってもよい。プロセッサ11は、シングルコアプロセッサであってもよいし、マルチコアプロセッサであってもよい。プロセッサ11は、処理の一部を高速化するアクセラレータなどのハードウェア回路(例えば、FPGAまたはASIC)を備えていてもよい。
主記憶部14は、例えば、SRAM(Static Randam Access Memory)またはDRAM(Dynamic Randam Access Memory)などの半導体メモリから構成することができる。主記憶部14には、プロセッサ11が実行中のプログラムを格納したり、プロセッサ11がプログラムを実行するためのワークエリアを設けたりすることができる。
補助記憶部15は、不揮発性記憶デバイスであり、例えば、ROM、ハードディスク装置またはSSD(Solid State Drive)である。補助記憶部15は、各種プログラムの実行ファイルやプログラムの実行に用いられるデータを保持することができる。例えば、補助記憶部15は、データ処理プログラム15Aを保持することができる。データ処理プログラム15Aは、カメラ200にインストール可能なソフトウェアであってもよいし、カメラ200にファームウェアとして組み込まれていてもよい。
通信制御部12は、外部との通信を制御する機能を備えるハードウェアである。通信制御部12は、通信インタフェース13を介してネットワーク19に接続される。ネットワーク19は、インターネットであってもよいし、WANであってもよいし、WiFiまたはイーサネットなどのLANであってもよいし、インターネットとWANとLANが混在していてもよい。
入出力インタフェース17は、イメージセンサ20、マイク21および駆動部22から入力されるデータをプロセッサ11が処理可能なデータ形式に変換する。また、入出力インタフェース17は、プロセッサ11から出力されるデータをイメージセンサ20および駆動部22が処理可能なデータ形式に変換する。
プロセッサ11は、補助記憶部15に記憶されたデータ処理プログラム15Aを主記憶部14に読み出して実行することにより、音データコピー処理、音データゲイン処理および音データ解析処理を実現することができる。
なお、音データコピー処理、音データゲイン処理および音データ解析処理を実現するためのプログラムの実行は、複数のプロセッサやコンピュータに分担させてもよい。あるいは、プロセッサ11は、音データコピー処理、音データゲイン処理および音データ解析処理を実現するためのプログラムの全部または一部の実行を、ネットワーク19を介してクラウドコンピュータなどに指示し、その実行結果を受け取るようにしてもよい。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給してもよい。そして、上述の実施形態の1以上の機能は、そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、FPGAまたはASIC)でも実現可能である。以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給してもよい。そして、上述の実施形態の1以上の機能は、そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、FPGAまたはASIC)でも実現可能である。以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
101 音データ処理部、102 マイク、103 AGC部、104 音データ配信処理部、105 音データ解析処理部、111 音データコピー部、112 ゲイン処理部
Claims (10)
- 第1音データをコピーした第2音データを生成するコピー手段と、
前記第1音データと前記第2音データとの少なくとも一方に第1ゲインをかける処理手段と、
を備えることを特徴とするデータ処理装置。 - 前記処理手段にて第1ゲインがかけられた第1音データを配信する配信手段と、
前記処理手段にて第1ゲインがかけられていない第2音データを解析する解析手段と、
を備えることを特徴とする請求項1に記載のデータ処理装置。 - 前記処理手段は、前記第1音データにAGC(Auto Gain Contorol)による前記第1ゲインをかける制御手段を備え、
前記第2音データは、前記第1ゲインがかけられる前にコピーされた第1音データのコピーであることを特徴とする請求項2に記載のデータ処理装置。 - 前記処理手段は、前記第2音データに前記第1ゲインをかけないことを特徴とする請求項3に記載のデータ処理装置。
- 前記処理手段は、キャリブレーション時のゲインを第2ゲインとして記憶し、前記解析手段で使用される前記第2音データに前記第2ゲインかけることを特徴とする請求項2に記載のデータ処理装置。
- 前記処理手段は、前記第1音データにAGC(Auto Gain Contorol)による前記第1ゲインをかける制御手段を備え、
前記処理手段にて第1ゲインがかけられた第1音データを配信する配信手段と、
前記処理手段にて第1ゲインがかけられた後にコピーされ前記第1ゲインの少なくとも一部を打ち消すマイナスゲインをかけられた第2音データを解析する解析手段と、
を備えることを特徴とする請求項1に記載のデータ処理装置。 - 前記処理手段は、前記第1音データにAGC(Auto Gain Contorol)による前記第1ゲインをかける制御手段を備え、
前記処理手段にて第1ゲインがかけられた第1音データを配信する配信手段と、
前記処理手段にてコピーされた第2音データを解析する解析手段と、
を備え、
前記処理手段は、前記第1ゲインの変化に応じて前記第2音データの検知スレッショルドを変化させることを特徴とする請求項1に記載のデータ処理装置。 - マイクから出力された音データが撮像装置に入力され、
前記処理手段は、前記撮像装置の駆動部の駆動に応じて前記駆動部の前記駆動中に前記第2音データにマイナスゲインをかけることを特徴とする請求項2から7のいずれか1項に記載のデータ処理装置。 - 第1音データをコピーした第2音データを生成するステップと、
前記第1音データと前記第2音データとの少なくとも一方にゲインをかけるステップと、
を備えることを特徴とするデータ処理方法。 - コンピュータを請求項1から8のいずれか1項に記載のデータ処理装置として動作させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021125989A JP2023020567A (ja) | 2021-07-30 | 2021-07-30 | データ処理装置、データ処理方法およびプログラム |
US17/815,360 US20230030509A1 (en) | 2021-07-30 | 2022-07-27 | Data processing apparatus, method for processing data, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021125989A JP2023020567A (ja) | 2021-07-30 | 2021-07-30 | データ処理装置、データ処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023020567A true JP2023020567A (ja) | 2023-02-09 |
Family
ID=85039278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021125989A Pending JP2023020567A (ja) | 2021-07-30 | 2021-07-30 | データ処理装置、データ処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230030509A1 (ja) |
JP (1) | JP2023020567A (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3553772A1 (en) * | 2018-04-09 | 2019-10-16 | Harman International Industries, Incorporated | Method and apparatus for controlling vehicle sound in a vehicle |
US11553275B2 (en) * | 2018-12-28 | 2023-01-10 | Samsung Display Co., Ltd. | Method of providing sound that matches displayed image and display device using the method |
-
2021
- 2021-07-30 JP JP2021125989A patent/JP2023020567A/ja active Pending
-
2022
- 2022-07-27 US US17/815,360 patent/US20230030509A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20230030509A1 (en) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016013409A1 (ja) | 制御装置、制御方法、プログラム、および制御システム | |
US8872929B2 (en) | Picture imaging apparatus and imaging control method | |
KR102565447B1 (ko) | 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법 | |
EP3396645B1 (en) | Control apparatus, control method, and program | |
US20140267841A1 (en) | Image processing apparatus that performs gradation correction of photographed image, method of controlling the same, and storage medium | |
US20150271439A1 (en) | Signal processing device, imaging device, and program | |
US8514300B2 (en) | Imaging apparatus for reducing driving noise | |
JP2023020567A (ja) | データ処理装置、データ処理方法およびプログラム | |
JPH08307762A (ja) | 振れ補正装置 | |
US10411667B2 (en) | Sound signal processing apparatus and imaging device using same | |
JP2005176015A (ja) | 撮像装置及び方法 | |
US20130222639A1 (en) | Electronic camera | |
US11290812B2 (en) | Audio data arrangement | |
CN114979501A (zh) | 摄像控制装置、摄像装置、控制方法和存储介质 | |
US10880485B2 (en) | Imaging apparatus for controlling display of a microphone level meter and mute function during moving image capture | |
JP2010156809A (ja) | プロジェクタ装置およびその制御方法 | |
US20120060614A1 (en) | Image sensing device | |
JP2008109278A (ja) | 撮像装置、撮像装置の制御方法、及びコンピュータプログラム | |
US11831985B2 (en) | Camera and control method | |
US11405553B2 (en) | Optical device and its control method | |
JP6112761B2 (ja) | 撮像装置及びその制御方法 | |
JP2018207318A (ja) | 音声処理装置およびその制御方法、プログラム並びに記憶媒体 | |
JP2022029776A (ja) | 制御装置およびその制御方法 | |
US20240121519A1 (en) | Information processing device, information processing method, and program | |
KR20170088553A (ko) | 영상 촬영 장비 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240709 |