JP2021124526A - 記録装置、記録システム、ファイル生成方法およびプログラム - Google Patents

記録装置、記録システム、ファイル生成方法およびプログラム Download PDF

Info

Publication number
JP2021124526A
JP2021124526A JP2020015372A JP2020015372A JP2021124526A JP 2021124526 A JP2021124526 A JP 2021124526A JP 2020015372 A JP2020015372 A JP 2020015372A JP 2020015372 A JP2020015372 A JP 2020015372A JP 2021124526 A JP2021124526 A JP 2021124526A
Authority
JP
Japan
Prior art keywords
information
image
recording
recording device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020015372A
Other languages
English (en)
Inventor
崇文 大熊
Takafumi Okuma
崇文 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2020015372A priority Critical patent/JP2021124526A/ja
Publication of JP2021124526A publication Critical patent/JP2021124526A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】 物体ごとの音声ファイルを容易に生成することができる装置、システム、方法およびプログラムを提供すること。【解決手段】 記録装置は、複数の撮像手段と、複数の音声入力手段と、撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、取得した各情報と複数の音声入力手段により取得された音声信号とに基づき、物体ごとの音声ファイルを生成する生成手段とを含む。【選択図】 図5

Description

本発明は、記録装置、記録システム、ファイル生成方法およびファイルを生成する処理をコンピュータに実行させるためのプログラムに関する。
複数のカメラと複数のマイクロフォンを使用し、複数のオブジェクトが発する音を抽出する技術が知られている(例えば、特許文献1参照)。
従来の技術では、複数のカメラと複数のマイクロフォンが予め定められた位置に、それぞれが離間して配置されるため、取得される複数の画像と音声の同期関係や位置関係が複雑で、オブジェクトごとの音声ファイルを容易に生成することができないという問題があった。
本発明は、上記に鑑みてなされたものであって、物体ごとの音声ファイルを容易に生成することができる装置、システム、方法およびプログラムを提供することを目的とする。
上述した課題を解決するために、発明の一実施形態では、記録装置であって、
複数の撮像手段と、
複数の音声入力手段と、
複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
情報取得手段が取得した各情報と複数の音声入力手段により取得された音声信号とに基づき、物体ごとの音声ファイルを生成する生成手段と
を含む、記録装置が提供される。
本発明によれば、物体ごとの音声ファイルを容易に生成することが可能となる。
記録システムの使用例を示した図。 記録装置の構成例を示した図。 記録装置の撮像部について説明する図。 記録装置のハードウェア構成の一例を示した図。 記録システムのシステム構成を示したブロック図。 人物、人物の位置、音声の継続期間を検出する処理について説明する図。 人物ごとの音声ファイルを生成する処理について説明する図。 人物の検出から音声ファイルの生成までの処理の一例を示したフローチャート。
本実施形態に係る記録システムは、複数の撮像手段と複数の音声入力手段とを備える記録装置を含み、撮像された画像と取得された音声信号とから、各物体の音声を抽出し、物体ごとの音声ファイルを生成し、物体ごとに記録するシステムである。
撮像手段は、結像光学系(撮像センサ)であり、入射された光を像に変換し、画像として出力する。各撮像センサから出力された画像は合成され、360度の全方位を表す画像(全天球画像)が生成される。複数の撮像センサは、同期して動作し、時間的に連続して撮像することも可能である。このため、全天球画像としては、静止画に限らず、動画も撮像可能となっている。なお、画像は、360度の全方位を表す全天球画像に限られるものではなく、360度の全周を表す全周画像であってもよい。
音声入力手段は、物体が発した音声の入力を受け付けるマイクロフォン(マイク)である。マイクは、複数の撮像センサにより全天球動画を撮像する際、撮影環境の周囲の音声の入力を受け付ける。音声は、人が発する声に限定されるものではなく、動物の声、音楽、機械音、動作音、その他空気の振動によって伝播する音を含むものである。したがって、物体も、人に限定されるものではなく、動物や機械等であってもよい。
図1は、記録システムの使用例を示した図である。図1に示す例では、記録システムが記録装置10のみで構成されている。記録装置10は、全天球画像を生成し、音声の入力を受け付け、物体ごとの音声ファイルを生成し、記録する装置とされている。なお、記録システムは、記録装置10のみで構成されるものに限らず、記録装置10と外部機器であるPC(Personal Computer)、スマートフォンやタブレット端末などの携帯情報端末PDA(Personal Digital Assistant)等の情報処理装置とから構成されていてもよい。ここでは、記録システムを、会議を録画するために使用するものとして説明する。
会議は、司会者Eが立って、ディスプレイ11を使用して所定の議題について説明を行い、参加者A〜Dが会議テーブル12の周りに配置された椅子13に座り、説明された議題に対して自由に発言する形で行われている。記録装置10は、会議室内の会議テーブル12上の中央位置Fに配置され、その様子を録画している。
記録装置10は、例えば2組の魚眼レンズおよび撮像センサと、4つのマイクとを内蔵する。ここでは、記録装置10が2組の魚眼レンズおよび撮像センサと4つのマイクとを備えるものとして説明するが、これらの数に限定されるものではない。
記録装置10は、1組の魚眼レンズおよび撮像センサが向いた方向(裏面)を0度とし、もう1組の魚眼レンズと撮像センサが向いた方向(正面)を180度として配置される。記録装置10の裏面には、参加者Bが座っており、正面には、参加者Dが座っている。なお、参加者Aは45度の方向に、参加者Cは270度の方向に座っており、司会者Eは90度の方向に立っている。
記録装置10は、2つの撮像センサにより撮像した2つの画像を繋ぎ合わせて全天球画像を生成し、生成した全天球画像を基に、4つのマイクから入力された参加者A〜D、司会者Eの音声を含む音声信号から、各参加者A〜D、司会者Eの音声信号を分離し、各人物の音声ファイルを生成し、保存する。なお、記録装置10は、2つの撮像センサにより会議室内を録画するため、撮像した画像は動画を構成するフレームの1つであり、実際には全天球動画を生成し、全天球動画を基に、各人物の音声ファイルを生成する。
図2は、記録装置10の構成例を示した図である。図2(a)は、記録装置10の裏面を示し、図2(b)は、記録装置10の正面を示した図である。記録装置10は、全天球撮像装置であり、魚眼レンズ20、21と、マイク22〜25と、シャッターボタン26と、電源/モードボタン27と、OSD(On Screen Display)28とを備える。
マイク22〜25は、ch1〜4のマイクを含む、無指向性のマイクユニットであり、裏面に高さ位置を変えて上下2段に設けられ、正面に同じ高さ位置で左右に2つ設けられている。これにより、どの方向から発せられる音声も適度な音量で取得することができる。
シャッターボタン26は、撮像対象を撮像する際に押下されるボタンで、録画する際は、撮像を開始する場合と撮像を終了する場合の2回押下される。電源/モードボタン27は、記録装置10の電源を投入し、撮影モードを切り替える際に押下されるボタンである。撮影モードとしては、静止画を撮影するモード、動画を撮影するモード、PC等の外部機器と接続し、撮像したライブ映像を外部機器へ配信するモード等が挙げられる。OSD28は、画面上に音量やコントラスト量等を表示する機能を搭載したディスプレイである。
記録装置10は、USB HOST機能(USB入力)とマイク端子とを有し、外付けでUSBデバイス接続の多チャンネルマイクやアナログ接続の多チャンネルマイク(4ch)を搭載し、その音響性能や指向性性能を拡張することもできる。
図3は、記録装置10の撮像部について説明する図である。撮像部30は、2つのレンズ光学系31、32と、2つの撮像センサ33、34とを含む。ここでは、撮像部が2つのレンズ光学系31、32と2つの撮像センサ33、34とから構成されるものとして説明するが、レンズ光学系および撮像センサは2つに限定されるものではなく、3つ以上であってもよい。
撮像センサ33、34は、CMOS(Complementary Metal Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等が用いられる。撮像センサ33、34は、各撮像面が相反するように配置される。
レンズ光学系31、32は、魚眼レンズ20、21を含む。魚眼レンズ20、21としては、例えば6群7枚や10群14枚のレンズ構成のものを用いることができる。図3に示す例では、180度(360度/n;光学系数n=2)より大きい全画角を有し、好適には、190度以上の画角を有する。なお、全体として所定の画角が得られる限り、魚眼レンズ20、21に代えて、他の広角レンズや超広角レンズ等を用いてもよい。
レンズ光学系31、32には、魚眼レンズ20、21のほか、プリズム、フィルタ、開口絞り等の光学素子が含まれ、光学素子は、撮像センサ33、34に対して位置関係が定められる。光学素子の光軸は、対応する撮像センサ33、34の受光領域の中心部に直交して位置するように、かつ受光領域が対応する魚眼レンズ20、21の結像面となるように位置決めされる。
図3に示す例では、視差を低減するため、2つの魚眼レンズ20、21により集光された光は、2つの90度プリズムにより2つの撮像センサ33、34へ入射する屈折光学系を採用しているが、これに限定されるものではない。したがって、視差をより低減するために、3回屈折構造としてもよいし、コストを低減するべく、ストレート光学系を採用してもよい。プリズム自体を1つで構成してもよいし、2つのプリズムをそれぞれ別部材で構成してもよい。
図3に示した2つのレンズ光学系31、32は、同一仕様のものであり、それぞれの光軸が合致するようにして、互いに逆向きに組み合わされている。レンズ光学系31、32へ入射された光は、撮像センサ33、34により受光され、受光された光分布が画像に変換され、後述する画像取込み部へ入力される。
図4は、記録装置10のハードウェア構成の一例を示した図である。記録装置10は、デジタル・スチルカメラ・プロセッサ(以下、単にプロセッサと略す。)40と、鏡胴ユニット41と、プロセッサ40に接続される種々のコンポーネントとから構成される。鏡胴ユニット41は、2組のレンズ光学系31、32および撮像センサ33、34を有している。撮像センサ33、34は、プロセッサ40により制御される。
プロセッサ40は、ISP(Image Signal Processor)42a、42bと、DMAC(Direct Memory Access Controller)43と、ARBMEMC(アービタ)44とを含む。プロセッサ40は、MEMC(Memory Controller)45と、歪曲補正・画像合成ブロック46と、顔検出ブロック47とを含む。
ISP42a、42bは、撮像センサ33、34から入力された画像に対し、自動露出(AE)制御、自動ホワイトバランス(AWB)設定、ガンマ設定等を行う。図4に示す例では、2つの撮像センサ33、34に対し、1つずつ対応するように2つのISP42a、42bが設けられているが、これに限られるものではなく、ISPは2つの撮像センサ33、34に対して1つであってもよい。
DMAC43は、ARBMEMC44へISP42a、42b等で処理された画像等を転送する。ARBMEMC44は、メモリアクセスを調停する。
MEMC45には、SDRAM(Synchronous Dynamic Random Access Memory)48が接続される。SDRAM48は、ISP42a、42bおよび歪曲補正・画像合成ブロック46が処理を施す際に一時的にデータを保存する。歪曲補正・画像合成ブロック46は、2組のレンズ光学系31、32および撮像センサ33、34から得られた2つの画像に対し、後述するIMU(Inertial Measurement Unit)センサ102からの情報を利用して歪曲補正とともに天頂補正を行いながら、画像を繋ぎ合わせる。IMUセンサ102は、3軸加速度センサ、3軸角速度センサ、地磁気センサ等を含む。
顔検出ブロック47は、入力された画像から顔検出を行い、人物の顔の位置を特定する。顔検出は、顔のパーツの相対位置や大きさ、目、鼻、あごの形等の特徴を利用して行う。なお、この方法は一例であるので、顔検出はこの方法に限定されるものではない。ここでは、顔検出ブロック47のみを設け、顔検出のみを行っているが、人物の全身像等を検出するための他のブロックが設けられていてもよい。
プロセッサ40は、DMAC49、画像処理ブロック50、CPU(Central Processing Unit)51、画像データ転送部52、SDRAMC(SDRAM Controller)53、メモリカード制御ブロック54を備えている。また、プロセッサ40は、USB(Universal Serial Bus)ブロック55、ペリフェラル・ブロック56、音声ユニット57、シリアルブロック58、LCD(Liquid Crystal Display)ドライバ59、ブリッジ60を備えている。
CPU51は、記録装置10の各部の動作を制御する。画像処理ブロック50は、画像データに対し各種の画像処理を行う。プロセッサ40は、リサイズブロック61、静止画圧縮ブロック62、動画圧縮ブロック63、パワーコントローラ64を含み、画像処理ブロック50は、リサイズブロック61等を使用し、画像処理を行うことができる。
リサイズブロック61は、画像データのサイズを補間処理により拡大または縮小する。静止画圧縮ブロック62は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)等の静止画圧縮および伸張を行い、全天球画像の静止画データを生成する。動画圧縮ブロック63は、MPEG(Moving Picture Experts Group)−4、AVC(Advanced Video Coding)/H.264等の動画圧縮および伸張を行い、全天球動画を生成する。
画像データ転送部52は、画像処理ブロック50で画像処理された画像を転送する。SDRAMC53は、プロセッサ40に接続されるSDRAM65を制御し、SDRAM65は、プロセッサ40内で画像データに各種の処理を施す際に、画像データを一時的に保存するために使用される。
メモリカード制御ブロック54は、メモリカードスロット66に挿入されたメモリカードおよびフラッシュROM(Read Only Memory)67に対する読み書きを制御する。USBブロック55は、USBコネクタ68を介して接続されるPC等の外部機器とのUSB通信を制御する。ペリフェラル・ブロック56は、電源スイッチ69が接続される。ペリフェラル・ブロック56に入力された電源は、パワーコントローラ64により制御される。
音声ユニット57は、司会者や参加者等の人物が発する音声の入力を受け付けるマイク22〜25と、記録された音声信号を出力するスピーカ70とに接続され、音声の入出力を制御する。シリアルブロック58は、PC等の外部機器とのシリアル通信を制御し、無線NIC(Network Interface Card)71が接続される。無線NIC71は、記録装置10とPC等の外部機器との間で無線通信を行うためのハードウェアである。無線通信は、具体的にはWi-Fi(登録商標)、Bluetooth(登録商標)等の電波を使用した通信である。
LCDドライバ59は、LCDモニタ72を駆動するドライブ回路であり、LCDモニタ72に各種状態を表示するための信号に変換する。図4では、LCDドライバ59のみが示されているが、HDMI(High-Definition Multimedia Interface(登録商標))等の映像インタフェースが設けられていてもよい。
フラッシュROM67には、CPU51が解読可能なコードで記述された制御プログラムや各種パラメータが格納される。制御プログラムは、電源スイッチ69が投入されると、メインメモリにロードされ、CPU51がメインメモリに読み出されたプログラムに従って、装置各部の動作を制御する。このとき、制御に必要なデータがSDRAM65と、図示しないローカルSRAM(Static Random Access Memory)とに一時的に保存される。なお、フラッシュROM67は、書き換え可能なメモリであるため、制御プログラムや各種パラメータを変更することができ、機能のバージョンアップを容易に行うことができる。
図5は、記録システムのシステム構成を示したブロック図である。複数の撮像手段として、複数の撮像センサ100を含み、複数の音声入力手段として、複数のマイク110を含む。
記録システムは、複数のプリアンプ111、複数のADC(Analog to Digital Converter)112と、処理ブロック113と、画像取込み部101と、IMUセンサ102と、データ取込み部103とを含む。また、記録システムは、検出ブロック120と、コンテナ121と、生成ブロック122と、ファイル保存部123とを含む。
記録システムは、1つの筐体内に複数の撮像センサ100等を実装した記録装置10として構成されていてもよいし、複数の撮像センサ100と複数のマイク110等を実装した記録装置10と1つ以上の情報処理装置とから構成されていてもよい。
記録システムが記録装置10と情報処理装置とから構成される場合、複数の撮像センサ100、複数のマイク110、IMUセンサ102以外の、プリアンプ111等のブロックは、記録装置10と情報処理装置のいずれが備えていてもよい。一例としては、記録装置10が複数の撮像センサ100、複数のプリアンプ111、複数のADC112、処理ブロック113、複数のマイク110、画像取込み部101、IMUセンサ102、データ取込み部103、検出ブロック120を含み、情報処理装置がコンテナ121、生成ブロック122、ファイル保存部123を含むことができる。また、別の例として、記録装置10が複数の撮像センサ100、複数のプリアンプ111、複数のADC112、処理ブロック113、複数のマイク110、画像取込み部101、IMUセンサ102、データ取込み部103を含み、情報処理装置が検出ブロック120、コンテナ121、生成ブロック122、ファイル保存部123を含むことができる。
複数の撮像センサ100は、各方向に向くように配置され、各方向を撮像する。複数の撮像センサ100により撮像された画像は、画像取込み部101により取り込まれる。画像取込み部101は、取り込んだ画像に対し、所定の画像処理を行い、複数の画像を合成して全天球画像を生成する。複数の画像の合成は、画像の繋ぎ位置(特徴部分)を検出し、検出した繋ぎ位置で繋ぎ合わせることにより行われる。画像取込み部101は、画像を正しい向きとするため、天頂補正を行う。天頂補正では、撮像センサ100を搭載した装置の姿勢に基づき、画像の傾きを補正する。
天頂補正で装置の姿勢に関する情報が必要となるため、IMUセンサ102は、姿勢に関する情報として、加速度、角速度、方位を計測する。データ取込み部103は、IMUセンサ102が計測したデータを取り込み、画像取込み部101へ渡す。また、データ取込み部103は、取り込んだデータを、フレーム同期センサデータとしてコンテナ121に保存する。コンテナ121は、データを保存するデータ保存部として機能する。
画像取込み部101は、生成した画像を画像データとしてコンテナ121に保存する。撮像センサ100により画像が動画として撮像される場合、画像取込み部101は、動画を構成する画像をフレームとして連続的に取り込み、全天球画像を連続的に生成する。
画像取込み部101は、生成した全天球画像を検出ブロック120へ送る。検出ブロック120は、情報取得手段として機能し、画像取込み部101により生成された全天球画像に基づき、物体としての人物と、記録装置10に対する人物の位置と、人物が発する音声の継続期間とを検出し、物体情報としての人物情報と、人物の位置情報と、音声の継続期間情報とを取得する。
人物の検出では、画像から人物の存在を検出し、人物情報は、検出した各人物を特定する情報とされる。人物情報は、人物の口や手の動き等により、発言していると想定される人物を特定する情報を含む総称である。位置情報は、画像において各人物の位置を特定する情報で、各人物がいる方角を示す角度情報を含む総称である。継続期間情報は、発言していると想定される人物の話している時間であり、話し始め時間と話し終わり時間とを含む総称である。
記録装置10は、図1に示したように複数の人物が存在する空間の中央に配置され、全天球画像を生成する。複数の人物は、記録装置10を挟んで会話を行っていることから、全天球画像には各人の顔が含まれている。検出ブロック120は、全天球画像を解析し、目、鼻、口等の顔部品の特徴を基に、人物を検出する。ここでは、顔部品の特徴を基に人物を検出しているが、これに限られるものではなく、他の部品の特徴から人物を検出してもよい。
検出ブロック120は、人物を検出した際、各人物に対し、各人物を識別するための識別情報を割り当てる。識別情報は、人物を識別することができればいかなる情報であってもよい。ここでは、識別情報を人物特定符号として参照し、人物特定符号が人物情報となる。
検出ブロック120は、例えば記録装置10が備える1つの撮像センサを任意の方向に向けて配置し、その方向を基準とし、記録装置10が配置されている位置を中心として、全天球画像から、検出した各人物の位置座標を基準に対する角度として検出する。なお、角度は一例であるので、位置座標は角度に限定されるものではない。この角度の情報が位置情報となる。
検出ブロック120は、人物の口の動きや手の動き(ジェスチャ)等を全天球動画から検出し、発言している人物を特定し、特定した人物の位置を検出し、その人物の発言時間を音声の継続期間として検出する。この検出された継続期間の情報が継続期間情報となる。また、ここで特定された人物が、発言していると想定される人物であり、この人物に対して検出された角度が、発言していると想定される人物の角度情報、さらには位置情報となる。
検出ブロック120は、取得した人物情報、位置情報、継続期間情報を紐付けて、音声同期特定/位置座標データとしてコンテナ121に保存する。コンテナ121に保存する継続期間情報は、継続期間を検出するために必要な情報、例えば上記の発言開始時刻と発言終了時刻の情報であってもよい。このデータは、フレームの画像の保存に同期して保存されるため、これらの時刻としては、録画開始からの時間情報(タイムスタンプ)を用いることができる。
複数のマイク110は、チャンネルが割り当てられ、例えば記録装置10の一方の面とその裏側の面とに高さ位置を変えて設けられる。音声の大きさは、音声の発生源がどちらの面の側に存在するか、その高さ位置によって変化する。このような配置で複数のマイク110を設けることで、音声の発生源が記録装置10に対していずれの方向に存在していても、適切な音量の音声を取得することが可能となる。
マイク110は、記録装置10に内蔵された内蔵マイクであってもよいし、記録装置10にUSBケーブル等により接続された外部マイクであってもよい。マイク110は、無指向性のマイクであり、360度あらゆる方向からの音声の入力を受け付ける。複数のマイク110は、入力された音声を、各マイク110に対応する各プリアンプ111へ入力する。
各プリアンプ111は、各マイク110から入力された音声の信号レベルを増幅する。各マイク110から入力される音声の信号レベルは小さいので、各プリアンプ111により所定のゲインまで増幅することで、以降の処理を行う回路において扱いが容易なレベルにすることができる。
各ADC112は、各プリアンプ111から増幅されたアナログの音声信号をデジタル化し、デジタル信号として処理ブロック113に入力する。
処理ブロック113は、入力されたデジタル信号に対して所定の処理を行う。処理ブロック113は、HPF(High Pass Filter)/LPF(Low Pass Filter)130と、IIR(Infinite Impulse Response)/FIR(Finite Impulse Response)131と、感度補正ブロック132と、コンプレッサ133と、周波数タイミング補正ブロック134とを含んで構成される。
HPF/LPF130およびIIR/FIR131等の各種フィルタは、デジタル信号に対して周波数分離等の処理を行う。感度補正ブロック132は、各種のフィルタで処理された音声信号の感度を補正する。コンプレッサ133は、音声信号の信号レベルを補正する。感度補正ブロック132およびコンプレッサ133による補正処理により、各マイク110のチャンネル間の信号のギャップを低減する。
周波数タイミング補正ブロック134は、コンプレッサ133から入力された音声信号に対し、上記の各種のフィルタにより行った周波数分離に起因するタイミングずれや周波数を補正する。周波数タイミング補正ブロック134は、補正した音声信号を音声ファイルとしてコンテナ121に保存する。
生成ブロック122は、コンテナ121に保存された音声ファイルと音声周期特定/位置座標データとを読み出し、音声周期特定/位置座標データに基づき、複数の人物が発した音声を含む音声ファイルから各人物が発した音声を分離し、各人物の指向性を有する音声ファイルを生成する。音声の分離は、音声周期特定/位置座標データに含まれる音声の継続期間情報を用いて実施される。
生成ブロック122は、生成した音声ファイルに含まれるノイズを、フィルタを使用する等して除去する。生成ブロック122は、音声周期特定/位置座標データに含まれる人物情報および位置情報を音声ファイルに紐付ける。そして、生成ブロック122は、人物情報および位置情報が紐付けられた音声ファイルをファイル保存部123に保存する。
図5に示す例では、人物情報としての人物特定符号がA、B、C、D、Eとされ、各人物の音声ファイルが位置情報としての位置座標データとともにファイル保存部123に保存されている。ファイル保存部123には、各人物の音声ファイルが分離した状態で保存されているため、各人物がどのような発言をしたかを確認することができ、議事録等の作成が容易になる。
図6は、記録装置10で録画し、生成された全天球動画を構成するフレームイメージをequirectangular形式で表現し、そのフレームイメージから人物、人物の位置、音声の継続期間を検出する処理について説明する図である。equirectangularは、正距円筒図法のことであり、緯度と経度をそのまま直角かつ等間隔に投影した地図投影法である。
動画のフレームイメージは、0度から360度までを表現し、保存された録画開始からの時間情報としてタイムスタンプが付与され、関連付けられる。フレームイメージからは、顔検出等により人物を検出し、各人物を顔の特徴や衣服の色等から識別し、人物特定符号を割り当てる。そして、口の動きやジェスチャ等からどの人物が発言しているかを検出する。
図6に示す例では、撮影を開始してから1分半が経過した後、人物特定符号としてAが割り当てられた45度の位置にいる人物が発言している。このとき、音声周期特定/位置座標データとしては、人物特定符号「A」、記録装置10に対する位置として基準の方向からの角度「45度」、タイムスタンプ「0:01:30:00」がそれぞれ人物情報、位置情報、継続期間情報として取得され、フレームと同期してコンテナ121に保存される。
動画は、設定されたフレームレート(fps)に従って撮像され、記録される。フレームレートは、1秒間に記録されるフレーム(静止画)の数であり、30fpsの場合、1秒間に記録されるフレーム数が30である。このようなフレームと同期して、音声周期特定/位置座標データがコンテナ121に保存される。
その後、約4分が経過し、人物特定符号としてCが割り当てられた270度の位置にいる人物が発言している場合、人物特定符号「C」、角度「270度」、タイムスタンプ「0:05:31:00」がそれぞれ人物情報、位置情報、継続期間情報として取得され、フレームと同期してコンテナ121に保存される。
位置情報は、人物の存在位置により角度で指定するのみの角度情報のみであってもよいが、人物の表情や口の動き等から人物の識別とその発言の有無を特定し、それらの情報と、そのフレーム内での角度情報とを含むものであってもよい。
音声周期特定/位置座標データは、タイムスタンプが付与されているため、各人物が発言を開始した時刻と終了した時刻とが分かり、それらの時刻から各人物の発言時間を音声の継続期間として検出することができる。
図7は、人物ごとの音声ファイルを生成する処理について説明する図である。コンテナ121には、フレームに同期して音声同期特定/位置座標データが記録されている。生成ブロック122は、コンテナ121から、音声ファイルと、各フレームに対応する音声同期特定/位置座標データを最初のフレームから順に取り出す。
音声同期特定/位置座標データは、人物情報としての人物特定符号と、位置情報としての位置座標データと、継続期間情報としてのタイムスタンプとを含むことから、生成ブロック122は、人物特定符号からどの人物が発言しているか、位置座標データからその人物がどの位置にいるかを認識する。また、生成ブロック122は、音声同期特定/位置座標データのタイムスタンプから、発言している人物がいつ発言を開始し、どの程度継続して発言しているかを認識する。
生成ブロック122は、認識した音声の継続期間により音声ファイルの音声を分離する。人物Aが録画開始からの時間「0:00:15:00」から「0:02:00:00」まで発言している場合、音声ファイルのその時間の間の音声を切り出し、分離する。一定以上の時間、一定以上の音量レベルの音声の入力がない場合や、発言する人物が変わった場合に、その人物の発言が終了したものとみなし、音声の継続期間を認識することができる。
生成ブロック122は、分離した音声の音声ファイルを、音声同期特定/位置座標データにより特定された人物の人物特定符号に基づき、位置座標データと紐付け、指向性を有する音声ファイルを生成する。生成された音声ファイルは、人物ごとに分離され、記録装置10に対して人物が存在する方向を示す位置座標データを含むことから、指向性を有するものとなる。
図8は、記録システムにより実行される人物の検出から音声ファイルの生成までの処理の一例を示したフローチャートである。記録装置10の電源が投入されることにより、ステップ100から処理を開始する。ステップ101では、シャッターボタン26が押下されたことを受けて、録画を開始する。録画は、全天球動画の撮影と複数のマイクによる音声録音を含む。
ステップ102では、録画により生成された全天球動画から人物検知処理を開始する。人物検知処理は、人物を検出し、検出した人物に対して人物特定符号を割り当て、人物の位置座標を検出する。録画された動画のファイルフォーマットは、木構造を有し、木構造の各ノードは、BOXと呼ばれる。ステップ103では、人物特定符号のBOXを付与する。人物A、Bを検出した場合、人物Aについて人物AのBOXを付与し、人物Bついて人物BのBOXを付与する。BOXには、各人物の発言の有無、位置座標、発言時間等が格納される。
ステップ104では、録画が終了したかを判断する。シャッターボタン26が再び押下された場合、録画が終了したと判断し、ステップ105へ進む。一方、押下されない場合、録画が継続されると判断し、ステップ102へ戻る。
ステップ105では、付与されたBOX情報を読み込む。ステップ106では、読み込んだBOX情報の人物特定符号情報から作成する音声ファイルの数を決定する。全天球動画から検出された人物の数が5人であれば、5つのBOXが付与され、各BOXには各人物特定符号情報が格納されていることから、作成音声ファイル数は5つと決定される。
ステップ107では、人物特定符号ごとに、検出時間に基づき分離した音声ファイルを位置座標データと紐付け、指向性を有する(付加した)音声ファイルを生成する。全ての人物特定符号につき、指向性を付加した音声ファイルを生成したところで、ステップ108へ進み、処理を終了する。
記録システムが、記録装置10と情報処理装置とから構成される場合、記録装置10が生成した全天球動画の動画ファイルと音声ファイルとを格納するBOXのBOX情報を、情報処理装置が実装するアプリケーションにより読み込み、指向性を有する音声ファイルを生成することができる。
生成された音声ファイルは、ファイル保存部123に保存されるが、保存形式は、音声ファイルに識別情報を付加したWAV(RIFF Waveform Audio Format)ファイル等のリニアPCM(Pulse Code Modulation)ファイルや、圧縮したAAC(Advanced Audio Coding)ファイル形式等であってもよい。保存形式としては、一般的に広く使用されているmp3、flac、mp4等が望ましい。
記録システムは、人物の検出の際、全天球画像から当該人物の画像を切り出し、縮小した縮小画像(サムネイル画像)を生成する手段と、生成したサムネイル画像を、生成した音声ファイルと同じフォルダに記録する手段とを備えることができる。記録する手段は、サムネイル画像の静止画ファイルに生成した音声を付与し、音声付き静止画ファイルとして記録することも可能である。このようにすることで、どのフォルダに誰の音声ファイルが格納されているかを一見して判別することが可能となる。
サムネイル画像は、人物の顔の画像であってもよいし、人物の全身の画像であってもよい。音声を付与するファイルは、静止画ファイルに限定されるものではなく、動画ファイルであってもよい。動画ファイルは、短時間の動画ファイルのほか、特徴条件に合致したシーンのみを抽出した動画ファイルであってもよい。このようなシーンを抽出するために、人物を映した動画を抽出する手段と、抽出した動画と音声ファイルを同一のフォルダに記録する手段とを備えることができる。これにより、人物と音声との同期が視覚的に容易となる。
記録システムにより指向性を有する音声ファイルを生成し、記録することで、一般的な音声認識ソフトウェアでの文字起こし、いわゆる議事録の作成に利用可能となる。
記録システムにより記録された音声ファイルは、近年発達しているAI(Artificial Intelligence)や機械学習、クラウドコンピューティング上の音声認識機能(Speech to Text)等を利用することで、音声の認識技術の向上を享受することができる。この音声認識機能は、API(Application Programming Interface)により呼び出すことができ、記録システムは、APIを実装することができる。記録システムは、音声認識機能を利用して音声を文字列に変換させるため、記録した音声ファイルを、音声認識機能を有する外部機器へ送信することができ、その音声ファイルを送信するために送信手段を備えることができる。
これまで本発明を、記録装置、記録システムおよび方法として上述した実施の形態をもって説明してきた。しかしながら、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができるものである。また、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
したがって、上述した会議の記録という使用例に限定されるものではなく、例えば、車両に取り付けるドライブレコーダとして使用することも可能である。ここで、ドライブレコーダとは、自動車や電車などの車両の車内外に取り付けられ、車両走行中や停止中の車内外の状況を映像および音声記録する車載機器である。ドライブレコーダとして使用する場合、電源は、車両から給電することができる。
通常、車両の場合、ドライブレコーダはフロントガラス上方に取り付けられることが多いが、撮像手段がエリアセンサ1つである、いわゆる通常のカメラでは、車両前方の映像しか撮像することができない。本実施形態では、全天球画像や全周画像が撮像できるため、車内、ひいては車両後方も撮像することが可能となる。また、車内にドライブレコーダとして取り付けられる場合、乗車している各人の音声ファイルを生成することができる。
交通事故は、車両の前後方向に限らず、車両の左右方向(側面)側でも発生する。この場合であっても、本実施形態の記録装置を用いれば、問題なく側面側の映像を撮像することができる。
本実施形態の記録装置をドライブレコーダとして使用する場合、記録装置はHDR(ハイダナミックレンジ)機能やWDR(ワイドダイナミックレンジ)機能を備えるとさらに良い。
なお、車内に取り付ける場合は、車両の前方側と、車内側とで露出補正をすると、明るさが均一な全天球画像や全周画像が得られるので望ましい。撮像後の画像再生中に明るさを補正し、表示してもよい。
また、本発明では、上記の方法をコンピュータに実行させるためのプログラムや、そのプログラムが記録された記録媒体、上記のプログラムが格納され、ダウンロード要求を受けて提供するサーバ装置等も提供することができるものである。
10…記録装置
11…ディスプレイ
12…会議テーブル
13…椅子
20、21…魚眼レンズ
22〜25…マイク
26…シャッターボタン
27…電源/モードボタン
28…OSD
30…撮像部
31、32…レンズ光学系
33、34…撮像センサ
40…プロセッサ
41…鏡胴ユニット
42a、42b…ISP
43…DMAC
44…ARBMEMC
45…MEMC
46…歪曲補正・画像合成ブロック
47…顔検出ブロック
48…SDRAM
49…DMAC
50…画像処理ブロック
51…CPU
52…画像データ転送部
53…SDRAMC
54…メモリカード制御ブロック
55…USBブロック
56…ペリフェラル・ブロック
57…音声ユニット
58…シリアルブロック
59…LCDドライバ
60…ブリッジ
61…リサイズブロック
62…静止画圧縮ブロック
63…動画圧縮ブロック
64…パワーコントローラ
65…SDRAM
66…メモリカードスロット
67…フラッシュROM
68…USBコネクタ
69…電源スイッチ
70…スピーカ
71…無線NIC
72…LCDモニタ
100…撮像センサ
101…画像取込み部
102…IMUセンサ
103…データ取込み部
110…マイク
111…プリアンプ
112…ADC
113…処理ブロック
120…検出ブロック
121…コンテナ
122…生成ブロック
123…ファイル保存部
130…HPF/LPF
131…IIR/FIR
132…感度補正ブロック
133…コンプレッサ
134…周波数タイミング補正ブロック
特開平8−286680号公報

Claims (13)

  1. 記録装置であって、
    複数の撮像手段と、
    複数の音声入力手段と、
    前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
    前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段と
    を含む、記録装置。
  2. 前記複数の撮像手段により撮像された動画を構成するフレームに同期して、前記情報取得手段が取得した各情報を保存する保存場所を付与する付与手段を含み、
    前記生成手段は、前記付与手段により付与された保存場所の数から前記物体の数を決定し、前記物体の数に応じた前記音声ファイルを生成する、請求項1に記載の記録装置。
  3. 前記複数の撮像手段により撮像された画像を合成して全天球画像または全周画像を生成する合成画像生成手段を含む、請求項1または2に記載の記録装置。
  4. 前記複数の撮像手段により撮像された画像から、前記情報取得手段が取得した前記物体情報をもつ前記物体の縮小画像を生成する縮小画像生成手段を含む、請求項1〜3のいずれか1項に記載の記録装置。
  5. 前記生成手段により生成された前記音声ファイルを、前記縮小画像生成手段により生成された前記縮小画像のファイルとともに1つのフォルダに記録する記録手段を含む、請求項4に記載の記録装置。
  6. 前記記録手段は、前記音声ファイルを付加した前記縮小画像のファイルを記録する、請求項5に記載の記録装置。
  7. 前記複数の撮像された動画から、前記情報取得手段が取得した前記物体情報をもつ前記物体を映した動画を抽出する抽出手段と、
    前記生成手段により生成された前記音声ファイルを、前記抽出手段により抽出された前記物体を映した動画のファイルとともに1つのフォルダに記録する記録手段とを含む、請求項1〜3のいずれか1項に記載の記録装置。
  8. 請求項1〜7のいずれか1項に記載の記録装置を含む、記録システム。
  9. 記録装置と、情報処理装置とを含む記録システムであって、
    前記記録装置が、
    複数の撮像手段と、
    複数の音声入力手段と、
    前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と
    を含み、
    前記情報処理装置が、
    前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段
    を含む、記録システム。
  10. 記録装置と、情報処理装置とを含む記録システムであって、
    前記記録装置が、
    複数の撮像手段と、
    複数の音声入力手段と
    を含み、
    前記情報処理装置が、
    前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
    前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段と
    を含む、記録システム。
  11. 前記記録システムは、音声を文字列に変換する音声認識機能を有する外部機器へ、生成した前記音声ファイルを送信する送信手段を含む、請求項8〜10のいずれか1項に記載の記録システム。
  12. 複数の撮像手段と複数の音声入力手段とを含む記録装置を使用してファイルを生成する方法であって、
    前記複数の撮像手段により画像を撮像するステップと、
    前記複数の音声入力手段により物体が発する音声の入力を受け付けるステップと、
    撮像された前記画像に基づき、前記音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得するステップと、
    前記取得するステップで取得された各情報と前記複数の前記入力を受け付けるステップで入力された音声信号とに基づき、前記物体ごとの音声ファイルを生成するステップと
    を含む、方法。
  13. 請求項12に記載の方法に含まれる各ステップをコンピュータに実行させるためのプログラム。
JP2020015372A 2020-01-31 2020-01-31 記録装置、記録システム、ファイル生成方法およびプログラム Pending JP2021124526A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020015372A JP2021124526A (ja) 2020-01-31 2020-01-31 記録装置、記録システム、ファイル生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020015372A JP2021124526A (ja) 2020-01-31 2020-01-31 記録装置、記録システム、ファイル生成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2021124526A true JP2021124526A (ja) 2021-08-30

Family

ID=77458657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020015372A Pending JP2021124526A (ja) 2020-01-31 2020-01-31 記録装置、記録システム、ファイル生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2021124526A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08152897A (ja) * 1994-11-30 1996-06-11 Toshiba Corp 音声編集処理装置
JP2001309218A (ja) * 2000-04-19 2001-11-02 Sharp Corp デジタルカメラ
JP2011069948A (ja) * 2009-09-25 2011-04-07 Nec Corp 音源信号分離装置、音源信号分離方法及びプログラム
JP2013005195A (ja) * 2011-06-16 2013-01-07 Konica Minolta Holdings Inc 情報処理システム
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
WO2017104395A1 (ja) * 2015-12-15 2017-06-22 株式会社リコー 画像処理装置及び画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08152897A (ja) * 1994-11-30 1996-06-11 Toshiba Corp 音声編集処理装置
JP2001309218A (ja) * 2000-04-19 2001-11-02 Sharp Corp デジタルカメラ
JP2011069948A (ja) * 2009-09-25 2011-04-07 Nec Corp 音源信号分離装置、音源信号分離方法及びプログラム
JP2013005195A (ja) * 2011-06-16 2013-01-07 Konica Minolta Holdings Inc 情報処理システム
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
WO2017104395A1 (ja) * 2015-12-15 2017-06-22 株式会社リコー 画像処理装置及び画像処理方法

Similar Documents

Publication Publication Date Title
CN109756671B (zh) 使用多个相机记录图像的电子装置及其操作方法
JP7185434B2 (ja) 複数のカメラを用いて映像を取得するための電子装置及びこれを用いた映像処理方法
KR20210130773A (ko) 이미지 처리 방법 및 머리 장착형 디스플레이 디바이스
JP2008193196A (ja) 撮像装置および指定音声出力方法
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
CN104580992A (zh) 一种控制方法及移动终端
WO2017114048A1 (zh) 移动终端及联系人标识方法
KR102330264B1 (ko) 움직임 정보에 기반하여 동영상을 재생하기 위한 장치 및 그의 동작 방법
JP6096654B2 (ja) 画像の記録方法、電子機器およびコンピュータ・プログラム
KR20200092631A (ko) 슬로 모션 영상 생성 방법 및 장치
KR20200043818A (ko) 전자 장치 및 그의 이미지 촬영 방법
US20180268819A1 (en) Communication terminal, communication method, and computer program product
JP2023026477A (ja) 撮像装置、撮像システム
JP2021117924A (ja) 画像処理装置、画像処理システム、撮像装置、画像処理方法およびプログラム
US11622175B2 (en) Electronic apparatus and control method thereof
US11102403B2 (en) Image device, information processing apparatus, information processing method, system, and storage medium
JP2021124526A (ja) 記録装置、記録システム、ファイル生成方法およびプログラム
JP6631166B2 (ja) 撮影装置、プログラム及び撮影方法
JP2017063276A (ja) 映像表示装置、映像表示方法、及びプログラム
JP2010130403A (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
JP6340785B2 (ja) 動画処理装置、動画処理方法、及び、プログラム
JP7397084B2 (ja) データ作成方法及びデータ作成プログラム
JP7365793B2 (ja) 撮像装置およびその制御方法、プログラム
JP2018101452A (ja) 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
JP2021040217A (ja) 撮像装置及びその制御方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240402