JP2021124526A

JP2021124526A - 記録装置、記録システム、ファイル生成方法およびプログラム

Info

Publication number: JP2021124526A
Application number: JP2020015372A
Authority: JP
Inventors: 崇文大熊; Takafumi Okuma
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2021-08-30

Abstract

【課題】物体ごとの音声ファイルを容易に生成することができる装置、システム、方法およびプログラムを提供すること。【解決手段】記録装置は、複数の撮像手段と、複数の音声入力手段と、撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、取得した各情報と複数の音声入力手段により取得された音声信号とに基づき、物体ごとの音声ファイルを生成する生成手段とを含む。【選択図】図５

Description

本発明は、記録装置、記録システム、ファイル生成方法およびファイルを生成する処理をコンピュータに実行させるためのプログラムに関する。

複数のカメラと複数のマイクロフォンを使用し、複数のオブジェクトが発する音を抽出する技術が知られている（例えば、特許文献１参照）。

従来の技術では、複数のカメラと複数のマイクロフォンが予め定められた位置に、それぞれが離間して配置されるため、取得される複数の画像と音声の同期関係や位置関係が複雑で、オブジェクトごとの音声ファイルを容易に生成することができないという問題があった。

本発明は、上記に鑑みてなされたものであって、物体ごとの音声ファイルを容易に生成することができる装置、システム、方法およびプログラムを提供することを目的とする。

上述した課題を解決するために、発明の一実施形態では、記録装置であって、
複数の撮像手段と、
複数の音声入力手段と、
複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
情報取得手段が取得した各情報と複数の音声入力手段により取得された音声信号とに基づき、物体ごとの音声ファイルを生成する生成手段と
を含む、記録装置が提供される。

本発明によれば、物体ごとの音声ファイルを容易に生成することが可能となる。

記録システムの使用例を示した図。記録装置の構成例を示した図。記録装置の撮像部について説明する図。記録装置のハードウェア構成の一例を示した図。記録システムのシステム構成を示したブロック図。人物、人物の位置、音声の継続期間を検出する処理について説明する図。人物ごとの音声ファイルを生成する処理について説明する図。人物の検出から音声ファイルの生成までの処理の一例を示したフローチャート。

本実施形態に係る記録システムは、複数の撮像手段と複数の音声入力手段とを備える記録装置を含み、撮像された画像と取得された音声信号とから、各物体の音声を抽出し、物体ごとの音声ファイルを生成し、物体ごとに記録するシステムである。

撮像手段は、結像光学系（撮像センサ）であり、入射された光を像に変換し、画像として出力する。各撮像センサから出力された画像は合成され、３６０度の全方位を表す画像（全天球画像）が生成される。複数の撮像センサは、同期して動作し、時間的に連続して撮像することも可能である。このため、全天球画像としては、静止画に限らず、動画も撮像可能となっている。なお、画像は、３６０度の全方位を表す全天球画像に限られるものではなく、３６０度の全周を表す全周画像であってもよい。

音声入力手段は、物体が発した音声の入力を受け付けるマイクロフォン（マイク）である。マイクは、複数の撮像センサにより全天球動画を撮像する際、撮影環境の周囲の音声の入力を受け付ける。音声は、人が発する声に限定されるものではなく、動物の声、音楽、機械音、動作音、その他空気の振動によって伝播する音を含むものである。したがって、物体も、人に限定されるものではなく、動物や機械等であってもよい。

図１は、記録システムの使用例を示した図である。図１に示す例では、記録システムが記録装置１０のみで構成されている。記録装置１０は、全天球画像を生成し、音声の入力を受け付け、物体ごとの音声ファイルを生成し、記録する装置とされている。なお、記録システムは、記録装置１０のみで構成されるものに限らず、記録装置１０と外部機器であるＰＣ（Personal Computer）、スマートフォンやタブレット端末などの携帯情報端末ＰＤＡ(Personal Digital Assistant)等の情報処理装置とから構成されていてもよい。ここでは、記録システムを、会議を録画するために使用するものとして説明する。

会議は、司会者Ｅが立って、ディスプレイ１１を使用して所定の議題について説明を行い、参加者Ａ〜Ｄが会議テーブル１２の周りに配置された椅子１３に座り、説明された議題に対して自由に発言する形で行われている。記録装置１０は、会議室内の会議テーブル１２上の中央位置Ｆに配置され、その様子を録画している。

記録装置１０は、例えば２組の魚眼レンズおよび撮像センサと、４つのマイクとを内蔵する。ここでは、記録装置１０が２組の魚眼レンズおよび撮像センサと４つのマイクとを備えるものとして説明するが、これらの数に限定されるものではない。

記録装置１０は、１組の魚眼レンズおよび撮像センサが向いた方向（裏面）を０度とし、もう１組の魚眼レンズと撮像センサが向いた方向（正面）を１８０度として配置される。記録装置１０の裏面には、参加者Ｂが座っており、正面には、参加者Ｄが座っている。なお、参加者Ａは４５度の方向に、参加者Ｃは２７０度の方向に座っており、司会者Ｅは９０度の方向に立っている。

記録装置１０は、２つの撮像センサにより撮像した２つの画像を繋ぎ合わせて全天球画像を生成し、生成した全天球画像を基に、４つのマイクから入力された参加者Ａ〜Ｄ、司会者Ｅの音声を含む音声信号から、各参加者Ａ〜Ｄ、司会者Ｅの音声信号を分離し、各人物の音声ファイルを生成し、保存する。なお、記録装置１０は、２つの撮像センサにより会議室内を録画するため、撮像した画像は動画を構成するフレームの１つであり、実際には全天球動画を生成し、全天球動画を基に、各人物の音声ファイルを生成する。

図２は、記録装置１０の構成例を示した図である。図２（ａ）は、記録装置１０の裏面を示し、図２（ｂ）は、記録装置１０の正面を示した図である。記録装置１０は、全天球撮像装置であり、魚眼レンズ２０、２１と、マイク２２〜２５と、シャッターボタン２６と、電源／モードボタン２７と、ＯＳＤ(On Screen Display)２８とを備える。

マイク２２〜２５は、ｃｈ１〜４のマイクを含む、無指向性のマイクユニットであり、裏面に高さ位置を変えて上下２段に設けられ、正面に同じ高さ位置で左右に２つ設けられている。これにより、どの方向から発せられる音声も適度な音量で取得することができる。

シャッターボタン２６は、撮像対象を撮像する際に押下されるボタンで、録画する際は、撮像を開始する場合と撮像を終了する場合の２回押下される。電源／モードボタン２７は、記録装置１０の電源を投入し、撮影モードを切り替える際に押下されるボタンである。撮影モードとしては、静止画を撮影するモード、動画を撮影するモード、ＰＣ等の外部機器と接続し、撮像したライブ映像を外部機器へ配信するモード等が挙げられる。ＯＳＤ２８は、画面上に音量やコントラスト量等を表示する機能を搭載したディスプレイである。

記録装置１０は、ＵＳＢＨＯＳＴ機能（ＵＳＢ入力）とマイク端子とを有し、外付けでＵＳＢデバイス接続の多チャンネルマイクやアナログ接続の多チャンネルマイク（４ｃｈ）を搭載し、その音響性能や指向性性能を拡張することもできる。

図３は、記録装置１０の撮像部について説明する図である。撮像部３０は、２つのレンズ光学系３１、３２と、２つの撮像センサ３３、３４とを含む。ここでは、撮像部が２つのレンズ光学系３１、３２と２つの撮像センサ３３、３４とから構成されるものとして説明するが、レンズ光学系および撮像センサは２つに限定されるものではなく、３つ以上であってもよい。

撮像センサ３３、３４は、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサやＣＣＤ(Charge Coupled Device)センサ等が用いられる。撮像センサ３３、３４は、各撮像面が相反するように配置される。

レンズ光学系３１、３２は、魚眼レンズ２０、２１を含む。魚眼レンズ２０、２１としては、例えば６群７枚や１０群１４枚のレンズ構成のものを用いることができる。図３に示す例では、１８０度（３６０度／ｎ；光学系数ｎ＝２）より大きい全画角を有し、好適には、１９０度以上の画角を有する。なお、全体として所定の画角が得られる限り、魚眼レンズ２０、２１に代えて、他の広角レンズや超広角レンズ等を用いてもよい。

レンズ光学系３１、３２には、魚眼レンズ２０、２１のほか、プリズム、フィルタ、開口絞り等の光学素子が含まれ、光学素子は、撮像センサ３３、３４に対して位置関係が定められる。光学素子の光軸は、対応する撮像センサ３３、３４の受光領域の中心部に直交して位置するように、かつ受光領域が対応する魚眼レンズ２０、２１の結像面となるように位置決めされる。

図３に示す例では、視差を低減するため、２つの魚眼レンズ２０、２１により集光された光は、２つの９０度プリズムにより２つの撮像センサ３３、３４へ入射する屈折光学系を採用しているが、これに限定されるものではない。したがって、視差をより低減するために、３回屈折構造としてもよいし、コストを低減するべく、ストレート光学系を採用してもよい。プリズム自体を１つで構成してもよいし、２つのプリズムをそれぞれ別部材で構成してもよい。

図３に示した２つのレンズ光学系３１、３２は、同一仕様のものであり、それぞれの光軸が合致するようにして、互いに逆向きに組み合わされている。レンズ光学系３１、３２へ入射された光は、撮像センサ３３、３４により受光され、受光された光分布が画像に変換され、後述する画像取込み部へ入力される。

図４は、記録装置１０のハードウェア構成の一例を示した図である。記録装置１０は、デジタル・スチルカメラ・プロセッサ（以下、単にプロセッサと略す。）４０と、鏡胴ユニット４１と、プロセッサ４０に接続される種々のコンポーネントとから構成される。鏡胴ユニット４１は、２組のレンズ光学系３１、３２および撮像センサ３３、３４を有している。撮像センサ３３、３４は、プロセッサ４０により制御される。

プロセッサ４０は、ＩＳＰ(Image Signal Processor)４２ａ、４２ｂと、ＤＭＡＣ(Direct Memory Access Controller)４３と、ＡＲＢＭＥＭＣ（アービタ）４４とを含む。プロセッサ４０は、ＭＥＭＣ(Memory Controller)４５と、歪曲補正・画像合成ブロック４６と、顔検出ブロック４７とを含む。

ＩＳＰ４２ａ、４２ｂは、撮像センサ３３、３４から入力された画像に対し、自動露出(AE)制御、自動ホワイトバランス(AWB)設定、ガンマ設定等を行う。図４に示す例では、２つの撮像センサ３３、３４に対し、１つずつ対応するように２つのＩＳＰ４２ａ、４２ｂが設けられているが、これに限られるものではなく、ＩＳＰは２つの撮像センサ３３、３４に対して１つであってもよい。

ＤＭＡＣ４３は、ＡＲＢＭＥＭＣ４４へＩＳＰ４２ａ、４２ｂ等で処理された画像等を転送する。ＡＲＢＭＥＭＣ４４は、メモリアクセスを調停する。

ＭＥＭＣ４５には、ＳＤＲＡＭ(Synchronous Dynamic Random Access Memory)４８が接続される。ＳＤＲＡＭ４８は、ＩＳＰ４２ａ、４２ｂおよび歪曲補正・画像合成ブロック４６が処理を施す際に一時的にデータを保存する。歪曲補正・画像合成ブロック４６は、２組のレンズ光学系３１、３２および撮像センサ３３、３４から得られた２つの画像に対し、後述するＩＭＵ(Inertial Measurement Unit)センサ１０２からの情報を利用して歪曲補正とともに天頂補正を行いながら、画像を繋ぎ合わせる。ＩＭＵセンサ１０２は、３軸加速度センサ、３軸角速度センサ、地磁気センサ等を含む。

顔検出ブロック４７は、入力された画像から顔検出を行い、人物の顔の位置を特定する。顔検出は、顔のパーツの相対位置や大きさ、目、鼻、あごの形等の特徴を利用して行う。なお、この方法は一例であるので、顔検出はこの方法に限定されるものではない。ここでは、顔検出ブロック４７のみを設け、顔検出のみを行っているが、人物の全身像等を検出するための他のブロックが設けられていてもよい。

プロセッサ４０は、ＤＭＡＣ４９、画像処理ブロック５０、ＣＰＵ(Central Processing Unit)５１、画像データ転送部５２、ＳＤＲＡＭＣ(SDRAM Controller)５３、メモリカード制御ブロック５４を備えている。また、プロセッサ４０は、ＵＳＢ(Universal Serial Bus)ブロック５５、ペリフェラル・ブロック５６、音声ユニット５７、シリアルブロック５８、ＬＣＤ(Liquid Crystal Display)ドライバ５９、ブリッジ６０を備えている。

ＣＰＵ５１は、記録装置１０の各部の動作を制御する。画像処理ブロック５０は、画像データに対し各種の画像処理を行う。プロセッサ４０は、リサイズブロック６１、静止画圧縮ブロック６２、動画圧縮ブロック６３、パワーコントローラ６４を含み、画像処理ブロック５０は、リサイズブロック６１等を使用し、画像処理を行うことができる。

リサイズブロック６１は、画像データのサイズを補間処理により拡大または縮小する。静止画圧縮ブロック６２は、ＪＰＥＧ(Joint Photographic Experts Group)、ＴＩＦＦ(Tagged Image File Format)等の静止画圧縮および伸張を行い、全天球画像の静止画データを生成する。動画圧縮ブロック６３は、ＭＰＥＧ(Moving Picture Experts Group)−４、ＡＶＣ(Advanced Video Coding)／Ｈ．２６４等の動画圧縮および伸張を行い、全天球動画を生成する。

画像データ転送部５２は、画像処理ブロック５０で画像処理された画像を転送する。ＳＤＲＡＭＣ５３は、プロセッサ４０に接続されるＳＤＲＡＭ６５を制御し、ＳＤＲＡＭ６５は、プロセッサ４０内で画像データに各種の処理を施す際に、画像データを一時的に保存するために使用される。

メモリカード制御ブロック５４は、メモリカードスロット６６に挿入されたメモリカードおよびフラッシュＲＯＭ(Read Only Memory)６７に対する読み書きを制御する。ＵＳＢブロック５５は、ＵＳＢコネクタ６８を介して接続されるＰＣ等の外部機器とのＵＳＢ通信を制御する。ペリフェラル・ブロック５６は、電源スイッチ６９が接続される。ペリフェラル・ブロック５６に入力された電源は、パワーコントローラ６４により制御される。

音声ユニット５７は、司会者や参加者等の人物が発する音声の入力を受け付けるマイク２２〜２５と、記録された音声信号を出力するスピーカ７０とに接続され、音声の入出力を制御する。シリアルブロック５８は、ＰＣ等の外部機器とのシリアル通信を制御し、無線ＮＩＣ(Network Interface Card)７１が接続される。無線ＮＩＣ７１は、記録装置１０とＰＣ等の外部機器との間で無線通信を行うためのハードウェアである。無線通信は、具体的にはＷｉ-Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の電波を使用した通信である。

ＬＣＤドライバ５９は、ＬＣＤモニタ７２を駆動するドライブ回路であり、ＬＣＤモニタ７２に各種状態を表示するための信号に変換する。図４では、ＬＣＤドライバ５９のみが示されているが、ＨＤＭＩ(High-Definition Multimedia Interface（登録商標）)等の映像インタフェースが設けられていてもよい。

フラッシュＲＯＭ６７には、ＣＰＵ５１が解読可能なコードで記述された制御プログラムや各種パラメータが格納される。制御プログラムは、電源スイッチ６９が投入されると、メインメモリにロードされ、ＣＰＵ５１がメインメモリに読み出されたプログラムに従って、装置各部の動作を制御する。このとき、制御に必要なデータがＳＤＲＡＭ６５と、図示しないローカルＳＲＡＭ(Static Random Access Memory)とに一時的に保存される。なお、フラッシュＲＯＭ６７は、書き換え可能なメモリであるため、制御プログラムや各種パラメータを変更することができ、機能のバージョンアップを容易に行うことができる。

図５は、記録システムのシステム構成を示したブロック図である。複数の撮像手段として、複数の撮像センサ１００を含み、複数の音声入力手段として、複数のマイク１１０を含む。

記録システムは、複数のプリアンプ１１１、複数のＡＤＣ(Analog to Digital Converter)１１２と、処理ブロック１１３と、画像取込み部１０１と、ＩＭＵセンサ１０２と、データ取込み部１０３とを含む。また、記録システムは、検出ブロック１２０と、コンテナ１２１と、生成ブロック１２２と、ファイル保存部１２３とを含む。

記録システムは、１つの筐体内に複数の撮像センサ１００等を実装した記録装置１０として構成されていてもよいし、複数の撮像センサ１００と複数のマイク１１０等を実装した記録装置１０と１つ以上の情報処理装置とから構成されていてもよい。

記録システムが記録装置１０と情報処理装置とから構成される場合、複数の撮像センサ１００、複数のマイク１１０、ＩＭＵセンサ１０２以外の、プリアンプ１１１等のブロックは、記録装置１０と情報処理装置のいずれが備えていてもよい。一例としては、記録装置１０が複数の撮像センサ１００、複数のプリアンプ１１１、複数のＡＤＣ１１２、処理ブロック１１３、複数のマイク１１０、画像取込み部１０１、ＩＭＵセンサ１０２、データ取込み部１０３、検出ブロック１２０を含み、情報処理装置がコンテナ１２１、生成ブロック１２２、ファイル保存部１２３を含むことができる。また、別の例として、記録装置１０が複数の撮像センサ１００、複数のプリアンプ１１１、複数のＡＤＣ１１２、処理ブロック１１３、複数のマイク１１０、画像取込み部１０１、ＩＭＵセンサ１０２、データ取込み部１０３を含み、情報処理装置が検出ブロック１２０、コンテナ１２１、生成ブロック１２２、ファイル保存部１２３を含むことができる。

複数の撮像センサ１００は、各方向に向くように配置され、各方向を撮像する。複数の撮像センサ１００により撮像された画像は、画像取込み部１０１により取り込まれる。画像取込み部１０１は、取り込んだ画像に対し、所定の画像処理を行い、複数の画像を合成して全天球画像を生成する。複数の画像の合成は、画像の繋ぎ位置（特徴部分）を検出し、検出した繋ぎ位置で繋ぎ合わせることにより行われる。画像取込み部１０１は、画像を正しい向きとするため、天頂補正を行う。天頂補正では、撮像センサ１００を搭載した装置の姿勢に基づき、画像の傾きを補正する。

天頂補正で装置の姿勢に関する情報が必要となるため、ＩＭＵセンサ１０２は、姿勢に関する情報として、加速度、角速度、方位を計測する。データ取込み部１０３は、ＩＭＵセンサ１０２が計測したデータを取り込み、画像取込み部１０１へ渡す。また、データ取込み部１０３は、取り込んだデータを、フレーム同期センサデータとしてコンテナ１２１に保存する。コンテナ１２１は、データを保存するデータ保存部として機能する。

画像取込み部１０１は、生成した画像を画像データとしてコンテナ１２１に保存する。撮像センサ１００により画像が動画として撮像される場合、画像取込み部１０１は、動画を構成する画像をフレームとして連続的に取り込み、全天球画像を連続的に生成する。

画像取込み部１０１は、生成した全天球画像を検出ブロック１２０へ送る。検出ブロック１２０は、情報取得手段として機能し、画像取込み部１０１により生成された全天球画像に基づき、物体としての人物と、記録装置１０に対する人物の位置と、人物が発する音声の継続期間とを検出し、物体情報としての人物情報と、人物の位置情報と、音声の継続期間情報とを取得する。

人物の検出では、画像から人物の存在を検出し、人物情報は、検出した各人物を特定する情報とされる。人物情報は、人物の口や手の動き等により、発言していると想定される人物を特定する情報を含む総称である。位置情報は、画像において各人物の位置を特定する情報で、各人物がいる方角を示す角度情報を含む総称である。継続期間情報は、発言していると想定される人物の話している時間であり、話し始め時間と話し終わり時間とを含む総称である。

記録装置１０は、図１に示したように複数の人物が存在する空間の中央に配置され、全天球画像を生成する。複数の人物は、記録装置１０を挟んで会話を行っていることから、全天球画像には各人の顔が含まれている。検出ブロック１２０は、全天球画像を解析し、目、鼻、口等の顔部品の特徴を基に、人物を検出する。ここでは、顔部品の特徴を基に人物を検出しているが、これに限られるものではなく、他の部品の特徴から人物を検出してもよい。

検出ブロック１２０は、人物を検出した際、各人物に対し、各人物を識別するための識別情報を割り当てる。識別情報は、人物を識別することができればいかなる情報であってもよい。ここでは、識別情報を人物特定符号として参照し、人物特定符号が人物情報となる。

検出ブロック１２０は、例えば記録装置１０が備える１つの撮像センサを任意の方向に向けて配置し、その方向を基準とし、記録装置１０が配置されている位置を中心として、全天球画像から、検出した各人物の位置座標を基準に対する角度として検出する。なお、角度は一例であるので、位置座標は角度に限定されるものではない。この角度の情報が位置情報となる。

検出ブロック１２０は、人物の口の動きや手の動き（ジェスチャ）等を全天球動画から検出し、発言している人物を特定し、特定した人物の位置を検出し、その人物の発言時間を音声の継続期間として検出する。この検出された継続期間の情報が継続期間情報となる。また、ここで特定された人物が、発言していると想定される人物であり、この人物に対して検出された角度が、発言していると想定される人物の角度情報、さらには位置情報となる。

検出ブロック１２０は、取得した人物情報、位置情報、継続期間情報を紐付けて、音声同期特定／位置座標データとしてコンテナ１２１に保存する。コンテナ１２１に保存する継続期間情報は、継続期間を検出するために必要な情報、例えば上記の発言開始時刻と発言終了時刻の情報であってもよい。このデータは、フレームの画像の保存に同期して保存されるため、これらの時刻としては、録画開始からの時間情報（タイムスタンプ）を用いることができる。

複数のマイク１１０は、チャンネルが割り当てられ、例えば記録装置１０の一方の面とその裏側の面とに高さ位置を変えて設けられる。音声の大きさは、音声の発生源がどちらの面の側に存在するか、その高さ位置によって変化する。このような配置で複数のマイク１１０を設けることで、音声の発生源が記録装置１０に対していずれの方向に存在していても、適切な音量の音声を取得することが可能となる。

マイク１１０は、記録装置１０に内蔵された内蔵マイクであってもよいし、記録装置１０にＵＳＢケーブル等により接続された外部マイクであってもよい。マイク１１０は、無指向性のマイクであり、３６０度あらゆる方向からの音声の入力を受け付ける。複数のマイク１１０は、入力された音声を、各マイク１１０に対応する各プリアンプ１１１へ入力する。

各プリアンプ１１１は、各マイク１１０から入力された音声の信号レベルを増幅する。各マイク１１０から入力される音声の信号レベルは小さいので、各プリアンプ１１１により所定のゲインまで増幅することで、以降の処理を行う回路において扱いが容易なレベルにすることができる。

各ＡＤＣ１１２は、各プリアンプ１１１から増幅されたアナログの音声信号をデジタル化し、デジタル信号として処理ブロック１１３に入力する。

処理ブロック１１３は、入力されたデジタル信号に対して所定の処理を行う。処理ブロック１１３は、ＨＰＦ(High Pass Filter)／ＬＰＦ(Low Pass Filter)１３０と、ＩＩＲ(Infinite Impulse Response)／ＦＩＲ(Finite Impulse Response)１３１と、感度補正ブロック１３２と、コンプレッサ１３３と、周波数タイミング補正ブロック１３４とを含んで構成される。

ＨＰＦ／ＬＰＦ１３０およびＩＩＲ／ＦＩＲ１３１等の各種フィルタは、デジタル信号に対して周波数分離等の処理を行う。感度補正ブロック１３２は、各種のフィルタで処理された音声信号の感度を補正する。コンプレッサ１３３は、音声信号の信号レベルを補正する。感度補正ブロック１３２およびコンプレッサ１３３による補正処理により、各マイク１１０のチャンネル間の信号のギャップを低減する。

周波数タイミング補正ブロック１３４は、コンプレッサ１３３から入力された音声信号に対し、上記の各種のフィルタにより行った周波数分離に起因するタイミングずれや周波数を補正する。周波数タイミング補正ブロック１３４は、補正した音声信号を音声ファイルとしてコンテナ１２１に保存する。

生成ブロック１２２は、コンテナ１２１に保存された音声ファイルと音声周期特定／位置座標データとを読み出し、音声周期特定／位置座標データに基づき、複数の人物が発した音声を含む音声ファイルから各人物が発した音声を分離し、各人物の指向性を有する音声ファイルを生成する。音声の分離は、音声周期特定／位置座標データに含まれる音声の継続期間情報を用いて実施される。

生成ブロック１２２は、生成した音声ファイルに含まれるノイズを、フィルタを使用する等して除去する。生成ブロック１２２は、音声周期特定／位置座標データに含まれる人物情報および位置情報を音声ファイルに紐付ける。そして、生成ブロック１２２は、人物情報および位置情報が紐付けられた音声ファイルをファイル保存部１２３に保存する。

図５に示す例では、人物情報としての人物特定符号がＡ、Ｂ、Ｃ、Ｄ、Ｅとされ、各人物の音声ファイルが位置情報としての位置座標データとともにファイル保存部１２３に保存されている。ファイル保存部１２３には、各人物の音声ファイルが分離した状態で保存されているため、各人物がどのような発言をしたかを確認することができ、議事録等の作成が容易になる。

図６は、記録装置１０で録画し、生成された全天球動画を構成するフレームイメージをequirectangular形式で表現し、そのフレームイメージから人物、人物の位置、音声の継続期間を検出する処理について説明する図である。equirectangularは、正距円筒図法のことであり、緯度と経度をそのまま直角かつ等間隔に投影した地図投影法である。

動画のフレームイメージは、０度から３６０度までを表現し、保存された録画開始からの時間情報としてタイムスタンプが付与され、関連付けられる。フレームイメージからは、顔検出等により人物を検出し、各人物を顔の特徴や衣服の色等から識別し、人物特定符号を割り当てる。そして、口の動きやジェスチャ等からどの人物が発言しているかを検出する。

図６に示す例では、撮影を開始してから１分半が経過した後、人物特定符号としてＡが割り当てられた４５度の位置にいる人物が発言している。このとき、音声周期特定／位置座標データとしては、人物特定符号「Ａ」、記録装置１０に対する位置として基準の方向からの角度「４５度」、タイムスタンプ「０：０１：３０：００」がそれぞれ人物情報、位置情報、継続期間情報として取得され、フレームと同期してコンテナ１２１に保存される。

動画は、設定されたフレームレート(fps)に従って撮像され、記録される。フレームレートは、１秒間に記録されるフレーム（静止画）の数であり、３０ｆｐｓの場合、１秒間に記録されるフレーム数が３０である。このようなフレームと同期して、音声周期特定／位置座標データがコンテナ１２１に保存される。

その後、約４分が経過し、人物特定符号としてＣが割り当てられた２７０度の位置にいる人物が発言している場合、人物特定符号「Ｃ」、角度「２７０度」、タイムスタンプ「０：０５：３１：００」がそれぞれ人物情報、位置情報、継続期間情報として取得され、フレームと同期してコンテナ１２１に保存される。

位置情報は、人物の存在位置により角度で指定するのみの角度情報のみであってもよいが、人物の表情や口の動き等から人物の識別とその発言の有無を特定し、それらの情報と、そのフレーム内での角度情報とを含むものであってもよい。

音声周期特定／位置座標データは、タイムスタンプが付与されているため、各人物が発言を開始した時刻と終了した時刻とが分かり、それらの時刻から各人物の発言時間を音声の継続期間として検出することができる。

図７は、人物ごとの音声ファイルを生成する処理について説明する図である。コンテナ１２１には、フレームに同期して音声同期特定／位置座標データが記録されている。生成ブロック１２２は、コンテナ１２１から、音声ファイルと、各フレームに対応する音声同期特定／位置座標データを最初のフレームから順に取り出す。

音声同期特定／位置座標データは、人物情報としての人物特定符号と、位置情報としての位置座標データと、継続期間情報としてのタイムスタンプとを含むことから、生成ブロック１２２は、人物特定符号からどの人物が発言しているか、位置座標データからその人物がどの位置にいるかを認識する。また、生成ブロック１２２は、音声同期特定／位置座標データのタイムスタンプから、発言している人物がいつ発言を開始し、どの程度継続して発言しているかを認識する。

生成ブロック１２２は、認識した音声の継続期間により音声ファイルの音声を分離する。人物Ａが録画開始からの時間「０：００：１５：００」から「０：０２：００：００」まで発言している場合、音声ファイルのその時間の間の音声を切り出し、分離する。一定以上の時間、一定以上の音量レベルの音声の入力がない場合や、発言する人物が変わった場合に、その人物の発言が終了したものとみなし、音声の継続期間を認識することができる。

生成ブロック１２２は、分離した音声の音声ファイルを、音声同期特定／位置座標データにより特定された人物の人物特定符号に基づき、位置座標データと紐付け、指向性を有する音声ファイルを生成する。生成された音声ファイルは、人物ごとに分離され、記録装置１０に対して人物が存在する方向を示す位置座標データを含むことから、指向性を有するものとなる。

図８は、記録システムにより実行される人物の検出から音声ファイルの生成までの処理の一例を示したフローチャートである。記録装置１０の電源が投入されることにより、ステップ１００から処理を開始する。ステップ１０１では、シャッターボタン２６が押下されたことを受けて、録画を開始する。録画は、全天球動画の撮影と複数のマイクによる音声録音を含む。

ステップ１０２では、録画により生成された全天球動画から人物検知処理を開始する。人物検知処理は、人物を検出し、検出した人物に対して人物特定符号を割り当て、人物の位置座標を検出する。録画された動画のファイルフォーマットは、木構造を有し、木構造の各ノードは、ＢＯＸと呼ばれる。ステップ１０３では、人物特定符号のＢＯＸを付与する。人物Ａ、Ｂを検出した場合、人物Ａについて人物ＡのＢＯＸを付与し、人物Ｂついて人物ＢのＢＯＸを付与する。ＢＯＸには、各人物の発言の有無、位置座標、発言時間等が格納される。

ステップ１０４では、録画が終了したかを判断する。シャッターボタン２６が再び押下された場合、録画が終了したと判断し、ステップ１０５へ進む。一方、押下されない場合、録画が継続されると判断し、ステップ１０２へ戻る。

ステップ１０５では、付与されたＢＯＸ情報を読み込む。ステップ１０６では、読み込んだＢＯＸ情報の人物特定符号情報から作成する音声ファイルの数を決定する。全天球動画から検出された人物の数が５人であれば、５つのＢＯＸが付与され、各ＢＯＸには各人物特定符号情報が格納されていることから、作成音声ファイル数は５つと決定される。

ステップ１０７では、人物特定符号ごとに、検出時間に基づき分離した音声ファイルを位置座標データと紐付け、指向性を有する（付加した）音声ファイルを生成する。全ての人物特定符号につき、指向性を付加した音声ファイルを生成したところで、ステップ１０８へ進み、処理を終了する。

記録システムが、記録装置１０と情報処理装置とから構成される場合、記録装置１０が生成した全天球動画の動画ファイルと音声ファイルとを格納するＢＯＸのＢＯＸ情報を、情報処理装置が実装するアプリケーションにより読み込み、指向性を有する音声ファイルを生成することができる。

生成された音声ファイルは、ファイル保存部１２３に保存されるが、保存形式は、音声ファイルに識別情報を付加したＷＡＶ(RIFF Waveform Audio Format)ファイル等のリニアＰＣＭ(Pulse Code Modulation)ファイルや、圧縮したＡＡＣ(Advanced Audio Coding)ファイル形式等であってもよい。保存形式としては、一般的に広く使用されているｍｐ３、ｆｌａｃ、ｍｐ４等が望ましい。

記録システムは、人物の検出の際、全天球画像から当該人物の画像を切り出し、縮小した縮小画像（サムネイル画像）を生成する手段と、生成したサムネイル画像を、生成した音声ファイルと同じフォルダに記録する手段とを備えることができる。記録する手段は、サムネイル画像の静止画ファイルに生成した音声を付与し、音声付き静止画ファイルとして記録することも可能である。このようにすることで、どのフォルダに誰の音声ファイルが格納されているかを一見して判別することが可能となる。

サムネイル画像は、人物の顔の画像であってもよいし、人物の全身の画像であってもよい。音声を付与するファイルは、静止画ファイルに限定されるものではなく、動画ファイルであってもよい。動画ファイルは、短時間の動画ファイルのほか、特徴条件に合致したシーンのみを抽出した動画ファイルであってもよい。このようなシーンを抽出するために、人物を映した動画を抽出する手段と、抽出した動画と音声ファイルを同一のフォルダに記録する手段とを備えることができる。これにより、人物と音声との同期が視覚的に容易となる。

記録システムにより指向性を有する音声ファイルを生成し、記録することで、一般的な音声認識ソフトウェアでの文字起こし、いわゆる議事録の作成に利用可能となる。

記録システムにより記録された音声ファイルは、近年発達しているＡＩ(Artificial Intelligence)や機械学習、クラウドコンピューティング上の音声認識機能(Speech to Text)等を利用することで、音声の認識技術の向上を享受することができる。この音声認識機能は、ＡＰＩ(Application Programming Interface)により呼び出すことができ、記録システムは、ＡＰＩを実装することができる。記録システムは、音声認識機能を利用して音声を文字列に変換させるため、記録した音声ファイルを、音声認識機能を有する外部機器へ送信することができ、その音声ファイルを送信するために送信手段を備えることができる。

これまで本発明を、記録装置、記録システムおよび方法として上述した実施の形態をもって説明してきた。しかしながら、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができるものである。また、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

したがって、上述した会議の記録という使用例に限定されるものではなく、例えば、車両に取り付けるドライブレコーダとして使用することも可能である。ここで、ドライブレコーダとは、自動車や電車などの車両の車内外に取り付けられ、車両走行中や停止中の車内外の状況を映像および音声記録する車載機器である。ドライブレコーダとして使用する場合、電源は、車両から給電することができる。

通常、車両の場合、ドライブレコーダはフロントガラス上方に取り付けられることが多いが、撮像手段がエリアセンサ１つである、いわゆる通常のカメラでは、車両前方の映像しか撮像することができない。本実施形態では、全天球画像や全周画像が撮像できるため、車内、ひいては車両後方も撮像することが可能となる。また、車内にドライブレコーダとして取り付けられる場合、乗車している各人の音声ファイルを生成することができる。

交通事故は、車両の前後方向に限らず、車両の左右方向（側面）側でも発生する。この場合であっても、本実施形態の記録装置を用いれば、問題なく側面側の映像を撮像することができる。

本実施形態の記録装置をドライブレコーダとして使用する場合、記録装置はＨＤＲ（ハイダナミックレンジ）機能やＷＤＲ（ワイドダイナミックレンジ）機能を備えるとさらに良い。

なお、車内に取り付ける場合は、車両の前方側と、車内側とで露出補正をすると、明るさが均一な全天球画像や全周画像が得られるので望ましい。撮像後の画像再生中に明るさを補正し、表示してもよい。

また、本発明では、上記の方法をコンピュータに実行させるためのプログラムや、そのプログラムが記録された記録媒体、上記のプログラムが格納され、ダウンロード要求を受けて提供するサーバ装置等も提供することができるものである。

１０…記録装置
１１…ディスプレイ
１２…会議テーブル
１３…椅子
２０、２１…魚眼レンズ
２２〜２５…マイク
２６…シャッターボタン
２７…電源／モードボタン
２８…ＯＳＤ
３０…撮像部
３１、３２…レンズ光学系
３３、３４…撮像センサ
４０…プロセッサ
４１…鏡胴ユニット
４２ａ、４２ｂ…ＩＳＰ
４３…ＤＭＡＣ
４４…ＡＲＢＭＥＭＣ
４５…ＭＥＭＣ
４６…歪曲補正・画像合成ブロック
４７…顔検出ブロック
４８…ＳＤＲＡＭ
４９…ＤＭＡＣ
５０…画像処理ブロック
５１…ＣＰＵ
５２…画像データ転送部
５３…ＳＤＲＡＭＣ
５４…メモリカード制御ブロック
５５…ＵＳＢブロック
５６…ペリフェラル・ブロック
５７…音声ユニット
５８…シリアルブロック
５９…ＬＣＤドライバ
６０…ブリッジ
６１…リサイズブロック
６２…静止画圧縮ブロック
６３…動画圧縮ブロック
６４…パワーコントローラ
６５…ＳＤＲＡＭ
６６…メモリカードスロット
６７…フラッシュＲＯＭ
６８…ＵＳＢコネクタ
６９…電源スイッチ
７０…スピーカ
７１…無線ＮＩＣ
７２…ＬＣＤモニタ
１００…撮像センサ
１０１…画像取込み部
１０２…ＩＭＵセンサ
１０３…データ取込み部
１１０…マイク
１１１…プリアンプ
１１２…ＡＤＣ
１１３…処理ブロック
１２０…検出ブロック
１２１…コンテナ
１２２…生成ブロック
１２３…ファイル保存部
１３０…ＨＰＦ／ＬＰＦ
１３１…ＩＩＲ／ＦＩＲ
１３２…感度補正ブロック
１３３…コンプレッサ
１３４…周波数タイミング補正ブロック

特開平８−２８６６８０号公報

Claims

記録装置であって、
複数の撮像手段と、
複数の音声入力手段と、
前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段と
を含む、記録装置。
前記複数の撮像手段により撮像された動画を構成するフレームに同期して、前記情報取得手段が取得した各情報を保存する保存場所を付与する付与手段を含み、
前記生成手段は、前記付与手段により付与された保存場所の数から前記物体の数を決定し、前記物体の数に応じた前記音声ファイルを生成する、請求項１に記載の記録装置。
前記複数の撮像手段により撮像された画像を合成して全天球画像または全周画像を生成する合成画像生成手段を含む、請求項１または２に記載の記録装置。
前記複数の撮像手段により撮像された画像から、前記情報取得手段が取得した前記物体情報をもつ前記物体の縮小画像を生成する縮小画像生成手段を含む、請求項１〜３のいずれか１項に記載の記録装置。
前記生成手段により生成された前記音声ファイルを、前記縮小画像生成手段により生成された前記縮小画像のファイルとともに１つのフォルダに記録する記録手段を含む、請求項４に記載の記録装置。
前記記録手段は、前記音声ファイルを付加した前記縮小画像のファイルを記録する、請求項５に記載の記録装置。
前記複数の撮像された動画から、前記情報取得手段が取得した前記物体情報をもつ前記物体を映した動画を抽出する抽出手段と、
前記生成手段により生成された前記音声ファイルを、前記抽出手段により抽出された前記物体を映した動画のファイルとともに１つのフォルダに記録する記録手段とを含む、請求項１〜３のいずれか１項に記載の記録装置。
請求項１〜７のいずれか１項に記載の記録装置を含む、記録システム。
記録装置と、情報処理装置とを含む記録システムであって、
前記記録装置が、
複数の撮像手段と、
複数の音声入力手段と、
前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と
を含み、
前記情報処理装置が、
前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段
を含む、記録システム。
記録装置と、情報処理装置とを含む記録システムであって、
前記記録装置が、
複数の撮像手段と、
複数の音声入力手段と
を含み、
前記情報処理装置が、
前記複数の撮像手段により撮像された画像に基づき、音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得する情報取得手段と、
前記情報取得手段が取得した各情報と前記複数の音声入力手段により取得された音声信号とに基づき、前記物体ごとの音声ファイルを生成する生成手段と
を含む、記録システム。
前記記録システムは、音声を文字列に変換する音声認識機能を有する外部機器へ、生成した前記音声ファイルを送信する送信手段を含む、請求項８〜１０のいずれか１項に記載の記録システム。
複数の撮像手段と複数の音声入力手段とを含む記録装置を使用してファイルを生成する方法であって、
前記複数の撮像手段により画像を撮像するステップと、
前記複数の音声入力手段により物体が発する音声の入力を受け付けるステップと、
撮像された前記画像に基づき、前記音声を発する物体の物体情報と、前記記録装置に対する前記物体の位置情報と、前記物体が発する音声の継続期間情報とを取得するステップと、
前記取得するステップで取得された各情報と前記複数の前記入力を受け付けるステップで入力された音声信号とに基づき、前記物体ごとの音声ファイルを生成するステップと
を含む、方法。
請求項１２に記載の方法に含まれる各ステップをコンピュータに実行させるためのプログラム。