JP2013005195A - 情報処理システム - Google Patents
情報処理システム Download PDFInfo
- Publication number
- JP2013005195A JP2013005195A JP2011133771A JP2011133771A JP2013005195A JP 2013005195 A JP2013005195 A JP 2013005195A JP 2011133771 A JP2011133771 A JP 2011133771A JP 2011133771 A JP2011133771 A JP 2011133771A JP 2013005195 A JP2013005195 A JP 2013005195A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- image data
- subject
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Studio Devices (AREA)
Abstract
【課題】複数の人物のうち声を発した人物の識別の精度をより高める。
【解決手段】複数の端末10と、当該複数の端末10から送信された画像データ及び音声データを受信するサーバー110とを備える情報処理システム1であって、端末10は、被写体の顔を撮像して画像データを取得する撮像部11と、被写体の声を含む音声を取得して前記音声データを生成する音声取得部12と、画像データ及び音声データを送信する通信部15と、を備え、サーバー110は、複数の端末10の夫々から送信された画像データ及び音声データを受信する通信部111と、複数の画像データ及び複数の音声データに基づいて声を発した被写体を識別する制御部112と、を備える。
【選択図】図1
【解決手段】複数の端末10と、当該複数の端末10から送信された画像データ及び音声データを受信するサーバー110とを備える情報処理システム1であって、端末10は、被写体の顔を撮像して画像データを取得する撮像部11と、被写体の声を含む音声を取得して前記音声データを生成する音声取得部12と、画像データ及び音声データを送信する通信部15と、を備え、サーバー110は、複数の端末10の夫々から送信された画像データ及び音声データを受信する通信部111と、複数の画像データ及び複数の音声データに基づいて声を発した被写体を識別する制御部112と、を備える。
【選択図】図1
Description
本発明は、情報処理システム、特に、カメラ付携帯等の撮像手段を有する端末と、クラウドコンピューティング等のサーバーとを有する情報処理システムに関する。
従来、あらかじめ設けられた複数の人物の声紋に基づいて、マイク等を介して取得された音声データに含まれる声を発した人物を識別する声紋認識装置がある(例えば、特許文献1)。
しかしながら、従来の声紋認識装置は、声が雑音と共に録音された場合、音声データに含まれる声を発した人物を識別することが難しいという問題点があった。
本発明の課題は、複数の人物のうち声を発した人物の識別の精度をより高める情報処理システムを提供することである。
請求項1に記載の発明は、複数の端末と、当該複数の端末から送信された画像データ及び音声データを受信するサーバーとを備える情報処理システムであって、前記端末は、被写体を撮像して前記画像データを取得する撮像手段と、音声を取得して前記音声データを生成する生成手段と、前記画像データ及び前記音声データを前記サーバーに送信する送信手段と、を備え、前記サーバーは、前記複数の端末の夫々の前記送信手段により送信された前記画像データ及び前記音声データを受信する受信手段と、前記受信手段により受信された複数の前記画像データ及び複数の前記音声データに基づいて声を発した前記被写体を識別する識別手段と、を備える事を特徴とする。
請求項2に記載の発明は、請求項1に記載の情報処理システムであって、前記端末は、前記被写体の3D画像を撮像するための複数の撮像手段を備え、前記識別手段は、前記被写体の3D画像データに基づいて前記被写体を識別する3D認識処理を行うことを特徴とする。
請求項3に記載の発明は、請求項2に記載の情報処理システムであって、前記識別手段は、3D画像データを用いた位相限定相関法による識別を行うことを特徴とする。
請求項4に記載の発明は、請求項1から3のいずれか一項に記載の情報処理システムであって、前記識別手段は、前記音声データに含まれる音声の周波数に基づいて前記音声データに含まれる声を発した人物を識別し、前記画像データに基づく前記被写体の識別結果と、前記音声データに基づく人物の識別結果とに基づいて前記被写体を識別することを特徴とする。
請求項5に記載の発明は、請求項4に記載の情報処理システムであって、前記識別手段は、前記音声データに含まれる音声の周波数と予め設けられた複数の人物の夫々の声の周波数を示す周波数データが示す周波数とを照合して前記音声データに含まれる声を発した人物を識別することを特徴とする。
請求項6に記載の発明は、請求項4に記載の情報処理システムであって、前記サーバーは、前記音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得する取得手段を備え、前記識別手段は、前記音声データに含まれる音声の周波数と前記取得手段により取得された周波数データが示す人物の声の周波数とを照合して前記音声データに含まれる声を発した人物を識別することを特徴とする。
請求項7に記載の発明は、請求項1から6のいずれか一項に記載の情報処理システムであって、前記サーバーは、前記識別手段により識別された前記音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部に記憶させる分割手段を備えることを特徴とする。
請求項8に記載の発明は、請求項1から7のいずれか一項に記載の情報処理システムであって、前記サーバーは、前記音声データに含まれる声に対応する文字列を取得する音声認識手段と、前記識別手段により識別された前記被写体を示す情報と前記音声認識手段により取得された前記文字列とを対応付ける対応付け手段と、前記対応付け手段により前記被写体を示す情報と対応付けられた前記文字列を含む文書データを作成して記憶部に記憶させる作成手段を備えることを特徴とする。
請求項9に記載の発明は、請求項1から8のいずれか一項に記載の情報処理システムであって、前記端末は、カード型であることを特徴とする。
本発明によれば、複数の人物のうち声を発した人物の識別の精度をより高めることができる。また識別のための複数人分の画像データの画像処理や音声をサーバー側で行う事により端末で行う場合と比べて高速に、効率的に行う事ができる。
以下、本発明の一実施形態である情報処理システム1について、図面を用いて詳細に説明する。なお、実施形態は本発明の一例であり、これに限定されるものではない。
図1は、本発明の一実施形態である情報処理システム1の主要構成を示す図である。
情報処理システム1は、複数の端末10と、通信中継サーバー50と、クラウド100と、を備える。
情報処理システム1は、クラウド100を構成する一又は複数のサーバー110が、通信中継サーバー50を介して複数の端末10から送信された画像データ及び音声データに基づいて人物を識別する処理を含む各種の処理を行う情報処理システムである。
情報処理システム1は、複数の端末10と、通信中継サーバー50と、クラウド100と、を備える。
情報処理システム1は、クラウド100を構成する一又は複数のサーバー110が、通信中継サーバー50を介して複数の端末10から送信された画像データ及び音声データに基づいて人物を識別する処理を含む各種の処理を行う情報処理システムである。
図2は、端末10の一例を示す図である。図2(a)は、端末10の主要構成を示すブロック図である。図2(b)は、端末10の外観を示す図である。
端末10は、撮像部11、音声取得部12、制御部13、フィルター処理部14、通信部15及び電源部16等を備える。
本実施形態において、複数の端末10は夫々異なる複数のユーザー(例えば、図9(a)、(b)に示す人物A、B、C、D、E等)に一つずつ割り当てられたカード型の形状を有する端末である。
端末10は、撮像部11、音声取得部12、制御部13、フィルター処理部14、通信部15及び電源部16等を備える。
本実施形態において、複数の端末10は夫々異なる複数のユーザー(例えば、図9(a)、(b)に示す人物A、B、C、D、E等)に一つずつ割り当てられたカード型の形状を有する端末である。
撮像部11は、二つのカメラモジュール11a、11b等を有し、二つのカメラモジュール11a、11bの夫々により画像を撮像して二つの画像データを生成する。
二つのカメラモジュール11a、11bのレンズ(図示略)は、カード型の端末の同一平面上において所定の間隔をあけて設けられる。即ち、二つのカメラモジュール11a、11bは夫々、端末10に対して同一の方向に位置する被写体を撮像する。
かかる撮像により得られた二つの画像データにより、被写体の3D画像が得られる。また、撮像部11は、二つのカメラモジュール11a、11bのレンズが被写体の顔に向けられることにより被写体の顔を撮像する。被写体の顔が撮像された二つの画像データによる3D画像認識に係る処理については、後述する。
ここで、撮像部11は、被写体の顔を撮像して画像データを取得する撮像手段として機能する。
また、撮像部11は、所定の秒間フレーム数の動画像データを出力する。
二つのカメラモジュール11a、11bのレンズ(図示略)は、カード型の端末の同一平面上において所定の間隔をあけて設けられる。即ち、二つのカメラモジュール11a、11bは夫々、端末10に対して同一の方向に位置する被写体を撮像する。
かかる撮像により得られた二つの画像データにより、被写体の3D画像が得られる。また、撮像部11は、二つのカメラモジュール11a、11bのレンズが被写体の顔に向けられることにより被写体の顔を撮像する。被写体の顔が撮像された二つの画像データによる3D画像認識に係る処理については、後述する。
ここで、撮像部11は、被写体の顔を撮像して画像データを取得する撮像手段として機能する。
また、撮像部11は、所定の秒間フレーム数の動画像データを出力する。
音声取得部12は、マイクやマイクにより得られた音声の電気信号に基づいて音声データを生成する音声データ生成部(いずれも図示略)等を有し、端末10の周囲で生じた音声を取得して音声データを出力する。
ここで、音声取得部12は、被写体の声を含む音声を取得して音声データを生成する生成手段として機能する。
ここで、音声取得部12は、被写体の声を含む音声を取得して音声データを生成する生成手段として機能する。
制御部13は、CPU、RAM、ROM、不揮発メモリ(例えば、Flash Solid State Drive:Flash SSD)等(いずれも図示略)を有し、端末10の動作を制御するための各種の処理を行う。
また、制御部13は、撮像部11により得られた二つの画像データの歪み補完処理やノイズの除去等の各種の加工処理を行う。歪み補完処理とは、二つの画像データどうしにずれが生じた場合、当該ずれを減少させるための処理である。
また、制御部13は、撮像部11により得られた二つの画像データの歪み補完処理やノイズの除去等の各種の加工処理を行う。歪み補完処理とは、二つの画像データどうしにずれが生じた場合、当該ずれを減少させるための処理である。
フィルター処理部14は、撮像により得られた画像データに対して所定のフィルター処理を施す処理手段として機能し、撮像部11により得られた画像データや音声取得部12により得られた音声データの夫々に異なるフィルター処理を施すための専用の回路を有する。
フィルター処理の例としては例えば一つ又は二つの画像データの夫々に対して所定のフィルター関数によるぼかし処理や、二つの画像データの夫々の位相特性情報を取得するための高速フーリエ変換(Fast Fourier Transform:FFT)を行う処理等がある。なお前述したぼかし処理後、当該フィルター関数の係数に応じて、画像データを圧縮してデータサイズを小さくすると共に画像データが擬似的に暗号化された状態としても良い。
つまり、画像データを端末からサーバー110に送信する際に、画像データをぼかし処理する事により元データをわからない状態、つまり擬似的に暗号化した状態とすると共に、画像データ量を送信の際に小さくする意味で圧縮処理を施す構成としても良い。
なおここで、FFTは、2次元のフーリエ変換処理である。
フィルター処理の例としては例えば一つ又は二つの画像データの夫々に対して所定のフィルター関数によるぼかし処理や、二つの画像データの夫々の位相特性情報を取得するための高速フーリエ変換(Fast Fourier Transform:FFT)を行う処理等がある。なお前述したぼかし処理後、当該フィルター関数の係数に応じて、画像データを圧縮してデータサイズを小さくすると共に画像データが擬似的に暗号化された状態としても良い。
つまり、画像データを端末からサーバー110に送信する際に、画像データをぼかし処理する事により元データをわからない状態、つまり擬似的に暗号化した状態とすると共に、画像データ量を送信の際に小さくする意味で圧縮処理を施す構成としても良い。
なおここで、FFTは、2次元のフーリエ変換処理である。
また、フィルター処理部14は、音声データを圧縮してデータサイズを小さくするための符号化処理を施すものであっても良い。当該符号化処理により、音声データは符号化処理前の5分の1から10分の1のサイズになる。
通信部15は、フィルター処理部14によるフィルター処理が施された画像データ及び音声データを通信中継サーバー50に送信する。
具体的には、通信部15は、例えば、所定の規格に基づく無線通信を行うためのアンテナや演算処理装置、データ等を有し、通信中継サーバー50との間で無線通信を行う。所定の規格に基づく無線通信とは、例えば、LTE(Long Term Evolution)や第3世代移動通信システム(3rd Generation:3G)、Bluetooth、近距離無線通信(Near Field Communication:NFC)等のいずれか又は複数による無線通信であるが、一例であり、これに限られるものではなく、現在又は将来採用される他の通信規格を用いることを妨げない。
ここで、通信部15は、画像データ及び音声データをサーバー110に送信する送信手段として機能する。
具体的には、通信部15は、例えば、所定の規格に基づく無線通信を行うためのアンテナや演算処理装置、データ等を有し、通信中継サーバー50との間で無線通信を行う。所定の規格に基づく無線通信とは、例えば、LTE(Long Term Evolution)や第3世代移動通信システム(3rd Generation:3G)、Bluetooth、近距離無線通信(Near Field Communication:NFC)等のいずれか又は複数による無線通信であるが、一例であり、これに限られるものではなく、現在又は将来採用される他の通信規格を用いることを妨げない。
ここで、通信部15は、画像データ及び音声データをサーバー110に送信する送信手段として機能する。
電源部16は、例えば、端末10に内蔵されたボタン電池やリチウムイオンバッテリ等であり、端末10の各部の動作に必要な電力を供給する。
また、端末10は、端末10の各部の動作のON/OFFを切り替えるためのスイッチ(図示略)等を備える。制御部13は、スイッチがONである場合、撮像部11に動画の撮像をさせると共に音声取得部12に音声の取得及び音声データの生成を行わせる。そして、制御部13は、得られた画像データや音声データに対してフィルター処理部14によるフィルター処理等の各種の処理を施し、通信部15を介して通信中継サーバー50に送信する。
スイッチは、他の構成に置き換えてもよい。例えば、制御部13は、音声取得部12のみを動作させて他の構成をスタンバイ状態とさせておき、音声取得部12により所定以上の強さの音が取得された場合に撮像部11を含む端末10の各構成を動作させるようにしてもよい。
スイッチは、他の構成に置き換えてもよい。例えば、制御部13は、音声取得部12のみを動作させて他の構成をスタンバイ状態とさせておき、音声取得部12により所定以上の強さの音が取得された場合に撮像部11を含む端末10の各構成を動作させるようにしてもよい。
図3は、通信中継サーバー50の主要構成を示すブロック図である。
通信中継サーバー50は、第1通信部51、第2通信部52、制御部53、記憶部54等を備える。
通信中継サーバー50は、端末10から送信された画像データや音声データ等の各種のデータを受信し、クラウド100のサーバー110に転送する。
通信中継サーバー50は、第1通信部51、第2通信部52、制御部53、記憶部54等を備える。
通信中継サーバー50は、端末10から送信された画像データや音声データ等の各種のデータを受信し、クラウド100のサーバー110に転送する。
第1通信部51は、例えば、所定の規格に基づく無線通信を行うためのアンテナや演算処理装置、データ等を有し、複数の端末10との間で無線通信を行う。
第2通信部52は、例えば、所定の規格に基づく有線通信を行うためのネットワークインタフェースカード(Network Interface Card:NIC)等を有し、サーバー110との間で有線通信を行う。所定の規格に基づく有線通信とは、例えば、イーサネット(登録商標)等であるが、一例であり、これに限られるものではなく、現在又は将来採用される他の通信規格を用いることを妨げない。
制御部53は、CPU、RAM、ROM等(いずれも図示略)を有し、通信中継サーバー50の動作を制御するための各種の処理を行う。制御部53は、例えば、第1通信部51により受信した端末10からの画像データや音声データ等を、第2通信部52を介してクラウド100に送信する。
なお、制御部53のCPU、RAM等を含む通信中継サーバー50の各構成は、複数の端末10からのデータの送信に対応する処理を並行して行うのに十分な演算能力を有する。
なお、制御部53のCPU、RAM等を含む通信中継サーバー50の各構成は、複数の端末10からのデータの送信に対応する処理を並行して行うのに十分な演算能力を有する。
記憶部54は、例えば、複数のハードディスクドライブ等を有し、通信中継サーバー50が取り扱う各種のプログラムやデータ等を記憶する。
図4は、クラウド100に含まれるサーバー110の主要構成を示すブロック図である。
クラウド100は、ネットワークにより相互に通信可能に接続された複数のコンピューターを有し、これらの複数のコンピューターのいずれか又は複数により各種の処理を行い、様々な入出力を行う。
クラウド100は、ネットワークにより相互に通信可能に接続された複数のコンピューターを有し、これらの複数のコンピューターのいずれか又は複数により各種の処理を行い、様々な入出力を行う。
以下、クラウド100が有する複数のコンピューターの一つとしてのサーバー110について説明する。サーバー110は、複数の端末10から送信された画像データ及び音声データを受信する。
サーバー110は、通信部111、制御部112、記憶部113等を備える。
サーバー110は、通信部111、制御部112、記憶部113等を備える。
通信部111は、例えば、所定の規格に基づく有線通信を行うためのネットワークインタフェースカード(Network Interface Card:NIC)等を有し、通信中継サーバー50等との間で有線通信を行う。
ここで、通信部111は、複数の端末10の夫々の送信手段により送信された画像データ及び音声データを受信する受信手段として機能する。
ここで、通信部111は、複数の端末10の夫々の送信手段により送信された画像データ及び音声データを受信する受信手段として機能する。
制御部112は、CPU、RAM、ROM等(いずれも図示略)を有し、各種の処理を行う。制御部112は、処理の内容に応じてCPUがROMや記憶部113に記憶されたプログラムを読み出して実行することにより、各種の処理を行う。
記憶部113は、例えば、複数のハードディスクドライブ等を有し、サーバー110が取り扱う各種のプログラムやデータ等を記憶する。記憶部113は、例えば、端末10の撮像部11により撮像された被写体の顔に基づいて被写体を識別するための照合用データを記憶している。
サーバー110の制御部112は、端末10から送信されて通信部111により受信された画像データに基づいて被写体を識別する。
具体的には、制御部112は、例えば、一つの端末10の二つのカメラモジュール11a、11bにより撮像された二つの画像データによる3D画像認識を行う。
具体的には、制御部112は、例えば、一つの端末10の二つのカメラモジュール11a、11bにより撮像された二つの画像データによる3D画像認識を行う。
本実施形態では、制御部112は、3D画像認識の処理として、位相限定相関法(Phase-Only Correlation:POC)を用いた対応点探索のための処理(以下「POC処理」と記載)を行う。
ここで、POC処理の基本原理について説明する。
撮像部11のカメラモジュール11a、11bにより同期して取得された第1および第2撮像画像G1,G2(図5、図6参照)のうち、第1撮像画像G1を基準画像として設定し、第2撮像画像G2を参照画像として設定する。以下、基準画像G1および参照画像G2とも称する。
撮像部11のカメラモジュール11a、11bにより同期して取得された第1および第2撮像画像G1,G2(図5、図6参照)のうち、第1撮像画像G1を基準画像として設定し、第2撮像画像G2を参照画像として設定する。以下、基準画像G1および参照画像G2とも称する。
なお、ここでは、基準画像G1および参照画像G2は、それぞれ相互に直交するX方向およびY方向に沿って多数の画素がマトリックス状に配置されて形成されているものとする。また、基準画像G1および参照画像G2では、X方向に沿って所定数(N個)の画素が配列されることで長辺が形成され、X方向とは異なるY方向に沿って所定数(M個)の画素が配列されることで短辺が形成されているものとする。
図5は、基準画像G1と参照画像G2との間において対応点探索を行う際に、基準画像G1および参照画像G2に対して設定されるウィンドウの設定態様を例示する図である。なお、図5および図5以降の図では、基準画像G1および参照画像G2の長辺に沿ったX方向と、短辺に沿ったY方向とを明示するために、XYの直交する2軸が付されている。なお、基準画像G1および参照画像G2では、左下の画素が基準(例えば原点)とされ、各画素の位置がXYの座標(X,Y)で示されるものとし、例えば、X方向に1画素ずれるとX座標の値が1増加し、Y方向に1画素ずれるとY座標の値が1増加するものとする。
まず、図5(a)で示すように、基準画像G1上で指定される点(以下「指定点」と称する)Pを中心点として内包するウィンドウ(基準領域)W1が基準画像G1上に設定される。その一方で、図5(b)で示すように、ウィンドウW1のサイズと同じサイズを有するウィンドウ(比較領域)W2が参照画像G2における複数の位置に設定される。
なお、基準領域W1および比較領域W2では、それぞれX方向およびY方向に沿って複数の画素がマトリックス状に配列されている。具体的には、X方向に沿って所定数N1の画素が配列され、Y方向に沿って所定数N2の画素が配列されている。
次に、基準領域W1および各比較領域W2が演算処理の対象となる領域(処理対象領域)とされて、基準領域W1と各比較領域W2との相関を示す値(以下「相関値」と称する)が算出される。そして、各比較領域W2に係る相関値(ここでは、後述するPOC値)に基づき、参照画像G2上で指定点Pに対応する点(対応点)が検出される。
更に、基準画像G1に対して、図6(a)の矢印で示すように、指定点Pを中心として内包する基準領域W1が、上方向(+Y方向)から順に、左から右方向(X方向)に沿って1画素ずつずらされながら時間順次に設定され、各指定点Pに対応する対応点が、参照画像G2上で検出される。
つまり、基準画像G1については、+Y方向から−Y方向に向けて並んだX方向に平行な各画素列に沿って、指定点Pが時間順次に設定される。そして、X方向に平行な1つの画素列に沿った指定点Pの設定が完了すると、1画素だけ−Y方向に位置するX方向に平行な次の画素列に沿って指定点Pが時間順次に設定される。すなわち、指定点を内包する基準領域W1によって基準画像G1の走査(スキャン)が行われる。このスキャンの方向(スキャン方向)は、X方向に沿った方向、すなわちX方向に平行な方向となる。
なお、各対応点が検出される際には、図6(b)で示すように、参照画像G2に対して、比較領域W2が、上方向(+Y方向)から順に、左から右方向(X方向)に沿って1画素ずつずらされながら時間順次に設定される。
つまり、参照画像G2については、X方向に沿って、比較領域W2が時間順次に設定され、X方向に平行な1つの画素列に沿った比較領域W2の設定が完了すると、1画素だけ−Y方向にずれた位置に、X方向に沿って比較領域W2が時間順次に設定される。すなわち、参照画像G2が比較領域W2によって走査(スキャン)される。このスキャン方向は、X方向に沿った方向、すなわちX方向に平行な方向となる。
なお、指定点Pに対応する対応点が中心点となり得る領域が比較領域W2が設定される対象となる領域(設定対象領域)とされ、その限定された領域に比較領域W2が設定されるようにスキャンが行われることが、効率良く対応点が検出される上で好ましい。この設定対象領域については、カメラモジュール11a、11bの配置、カメラモジュール11a、11bの撮影方向(具体的には光軸の設定)、およびカメラモジュール11a、11bの撮影範囲(具体的には画角)などといったカメラモジュール11a、11bに係る各種設定に従って適宜設定可能である。この設定対象領域の具体例については後述するが、例えば、図6(b)で示したように、参照画像G2のほぼ全体がスキャンされるように、比較領域W2が設定される態様などが挙げられる。
図7は、POC処理を説明するための図である。
POC処理では、まず、基準画像G1に対するウィンドウW1の設定T0aと、参照画像G2に対するウィンドウW2の設定T0bとが行われる。このとき、基準画像G1上のウィンドウW1内の画像領域(基準領域)と、参照画像G2上のウィンドウ内の画像領域(比較領域)とがそれぞれ抽出される。これらの画像領域については、次の数1のように表されるものとする。
POC処理では、まず、基準画像G1に対するウィンドウW1の設定T0aと、参照画像G2に対するウィンドウW2の設定T0bとが行われる。このとき、基準画像G1上のウィンドウW1内の画像領域(基準領域)と、参照画像G2上のウィンドウ内の画像領域(比較領域)とがそれぞれ抽出される。これらの画像領域については、次の数1のように表されるものとする。
ここで、上記の数1におけるf(n1,n2)およびg(n1,n2)は、基準画像G1上のウィンドウW1内の基準領域および参照画像G2上のウィンドウW2内の比較領域を示している。また、N1およびN2は、例えばN1=2M1+1、N2=2M2+1と設定されている。
次に、基準画像G1および参照画像G2のウィンドウW1,W2内の各画像領域に対し、次の数2で示す演算式を用いた2次元のフーリエ変換処理T1a、T1bが行われる。
なお、上記の数2のただし書におけるWの添字Pには、N1、N2が代入され、またkの添字sには、1、2が代入される。
このようなフーリエ変換処理T1a、T1bが施された各画像領域に対しては、次の数3で示す演算式を用いて、画像の振幅成分を除去するための規格化処理T2a、T2bが行われる。
規格化処理T2a、T2bが完了すると、次の数4で示す演算式を用いた合成処理T3が行われるとともに、数5で示す演算式を用いた2次元の逆フーリエ変換処理T4が行われる。これにより、各画像間の相関演算が実施されることとなり、その結果(POC値)が出力される。
以上の処理により、基準領域W1と比較領域W2との相関を示す演算結果(POC値)が得られ、例えば、図8で示すような結果(POC値)が得られる。
図8においては、ウィンドウ(N1×N2)内で相関が高い箇所のPOC値が大きくなっており、POC値のピークJcに対応する参照画像G2上のウィンドウW2内の位置が、基準画像G1上の基準領域W1の中心点(指定点)Pに対応した参照画像G2上の対応点に相当することとなる。
ここでは、1つの基準領域W1と、参照画像G2上に設定された複数の比較領域W2との間で相関演算が行われ、POC値のピークJcが検出される。その結果、基準画像G1上の指定点Pに対応した参照画像G2上の対応点が検出される。
更に、同様な手法により、基準画像G1に対して、指定点Pを中心点として内包する複数の基準領域W1が設定され、各指定点Pに対応した参照画像G2上の各対応点が検出される。
以上のようなPOC処理によれば、画像の振幅成分が除去され、画像の位相成分のみで相関演算が行われるため、輝度変動やノイズの影響が抑制されて対応点が精度良く検出される。
なお、POC値は、離散的に求められるため、隣接画素間で補間演算を行い、ピークJcの位置を1画素のサイズよりも細かいサブピクセルのサイズで推定することで、更に細かく対応点の検出を行うこともできる。補間演算の手法としては、離散的に求められたPOC値の分布から放物線の関数を求める手法などが考えられる。
制御部112は、POC処理により、一つの端末10の二つのカメラモジュール11a、11bにより撮像された二つの画像データの画像の対応点どうしを対応付けて、二つの画像データの画像による3D画像認識を行う。本実施形態では、図7に示す2次元のフーリエ変換処理T1a、T1bまでが端末10により行われ、規格化処理T2a、T2b以降の処理がサーバー110により行われる。
また、制御部112は、3D画像として認識された端末10からの画像データと、記憶部113に記憶された照合用データとの間で対応点として認識される点の有無および対応の度合い(精度)を判定する。制御部112は、当該判定にもPOC処理を用いる。つまり、制御部112は、3D画像として認識された端末10からの画像データによる画像を基準画像G1とし、照合用データの画像を参照画像G2として対応点を探索する。そして、制御部112は、端末10からの画像データと所定以上の精度で対応する照合用データがある場合、その照合用データと対応付けられた個人情報の人物であると判定する。
即ち、制御部112は、端末10のフィルター処理部14によりフィルター処理が施された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する。
即ち、制御部112は、端末10のフィルター処理部14によりフィルター処理が施された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する。
なお、本実施形態の照合用データとして、例えば、3D画像として認識された端末10からの画像データと照合するための3D画像データ又はPOC処理により3D画像として認識された端末10からの画像データとの対応点を探索するための位相情報データを用いることができる。
また、照合用データは、複数の3D画像データ又は位相情報と、3D画像データ又は位相情報の各々が示す被写体の顔と当該被写体の個人情報とを対応付けたデータとして記憶部113に記憶されている。
また、照合用データは、複数の3D画像データ又は位相情報と、3D画像データ又は位相情報の各々が示す被写体の顔と当該被写体の個人情報とを対応付けたデータとして記憶部113に記憶されている。
また、制御部112は、端末10から送信されて通信部111により受信された音声データに基づいて被写体を識別する。
具体的には、制御部112は、例えば、音声データに含まれる音声の周波数に基づいて音声データに含まれる声を発した人物を識別する。
具体的には、制御部112は、例えば、音声データに含まれる音声の周波数に基づいて音声データに含まれる声を発した人物を識別する。
制御部112は、音声データに含まれる音声の周波数と予め設けられた複数の人物の夫々の声の周波数を示す周波数データが示す周波数とを照合して音声データに含まれる声を発した人物を識別する。ここで、周波数データは、例えば、予め複数の個人情報の夫々と対応付けられた複数の周波数パターンを示すデータである。複数の周波数パターンの夫々は、対応付けられた個人情報が示す人物の声の周波数パターンである。周波数データは、例えば、記憶部113に予め記憶されている。
また、制御部112は、端末10の撮像部11により撮像された被写体の口の動作の有無に基づいて音声データの識別を行う。
具体的には、制御部112は、ある一つの端末10から送信された画像データが、被写体の口が動いていることを示す動画像データである場合、その端末10から送信された音声データに含まれる声が当該被写体の声であるものと判定する。
具体的には、制御部112は、ある一つの端末10から送信された画像データが、被写体の口が動いていることを示す動画像データである場合、その端末10から送信された音声データに含まれる声が当該被写体の声であるものと判定する。
制御部112は、音声データの識別において、周波数に基づく人物の判定結果と、画像データにおける被写体の口の動きの有無に基づく人物の判定結果との両方を用いた複合的な判定を行う。
具体的には、例えば、制御部112は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致した場合、当該一致した識別結果を採用する。また、制御部112は、周波数データとの照合に基づく声の識別結果又は被写体の口の動きに基づく声の識別結果のいずれか一方による識別結果が得られ、他方による識別結果が何らかの理由により得られなかった場合、一方の得られた識別結果を採用する。また、制御部112は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致しなかった場合、識別結果の確からしさを示す数値(例えば、識別の精度を示すパーセント[%]値)と予め設定された所定の係数との積に基づいていずれの識別結果を採用するかを決定する。一例として、例えば、周波数データとの照合による声の識別結果の確からしさが80[%]であり、被写体の口の動きに基づく声の識別結果の確からしさが60[%]であり、周波数データとの照合による声の識別結果の係数がα、被写体の口の動きに基づく声の識別結果の係数がβであるとする。この場合、制御部112は、80(又は、0.8)にαを乗じたの値と、60(又は、0.6)にβを乗じた値とを比較してより大きい値であった方の識別結果を採用する。即ち、所定の係数α、βの大小関係により、周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれの識別結果をより優先的に採用するかを調整することができる。なお、確からしさは、例えば、周波数の一致の度合いや、口の動くタイミングと声が取得されたタイミングとの一致の度合い等に基づいて算出される。
具体的には、例えば、制御部112は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致した場合、当該一致した識別結果を採用する。また、制御部112は、周波数データとの照合に基づく声の識別結果又は被写体の口の動きに基づく声の識別結果のいずれか一方による識別結果が得られ、他方による識別結果が何らかの理由により得られなかった場合、一方の得られた識別結果を採用する。また、制御部112は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致しなかった場合、識別結果の確からしさを示す数値(例えば、識別の精度を示すパーセント[%]値)と予め設定された所定の係数との積に基づいていずれの識別結果を採用するかを決定する。一例として、例えば、周波数データとの照合による声の識別結果の確からしさが80[%]であり、被写体の口の動きに基づく声の識別結果の確からしさが60[%]であり、周波数データとの照合による声の識別結果の係数がα、被写体の口の動きに基づく声の識別結果の係数がβであるとする。この場合、制御部112は、80(又は、0.8)にαを乗じたの値と、60(又は、0.6)にβを乗じた値とを比較してより大きい値であった方の識別結果を採用する。即ち、所定の係数α、βの大小関係により、周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれの識別結果をより優先的に採用するかを調整することができる。なお、確からしさは、例えば、周波数の一致の度合いや、口の動くタイミングと声が取得されたタイミングとの一致の度合い等に基づいて算出される。
また、音声による識別結果と、被写体の口の動き等の画像に基づく識別結果とを識別結果の確からしさの冗長性の確保に用いることもできる。
例えば、上記の周波数データとの照合による声の識別結果の確からしさの値と周波数データとの照合による声の識別結果の係数αとを乗じて得られた値をα1、被写体の口の動きに基づく声の識別結果の確からしさの値と被写体の口の動きに基づく声の識別結果の係数とを乗じて得られた値をβ2とした場合、α1とβ2とを乗じた値が第1の設定値を超えた場合に声の識別結果が正しいものと判定する所謂AND型冗長を行うようにしてもよい。また、α1又はβ2のいずれか一方が所定の第2の設定値を超えた場合に声の識別結果が正しいものと判定する所謂OR型冗長を行うようにしてもよい。なお、第1の所定値及び第2の所定値は共に、声の識別結果の正当性を判定するための所定の設定値である。
また、α1、β2に限らず、夫々の識別結果の確からしさを示す値や当該確からしさを補正する所定の係数等に基づいて算出された複数の値と、夫々の値に基づいて声の識別結果の正当性を判定するための所定の設定値とを用いて声の識別結果を判定する多次元冗長を行ってもよい。
例えば、上記の周波数データとの照合による声の識別結果の確からしさの値と周波数データとの照合による声の識別結果の係数αとを乗じて得られた値をα1、被写体の口の動きに基づく声の識別結果の確からしさの値と被写体の口の動きに基づく声の識別結果の係数とを乗じて得られた値をβ2とした場合、α1とβ2とを乗じた値が第1の設定値を超えた場合に声の識別結果が正しいものと判定する所謂AND型冗長を行うようにしてもよい。また、α1又はβ2のいずれか一方が所定の第2の設定値を超えた場合に声の識別結果が正しいものと判定する所謂OR型冗長を行うようにしてもよい。なお、第1の所定値及び第2の所定値は共に、声の識別結果の正当性を判定するための所定の設定値である。
また、α1、β2に限らず、夫々の識別結果の確からしさを示す値や当該確からしさを補正する所定の係数等に基づいて算出された複数の値と、夫々の値に基づいて声の識別結果の正当性を判定するための所定の設定値とを用いて声の識別結果を判定する多次元冗長を行ってもよい。
また、制御部112は、複数の端末10から送信されて通信部111により受信された複数の画像データ及び音声データに基づいて被写体を識別する。
具体的には、制御部112は、複数の端末10の夫々から同時に送信されて通信部111により受信された複数の画像データ及び音声データについて、夫々の端末10の画像データ及び音声データに基づく被写体の識別を個別に行い、夫々の端末10からの画像データ及び音声データに基づく被写体の識別結果どうしを比較する。例えば、全ての端末10の画像データ及び音声データに基づく識別結果が一致した場合、制御部112は、一致した識別結果を採用する。また、複数の端末10の夫々から同時に送信された音声データの夫々の識別における判定結果の間で相違が生じた場合、制御部112は、例えば、夫々の音声データの判定結果のうち同一の判定結果がより多く示された判定結果を正しい判定結果として扱う。また、制御部112は、上記の周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれを優先するかを決定するための確からしさと係数による判定と同様の処理により、いずれのデータによる識別結果を採用するのかを決定するようにしてもよい。
具体的には、制御部112は、複数の端末10の夫々から同時に送信されて通信部111により受信された複数の画像データ及び音声データについて、夫々の端末10の画像データ及び音声データに基づく被写体の識別を個別に行い、夫々の端末10からの画像データ及び音声データに基づく被写体の識別結果どうしを比較する。例えば、全ての端末10の画像データ及び音声データに基づく識別結果が一致した場合、制御部112は、一致した識別結果を採用する。また、複数の端末10の夫々から同時に送信された音声データの夫々の識別における判定結果の間で相違が生じた場合、制御部112は、例えば、夫々の音声データの判定結果のうち同一の判定結果がより多く示された判定結果を正しい判定結果として扱う。また、制御部112は、上記の周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれを優先するかを決定するための確からしさと係数による判定と同様の処理により、いずれのデータによる識別結果を採用するのかを決定するようにしてもよい。
また、制御部112は、複数の端末10から送信された複数の画像データ及び音声データが同一の被写体のものであると判定された場合、同一の被写体のものであると判定された画像データ及び音声データどうしを対応付ける等、同一の識別結果が得られたデータどうしを統合して管理する。
また、画像データの画像に含まれる被写体の識別のために、画像データと同時に取得された音声データに基づく人物の識別の結果を用いてもよい。この場合、例えば、音声の周波数の照合に基づく識別結果と、画像データの画像に含まれる被写体の識別結果とを照合して一致を確認することにより被写体の識別結果の精度向上に用いることができる。また、何らかの理由により画像データに基づいた被写体の識別ができなかった場合、同時に取得された音声データに基づく識別結果に基づいて被写体の識別結果としてもよい。
以下、複数の端末10による画像データ及び音声データの取得パターンと、取得された画像データ及び音声データの識別パターンの一例として複数の端末10を用いた会議システムの典型例について、図9(a)、(b)を用いて説明する。
例えば、図9(a)に示すように、一つの部屋等、互いの声が聞こえる所定の空間内にいる複数の人物A、B、C、D、Eは、夫々胸元に端末10を装着されるような構成である。。ここで、夫々の端末10に設けられた撮像部11の二つのカメラモジュール11a、11bのレンズの物体側はは、端末10を装着している装着者の正面を向くため、夫々の端末10を装着した人物A、B、C、D、Eの夫々のほぼ正面に向けられている形となっている。
例えば、図9(a)に示すように、一つの部屋等、互いの声が聞こえる所定の空間内にいる複数の人物A、B、C、D、Eは、夫々胸元に端末10を装着されるような構成である。。ここで、夫々の端末10に設けられた撮像部11の二つのカメラモジュール11a、11bのレンズの物体側はは、端末10を装着している装着者の正面を向くため、夫々の端末10を装着した人物A、B、C、D、Eの夫々のほぼ正面に向けられている形となっている。
複数の人物A、B、C、D、Eのうち一人(例えば、人物A)が声を発すると、通常、図9(b)に示すように、他の人物(例えば、人物B、C、D、E)は、声を発した人物(人物A)の方を向く傾向にあるため、他の人物が装着した端末10の撮像部11により撮像された画像データは、声を発した人物が撮像された画像データとなる。また、複数の人物A、B、C、D、Eが夫々装着した端末10の全てが、声を発した人物の声を含む音声データを生成する。
制御部112は、複数の人物A、B、C、D、Eの夫々が装着した端末10の夫々から送信された画像データ及び音声データに基づいて、被写体及び音声データに含まれる声を発した人物の識別を行う。ここで、声を発した人物A以外の人物B、C、D、Eが夫々装着した計4つの端末10から送信された画像データ及び音声データに基づく識別の判定結果は、高い確率で「被写体及び音声データに含まれる声を発した人物は、共に人物Aである」という判定結果となる。また、声を発した人物Aが装着した端末10の撮像部11は、声を発した人物である人物Aを撮像しないが、音声取得部12は他の人物B、C、D、Eが夫々装着した端末10の音声取得部12と同様に、人物Aの声を含む音声データを生成する。よって、声を発した人物Aが装着した端末10から送信された音声データに含まれる声は、周波数に基づいて「声を発した人物は、人物Aである」と判定されることとなる。
図9(a)、(b)を用いた説明のように、制御部112は、複数の人物A、B、C、D、Eの夫々が装着した端末10から同時に送信されて通信部111により受信された複数の画像データ及び音声データに基づいて、被写体及び音声データに含まれる声を発した人物の識別を行う。
図9(a)、(b)を用いた説明のように、制御部112は、複数の人物A、B、C、D、Eの夫々が装着した端末10から同時に送信されて通信部111により受信された複数の画像データ及び音声データに基づいて、被写体及び音声データに含まれる声を発した人物の識別を行う。
また、制御部112は、音声データが複数の人物の声を含む場合、音声データに含まれる複数の人物の声の夫々を識別する。この場合の声の識別方法は、上記の説明と同様、周波数データとの照合や画像データにおける口の動きの有無、これらの組み合わせ等による。
ここで、制御部112は、受信された複数の画像データ及び音声データのうち少なくとも複数の画像データに基づいて声を発した被写体を識別する識別手段として機能する。
ここで、制御部112は、受信された複数の画像データ及び音声データのうち少なくとも複数の画像データに基づいて声を発した被写体を識別する識別手段として機能する。
また、制御部112は、端末10から受信した画像データ及び音声データの夫々と、識別処理により識別された被写体の個人情報とを対応付けて記憶部113に記憶させる。
ここで、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部113に記憶させてもよい。
具体的には、制御部112は、例えば、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して個別の音声データとし、識別された人物の夫々について個別に分類して記憶部113に記憶させる。本実施形態では、制御部112は、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して生成した個別の音声データと、その声を発した人物を示す個人情報のデータとを対応付けて記憶部113に記憶させる。
ここで、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部113に記憶させる分割手段として機能する。
なお記憶部113をサーバー側に配置する事により、端末側に分散して記憶しておくよりも従来の形式より集中管理でき、セキュリティ管理の観点で効果がある。
具体的には、制御部112は、例えば、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して個別の音声データとし、識別された人物の夫々について個別に分類して記憶部113に記憶させる。本実施形態では、制御部112は、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して生成した個別の音声データと、その声を発した人物を示す個人情報のデータとを対応付けて記憶部113に記憶させる。
ここで、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部113に記憶させる分割手段として機能する。
なお記憶部113をサーバー側に配置する事により、端末側に分散して記憶しておくよりも従来の形式より集中管理でき、セキュリティ管理の観点で効果がある。
また、制御部112は、音声データに含まれる声に対応する文字列を取得する音声認識処理を行う。また、制御部112は、被写体に限らず、音声データに含まれる声により発せられた話の内容を文字列として取得する音声認識処理を行う。
具体的には、制御部112は、例えば、音声データに含まれる声の音響的な特徴の抽出のために隠れマルコフモデルに基づくパターン抽出を行い、言語的な特徴の抽出のために文脈自由文法に基づく文字列の抽出を行う。そして、制御部112は、抽出された音響的な特徴及び言語的な特徴の双方に基づいて音声データに含まれる話の内容を取得する。ここで説明した音声認識処理の方法は、あくまで一例であり、これに限られるものでなく、現在又は将来採用される他の処理方法により音声認識処理を行ってもよい。
ここで、制御部112は、音声データに含まれる声に対応する文字列を取得する音声認識手段として機能する。
具体的には、制御部112は、例えば、音声データに含まれる声の音響的な特徴の抽出のために隠れマルコフモデルに基づくパターン抽出を行い、言語的な特徴の抽出のために文脈自由文法に基づく文字列の抽出を行う。そして、制御部112は、抽出された音響的な特徴及び言語的な特徴の双方に基づいて音声データに含まれる話の内容を取得する。ここで説明した音声認識処理の方法は、あくまで一例であり、これに限られるものでなく、現在又は将来採用される他の処理方法により音声認識処理を行ってもよい。
ここで、制御部112は、音声データに含まれる声に対応する文字列を取得する音声認識手段として機能する。
また、制御部112は、音声認識処理により取得された話の内容を示す文書データを作成する。
具体的には、制御部112は、音声データに録音された人物の声による話の内容を示す文書データとして、声を発した人物を示す情報(例えば、氏名等)と当該人物により発せられた声による話の内容を示す文字列とを対応付けたセンテンス(行)を時系列に沿って記録した議事録データを生成する。
以上のように、制御部112は、識別された被写体を示す情報と音声認識手段により取得された文字列とを対応付ける対応付け手段として機能する。また、制御部112は、被写体を示す情報と対応付けられた文字列を含む文書データを作成して記憶部に記憶させる作成手段として機能する。
具体的には、制御部112は、音声データに録音された人物の声による話の内容を示す文書データとして、声を発した人物を示す情報(例えば、氏名等)と当該人物により発せられた声による話の内容を示す文字列とを対応付けたセンテンス(行)を時系列に沿って記録した議事録データを生成する。
以上のように、制御部112は、識別された被写体を示す情報と音声認識手段により取得された文字列とを対応付ける対応付け手段として機能する。また、制御部112は、被写体を示す情報と対応付けられた文字列を含む文書データを作成して記憶部に記憶させる作成手段として機能する。
なお、制御部112のCPU、RAM等を含むサーバー110の各構成は、複数の端末10から送信された各種のデータに係る処理を並行して行うのに十分な演算能力を有する。ここで、複数の端末10から送信された各種のデータに係る処理を並行して行うためのサーバー110の演算能力は、一台のサーバー110が有していてもよいし、上記の処理を含む各種の処理を行うための複数のサーバー110を組み合わせ、複数の端末10から送信された画像データ及び音声データに係る処理を複数のサーバー110に分散させてもよい。
次に、一又は複数の端末10から送信された画像データ及び音声データに係る処理の流れについて、図10及び図11のフローチャートを用いて説明する。
図10は、一つの端末10による処理の流れの一例を示すフローチャートである。
まず、撮像部11が二つのカメラモジュール11a、11bの夫々により被写体を撮像して二つの画像データを生成する(ステップS1)。また、音声取得部12が周囲で発せられた人物の声を含む音声を取得して音声データを生成する(ステップS2)。ステップS1、ステップS2の処理は順不同である。
図10は、一つの端末10による処理の流れの一例を示すフローチャートである。
まず、撮像部11が二つのカメラモジュール11a、11bの夫々により被写体を撮像して二つの画像データを生成する(ステップS1)。また、音声取得部12が周囲で発せられた人物の声を含む音声を取得して音声データを生成する(ステップS2)。ステップS1、ステップS2の処理は順不同である。
次に、制御部13が二つの画像データの夫々に対して歪み補完処理やノイズの除去等の各種の加工処理を施す(ステップS3)。また、フィルター処理部14が、二つの画像データの夫々に対して、所定のフィルター関数によるぼかし処理やFFT処理を施す(ステップS4)。また、フィルター処理部14は、音声データに対して符号化処理を施す(ステップS5)。
次に、制御部13は、通信部15を介して、フィルター処理部14による処理が施された画像データ及び音声データを送信する(ステップS6)。
次に、制御部13は、通信部15を介して、フィルター処理部14による処理が施された画像データ及び音声データを送信する(ステップS6)。
図11は、サーバー110による処理の流れの一例を示すフローチャートである。
制御部112は、端末10から送信される画像データ及び音声データを受信するまで待機する(ステップS11:NO)。
制御部112は、端末10から送信される画像データ及び音声データを受信するまで待機する(ステップS11:NO)。
端末10から送信された画像データ及び音声データを受信すると(ステップS11:YES)、制御部112は、一つの端末10から送信された二つの画像データに対してPOC処理を施し、二つの画像データを3D画像として認識する処理を行う(ステップS12)。次に、制御部112は、3D画像として認識された画像データと、記憶部113に記憶された照合用データとを照合するためにPOC処理を行い、照合の結果に基づいて被写体を識別する(ステップS13)。
また、制御部112は、音声データに含まれる音声の周波数と周波数データに含まれる周波数パターンとの照合の結果や、画像データにおける被写体の口の動きの有無等に基づいて、音声データに含まれる声を発した人物を識別する(ステップS14)。
また、制御部112は、音声データに含まれる音声の周波数と周波数データに含まれる周波数パターンとの照合の結果や、画像データにおける被写体の口の動きの有無等に基づいて、音声データに含まれる声を発した人物を識別する(ステップS14)。
なお、複数の端末10から同時に画像データ及び音声データが送信された場合、制御部112は、夫々の端末10から送信された画像データ及び音声データについてステップS12からステップS14の処理を並行して行う。
次に、制御部112は、音声データに基づいて被写体を含む人物が声として発した話の内容を取得する音声認識処理を行う(ステップS15)。
また、制御部112は、音声認識処理により取得された話の内容を示す文書データとして、議事録データを作成する(ステップS16)。
また、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割し(ステップS17)、分割後の音声データを記憶部113に記憶させる(ステップS18)。
また、制御部112は、音声認識処理により取得された話の内容を示す文書データとして、議事録データを作成する(ステップS16)。
また、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割し(ステップS17)、分割後の音声データを記憶部113に記憶させる(ステップS18)。
なお、複数の端末10から同時に画像データ及び音声データが送信された場合、制御部112は、夫々の端末10から送信された画像データ及び音声データのいずれか一つに基づいてステップS15からステップS18の処理を行ってもよいし、夫々の端末10から送信された画像データ及び音声データについて個別にステップS15からステップS18の処理を行ってもよい。
以上、本実施形態の情報処理システム1によれば、複数の端末10が夫々、被写体の画像データ及び被写体の声を含む音声データを送信し、サーバー110が複数の端末10から送信された画像データ及び音声データを受信し、受信された複数の画像データ、音声データに基づいて被写体を識別することができる。即ち、声が雑音と共に録音された場合等においても、複数の画像データと複数の音声データとに基づいて被写体を識別することにより、声を発している被写体の識別を高い精度で行うことができ、複数の人物のうち声を発した人物の識別の精度をより高めることができる。
また、画像データは動画像データであり、制御部112において端末10の撮像部11により撮像された被写体の口の動作の有無に基づいて声を発した人物の識別を行うので、口が動いているということは、話をしている、即ち、声を発している可能性が極めて高いので、より高い精度で声を発した人物の識別を行うことができる。
また、画像データは動画像データであり、制御部112において端末10の撮像部11により撮像された被写体の口の動作の有無に基づいて声を発した人物の識別を行うので、口が動いているということは、話をしている、即ち、声を発している可能性が極めて高いので、より高い精度で声を発した人物の識別を行うことができる。
また、端末10が3D画像として認識される二つの画像データを撮像するための二つの撮像手段としてのカメラモジュール11a、11bを備え、サーバー110の制御部112が当該二つの画像データにより得られた3D画像データに基づいて被写体を識別する3D認識処理を行うので、例えば、被写体が撮像された角度や画像における被写体の大きさ等、撮像条件により変化する被写体の画像による識別結果の精度の変化を最小限とすることができることから、より高い精度で被写体の識別を行うことができる。
また、サーバー110の制御部112が3D画像データを用いた位相限定相関法による照合を行うので、カメラモジュール11a、11bにより撮像された二つの画像データに基づく3D画像データと照合用画像データとの対応点を高い精度で探索することができ、より高い精度で被写体の識別を行うことができる。
また、制御部112は、音声データに含まれる音声の周波数に基づいて音声データに含まれる声を発した人物を識別するので、画像データに被写体として撮像されていない人物の声が音声データに含まれている場合であっても声を発した人物を識別することができる。
また、制御部112は、音声データに含まれる音声の周波数と予め設けられた複数の人物の夫々の声の周波数を示す周波数データが示す周波数とを照合して音声データに含まれる声を発した人物を識別し、画像データに基づく被写体の識別結果と、音声データに基づく人物の識別結果とに基づいて被写体を識別するので、画像データに基づく被写体の識別結果と、音声データに基づく識別結果との組み合わせに基づいてより高い精度で被写体の識別を行うことができる。例えば、画像データに基づく識別結果と音声データに基づく識別結果が同一であれば、識別結果の確度がより向上する。また、画像データに被写体が映っていない等、何らかの理由により画像データによる識別が困難な場合であっても、音声データに基づく識別により、被写体の識別を行うことができる。
また、制御部112は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部に記憶させるので、夫々の人物が発した話の内容に応じた音声を人物別に取り扱うことができる。
また、制御部112は、受信された音声データに基づいて被写体が声として発した話の内容を文字列として取得し、識別された被写体の個人情報と取得された話の内容とを対応付けるので、画像データに基づいて声を発した人物を識別して音声データに含まれる声による話の内容と対応付けることができる。
また、制御部112は、被写体を示す情報と対応付けられた文字列を含む文書データを作成するので、自動的に声に対応する文字列を文書データ化することができる。また、音声データに含まれる声による話の内容を文字情報で確認することができることとなり、話の内容をより広範に活用することができる。また、文書データは音声データに比して大幅に小さいので、より小さなデータにより話の内容を記録することができる。
また、制御部112は、被写体を示す情報と対応付けられた文字列を含む文書データを作成するので、自動的に声に対応する文字列を文書データ化することができる。また、音声データに含まれる声による話の内容を文字情報で確認することができることとなり、話の内容をより広範に活用することができる。また、文書データは音声データに比して大幅に小さいので、より小さなデータにより話の内容を記録することができる。
また、端末10はカード型であるので、人が容易に携行することができ、端末10のユーザーと言葉を交わした他人の画像データや、当該他人やユーザー自身の音声データをより容易に得ることができる。
また、端末10がフィルター処理部14によりフィルター処理を施すので、サーバー110がフィルター処理を行う必要がなく、サーバー110の処理負荷をより軽減させた情報処理システムを提供することができる。特に、本実施形態のように、複数の端末10から送信された画像データに基づく識別処理を並行して行うサーバー110の場合、端末10により予めフィルター処理が施されていることで、フィルター処理に係る処理負荷を夫々の端末10に分散させることができるので、サーバー110の処理負荷の軽減の効果はより大きくなる。
また、端末10がフィルター処理部14によりフィルター処理を施すので、画像データの送信前に画像データのサイズを小さくすることができ、データの転送に必要なネットワークリソースの消費をより低減させることができる。
また、端末10がフィルター処理部14によりフィルター処理を施すので、画像データの送信前に画像データのサイズを小さくすることができ、データの転送に必要なネットワークリソースの消費をより低減させることができる。
なお、本発明の実施の形態は、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
例えば、本発明の構成は、複数の端末10と、通信中継サーバー50と、クラウド100と、を備える情報処理システムに限らず、撮像手段を有する端末とサーバーとを有する情報処理システムであれば適用することができる。
例えば、本発明の構成は、複数の端末10と、通信中継サーバー50と、クラウド100と、を備える情報処理システムに限らず、撮像手段を有する端末とサーバーとを有する情報処理システムであれば適用することができる。
また、上記の実施形態では、記憶部113が予め周波数データを記憶しているが、制御部112が、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得するようにしてもよい。
この場合、制御部112は、画像データにおける口の動き等により、声を発した人物が誰であるかを識別することができた声の周波数パターンを取得してリアルタイムで周波数パターンを生成し、記憶部113に記憶させる。また、制御部112は、同一の人物により発せられた声の周波数パターンを複数回取得した場合、取得された複数の周波数パターンに基づいて周波数パターンを生成する。
この場合、制御部112は、画像データにおける口の動き等により、声を発した人物が誰であるかを識別することができた声の周波数パターンを取得してリアルタイムで周波数パターンを生成し、記憶部113に記憶させる。また、制御部112は、同一の人物により発せられた声の周波数パターンを複数回取得した場合、取得された複数の周波数パターンに基づいて周波数パターンを生成する。
また、複数の人物が夫々所有する端末10とその所有者の個人情報とをあらかじめ対応付けておき、端末10の夫々から取得された音声データの傾向等に基づいて音声データに含まれる声を発した人物を特定するようにしてもよい。
具体的には、制御部112は、例えば、声を発した人物を識別することができた声の周波数パターンのうち、所定の音量以上の音量で入力される回数が最も多かった声と、所定の音量以上の音量で入力される回数が最も多かった声が最も大きな音量で入力された端末10の個人情報とを対応付けて声を発した人物を特定するようにしてもよい。
また、制御部112は、所定の開始信号(例えば、端末10のスイッチON等)から所定の音量以上の声が最も早く入力された端末10の個人情報と当該所定の音量以上の声を発した人物とを対応付けて声を発した人物を特定するようにしてもよい。
具体的には、制御部112は、例えば、声を発した人物を識別することができた声の周波数パターンのうち、所定の音量以上の音量で入力される回数が最も多かった声と、所定の音量以上の音量で入力される回数が最も多かった声が最も大きな音量で入力された端末10の個人情報とを対応付けて声を発した人物を特定するようにしてもよい。
また、制御部112は、所定の開始信号(例えば、端末10のスイッチON等)から所定の音量以上の声が最も早く入力された端末10の個人情報と当該所定の音量以上の声を発した人物とを対応付けて声を発した人物を特定するようにしてもよい。
また、制御部112は、音声認識により得られた話の内容に基づいて、声を発した人物を識別するようにしてもよい。
具体的には、例えば、所定の開始信号(例えば、端末10のスイッチON等)後、声を発した人物が声により、自己の氏名等、個人情報を特定可能な発言をした場合に、当該発言の内容に応じた個人情報とその声の周波数パターンとを対応付けて声を発した人物を特定するようにしてもよい。また、このとき、自己の氏名等、個人情報を特定可能な発言が最も速く録音された端末10の個人情報とその声を発した人物との対応付けによってもよいし、これらの対応付けの両方を行い、それぞれの判定の重要度に係数により重み付けを行う等することにより、複合的な識別の判定を行ってもよい。
具体的には、例えば、所定の開始信号(例えば、端末10のスイッチON等)後、声を発した人物が声により、自己の氏名等、個人情報を特定可能な発言をした場合に、当該発言の内容に応じた個人情報とその声の周波数パターンとを対応付けて声を発した人物を特定するようにしてもよい。また、このとき、自己の氏名等、個人情報を特定可能な発言が最も速く録音された端末10の個人情報とその声を発した人物との対応付けによってもよいし、これらの対応付けの両方を行い、それぞれの判定の重要度に係数により重み付けを行う等することにより、複合的な識別の判定を行ってもよい。
また、制御部112は、複数の端末10の所有者の個人情報や音声認識により得られた話の内容に基づいて特定された声を発した人物と、その声により得られる周波数パターンとを対応付けて周波数パターンをリアルタイムに生成してもよい。
ここで、制御部112は、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得する取得手段として機能する。
また、制御部112は、リアルタイムに生成された周波数パターンにより予め記憶部113に記憶された周波数データを更新するようにしてもよい。
ここで、制御部112は、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得する取得手段として機能する。
また、制御部112は、リアルタイムに生成された周波数パターンにより予め記憶部113に記憶された周波数データを更新するようにしてもよい。
制御部112が、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得することにより、予め周波数データが用意されていない人物の声についても、その後に行う声の識別に用いるための周波数データを得ることができる。また、音声データに含まれる声の周波数により周波数データをリアルタイムに取得することで、音声データにより最近得られた声に基づく周波数データを常に得ることができる。
また、上記の実施形態では、POC処理により3D画像としての認識処理や画像データに基づく人物の識別のための照合を行っているが、一例であり、これに限られるものでなく、他の方法により二つの画像データから3D画像としての認識処理や画像データの照合を行ってもよい。
また、上記の実施形態では、端末10の撮像部11が二つのカメラモジュール11a、11bを有し、二つの画像データを撮像して3D画像として認識する処理を行っているが、一例であり、これに限られるものではない。例えば、一つのカメラモジュールにより得られた画像データに基づく人物の識別(照合)を行うようにしてもよい。この場合、照合用データは、例えば、2次元の画像データの画像に含まれる顔画像との照合のための顔画像データや、顔画像の特徴を示す特徴点データ等となる。
また、上記の実施形態では、端末10の撮像部11が二つのカメラモジュール11a、11bを有し、二つの画像データを撮像して3D画像として認識する処理を行っているが、一例であり、これに限られるものではない。例えば、一つのカメラモジュールにより得られた画像データに基づく人物の識別(照合)を行うようにしてもよい。この場合、照合用データは、例えば、2次元の画像データの画像に含まれる顔画像との照合のための顔画像データや、顔画像の特徴を示す特徴点データ等となる。
また、動画像データにより被写体の口の動きが撮像されている場合、口の形及び口の形の変化パターンに基づいて音声認識処理を行ってもよい。また、上記の実施形態における音声認識処理による処理結果と口の形及び口の形の変化パターンに基づいた音声認識処理による処理結果とを用いた複合的な音声認識処理を行うことにより音声認識処理の精度をさらに高めるようにしてもよい。
また、一つの端末が備える撮像手段(例えば、撮像部11のカメラモジュール等)の数は3つ以上でもよい。この場合、サーバー110の制御部は、例えば、3つ以上の撮像手段により撮像された画像データのそれぞれにより識別処理を行い、夫々の識別結果のうち最も精度が高い識別結果を用いるようにしてもよい。また、制御部112は、3D認識において、3つ以上の撮像手段により撮像された複数の画像データのうち、3D画像としての認識の精度が最も高い二つの画像データの組み合わせに基づいて3D画像認識を行うようにしてもよい。
また、一つの端末が備える撮像手段(例えば、撮像部11のカメラモジュール等)の数は一つでもよい。この場合、画像データは、二次元(2D)の画像データとなる。
また、一つの端末が備える撮像手段(例えば、撮像部11のカメラモジュール等)の数は一つでもよい。この場合、画像データは、二次元(2D)の画像データとなる。
また、上記の実施形態では、クラウド100のサーバー110が識別処理等の画像データ及び音声データに基づく各種の処理を行っているが、一例であり、これに限られるものでなく、クラウド100以外の構成によってもよい。例えば、一又は複数の端末と直接通信を行うサーバーが、画像データ及び音声データに基づく被写体の識別処理や音声認識処理、音声認識処理の結果に基づく文書データの作成処理、識別された人物ごとの音声の分割処理等を行ってもよい。
また、上記の実施形態では、端末10はカード型の形状を有し、人物の胸元に装着可能な大きさであるが、一例であり、これに限られるものではない。例えば、複数の端末の夫々が、会議場等の所定のスペースに設けられた複数の座席の夫々に対面する位置で固定されて設けられ、端末に対面する座席に座した人物を撮像するようにしてもよい。この場合、複数の端末の各々により、座席の各々に座した被写体の顔をより確実に撮像できるよう予め端末を設けることができる。また、座席に座る人物の個人情報と撮像された人物の口の動きの有無との照合により、音声データに含まれる人物の声の識別の精度をより向上させることができる。
1 情報処理システム
10 端末
11 撮像部
11a、11b カメラモジュール
12 音声取得部
13 制御部
14 フィルター処理部
15 通信部
16 電源部
100 クラウド
110 サーバー
111 通信部
112 制御部
113 記憶部
10 端末
11 撮像部
11a、11b カメラモジュール
12 音声取得部
13 制御部
14 フィルター処理部
15 通信部
16 電源部
100 クラウド
110 サーバー
111 通信部
112 制御部
113 記憶部
Claims (9)
- 複数の端末と、当該複数の端末から送信された画像データ及び音声データを受信するサーバーとを備える情報処理システムであって、
前記端末は、
被写体を撮像して前記画像データを取得する撮像手段と、
音声を取得して前記音声データを生成する生成手段と、
前記画像データ及び前記音声データを前記サーバーに送信する送信手段と、を備え、
前記サーバーは、
前記複数の端末の夫々の前記送信手段により送信された前記画像データ及び前記音声データを受信する受信手段と、
前記受信手段により受信された複数の前記画像データ及び複数の前記音声データに基づいて声を発した前記被写体を識別する識別手段と、
を備える事を特徴とする情報処理システム。 - 前記端末は、前記被写体の3D画像を撮像するための複数の撮像手段を備え、
前記識別手段は、前記被写体の3D画像データに基づいて前記被写体を識別する3D認識処理を行うことを特徴とする請求項1に記載の情報処理システム。 - 前記識別手段は、3D画像データを用いた位相限定相関法による識別を行うことを特徴とする請求項2に記載の情報処理システム。
- 前記識別手段は、前記音声データに含まれる音声の周波数に基づいて前記音声データに含まれる声を発した人物を識別し、前記画像データに基づく前記被写体の識別結果と、前記音声データに基づく人物の識別結果とに基づいて前記被写体を識別することを特徴とする請求項1から3のいずれか一項に記載の情報処理システム。
- 前記識別手段は、前記音声データに含まれる音声の周波数と予め設けられた複数の人物の夫々の声の周波数を示す周波数データが示す周波数とを照合して前記音声データに含まれる声を発した人物を識別することを特徴とする請求項4に記載の情報処理システム。
- 前記サーバーは、
前記音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得する取得手段を備え、
前記識別手段は、前記音声データに含まれる音声の周波数と前記取得手段により取得された周波数データが示す人物の声の周波数とを照合して前記音声データに含まれる声を発した人物を識別することを特徴とする請求項4に記載の情報処理システム。 - 前記サーバーは、
前記識別手段により識別された前記音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部に記憶させる分割手段を備えることを特徴とする請求項1から6のいずれか一項に記載の情報処理システム。 - 前記サーバーは、
前記音声データに含まれる声に対応する文字列を取得する音声認識手段と、
前記識別手段により識別された前記被写体を示す情報と前記音声認識手段により取得された前記文字列とを対応付ける対応付け手段と、
前記対応付け手段により前記被写体を示す情報と対応付けられた前記文字列を含む文書データを作成して記憶部に記憶させる作成手段を備えることを特徴とする請求項1から7のいずれか一項に記載の情報処理システム。 - 前記端末は、カード型であることを特徴とする請求項1から8のいずれか一項に記載の情報処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011133771A JP2013005195A (ja) | 2011-06-16 | 2011-06-16 | 情報処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011133771A JP2013005195A (ja) | 2011-06-16 | 2011-06-16 | 情報処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013005195A true JP2013005195A (ja) | 2013-01-07 |
Family
ID=47673290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011133771A Withdrawn JP2013005195A (ja) | 2011-06-16 | 2011-06-16 | 情報処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013005195A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190082900A (ko) * | 2017-02-15 | 2019-07-10 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
JP2021124526A (ja) * | 2020-01-31 | 2021-08-30 | 株式会社リコー | 記録装置、記録システム、ファイル生成方法およびプログラム |
-
2011
- 2011-06-16 JP JP2011133771A patent/JP2013005195A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190082900A (ko) * | 2017-02-15 | 2019-07-10 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
KR102222317B1 (ko) | 2017-02-15 | 2021-03-03 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
JP2021124526A (ja) * | 2020-01-31 | 2021-08-30 | 株式会社リコー | 記録装置、記録システム、ファイル生成方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112088402B (zh) | 用于说话者识别的联合神经网络 | |
EP3963576B1 (en) | Speaker attributed transcript generation | |
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
US12051422B2 (en) | Processing overlapping speech from distributed devices | |
US11875796B2 (en) | Audio-visual diarization to identify meeting attendees | |
KR102196686B1 (ko) | 신원 인증 방법 및 장치 | |
EP3963901A1 (en) | Synchronization of audio signals from distributed devices | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
CN102799262B (zh) | 用于确定输入语音的相关性的装置和方法 | |
CN107346661B (zh) | 一种基于麦克风阵列的远距离虹膜跟踪与采集方法 | |
US10812921B1 (en) | Audio stream processing for distributed device meeting | |
CN111833899B (zh) | 一种基于多音区的语音检测方法、相关装置及存储介质 | |
CN111048113B (zh) | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 | |
US20160064000A1 (en) | Sound source-separating device and sound source -separating method | |
US20190028817A1 (en) | System and method for a directional speaker selection | |
US20120014567A1 (en) | Wireless Location and Facial/Speaker Recognition System | |
CN110196914B (zh) | 一种将人脸信息录入数据库的方法和装置 | |
CN114141230A (zh) | 电子设备及其语音识别方法和介质 | |
JP6562790B2 (ja) | 対話装置および対話プログラム | |
US20230136553A1 (en) | Context-aided identification | |
WO2020222931A1 (en) | Distributed device meeting initiation | |
CN113849793A (zh) | 角色分离方法、会议纪要的记录方法、角色展示方法、装置、电子设备及计算机存储介质 | |
US11842745B2 (en) | Method, system, and computer-readable medium for purifying voice using depth information | |
JP2013005195A (ja) | 情報処理システム | |
JP2013003807A (ja) | 情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140902 |