JP2010154259A

JP2010154259A - 画像音声処理装置

Info

Publication number: JP2010154259A
Application number: JP2008330529A
Authority: JP
Inventors: Naoki Hanada; 尚樹花田
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2010-07-08

Abstract

【課題】断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ると共に、音声を発した人間に応じて適切に文字表示を行う。
【解決手段】被写体までの距離及び方向を算出する物体位置検出部２４ｂと、音源までの距離及び方向を算出する音声位置検出部１２と、被写体までの距離及び方向と音源までの距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける関連付け部４０ａと、関連付けられた被写体画像の追跡を行う追跡制御部４０ｂと、追跡結果と被写体又は音源の距離及び方向とに基づいてマイクロフォンアレイ１１の指向特性を調整する指向特性調整部１３ａ，１３ｂと、指向特性が調整されたマイクロフォンアレイ１１により生成された音声データに基づいて音声を文字列に変換する音声認識部１５ａ，１５ｂと、変換された文字列を被写体画像に応じて画面に表示するための出力データを生成する出力制御部４０ｄとを備える。
【選択図】図１

Description

本発明は、画像音声処理装置に関する。

一般的なビデオカメラでは、レンズで集光された光が撮像素子で電気信号へ変換され、カメラ処理された画像データと、マイクロフォンで電気信号に変換された音声データとをそれぞれ別の圧縮方式でデータ圧縮を行い、記録媒体に記録する。そして、再生時には、この記録媒体に記録された画像データ及び音声データを伸長し、テレビジョン装置等の出力装置に出力する。

特許文献１には、デジタルカメラにおいて、入力した音声に対して音声認識処理を施し、認識された音声を文字に変換し、この文字を静止画像に重畳して表示する画像処理装置が提案されている。

また、特許文献２には、画面内に表示された人物が発している音声内容を、利用者が確実にかつ容易に視認できるように、表示された人物の口の動きを検出し、この検出された口近傍に人物が発した音声を文字化して画面に表示する装置が提案されている。

さらに、特許文献３には、音声認識された音声をテロップ方式で表示することで、画像と文字により情報が重畳的に表示する表示装置が提案されている。
特開平１１−５５６１４号公報特開平９−２３３４４２号公報特開平１１−４１５３８号公報

しかしながら、特許文献１乃至特許文献３に記載の技術では、画面内に表示された複数の人物が交互に声を発した場合、声を発した人物にマイクロフォンの指向特性が調整されていないので、ノイズを減衰させて良好な音声を取得できず、利用者は録画のタイミングを逃してしまう場合があった。

また、特許文献３に記載の技術のように、検出された口近傍に人物が発した音声を文字化して画面に表示するのみでは、画面内の互いに近い位置に複数の人物が表示されている場合、利用者は、どの人物が音声を発したのか認識できなかった。

本発明は、上記課題に鑑みてなされたものであり、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ると共に、音声を発した人間に応じて適切に文字表示を行う画像音声処理装置を提供することを目的とする。

上記目的を達成するため、本発明に係る画像音声処理装置の第１の特徴は、音声を発した物体に応じて文字表示を行う画像音声処理装置において、光学系により被写体からの光を集光し、電気信号へ変換して画像データを生成する撮像部と、音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、前記撮像部により生成された画像データに基づいて、前記画像音声処理装置から前記被写体までの距離及び前記画像音声処理装置に対する前記被写体の方向を算出する物体位置検出部と、前記マイクロフォンアレイにより生成された音声データに基づいて、前記画像音声処理装置から前記音源までの距離及び前記画像音声処理装置に対する前記音源の方向を算出する音声位置検出部と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、前記物体位置検出部により算出された前記被写体の距離及び方向、又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部と、前記指向特性調整部により指向特性が調整されたマイクロフォンアレイにより生成された音声データに基づいて音声を文字列に変換する音声認識部と、前記音声認識部により変換された文字列を前記被写体に応じて画面に表示するための出力データを出力部に生成させる出力制御部とを備える。

上記目的を達成するため、本発明に係る画像音声処理装置の第２の特徴は、前記画像データ上における前記関連付け部により関連付けられた物体に対応する前記被写体の追跡を行う追跡制御部と、を更に備え、前記指向特性調整部は、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向、又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整することにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第３の特徴は、前記撮像部により生成された画像データから被写体の特徴情報を検出する物体検出部と、人間の特徴情報と、この人間の特徴情報に基づいて分類された人間分類とを関連付けて、人間分類情報として記憶する人間分類情報記憶部と、前記人間分類情報に基づいて、前記物体検出部により検出された被写体の特徴情報に対応する人間分類を抽出する物体認識部と、前記音声認識部により変換された文字列を、前記物体認識部により抽出された人間分類に応じた言語から予め設定された母国語へ翻訳する翻訳部と、を更に備え、前記出力制御部は、前記物体検出部により検出した前記画面上の被写体画像に応じて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第４の特徴は、前記出力制御部は、前記物体検出部により検出した前記画面上の被写体画像の近傍に、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第５の特徴は、前記出力制御部は、前記撮像部により生成された画像データの被写体の大きさに基づいて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第６の特徴は、前記出力制御部は、前記撮像部により生成された画像データにおける被写体の向きに基づいて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第７の特徴は、前記出力制御部は、前記撮像部により生成された画像データにおける被写体の種類に基づいて、前記翻訳部により変換された文字列の色又はフォントのうちの少なくともいずれか一方を決定し、この決定した色又はフォントで前記変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第８の特徴は、前記出力制御部は、前記物体認識部により、前記被写体が人間であると判定された場合に、前記画面上の人間の口元近傍の位置に、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させることにある。

上記目的を達成するため、本発明に係る画像音声処理装置の第９の特徴は、前記出力制御部は、前記物体認識部により、前記被写体が人間であると判定された場合に、前記人間の頭部の角度に応じて、前記翻訳部により変換された文字列を傾けて画面に表示するための出力データを前記出力部に生成させることにある。

本発明の画像音声処理装置によれば、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ると共に、音声を発した人間に応じて適切に文字表示を行うことができる。

以下、本発明の実施の形態について図面を参照して説明する。

本発明の一実施形態では、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ると共に、音声を発した人間に応じて適切に文字表示を行う画像音声処理装置を例に挙げて説明する。

＜画像音声処理装置の構成＞
図１は、本発明の一実施形態である画像音声処理装置の構成を示した構成図である。

本発明の一実施形態である画像音声処理装置１は、マイクロフォンアレイ１１と、音声位置検出部１２と、第１の指向特性調整部１３ａと、第２の指向特性調整部１３ｂと、第１の音声検出部１４ａと、第２の音声検出部１４ｂと、第１の音声認識部１５ａと、第２の音声認識部１５ｂと、辞書記憶部１６と、第１の翻訳部１７ａと、第２の翻訳部１７ｂと、音声圧縮部１８と、記録音声生成部１９と、撮像部を有するカメラ２１及びカメラ処理部２２と、動きセンサ２３と、操作部４１と、方角センサ４２と、検出部２４と、動きベクトル検出部２５と、動画圧縮部２６と、文字合成部２７と、人間分類情報記憶部３１と、画像基準特徴情報記憶部３２と、指向特性優先度記憶部３４と、ＣＰＵ４０と、記録部４３と、音声出力部４４と、表示部４５とを備えている。

マイクロフォンアレイ１１は、それぞれ例えば１０ｍｍ程度の所定間隔で配置される第１のマイクロフォン１１ａと、第２のマイクロフォン１１ｂと、第３のマイクロフォン１１ｃとを備えており、音源から発せられた音声を電気信号へ変換して音声データを生成する。

音声位置検出部１２は、マイクロフォンアレイ１１により生成された音声データに基づいて、画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向を算出する。

第１の指向特性調整部１３ａは、後述するＣＰＵ４０の追跡制御部４０ｂの追跡結果と、後述する検出部２４の物体位置検出部２４ｂにより算出された被写体の距離及び方向、又は音声位置検出部１２により算出された音源の距離及び方向とに基づいて、第１のマイクロフォン１１ａと、第２のマイクロフォン１１ｂと、第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、それぞれのマイクロフォンにより生成された音声データを重ね合わせることにより指向特性を調整する。

第２の指向特性調整部１３ｂは、第１の指向特性調整部１３ａと同一構成を有する。

第１の音声検出部１４ａは、第１の指向特性調整部１３ａにより指向特性が調整された音声データから音声の特徴情報を抽出する。具体的には、第１の音声検出部１４ａは、指向特性が調整された音声から、音量や音色情報等を抽出し、これらを音声の特徴情報として、ＣＰＵ４０へ供給する。

第２の音声検出部１４ｂは、第１の音声検出部１４ａと同一構成を有する。

第１の音声認識部１５ａは、第１の指向特性調整部１３ａにより指向特性が調整されたマイクロフォンアレイ１１により生成された音声データに基づいて音声を文字列に変換する。具体的には、第１の音声認識部１５ａは、後述する物体認識部２４ｃにより特定された被写体の種類と、後述する辞書記憶部１６に記憶された被写体の種類毎の辞書データに基づいて、マイクロフォンアレイ１１により生成された音声データに基づいて音声を文字列に変換する。

第２の音声認識部１５ｂは、第１の音声認識部１５ａと同一構成を有する。

辞書記憶部１６は、例えば、犬、猫、自動車、人間等のような被写体の種類毎に、それぞれ辞書データを記憶している。

第１の翻訳部１７ａは、第１の音声認識部１５ａにより変換された文字列を物体認識部２４ｃにより抽出された人間分類に応じた言語から、後述する操作部４１の入力操作により設定された母国語に翻訳する。

第２の翻訳部１７ｂは、第１の翻訳部１７ａと同一構成を有する。

音声圧縮部１８は、後述する記録音声生成部１９により生成された記録音声データを、所定の圧縮方式で圧縮し、圧縮された記録音声データを後述する記録部４３に記録させる。

記録音声生成部１９は、マイクロフォンアレイ１１から供給される音声データと、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂから供給される音声データとを合成し、後述する記録部４３に記録されるのに必要な音声チャンネル数（例えば、ステレオ録音する場合、２チャンネル）に変換する。具体的には、記録音声生成部１９は、音量と、後述する物体認識部２４ｃにより顔認識された被写体画像の口元の動きとに基づいて、音源である人間が音声を発している場合には、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂから供給される音声データを記録し、音源である人間が音声を発していない場合には、マイクロフォンアレイ１１から供給される音声データを記録するようにそれぞれの音声データを合成して出力データを生成し、音声圧縮部１８及び音声出力部４４へ供給する。これにより、周囲雑音がある場合にも、音源である人間が発した音声を明瞭に記録又は音声出力することができる。

カメラ２１は、ズームレンズ２１ａと撮像素子２１ｂとを備えている。後述する操作部４１からの供給された操作信号により設定されたズーム倍率に基づいて、ズームレンズ２１ａが画角を調整し、ズームレンズ２１ａは、図示しない光学系により被写体からの光を集光し、撮像素子２１ｂが集光された光を電気信号へ変換する。

カメラ処理部２２は、カメラ２１から供給された電気信号をＲＧＢ信号輝度信号Ｙ及び色差信号Ｃｒ，Ｃｂ信号等の画像データに変換する。

動きセンサ２３は、例えばジャイロセンサ等を備え、画像音声処理装置１の動きを検出し、ＣＰＵ４０及び検出部２４へ供給する。

検出部２４は、物体検出部２４ａと、物体位置検出部２４ｂと、物体認識部２４ｃとを備える。

物体検出部２４ａは、カメラ処理部２２により生成された画像データから被写体画像の特徴情報を検出する。例えば、物体検出部２４ａは、画像データから被写体画像の形及び色を特徴情報として検出する。また、物体検出部２４ａは、後述する物体認識部２４ｃにより被写体の種類が“人間”であると判定された場合、物体検出部２４ａは、被写体の特徴情報として、更に、肌の色、瞳の色、輪郭、髪の毛の色、及び衣装を検出する。

物体位置検出部２４ｂは、カメラ処理部２２により生成された画像データに基づいて、画像音声処理装置１から画像データの被写体までの距離及び画像音声処理装置１に対する被写体の方向を算出する。

物体認識部２４ｃは、被写体画像の認識を行う。具体的には、物体認識部２４ｃは、物体検出部２４ａにより抽出された形及び色と画像基準特徴情報記憶部３２に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして、この特定した被写体の種類が“人間”である場合、物体認識部２４ｃは、後述する人間分類情報記憶部３１に記憶された人間分類情報に基づいて、物体位置検出部２４ｂにより検出された被写体画像の特徴情報に対応する人間分類を抽出する。さらに、物体認識部２４ｃは、特定した被写体の種類が“人間”である場合、顔認識を行う。

動きベクトル検出部２５は、カメラ処理部２２により生成された画像データの動きを検出し、ＣＰＵ４０及び検出部２４へ供給する。

動画圧縮部２６は、カメラ処理部２２により生成された画像データを、所定の圧縮方式で圧縮し、圧縮された画像データを後述する記録部４３に供給する。

文字合成部２７は、後述するＣＰＵ４０の出力制御部４０ｄの指示に従い、カメラ処理部２２により生成された画像データに文字列を重ね合わせて、表示部４５に表示させる。

人間分類情報記憶部３１は、人間の特徴情報と、この特徴情報に基づいて分類された人間分類とを関連付けて、人間分類情報として記憶する。

図２は、本発明の一実施形態である画像音声処理装置１が備える人間分類情報記憶部３１に記憶された人間分類情報の一例を示した図である。

図２に示すように、カラム名“人間分類”（符号５１）と、カラム名“肌の色”（符号５２）と、カラム名“瞳の色”（符号５３）と、カラム名“輪郭”（符号５４）と、カラム名“髪の毛の色”（符号５５）と、カラム名“衣装の特徴”（符号５６）とが関連付けられて人間分類情報として記憶されている。

画像基準特徴情報記憶部３２は、被写体の種類と、画像基準特徴情報とを関連付けて記憶する。

図３は、本発明の一実施形態である画像音声処理装置１が備える画像基準特徴情報記憶部３２に記憶された画像基準特徴情報の一例を示した図である。

図３に示すように、カラム名“種類”（符号６１）と、カラム名“画像基準特徴情報”（符号６２）とが関連付けられて記憶されている。画像基準特徴情報６２には、カラム名“形”（符号６２ａ）と、カラム名“色”（符号６２ｂ）と、カラム名“基準寸法”（符号６２ｃ）とが含まれる。

指向特性優先度記憶部３４は、後述する操作部４１から供給された被写体及び音源の種類の優先順位が記憶されている。なお、後述するＣＰＵ４０は、操作部４１での優先順位が指定されるまでは、指向特性優先度記憶部３４に予め記憶されている所定の優先順位に従って、処理を行う。

ＣＰＵ４０は、画像音声処理装置１の中枢的な制御を行う。また、ＣＰＵ４０は、その機能上、関連付け部４０ａと、追跡制御部４０ｂと、指向調整制御部４０ｃと、出力制御部４０ｄとを備える。

関連付け部４０ａは、物体位置検出部２４ｂにより算出された被写体の距離及び方向と、音声位置検出部１２により算出された音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける。

追跡制御部４０ｂは、画像データに基づいて表示部４５に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより、画像データ上における関連付け部４０ａにより関連付けられた物体に対応する被写体の動きを追跡する。

指向調整制御部４０ｃは、追跡制御部４０ｂの追跡結果と、物体位置検出部２４ｂにより算出された被写体の距離及び方向、又は音声位置検出部１２により算出された音源の距離及び方向とに基づいて、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂに指向特性を調整させる。

出力制御部４０ｄは、第１の音声認識部１５ａ又は第２の音声認識部１５ｂにより変換された文字列を被写体画像に応じて画面に表示するための出力データを、記録部４３又は文字合成部２７に生成させる。

操作部４１は、利用者の操作に基づいて、撮影の開始や終了を要求する操作信号等各種操作信号や、第１の翻訳部１７ａ又は第２の翻訳部１７ｂが翻訳する母国語を設定するための操作信号を生成し、生成した操作信号をＣＰＵ４０へ供給する。

方角センサ４２は、画像音声処理装置１が向いている方角を検出し、検出した方角データをＣＰＵ４０及び検出部２４へ供給する。

記録部４３は、ＣＰＵ４０の出力制御部４０ｄの指示に従い、音声圧縮部１８から供給される記録音声データと、動画圧縮部２６から供給される動画データと、ＣＰＵ４０から供給される文字列とを同期させて記録する。

音声出力部４４は、スピーカ等の音声出力装置とを備え、記録音声生成部１９から供給された記録音声データに基づいて、音声を出力する。

表示部４５は、有機ＥＬ（electroluminescence）ディスプレイや、液晶ディスプレイ等の画像出力装置を備え、文字合成部２７から供給された画像データに基づいて、画像を表示する。

＜画像音声処理装置１の作用＞
次に、本発明の一実施形態である画像音声処理装置１の作用について説明する。

図４は、本発明の一実施形態である画像音声処理装置１の処理フローを示したフローチャートである。

まず、画像音声処理装置１のカメラ処理部２２は、カメラ２１から電気信号が供給されると（ステップＳ１０１）、供給された電気信号をＲＧＢ信号輝度信号Ｙ、及び色差信号Ｃｒ，Ｃｂ信号等に変換して画像データを生成する。

次に、物体位置検出部２４ｂは、動きセンサ２３により検出された画像音声処理装置１の動き及び方角センサ４２により検出された画像音声処理装置１の方角に基づいて、振れを補正する（ステップＳ１０２）。例えば、物体位置検出部２４ｂは、動きセンサ２３により検出された画像音声処理装置１の動きを打ち消すように、カメラ処理部２２から供給された画像データから切り出す画像データの範囲を選択し、この選択された画像データを物体検出部２４ａへ供給する。

そして、物体検出部２４ａは、振れを補正した画像データから被写体画像の特徴情報を検出する（ステップＳ１０３）。例えば、物体検出部２４ａは、画像データから被写体画像の形及び色を、被写体画像の特徴情報として検出する。

次に、物体認識部２４ｃは、被写体画像の認識を行う（ステップＳ１０４）。具体的には、物体認識部２４ｃは、物体検出部２４ａにより抽出された形及び色と画像基準特徴情報記憶部３２に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして、この特定した被写体の種類が“人間”である場合、物体認識部２４ｃは、人間分類情報記憶部３１に記憶された人間分類情報に基づいて、ステップＳ１０３において検出された被写体画像の特徴情報対応する人間分類を抽出する。

図５は、本発明の一実施形態である画像音声処理装置１が備える物体検出部２４ａ及び物体認識部２４ｃによる処理を説明した図である。

図５に示すように、カメラ２１により撮像された画面には、被写体Ａ及び被写体Ｂが写っているので、物体認識部２４ｃは、被写体Ａ及び被写体Ｂの種類として“人間”を抽出し、物体検出部２４ａは、被写体Ａ及び被写体Ｂの特徴情報として、さらに、肌の色、瞳の色、輪郭、髪の毛の色、及び衣装を検出する。

そして、物体認識部２４ｃは、人間分類情報記憶部３１に記憶された人間分類情報に基づいて、検出された肌の色、瞳の色、輪郭、髪の毛の色、及び衣装に対応する人間分類を抽出する。

次に、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、画像音声処理装置１から被写体までの距離及び画像音声処理装置１に対する被写体の方向を算出する（ステップＳ１０５）。例えば、物体位置検出部２４ｂは、カメラ２１のズームレンズ２１ａに設定されたズーム倍率で定められる画角及び被写体までの焦点情報に基づいて、画像音声処理装置１から画像データの被写体までの距離及び画像音声処理装置１に対する被写体の方向を算出する。

図６は、本発明の一実施形態である画像音声処理装置１が備える物体位置検出部２４ｂによる被写体の方向の算出処理を説明した図である。

図６に示すように、カメラ２１により撮像された画面に、図６に示した被写体Ａと被写体Ｂとが写っている。カメラ２１の画角が±Φであるとすると、物体位置検出部２４ｂは、画像音声処理装置１を上方から見たｘ−ｙ平面において、物体検出部２４ａにより検出された被写体Ａが＋θ３方向にある、即ち、＋θ３方向の直線２０１上に被写体Ａが存在すると判定する。

そして、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、画像音声処理装置１から被写体までの距離を算出する。

図７は、本発明の一実施形態である画像音声処理装置１が備える物体位置検出部２４ｂによる被写体の距離の算出処理を説明した図である。

カメラ２１のフォーカスの範囲内に被写体Ａ又はＢがある場合、物体位置検出部２４ｂは、フォーカスの焦点情報から距離を算出する。

図７に示すように、被写体Ａがフォーカスの範囲内にある場合、物体位置検出部２４ｂは、フォーカスの焦点情報からカメラ２１と被写体Ａとの間の距離ｄ１を算出する。

また、カメラ２１のフォーカスの範囲外に被写体Ａ又はＢがある場合、物体位置検出部２４ｂは、画像基準特徴情報記憶部３２に記憶された画像基準特徴情報に基づいて、画像データの被写体画像の特徴情報に対応する被写体の基準寸法を抽出し、この抽出された被写体の基準寸法及びカメラ２１における画角に基づいて、カメラ２１から画像データの被写体までの距離を算出する。

例えば、図７に示す被写体Ｂがフォーカスの範囲外にある場合、物体位置検出部２４ｂは、画像基準特徴情報記憶部３２に記憶された画像基準特徴情報からステップＳ１０４において特定された被写体の種類に対応する基準寸法Ｌ２を抽出する。

そして、物体位置検出部２４ｂは、図５に示す画面の高さをＨｃ、被写体Ｂの顔の縦方向の長さＨ２、画角をθｃとすると、下記の数式１を用いて、被写体Ｂの角度θ２を算出する。

θ２＝θｃ×Ｈ２／Ｈｃ・・・（数式１）
次に、物体位置検出部２４ｂは、抽出された基準寸法Ｌ２と、算出された角度θ２とから、下記の数式２を用いて距離ｄ２を算出する。

ｄ２＝Ｌ２／ｔａｎθ２・・・（数式２）
これにより、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、画像音声処理装置１から被写体までの距離及び画像音声処理装置１に対する被写体の方向を算出することができる。

次に、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃから音声データが供給されると（ステップＳ１０６）、動きセンサ２３により検出された画像音声処理装置１の動き及び方角センサ４２により検出された画像音声処理装置１に基づいて、振れを補正する（ステップＳ１０７）。

図４に示すように、次に、音声位置検出部１２は、補正された音声データに基づいて、画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向を算出する（ステップＳ１０８）。

図８は、本発明の一実施形態である画像音声処理装置１が備える音声位置検出部１２による音源の方向及び距離の算出処理を説明した図である。

図８に示すように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃは、それぞれ所定の距離を離して配置されているので、音源Ａが発声した音声は、それぞれの入力までの遅延時間が異なる。

具体的には、図８に示すように、音源Ａから音声が発せられてから第１のマイクロフォン１１ａに到達するまでの時間をｔ０とすると、音源Ａから音声が発せられてから第２のマイクロフォン１１ｂに到達するまでの時間は、（ｔ０＋ｔ１）、音源Ａから音声が発せられてから第３のマイクロフォン１１ｃに到達するまでの時間は、（ｔ０＋ｔ２）となる。

そこで、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに入力された音声の位相を比較することにより、マイクロフォンに入力される音声の遅延時間ｔ１，ｔ２を算出し、この算出された遅延時間ｔ１，ｔ２に基づいて、画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向を算出する。

図９は、本発明の一実施形態である画像音声処理装置１が備える第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに入力された音声波形の位相比較の一例を示した図である。

図９に示すように、Ｔ１０時点において、音源Ａから発せられてから第１のマイクロフォン１１ａに到達した音声がピークを有しているので、音声位置検出部１２は、このピーク時であるＴ１０を基準とする。そして、音声位置検出部１２は、Ｔ１０から、第２のマイクロフォン１１ｂに到達した音声波形において同様のピーク波形が到達した時刻Ｔ１１までの時間を遅延時間ｔ１とする。また、音声位置検出部１２は、Ｔ１０から、第３のマイクロフォン１１ｃに到達した音声波形において同様のピーク波形が到達した時刻Ｔ１２までの時間を遅延時間ｔ２とする。

そして、音声位置検出部１２は、この算出された遅延時間ｔ１，ｔ２に基づいて、画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向を算出する。具体的には、音速をｖとすると、音声位置検出部１２は、音源Ａから第１のマイクロフォン１１ａまでの距離はｖ・ｔ０、音源Ａから第２のマイクロフォン１１ｂまでの距離はｖ・（ｔ０＋ｔ１）、音源Ａから第３のマイクロフォン１１ｃまでの距離はｖ・（ｔ０＋ｔ２）となる。そして、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃからそれぞれｖ・ｔ０、ｖ・（ｔ０＋ｔ１）、及びｖ・（ｔ０＋ｔ２）だけ離れた地点、即ち、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃを中心とて、それぞれ中心からの半径をｖ・ｔ０、ｖ・（ｔ０＋ｔ１）、及びｖ・（ｔ０＋ｔ２）として円を描いたときに、互いに重なり合う地点が音源Ａのある地点として定める。

これにより、音声位置検出部１２は、補正された音声データに基づいて、画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向を算出することができる。

なお、例えば音源Ａ及び音源Ｂが同時に音声を発した場合、音声位置検出部１２は、例えば、特開２００６−２２７３２８号公報に記載の技術を用いて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する。具体的には、音声位置検出部１２は、帯域分割して得られる帯域分割信号が複数の音源が重複している信号であるか一つの音源だけからなる信号であるかを判定し、音源が重複していない周波数成分のみを用いて音源方向を算出する。

次に、ＣＰＵ４０の関連付け部４０ａは、ステップＳ１０４において算出された画像音声処理装置１から被写体までの距離及び画像音声処理装置１に対する被写体の方向と、ステップＳ１０８において算出された画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向とに基づいて、音源と被写体との関連付けか可能か否かを判定する（ステップＳ１０９）。

例えば、関連付け部４０ａは、ステップＳ１０５において算出された画像音声処理装置１から被写体までの距離及び画像音声処理装置１に対する被写体の方向により特定される位置の所定の周辺範囲と、ステップＳ１０８において算出された画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向により特定される位置の所定の周辺範囲とにおいて重なり合う部分がある場合、この被写体と音源は同一の物体として関連付けが可能であると判定する。

ステップＳ１０９において、音源と被写体との関連付けか可能と判定された場合、関連付け部４０ａは、ステップＳ１０５において算出された画像音声処理装置１から被写体までの距離及び画像音声処理装置１に対する被写体の方向と、ステップＳ１０８において算出された画像音声処理装置１から音源までの距離及び画像音声処理装置１に対する音源の方向とを関連付ける（ステップＳ１１０）。

次に、ＣＰＵ４０の追跡制御部４０ｂは、画像データに基づいて表示部４５に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する（ステップＳ１１１）。

具体的には、追跡制御部４０ｂは、画像データに基づいて表示された画面を複数のブロックに分割し、動きベクトル検出部２５により検出されたブロック毎の動きベクトルに基づいて、被写体に動きがあるかを検出する。なお、動きベクトルの検出は、輝度信号でも良いし色信号でも良い。

また、追跡制御部４０ｂは、画面内に動く物体が無い場合にも、画面の中全てを常に画像認識して、輪郭や色などから被写体を推定する。その被写体に対して、特徴情報に基づいて画像認識を行い、これまで検出していた被写体との比較を行う。この被写体がこれまでの被写体の特徴情報と比較して違いが所定の値より少ない場合には同じ物体と判断する。これにより、追跡制御部４０ｂは、画面内でその被写体を追跡することができる。

そして、ＣＰＵ４０の指向調整制御部４０ｃの指示により、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂは、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃにより生成された音声データを重ね合わせることにより指向特性を調整する（ステップＳ１１２）。この指向特性調整処理については、後述する。

次に、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃから音声データが供給されると（ステップＳ１１３）、動きセンサ２３により検出された画像音声処理装置１の動きに基づいて、振れを補正する（ステップＳ１１４）。

次に、第１の音声検出部１４ａ又は第２の音声検出部１４ｂは、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂからそれぞれ供給された振れが補正された音声の特徴情報を検出する（ステップＳ１１５）。例えば、第１の音声検出部１４ａは、振れが補正された音声データから、音声の特徴情報として音量や音色情報等を抽出する。

そして、第１の音声認識部１５ａ又は第２の音声認識部１５ｂは、それぞれ第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂによりそれぞれ指向特性が調整されたマイクロフォンアレイ１１により生成された音声データに基づいて、音声を文字列に変換する（ステップＳ１１６）。具体的には、第１の音声認識部１５ａ又は第２の音声認識部１５ｂは、ステップＳ１０４において特定された被写体の種類と、辞書記憶部１６に記憶された被写体の種類毎の辞書データに基づいて、マイクロフォンアレイ１１により生成された音声データに基づいて音声を文字列に変換する。例えば、ステップＳ１０４において特定された被写体の種類が“犬”である場合、辞書記憶部１６に記憶された犬用の辞書データを用いて、マイクロフォンアレイ１１により生成された音声データに基づいて音声を文字列に変換する。このように、被写体の種類毎に記憶された辞書データに基づいて音声を文字列に変換するので、より高い精度で文字列に変換することができる。

次に、第１の翻訳部１７ａ又は第２の翻訳部１７ｂは、第１の音声認識部１５ａ又は第２の音声認識部１５ｂによりそれぞれ変換された文字列を物体認識部２４ｃにより抽出された人間分類に応じた言語から、予め操作部４１の操作に基づいて設定された母国語へ翻訳する（ステップＳ１１７）。具体的には、物体認識部２４ｃにより抽出された人間分類が、“黄色人種”であった場合、第１の翻訳部１７ａ又は第２の翻訳部１７ｂは、言語の候補として日本語、中国語、及び韓国語等のアジア圏で用いられる言語を表示部４５に一覧表示させる。そして、利用者の選択操作により、操作部４１から表示された言語の候補からいずれか１つの言語が選択される選択信号が供給された場合、第１の翻訳部１７ａ又は第２の翻訳部１７ｂは、第１の音声認識部１５ａ又は第２の音声認識部１５ｂにより変換された文字列をこの選択された言語から、予め操作部４１の操作に基づいて設定された母国語へ翻訳する。

このとき、利用者が言語の選択操作を行わない場合、第１の翻訳部１７ａ又は第２の翻訳部１７ｂは、入力された音声から最も適した言語を推測して、その推測した母国語へ変換を行う。

次に、第１の翻訳部１７ａ又は第２の翻訳部１７ｂは、ステップＳ１１７において翻訳した文字列を文節に区切る（ステップＳ１１８）。

そして、出力制御部４０ｄは、ステップＳ１１１において追跡制御部４０ｂにより追跡された被写体画像が、画面の範囲内か否かを判定する（ステップＳ１１９）。

ステップＳ１１９において、被写体画像が画面の範囲外であると判定された場合（ＮＯの場合）、出力制御部４０ｄは、音声位置検出部１２により検出された画像音声処理装置１に対する音源の方向に基づいて、画面端にステップＳ１１８において区切られた文節毎に文字列を表示する（ステップＳ１２０）。

図１０は、本発明の一実施形態である画像音声処理装置１が備える出力制御部４０ｄが文字列を画面端に表示した場合における画面の一例を示している。

図１０に示すように、出力制御部４０ｄは、被写体画像が画面の範囲外であると判定された場合、画面四辺のうち、音声位置検出部１２により検出された画像音声処理装置１に対する音源の方向に最も近い辺に沿うように、画面４０１の画面端にステップＳ１１８において区切られた文節毎に文字列４０２を表示する。

一方、ステップＳ１１９において、被写体画像が画面の範囲内であると判定された場合（ＹＥＳの場合）、出力制御部４０ｄは、ステップＳ１１１において追跡した被写体画像の頭部の傾きを算出する（ステップＳ１２１）。

次に、出力制御部４０ｄは、被写体に応じてステップＳ１１８において区切られた文節毎に文字列を重ね合わせて表示させるための出力データを文字合成部２７又は記録部４３に生成させることにより、文字合成部２７が、出力データに基づいて表示部４５に画面を表示し、又は記録部４３が出力データを記録する（ステップＳ１２２）。

図１１は、本発明の一実施形態である画像音声処理装置１が備える文字合成部２７が、出力データに基づいて表示部４５に表示した画面の一例を示している。（ａ），（ｂ）は、画面内の被写体画像が比較的大きい場合において文字列を表示した画面の一例を示し、（ｃ），（ｄ）は、画面内の被写体画像が比較的小さい場合において文字列を表示した画面の一例を示している。

図１１（ａ）に示すように、例えば、比較的文字列の数が多い場合、出力制御部４０ｄは、画面内の被写体画像Ａ２の横幅Ｌ３を基準として、予め定められた表示する文字列の文字数を越えないように、文字列４０３を改行して表示させる。図１１（ｃ）に示した場合も同様に、出力制御部４０ｄは、画面内の被写体画像Ａ２，Ａ３の横幅Ｌ３，Ｌ４を基準として、予め定められた表示する文字列の文字数を越えないように、文字列４０３を改行して表示させる。

また、図１１（ｂ）に示すように、例えば、比較的文字列の数が少ない場合、出力制御部４０ｄは、画面内の被写体画像Ａ２の横幅Ｌ３を基準として、文字列４０４を被写体画像の横幅Ｌ４以下となる最大のフォントサイズで表示させる。図１１（ｄ）に示す場合も同様に、出力制御部４０ｄは、画面内の被写体画像Ａ３の横幅Ｌ４を基準として、文字列４０４を被写体画像の横幅Ｌ４以下となる最大のフォントサイズで表示させる。

さらに、出力制御部４０ｄは、被写体画像の向きに応じてステップＳ１１８において区切られた文節毎に文字列を表示する。

図１２は、本発明の一実施形態である画像音声処理装置１が備える出力制御部４０ｄが文字列を画面に表示させた場合における画面の一例を示している。（ａ）は、画面内の被写体画像が正面を向いている場合において文字列を表示した画面の一例を示し、（ｂ）は、画面内の被写体画像が背面を向いている場合において文字列を表示した画面の一例を示し、（ｃ）は、画面内の被写体画像が画面向かって横方向を向いている場合において文字列を表示した画面の一例を示し、（ｄ）は、画面内の被写体画像が画面向かって斜め下方向を向いている場合において文字列を表示した画面の一例を示している。

図１２（ａ）に示すように、例えば、物体認識部２４ｃにより画面内の被写体画像Ａ４が正面を向いていると判定された場合、出力制御部４０ｄは、画面内の被写体画像Ａ４の下方向に文字列４０５を表示する。

図１２（ｂ）に示すように、例えば、物体認識部２４ｃにより画面内の被写体画像Ａ５が背面を向いていると判定された場合、出力制御部４０ｄは、画面内の被写体画像Ａ５上に重なり合うように文字列４０５を表示する。

図１２（ｃ）に示すように、例えば、物体認識部２４ｃにより画面内の被写体画像Ａ６が向かって横方向を向いていると判定された場合、出力制御部４０ｄは、画面内の被写体画像Ａ６の口元近傍の位置に文字列４０５を表示する。

図１２（ｄ）に示すように、例えば、物体認識部２４ｃにより画面内の被写体画像Ａ７が向かって斜め下方向を向いていると判定された場合、出力制御部４０ｄは、画面内の被写体画像Ａ７の口元近傍の位置であり、かつステップＳ１２１において算出された被写体画像の頭部の傾きに応じて文字列４０５を傾けて表示する。

図１３（ａ），（ｂ）は、本発明の一実施形態である画像音声処理装置１が備える出力制御部４０ｄが文字列の斜め表示を説明した図である。

図１３（ａ）に示すように、物体認識部２４ｃは、追跡制御部４０ｂにより追跡された被写体画像Ａ７に基づいて顔検出を行うことで、顔検出枠５０１と口位置検出枠５０２を定める。

そして、出力制御部４０ｄは、顔検出された顔検出枠５０１の角度を、被写体画像Ａ７の頭部の傾きを回転角度ｒとして算出する。

図１３（ｂ）に示すように、出力制御部４０ｄは、顔検出枠５０１が傾いている方向に文字列５０３を回転角度ｒだけ回転させて文字列５０３Ａを得る。そして、出力制御部４０ｄは、被写体画像Ａ７の口元近傍の位置に、回転角度ｒだけ回転させた文字列５０３Ａを重ね合わせる。

また、出力制御部４０ｄは、ステップＳ１０４において物体認識部２４ｃにより特定された被写体の種類に基づいて、第１の翻訳部１７ａ及び第２の翻訳部１７ｂにより変換された文字列の色及び／又はフォントを決定し、この決定した色及び／又はフォントで変換された文字列を画面に表示するための出力データを生成するようにしてもよい。

次に、出力制御部４０ｄは、文節に区切った文字列の表示が終了したか否かを判定し（ステップＳ１２３）、文字列の表示が終了したと判定した場合、ＣＰＵ４０は、操作部４１から撮影終了を要求する操作信号が供給されたか否かを判定し（ステップＳ１２４）、撮影終了を要求する操作信号が供給されたと判定した場合（ＹＥＳの場合）、処理を終了する。

＜指向特性調整処理＞
次に、本発明の一実施形態である画像音声処理装置１における指向特性調整処理について説明する。

図１４は、本発明の一実施形態である画像音声処理装置１における指向特性調整処理の処理フローを示したフローチャートである。

図１４に示すように、ＣＰＵ４０の指向調整制御部４０ｃは、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂのうち、少なくともいずれか一方が使用可能か否かを判定する（ステップＳ２０１）。具体的には、ＣＰＵ４０は、指向特性調整を行っていない第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂがあるか否かを判定する。

ステップＳ２０１において、いずれも使用不可、即ち第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂのいずれも指向特性調整を行っていると判定された場合（ＮＯの場合）、指向調整制御部４０ｃは、指向特性優先度記憶部３４に記憶された指向特性優先度を抽出する（ステップＳ２０２）。具体的には、指向調整制御部４０ｃは、指向特性優先度記憶部３４から、ステップＳ１１１において動きを追跡している被写体の種類と、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂにより指向特性調整されている被写体の種類とに対応する指向特性優先度を抽出する。

次に、指向調整制御部４０ｃは、ステップＳ１１３において動きを追跡している被写体の指向特性優先度が、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂにより指向特性調整されている被写体の指向特性優先度より高いか否かを判定する（ステップＳ２０３）。

ステップＳ２０３において、ステップＳ１１３において動きを追跡している被写体の指向特性優先度が、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂにより指向特性調整されている被写体の指向特性優先度より高いと判定された場合（ＹＥＳの場合）、指向調整制御部４０ｃの指示に基づいて、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂが指向調整を行う（ステップＳ２０４）。具体的には、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂは、追跡制御部４０ｂの追跡結果に基づいて、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃにより生成された音声データを重ね合わせることにより指向特性を調整する。

以上のように、本発明の一実施形態である画像音声処理装置１によれば、被写体の距離及び方向と、音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付け、追跡制御部４０ｂが関連付けられた物体の追跡を行い、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂが、追跡制御部４０ｂの追跡結果と、被写体の距離及び方向又は音源の距離及び方向とに基づいて、マイクロフォンアレイ１１の指向特性を調整するので、音源がカメラ２１の画角外に出た場合や、音源が断続的に音声を発生する場合であっても、その都度、音声位置検出部１２及び物体位置検出部２４ｂが物体の位置を算出し直すことなく、マイクロフォンアレイ１１の指向特性を調整することでノイズを減衰させて良好な音声を得ることができる。

また、本発明の一実施形態である画像音声処理装置１によれば、第１の音声認識部１５ａ又は第２の音声認識部１５ｂにより変換された文字列を被写体画像に応じて画面に表示するので、音声を発した人間に応じて適切に文字表示を行うことができる。

なお、本発明の一実施形態である画像音声処理装置１では、２つの指向特性調整部（第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂ）と、２つの音声検出部（第１の音声検出部１４ａ及び第２の音声検出部１４ｂ）とを備える構成としたが、これに限らず、多数の指向特性調整部と、多数の音声検出部とを備える構成としてもよい。

本発明の一実施形態である画像音声処理装置の構成を示した構成図である。本発明の一実施形態である画像音声処理装置が備える人間分類情報記憶部３１に記憶された人間分類情報の一例を示した図である。本発明の一実施形態である画像音声処理装置が備える画像基準特徴情報記憶部３２に記憶された画像基準特徴情報の一例を示した図である。本発明の一実施形態である画像音声処理装置の処理フローを示したフローチャートである。本発明の一実施形態である画像音声処理装置が備える物体検出部及び物体認識部による処理を説明した図である。本発明の一実施形態である画像音声処理装置が備える物体位置検出部による被写体の方向の算出処理を説明した図である。本発明の一実施形態である画像音声処理装置が備える物体位置検出部による被写体の距離の算出処理を説明した図である。本発明の一実施形態である画像音声処理装置が備える音声位置検出部による音源の方向及び距離の算出処理を説明した図である。本発明の一実施形態である画像音声処理装置が備える第１のマイクロフォン、第２のマイクロフォン、及び第３のマイクロフォンに入力された音声波形の位相比較の一例を示した図である。本発明の一実施形態である画像音声処理装置が備える出力制御部が文字列を画面端に表示した場合における画面の一例を示している。本発明の一実施形態である画像音声処理装置が備える文字合成部が、出力データに基づいて表示部に表示した画面の一例を示しており、（ａ），（ｂ）は、画面内の被写体画像が比較的大きい場合において文字列を表示した画面の一例を示し、（ｃ），（ｄ）は、画面内の被写体画像が比較的小さい場合において文字列を表示した画面の一例を示している。本発明の一実施形態である画像音声処理装置が備える出力制御部が文字列を画面に表示させた場合における画面の一例を示しており、（ａ）は、画面内の被写体画像が正面を向いている場合において文字列を表示した画面の一例を示し、（ｂ）は、画面内の被写体画像が背面を向いている場合において文字列を表示した画面の一例を示し、（ｃ）は、画面内の被写体画像が画面向かって横方向を向いている場合において文字列を表示した画面の一例を示し、（ｄ）は、画面内の被写体画像が画面向かって斜め下方向を向いている場合において文字列を表示した画面の一例を示している。本発明の一実施形態である画像音声処理装置が備える出力制御部が文字列の斜め表示を説明した図である。本発明の一実施形態である画像音声処理装置における指向特性調整処理の処理フローを示したフローチャートである。

符号の説明

１…画像音声処理装置
１１…マイクロフォンアレイ
１１ａ…第１のマイクロフォン
１１ｂ…第２のマイクロフォン
１１ｃ…第３のマイクロフォン
１２…音声位置検出部
１３ａ…第１の指向特性調整部
１３ｂ…第２の指向特性調整部
１４ａ…第１の音声検出部
１４ｂ…第２の音声検出部
１５ａ…第１の音声認識部
１５ｂ…第２の音声認識部
１６…辞書記憶部
１７ａ…第１の翻訳部
１７ｂ…第２の翻訳部
１８…音声圧縮部
１９…記録音声生成部
２１…カメラ
２２…カメラ処理部
２３…動きセンサ
２４…検出部
２４ａ…物体検出部
２４ｂ…物体位置検出部
２４ｃ…物体認識部
２５…動きベクトル検出部
２６…動画圧縮部
２７…文字合成部
３１…人間分類情報記憶部
３２…画像基準特徴情報記憶部
３３…音声基準特徴情報記憶部
３４…指向特性優先度記憶部
４０…ＣＰＵ
４０ａ…関連付け部
４０ｂ…追跡制御部
４０ｃ…指向調整制御部
４０ｄ…出力制御部
４１…操作部
４２…方角センサ
４３…記録部
４４…音声出力部
４５…表示部

Claims

音声を発した物体に応じて文字表示を行う画像音声処理装置において、
光学系により被写体からの光を集光し、電気信号へ変換して画像データを生成する撮像部と、
音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、
前記撮像部により生成された画像データに基づいて、前記画像音声処理装置から前記被写体までの距離及び前記画像音声処理装置に対する前記被写体の方向を算出する物体位置検出部と、
前記マイクロフォンアレイにより生成された音声データに基づいて、前記画像音声処理装置から前記音源までの距離及び前記画像音声処理装置に対する前記音源の方向を算出する音声位置検出部と、
前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、
前記物体位置検出部により算出された前記被写体の距離及び方向、又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部と、
前記指向特性調整部により指向特性が調整されたマイクロフォンアレイにより生成された音声データに基づいて音声を文字列に変換する音声認識部と、
前記音声認識部により変換された文字列を前記被写体に応じて画面に表示するための出力データを出力部に生成させる出力制御部と、
を備えた画像音声処理装置。
前記画像データ上における前記関連付け部により関連付けられた物体に対応する前記被写体の追跡を行う追跡制御部と、を更に備え、
前記指向特性調整部は、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向、又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整することを特徴とする請求項１記載の画像音声処理装置。
前記撮像部により生成された画像データから被写体の特徴情報を検出する物体検出部と、
人間の特徴情報と、この人間の特徴情報に基づいて分類された人間分類とを関連付けて、人間分類情報として記憶する人間分類情報記憶部と、
前記人間分類情報に基づいて、前記物体検出部により検出された被写体の特徴情報に対応する人間分類を抽出する物体認識部と、
前記音声認識部により変換された文字列を、前記物体認識部により抽出された人間分類に応じた言語から予め設定された母国語へ翻訳する翻訳部と、を更に備え、
前記出力制御部は、
前記物体検出部により検出した前記画面上の被写体画像に応じて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項１又は２記載の画像音声処理装置。
前記出力制御部は、
前記物体検出部により検出した前記画面上の被写体画像の近傍に、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３記載の画像音声処理装置。
前記出力制御部は、
前記撮像部により生成された画像データの被写体の大きさに基づいて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３又は４記載の画像音声処理装置。
前記出力制御部は、
前記撮像部により生成された画像データにおける被写体の向きに基づいて、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３〜５のうちいずれか１項記載の画像音声処理装置。
前記出力制御部は、
前記撮像部により生成された画像データにおける被写体の種類に基づいて、前記翻訳部により変換された文字列の色又はフォントのうちの少なくともいずれか一方を決定し、この決定した色又はフォントで前記変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３〜６のうちいずれか１項記載の画像音声処理装置。
前記出力制御部は、
前記物体認識部により、前記被写体が人間であると判定された場合に、前記画面上の人間の口元近傍の位置に、前記翻訳部により変換された文字列を画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３〜７のうちいずれか１項記載の画像音声処理装置。
前記出力制御部は、
前記物体認識部により、前記被写体が人間であると判定された場合に、前記人間の頭部の角度に応じて、前記翻訳部により変換された文字列を傾けて画面に表示するための出力データを前記出力部に生成させる
ことを特徴とする請求項３〜８のうちいずれか１項記載の画像音声処理装置。