JP2009218950A

JP2009218950A - カメラ付き携帯端末装置

Info

Publication number: JP2009218950A
Application number: JP2008061674A
Authority: JP
Inventors: Kenichi Hirako; 賢一平子
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2008-03-11
Filing date: 2008-03-11
Publication date: 2009-09-24

Abstract

【課題】話者の音声を聴衆の状況に応じて良好に出力することができる拡声器機能を実現したカメラ付き携帯端末装置を提供する。
【解決手段】携帯電話機は、音声が入力されるマイク１７と、マイク１７による集音方向と反対方向に音声を出力するスピーカ１５、１６と、スピーカ１５、１６が向けられた方面の画像を撮るカメラモジュール１３と、ＣＰＵ１００とを備える。ＣＰＵ１００は、カメラモジュール１３で撮られた画像に対して画像認識処理を行い、画像中の人を識別する。そして、識別された人の配置に応じて、マイク１７によって取得した音声の音量や出力方向を調整する。
【選択図】図３

Description

本発明は、携帯電話機やＰＤＡ（Personal Digital Assistant）等の携帯端末装置に関するものであり、特に、カメラが搭載されたカメラ付き携帯端末装置に用いて好適なものである。

従来、広い場所で聴衆に円滑に音声を届ける機器として拡声器が広く用いられている。この拡声器は、マイクから入力された音声を増幅してスピーカから出力するものである。マイクとスピーカが一体化されたハンディタイプの拡声器の一例が、たとえば、特許文献１に開示されている。この他、スピーカを所定の場所に据え置いて用いる形態の拡声器も知られている。

従来の拡声器では、聴衆の前で話をする際に、話者自身が聴衆の状況に応じて音量や音の出力方向（スピーカの向き）を調整する必要があった。ハンディタイプの拡声器では、話者は音の出力方向を容易に変えることができる。しかし、スピーカを据え置くタイプの拡声器では、聴衆の位置に応じて逐一、スピーカの向きを変える作業が必要となる。また、何れのタイプにおいても、話者は、聴衆までの距離に応じて、随時、音量を調整する必要がある。

さらに、スピーカが話者から遠く離れた場所にある場合には、話者はそのスピーカの周りの状況を的確に把握できない。よって、この場合は、そのスピーカから出力される音声を、その周りに居る聴衆の状況に適応するように適正に調整することは極めて困難となる。
特開２００５−１４３０６７号公報

そこで、聴衆の状況に応じて音量や音の出力方向が自動的に調整される構成を拡声器に付加すれば、使用者の使い勝手が格段に向上し、拡声器の利用価値も高まる。しかし、これらの拡声器にこのような構成を付加しようとすると、別途、多くの部品を配する必要があり、コストが嵩むこととなる。このため、現実的には、拡声器にこのような構成を配するのは難しく、これまでに、聴衆の状況に適応し得る拡声器が商品化されることはなかった。

一方、現在広く普及している携帯電話機には、通話用以外にも外部に音声を出力するためのスピーカが配されている。このため、マイクとスピーカの配置等を調整すれば、携帯電話機に拡声器の機能を付加できる。また、近年、携帯電話機には、カメラが標準的に装備されている。このカメラを用いて聴衆の状況を検出することも可能である。したがって、カメラ付き携帯電話機では、カメラ機能とスピーカ機能を有効に利用することで、聴衆の状況に自動的に適応できるスピーカ機能が実現され得る。そして、このスピーカ機能は、部品の追加を抑制しながら、既に装備されているカメラやマイクを有効に使うことで、円滑に実現可能である。

本発明は、この点に鑑みてなされたものであり、話者の音声を聴衆の状況に応じて良好に出力制御できる拡声器機能を備えたカメラ付き携帯端末装置を提供することを目的とする。

本発明の第１の態様に係るカメラ付き携帯端末装置は、撮像部と、音声を集音するマイクと、前記マイクによって集音された音声を出力するスピーカと、前記撮像部によって撮像された画像に含まれる人の状況を識別する識別部と、前記マイクによって集音された音声を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する音声制御部とを有することを特徴とする。

本発明の第２の態様は、第１の態様に係るカメラ付き携帯端末装置において、前記識別部は、前記画像に含まれる人までの距離を識別し、前記音声制御部は、前記識別部によって識別された前記距離に基づいて前記スピーカから出力される音声の音量を制御することを特徴とする。

本発明の第３の態様は、第１または第２の態様に係るカメラ付き携帯端末装置において、前記識別部は、前記画像に含まれる人の位置を識別し、前記音声制御部は、前記識別部によって識別された前記位置に基づいて前記スピーカから出力される音声の方向を制御することを特徴とする。

本発明の第４の態様は、第１ないし第３の態様の何れかに係るカメラ付き携帯端末装置において、他の機器と通信を行う通信部と、前記通信部を介して受信した音声情報から音声信号を生成する音声生成部を備え、前記音声制御部は、前記音声生成部によって生成された音声信号を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御することを特徴とする。

本発明の第５の態様は、第１ないし第３の態様の何れかに係るカメラ付き携帯端末装置において、他の機器と通信を行う通信部と、前記マイクによって取得した音声から前記通信に応じた音声情報を生成して前記通信部に出力する情報生成部と、前記他の機器における前記音声情報の出力所要時間を判定する時間判定部を備え、前記通信部は、前記他の機器の前記出力所要時間に基づいて、前記他の機器に対する前記音声情報の送信タイミングを制御することを特徴とする。

本発明の第６の態様は、第１ないし第５の態様の何れかに係るカメラ付き携帯端末装置において、聴衆に対し移動を促す報知を行う報知部を備え、前記識別部は、前記画像に含まれる人の位置を識別し、前記報知部は、前記識別部によって識別された人の位置に基づいて前記報知を行うことを特徴とする。

上記各態様のカメラ付き携帯端末装置によれば、聴衆の状況に応じて音声の出力、たとえば音量や出力の方向が自動で調整されるため、話者が聴衆の状況に応じて逐一調整作業を行わずとも、聴衆に対して適正な音声を提供することができる。

また、第４の態様によれば、カメラ付き携帯端末装置が広い会場内の話者から離れた場所や、他の会場などに配置されて用いられる場合に、その場所における聴衆の状況に応じた音声出力が自動で行われるため、このように話者が状況を把握し難い状況下においても、適正な音声出力を実現することができる。

また、第５の態様によれば、他の機器を同じ会場内でサブスピーカとして使用する場合に、他の機器の性能に応じた送信タイミングで他の機器に音声情報が送信されるため、自身から出力される音声と他の機器から出力される音声との間で、リップシンク（音声ずれ）が発生するのを防止でき、聴衆に対し良好な音声を届けることができる。

また、第６の態様によれば、音声を良好に届けられない位置に聴衆が居るような場合に、聴衆を適正な位置に移動させることができるので、良好な音声を確実に聴衆に届けることが可能となる。

本発明の効果ないし意義は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも、本発明を実施化する際の一つの例示であって、本発明は、以下の実施の形態に記載されたものに何ら制限されるものではない。

以下、本発明の実施の形態につき図面を参照して説明する。

図１は携帯電話機の外観構成を示す図である。同図（ａ）は、第１キャビネット１に対して第２キャビネット２をほぼ鉛直に立てた状態を示す側面図、同図（ｂ）（ｃ）は、第１キャビネット１と第２キャビネット２とを折り畳み、ヒンジ部３と反対側の端部を底にして、机等に立てた状態を示す図である。なお、同図（ｂ）は、第２キャビネット２の背面側から見た図であり、同図（ｃ）は、第１キャビネット１の背面側から見た図である。

携帯電話機は、第１キャビネット１と第２キャビネット２を備える。第１キャビネット１の正面側には、キー操作部１１が設けられている。キー操作部１１には、各種の機能モード（カメラ撮影モード、メール送受信モード、インターネットモード）への切替えキー、通話開始キー、通話終了キー、番号・文字入力キーなどの各種キーが配されている。また、各種キーには、後述するように携帯電話機を拡声器として機能させるためのキーが含まれている。

キー操作部１１の背後には、バックライト装置１２（以下、「キーバックライト」という）が配されている。キーバックライト１２は、光源となるＬＥＤを備え、キー操作部１１に光を供給する。キー操作部１１の主要なキーは、キーに付された表示の部分が透光性を有するよう構成されており、バックライト１２で照らされることにより表示が光る。これにより、ユーザは、周囲が暗くてもキーに付された表示を見ることができる。

第１キャビネット１の内部には、カメラモジュール１３が配されており、第１キャビネット１の背面には、カメラモジュール１３に対応するレンズ窓１４が設けられている。このレンズ窓１４から被写体の像がカメラモジュール１３に取り込まれる。

また、第１キャビネット１の背面には、左右方向に所定の間隔を有するようにして、右スピーカ１５および左スピーカ１６が配されている。さらに、第１キャビネット１の側面には、マイク１７が配されている。マイク１７は、その集音面が第１キャビネット１の正面側に向くよう構成されており、主に第１キャビネット１の正面側からの音声を集音する。

第２キャビネット２の正面側には、やや縦長の矩形状を有する液晶表示パネル２１（以下、「メイン表示パネル」という）が配されており、その表示画面が正面に臨んでいる。メイン表示パネル２１の背後には、バックライト装置２２（以下、「メインバックライト」という）が配されている。メインバックライト２２は、光源となるＬＥＤを備え、メイン表示パネル２１に光を供給する。第２キャビネット２の正面上部には、通話に用いるスピーカ（図示せず）が配されている。

第２キャビネット２の背面側には、液晶表示パネル２３（以下、「サブ表示パネル」という）が配されており、その表示画面が背面に臨んでいる。サブ表示パネル２３の背後には、バックライト装置２４（以下、「サブバックライト」という）が配されている。サブバックライト２４は、光源となるＬＥＤを備え、サブ表示パネル２３に光を供給する。サブ表示パネル２３は、メイン表示パネル２１よりも小さなサイズであり、横長の矩形状を有している。サブバックライト２４も、サブ表示パネル２３に合わせ、メインバックライト２２より小さなサイズになっている。

第２キャビネット２は、ヒンジ部３によって、第１キャビネット１に対し回動可能に連結されている。ヒンジ部３は、第２キャビネット２の連結側端部から左右に延びる一対の回転軸３１と、第１キャビネット１の連結側端部に形成され、回転軸３１を受ける一対の軸受部３２によって構成されている。

第１キャビネット１と第２キャビネット２は、メイン表示パネル２１とキー操作部１１が向かい合った状態となるように折り畳まれる。よって、折り畳まれた状態（閉じた状態）では、メイン表示パネル２１とキー操作部１１が外部から隠れた状態となる。

第２キャビネット２は、閉じた状態（図１（ａ）に一点鎖線で示す）から開き方向に回転されることにより、１８０度近くまで開くことができる。ヒンジ部３には、第２キャビネット２が最後まで開いた位置と、第１キャビネット１と第２キャビネット２とが略９０度となる位置（９０度よりやや大きい角度位置）にクリック感を持たせるよう、図示しないクリック機構が備えられている。第２キャビネット２が開くと、メイン表示パネル２１とキー操作部１１が外部に露出する。

携帯電話機は、図１（ｂ）（ｃ）に示すように、閉じた状態でヒンジ部３と反対側の端部が平坦な状態とされており、この端部を底にして机等の載置面上に起立させることができる。後述するように、携帯電話機を拡声器として機能させる際には、通常、このように机等に起立させて使用する。

図２は、携帯電話機の全体構成を示すブロック図である。携帯電話機は、上述した各構成要素の他、ＣＰＵ１００、２つの通信モジュール１０１、１０２、映像エンコーダ１０３、音声エンコーダ１０４、タイマー１０５、メモリ１０６、バックライト駆動回路１０７、映像デコーダ１０８、音声デコーダ１０９、音声出力回路１１０を備える。

通信モジュール１０１は、遠距離にある対象機器への通信に使用され、たとえば、ＣＤＭＡ（Code Division Multiple Access）による方式にて通信を行う。通信モジュール１０１は、ＣＰＵ１００からの音声信号や画像信号、テキスト信号などを無線信号に変換し、アンテナ１０１ａを介して基地局へ送信する。また、アンテナ１０１ａを介して受信した無線信号を音声信号や画像信号、テキスト信号などに変換してＣＰＵ１００へ出力する。

通信モジュール１０２は、近距離にある対象機器への通信に使用され、たとえば、WiFi（Wireless fidelity）による方式にて通信を行う。通信モジュール１０２は、ＣＰＵ１００からの音声信号や画像信号、テキスト信号などを無線信号に変換し、アンテナ１０２ａを介して対象機器へ送信する。また、アンテナ１０２ａを介して受信した無線信号を音声信号や画像信号、テキスト信号などに変換してＣＰＵ１００へ出力する。通信モジュール１０２の通信方式は、この他、Bluetoothによる方式やWiMAX（World Interoperabiliy for Microwave Access）による方式とすることもできる。

カメラモジュール１３は、撮像レンズ１３１、撮像素子１３２などから構成されている。撮像レンズ１３１は、被写体の像を撮像素子１３２上に結像させる。撮像素子１３２は、例えばＣＣＤからなり、取り込んだ画像に応じた撮像信号を生成し、映像エンコーダ１０３へ出力する。映像エンコーダ１０３は、撮像素子１３２からの撮像信号を、ＣＰＵ１００が処理できるディジタルの撮像信号に変換してＣＰＵ１００へ出力する。

マイク１７は、音声信号を電気信号に変換して音声エンコーダ１０４へ出力する。音声エンコーダ１０４は、マイク１７からの音声信号を、ＣＰＵ１００が処理できるディジタルの音声信号に変換してＣＰＵ１００へ出力する。タイマー１０５は、時間を計測してＣＰＵ１００へ出力する。

メモリ１０６には、カメラモジュール１３で撮影した画像データや通信モジュール１０１、１０２を介して外部から取り込んだ画像データ、テキストデータ（メールデータ）などが所定のファイル形式で保存されている。

メモリ１０６は、ＲＯＭ、ＲＡＭ含む。ＲＯＭには、ＣＰＵ１００を動作させるための制御プログラムが記憶されている。ＲＡＭは、各種情報を格納するとともに、後述する画像認識処理を行うときのＣＰＵ１００のワークエリアとして機能する。

バックライト駆動回路１０７は、ＣＰＵ１００からの制御信号に応じた電圧信号をメインバックライト２２、サブバックライト２４、キーバックライト１２に供給する。

映像デコーダ１０８は、ＣＰＵ１００からの映像信号をメイン表示パネル２１およびサブ表示パネル２３で表示できるアナログの映像信号に変換し、メイン表示パネル２１およびサブ表示パネル２３に出力する。

音声デコーダ１０９は、ＣＰＵ１００からの音声信号を右スピーカ１５および左スピーカ１６で出力できるアナログの音声信号に変換し音声出力回路１１０に出力する。音声出力回路１１０には、音声デコーダ１０９から音声信号が入力されるとともに、ＣＰＵ１００から音量調整のための制御信号が入力される。音声出力回路１１０は、入力された音声信号をＣＰＵ１００からの制御信号に従って増幅して、右スピーカ１５および左スピーカ１６に出力する。右スピーカ１５および左スピーカ１６は、音声デコーダ１０９からの音声信号を音声として再生する。なお、音声出力回路１１０は、通話用のスピーカ（図示せず）にも音声信号を出力する。

ＣＰＵ１００は、キー操作部１１、撮像素子１３、マイク１７など各部からの入力信号に基づいて、通信モジュール１０１、１０２、映像デコーダ１０８、音声デコーダ１０９などの各部に制御信号を出力することにより、通話処理や各種の機能モードの処理を行う。

この携帯電話機は、機能モードの一つとして、携帯電話機を拡声器として機能させる拡声器モードを備えている。この拡声器モードにおいて、携帯電話機は、カメラのレンズ窓１４がある第１キャビネ１の背面側が聴衆側を向き、マイク１７の集音面側となる第２キャビネット２の背面側が話者側を向くように、机などの上に載置される（図１（ｂ）（ｃ）参照）。

カメラモジュール１３からは聴衆の配置状況が映像にて取得される。マイク１７で集音された話者の音声は、その配置状況に応じた音量と方向で左右のスピーカ１５、１６から出力される。

以下、この拡声器モードにおける制御動作について、図３のフローチャートに従って説明する。同図（ａ）は、マイク１７から入力した音声を左右のスピーカ１５、１６から出力するため音声出力ルーチンを示し、同図（ｂ）は、カメラモジュール１３によりで取得した映像に基づいて、出力音声の音量および方向を決定する条件決定ルーチンを示す。ＣＰＵ１００は、拡声器モードにおいて、音声出力ルーチンと条件決定ルーチンとを並列的に実行する。

まず、同図（ａ）を参照して、音声出力ルーチンに係る動作について説明する。話者により拡声器モードを作動するためのキーが押されると（Ｓ１０１：ＹＥＳ）、ＣＰＵ１００は、マイク１７を作動させ、音声を集音できる状態とする（Ｓ１０２）。次に、話者から発話があると（Ｓ１０３：ＹＥＳ）、ＣＰＵ１００は、マイク１７から音声データを取得する（Ｓ１０４）。

次に、ＣＰＵ１００は、取得した音声データに基づいて、右スピーカ１５および左スピーカ１６からそれぞれ出力される音声信号（右用音声信号、左用音声信号）を生成する。このとき、ＣＰＵ１００は、左右のスピーカ１５、１６から出力される音声の方向（左右の音声が重畳されて最も強くなる音声の方向）が条件決定ルーチンで決定された方向となるように、右用音声信号と左用音声信号の位相を調整する。

ＣＰＵ１００は、これら音声信号を音声デコーダ１０９へ出力するとともに、条件決定ルーチンで決定された音量（増幅量）で音声が出力されるよう、音声出力回路１１０へ制御信号を出力する。これにより、右用音声信号と左用音声信号が音声デコーダ１０９でデコードされた後、条件決定ルーチンで決定された音量となるよう音声出力回路１１０において増幅され、増幅された各信号が右スピーカ１５および左スピーカ１６から出力される（Ｓ１０５）。

話者によって、拡声器モードを終了するためのキーが押されなければ（Ｓ１０６：ＮＯ）、ＣＰＵ１００は、上記ステップＳ１０３からステップＳ１０５の動作を繰り返す。そして、話が終わるなどして、話者により終了するためのキーが押されれば（Ｓ１０６：ＹＥＳ）、拡声器モードを終了する。

次に、同図（ｂ）を参照して、条件決定ルーチンに係る動作を説明する。上述のように話者により拡声器モードを作動するキーが押されると（Ｓ２０１：ＹＥＳ）、ＣＰＵ１００は、マイク１７からの音声信号を待つ。話者から発話され、マイク１７からの音声信号が入力されると（Ｓ２０２：ＹＥＳ）、ＣＰＵ１００は、カメラモジュール１３を作動させ（Ｓ２０３）、撮像素子１３２から動画データを取得する（Ｓ２０４）。

次に、ＣＰＵ１００は、動画データから静止画像を取得（サンプリング）する（Ｓ２０５）。静止画像は、たとえば、ＭＰＥＧピクチャ列中のＩピクチャとされる。そして、ＣＰＵ１００は、取得した静止画像に対し画像認識処理を行い、カメラの撮像領域内に存在する聴衆（人）を識別する。この識別のための画像認識処理としては、たとえば、顔認識処理が用いられる。

図４および図５は、聴衆の配置状況とその配置状況における静止画像の状態を示す図である。図４（ａ）は、聴衆が話者に対して左右方向に略均等にいる配置状況を示し、図４（ｂ）は、そのときの静止画像の状態を示す。また、図５（ａ）は、聴衆が話者に対して左右方向のやや右側に寄っている配置状況を示し、図５（ｂ）は、そのときの静止画像の状態を示す。

携帯電話機から出力される音声は、最後尾の人が良好に聴ける大きさとなることが望ましい。そこで、ＣＰＵ１００は、図４（ａ）および図５（ａ）に示すように、携帯電話機と最後尾の人との距離Ｄを求める。このため、ＣＰＵ１００は、まず、画像認識により各人の顔の大きさを求める。通常、遠くにいるほど、カメラには顔が小さく映るので、ＣＰＵ１００は、最も顔の小さな人を最後尾の人と認定する。

たとえば、メモリ１０６には、標準的な顔の場合における、カメラで捕らえた顔の大きさを距離に換算するための換算テーブルが保存されており、ＣＰＵ１００は、この換算テーブルを用いて、最後尾の人の顔の大きさから距離Ｄを求める。そして、ＣＰＵ１００は、求めた距離Ｄから音量を決定する（Ｓ２０７）。話者が標準的な大きさで話したときに、求めた距離Ｄにいる人が音声を良好に聞くことができるよう、距離Ｄが長いほど音量が大きくされる。

次に、ＣＰＵ１００は、撮像領域Ｗａと、聴衆が存在する領域Ｗｂ（以下、「人領域」）の左右方向における位置関係を求める。図４（ａ）のように、話者に対して聴衆が略均等にいる場合は、同図（ｂ）のように、人領域Ｗｂは撮影領域Ｗａの中央Ｐに位置する。また、図５（ａ）のように、話者に対して聴衆が少し右側に寄っている場合は、同図（ｂ）のように、人領域Ｗｂは撮影領域Ｗａの中央Ｐに対してやや右側に位置する。

ＣＰＵ１００は、撮像領域Ｗａ内おける人領域Ｗｂの位置に基づいて、音声の方向を決定する（Ｓ２０８）。たとえば、図４（ｂ）の状況では、音声の方向が真正面方向とされ、図５（ｂ）の状況では、音声の方向が中央からやや右方向とされる。中央から左右にどれだけ音声の方向をずらすかは、撮影領域Ｗａの中央Ｐに対する人領域Ｗｂのズレ量に応じて設定される。

話者によって、拡声器モードを終了するためのキーが押されなければ（Ｓ２０９：ＮＯ）、ＣＰＵ１００は、上記ステップＳ２０４からステップＳ２０８の動作を繰り返す。これにより、聴衆の配置状況に変化があれば、新たに音量や方向が決定される。そして、話が終わるなどして、話者により終了するためのキーが押されれば（Ｓ２０９：ＹＥＳ）、ＣＰＵ１００は拡声器モードを終了する。

こうして、ＣＰＵ１００は、上述した音声出力ルーチンのステップＳ１０５において、ステップＳ２０７で決定した音量となるように音声出力回路１１０を制御するとともに、ステップＳ２０８で決定した方向に向かうように左右の音声信号の位相を調整する。この結果、携帯電話機からは、聴衆の配置状況に応じた音量および方向の音声が出力される。

このように、本実施の形態によれば、話者が、聴衆の配置状況に応じて逐一、出力音声の音量や方向を調整する作業を行わなくとも、聴衆に対して自動で良好な音声が提供される。これにより、話者は、余計な心配をすることなく、話に集中することができ、聴衆も話者の話を円滑に聞くことができる。

以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、また、本発明の実施形態も、上記以外に種々の変更が可能である。

＜変更例１＞
図６は、変更例１に係る携帯電話機の使用例を説明するための図である。同図に示すように、話者のいるメイン会場には、送信側となる携帯電話機Ａが設置されており、メイン会場から離れた場所にあるサブ会場には、受信側となる携帯電話機Ｂが設置されている。携帯電話機Ａおよび携帯電話機Ｂの構成は、図１および図２に示す上記実施の形態の構成と同様である。

話者が話をすると、携帯電話機Ａが集音した話者の音声が、携帯電話機Ｂに送信される。これと同時に、集音された音声が、メイン会場での聴衆の配置状況に応じた音量および方向で、携帯電話機Ａから聴衆に対して出力される。携帯電話機Ａから送信された音声データが携帯電話機Ｂに受信されると、受信された音声が、サブ会場の聴衆の配置状況に応じた音量および方向で、携帯電話機Ｂから聴衆に対して出力される。なお、携帯電話機Ａから携帯電話機Ｂに対する音声データの送信は、遠距離用の通信モジュール１０１による通信機能を用いて行われる。サブ会場がメイン会場の近くにある場合には、近距離用の通信モジュール１０２による通信機能を用いて音声情報の送信を行うことも可能である。

変更例１の場合、送信側の携帯電話機Ａでは、図３に示す音声出力ルーチンにおいて、通信モジュール１０１を介して音声データを携帯電話機Ｂへ送信するための処理ステップがステップＳ１０４の後に追加される。その他の処理は、図３に示す上記実施の形態の場合と同様となる。

また、受信側の携帯電話機Ｂでは、図３に示す音声出力ルーチンにおいて、ステップＳ１０２の処理が、通信モジュール１０１を作動させる処理に置き換えられ、さらに、ステップＳ１０３およびステップ１０４の処理が、携帯電話機Ａから音声データを受信したかを判別する処理ステップと、受信したデータから音声データを取得する処理ステップに置き換えられる。この他、Ｓ２０２の処理ステップが、携帯電話機Ａから音声データを受信したかを判別する処理ステップに置き換えられる。その他の処理は、図３に示す上記実施の形態と同様となる。

このように、変更例２の構成とすれば、メイン会場と離れたサブ会場においても、聴衆の配置状況に応じて音声が出力されるので、ユーザが特にサブ会場の状況を把握せずとも、サブ会場における音声出力を適正に行うことができる。

＜変更例２＞
図７は、変更例２に係る携帯電話機の使用例を説明するための図である。変更例２では、比較的大きな会場で、多くの聴衆に話が行われることが想定されており、送信側となる携帯電話機Ｃに加え、会場の中ほどの左右２箇所に受信側となる携帯電話機Ｄ、Ｅが設置されている。携帯電話機Ｃが集音した話者の音声は、携帯電話機Ｄ、Ｅに送信され、携帯電話機Ｄ、Ｅから会場の後方の聴衆に出力される。

ところで、このように同じ会場に複数台の携帯電話機が設置され、それぞれから音声が出力される場合には、それぞれの携帯電話機からの音声にリップシンク（音声ずれ）が生じる惧れがあり、聴衆が音声を聴きづらくなる惧れがある。

そこで、この変更例２では、３台の携帯電話機からの音声出力のタイミングが一致するよう、携帯電話機Ｄ、Ｅの性能（音声処理速度）に応じて、携帯電話機Ｃから携帯電話機Ｄ、Ｅへの音声データの送信タイミングが調整される。以下、そのための構成および処理を説明する。

携帯電話機Ｃのメモリ１０６には、上記送信タイミングを決める上で必要な携帯電話機Ｄ、Ｅの性能テスト（音声処理速度の検出）を行うため、エンコードされた音声信号からなるテスト信号が記憶されている。携帯電話機Ｃにおけるその他の構成は、図１および図２に示す上記実施の形態の構成と同様である。

携帯電話機Ｄ、Ｅの音声デコーダ１１０は、テストモードにおいて、テスト信号のデコードが終了すると、完了信号をＣＰＵ１００に送り返すように構成されている。携帯電話機Ｄ、Ｅにおけるその他の構成は、図１および図２に示す上記実施の形態の構成と同様である。

携帯電話機Ｃと携帯電話機Ｄ、Ｅとの間の通信には、近距離用の通信モジュール１０２の通信機能が使用される。

拡声器モードが使用される前に、携帯電話機Ｃと携帯電話機Ｄ、Ｅとの間で通信路を確立するための処理が行われ、その後、テストモードが実行される。

図８は、テストモードにおける制御処理を説明するためのフローチャートである。同図（ａ）は、携帯電話機Ｃに係るテストモードのフローチャートであり、同図（ｂ）は、携帯電話機Ｄ、Ｅに係るテストモードのフローチャートである。

同図（ａ）を参照して、携帯電話機Ｃにおいて、ユーザによりテスト開始の操作がなされると（Ｓ３０１：ＹＥＳ）、ＣＰＵ１００は、メモリ１０６からテスト信号を読み出し、このテスト信号にテストモードであることを示す識別情報を付与した通信データを、通信モジュール１０２を介して携帯電話機Ｄ（または、携帯電話機Ｅ）に送信する。

また、ＣＰＵ１００は、テスト信号を送信すると同時に、タイマー１０５を用いて計時を開始する（Ｓ３０６）。そして、ＣＰＵ１００は、携帯電話機Ｄ（または、携帯電話機Ｅ）から応答があると、これに付加された識別信号から、この応答がテスト完了を示すものであるかを判別し（Ｓ３０４）、テスト完了を示すものであれば（ステップＳ３０４：ＹＥＳ）、計時を終了する（Ｓ３０５）。そして、テスト信号を送信してから完了信号が返信されるまでの所要時間を取得し、これを携帯電話機Ｄ（または、携帯電話機Ｅ）に関連付けてメモリ１０６に保存する（Ｓ３０６）。

同図（ｂ）を参照して、携帯電話機Ｄ（または、携帯電話機Ｅ）側のＣＰＵ１００は、通信モジュール１０２を介して携帯電話Ｃから通信データを受信すると、これに付加された識別信号から、この通信データがテスト信号を含むものであるかを判別する（Ｓ４０１）。ＣＰＵ１００は、この通信データがテスト信号を含むと判断すると（Ｓ４０１：ＹＥＳ）、テスト信号を音声デコーダ１０９にデコードさせる（Ｓ４０２）。音声デコーダ１０９におけるデコードが完了すると、これを示す信号が音声デコーダからＣＰＵ１００に出力される（Ｓ４０３：ＹＥＳ）。これを受けて、ＣＰＵ１００は、デコードが完了したことを示す完了信号に、テストモードであることを示す識別情報を付加した通信データを、通信モジュール１０２を介して携帯電話機Ｃに送信する（Ｓ４０４）。

このようにして、テストモードが行われることにより、携帯電話機Ｄ、Ｅの性能テストがそれぞれ行われ、テスト信号のデコードに要する時間（テスト信号の送信から完了信号の受信までの所要時間）が、携帯電話機Ｄ、Ｅと関連付けて、携帯電話機Ｃのメモリ１０６に保存される。

その後、携帯電話機Ｃに対し、話者により拡声器モードを作動させる操作がなされると、携帯電話機Ｃでは、図９に示す音声出力ルーチンが開始される。

携帯電話機ＣのＣＰＵ１００は、ユーザにより拡声器モードを作動させる操作がなされたと判断すると（Ｓ５０１：ＹＥＳ）、メモリ１０６から携帯電話機Ｄ、Ｅの所要時間を読み出し、これら所要時間に基づいて、携帯電話機Ｄ、Ｅおよび自身の音声デコーダ１０９への音声信号の送信タイミングを決定する（Ｓ５０２）。

仮に、携帯電話機Ｄでは、送信してから音声が出力されるまでに０.５秒かかり、携帯電話機Ｅでは、０．３秒かかるとする。また、携帯電話機Ｃでは、音声デコーダ１１０に送信してから音声が出力されるまでに０．１秒かかるとする。このような場合、携帯電話機Ｄに音声信号が送信されてから０．２秒後に携帯電話機Ｅに音声信号が送信され、さらに、その０．２秒後に自身の音声デコーダ１１０に音声信号が出力されるよう、送信タイミングが決定される。

こうして各携帯電話機に対する送信タイミングが決定されると、ＣＰＵ１００は、マイク１７を作動させ（Ｓ５０３）、その後、話者からの発話があると（Ｓ５０４：ＹＥＳ）、音声データを取得する（Ｓ５０５）。そして、ＣＰＵ１００は、ステップＳ５０２で決められた送信タイミングで、携帯電話機Ｄ、Ｅに音声信号を送信する（Ｓ５０６）。さらに、ＣＰＵ１００は、決定した出力タイミングで自身の音声デコーダ１１０に音声信号を送信し、スピーカ１５、１６から音声を出力させる（Ｓ５０７）。こうして、話者から終了の操作があれば（Ｓ５０８：ＹＥＳ）、拡声器モードを終了する。

この場合も、携帯電話機Ｃでは、並列的に、上記実施の形態と同様の条件決定ルーチンが実行され、聴衆の配置状況に応じた音量と方向で音声が出力される。

なお、携帯電話機Ｄ、Ｅにおける処理は、通信に使用される通信モジュールが異なる以外は、上記変更例１における携帯電話機Ｂの処理と同様である。よって、携帯電話機Ｄ、Ｅにおいても、聴衆の配置状況に応じた音量と方向で音声が出力されることになる。

このように、変更例２の構成では、受信側の携帯電話機の性能に応じた送信タイミングで送信側の携帯電話機から音声が送信されるので、リップシンク（音声ずれ）が防止され、聴衆が音声を良好に聴くことが可能となる。

＜変更例３＞
図１０は、変更例３に係る携帯電話機の構成を示す図である。同図（ａ）は、携帯電話機を机等の載置面上に立てた状態で、第１キャビネット１の背面側から見た図である。同図（ｂ）は、撮像領域Ｗａ内に音場領域Ｗｂを設定したときの画像認識処理を説明するための図である。

変更例３の携帯電話機では、同図（ａ）に示すように、第１キャビネット１の背面側に液晶表示パネル１８が配されおり、その表示画面が背面に臨んでいる。この液晶表示パネル１８の背後には、このパネルに光を供給するためのバックライト装置（図示せず）が配されている。また、この携帯電話機では、同図（ｂ）に示すように、撮像領域Ｗａ内に、スピーカ１５、１６から出力される音声を適切に聴くことが可能な限界領域Ｗｃ（以下、「音場領域」という）が設定されている。この音場領域Ｗｃを示すデータは、メモリ１０６に記憶されている。その他の構成は、上記実施の形態と同様である。

なお、この変更例３では、カメラモジュール１３で撮影される撮像領域Ｗａが音場領域Ｗｃより広いことが前提とされている。

この携帯電話機では、上記実施の形態と同様に、条件決定ルーチンにおいて、人領域Ｗｂが求められる。ＣＰＵ１００は、人領域Ｗｂが、図１０（ｂ）の破線で示すように音場領域Ｗｃ内にあれば、上述のように音量および方向を調整することによって聴衆に良好に音声が届けられると判断する。一方、人領域Ｗｂが、図１０（ｂ）の実線で示すように音場領域Ｗｃからはみ出しているときには、上述のように音量および方向を調整しても聴衆に良好に音声が届けられないと判断する。そして、人領域Ｗｂが音場領域Ｗｃからはみ出している場合、ＣＰＵ１００は、同図（ａ）に示す如く、聴衆を音場領域Ｗｃ内へ移動させるようなメッセージを、液晶表示パネル１８に表示させる。

なお、話者から発話が行われていない状況であれば、液晶表示パネル１８による表示とともに、あるいは表示に替えて、音声にて移動を促す報知をすることもできる。また、聴衆が見やすいように、液晶表示パネル１８にメッセージの文字を１文字ずつ表示することもできる。

また、スピーカ１５、１６から出力される音声を適切に聴くことが可能な範囲は、聴衆が携帯電話機から離れるほど狭くなると考えられる。よって、音場領域Ｗｃは、携帯電話機と聴衆の間の距離に応じて動的に変化させるのが好ましい。この場合、人領域Ｗｂの任意の位置（たとえば、最前列）の人と携帯電話機との距離Ｄを求め、距離Ｄが大きいほど音場領域Ｗｃが小さくなるよう、音場領域Ｗｃが調整される。

このように、変更例３では、聴衆が音声を適切に聴ける限界領域からはみ出している場合に、聴衆を適正な位置に移動させることができるので、話者の音声を聴衆に良好に届けることができる。

＜その他＞
上記実施の形態では、撮像可能な範囲を拡大するために、種々の方法が取ることができる。たとえば、予めカメラモジュール１３を水平方向（左右方向）に移動させて、複数方向の静止画を取得しておき、この画像をパノラマ合成することにより、撮像範囲を広げることができる。また、カメラモジュール１３がズーム機能を有する場合には、聴衆が可能な限り納まるようにズーム拡大率を調整することもできる。

また、上記実施の形態では、スピーカ１５、１６に加えて、超音波による指向性スピーカと、これらスピーカを左右方向に駆動する駆動機構を設けることもできる。このような構成とすれば、聴衆が狭い領域に固まっている場合や特定の聴衆のみに音声を届けたい場合に、駆動機構によって指向性スピーカをその方向に向け、その領域に超音波による音声を届けることが可能となり、より聴衆の配置状況に応じた音声出力が可能になる。

さらに、上記実施の形態では、聴衆の中の最後尾の人と携帯電話機との距離に応じて、音量を決定するようにしたが、これに限らず、たとえば、聴衆の中の前後方向における中央の人と携帯電話機との距離に応じて、音量を決定するようにしてもよく、あるいは、それぞれの人との距離を平均した距離に応じて音量を決定するようにしても良い。

さらに、上記実施の形態では、音量と方向の双方を決定するようにしたが、これに限らず、少なくとも一方を決定するようにすれば良い。

さらに、音量や方向を調整するタイミングは、上記実施の形態のようにリアルタイムとされなくても良く、適宜変更することができる。たとえば、拡声器モードが実行され、最初に話者から発話があったときのみ音量や方向が調整されるようにしても良く、また、一定の時間間隔（たとえば、５分おき）で音量や方向が調整されるようにしても良い。

さらに、上記実施の形態では、カメラモジュール１３と左右のスピーカ１５、１６が共にキャビネット１の背面側に配されているが、これに限らず、拡声器モードで使用される状態に携帯電話機がセッティングされたときに、スピーカの出力方向と同じ方向を向くように、カメラモジュール（レンズ窓）が配されていれば良い。なお、駆動機構などによって指向性スピーカの向きを聴衆の方向に向け得る構成とする場合には、スピーカがイニシャル位置（中立位置）にあるときに、スピーカの出力方向と同じ方向を向くように、カメラモジュール（レンズ窓）が配される。要するに、カメラモジュールは、マイクで集音した音声を拡声して伝えようとする前方領域周辺の状況を撮影可能な状態で配置されていれば良い。

この他、本発明の実施の形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。

実施の形態に係る携帯電話機の外観構成を示す図実施の形態に係る携帯電話機の全体構成を示すブロック図実施の形態に係る拡声器モードの制御処理を説明するためのフローチャート実施の形態に係る聴衆の配置状況とその配置状況における静止画像の状態を示す図実施の形態に係る聴衆の配置状況とその配置状況における静止画像の状態を示す図変更例１に係る携帯電話機の使用例を説明するための図変更例２に係る携帯電話機の使用例を説明するための図変更例２に係るテストモードの制御処理を説明するためのフローチャート変更例２に係る拡声器モードの制御処理を説明するためのフローチャート変更例３に係る携帯電話機の構成を示す図

符号の説明

１３カメラモジュール（撮像部）
１５右スピーカ
１６左スピーカ
１７マイク
１８液晶表示パネル（報知部）
１００ＣＰＵ（識別部、音声制御部）
１０１通信モジュール（通信部）
１０２通信モジュール（通信部）

Claims

撮像部と、
音声を集音するマイクと、
前記マイクによって集音された音声を出力するスピーカと、
前記撮像部によって撮像された画像に含まれる人の状況を識別する識別部と、
前記マイクによって集音された音声を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する音声制御部とを有する、
ことを特徴とするカメラ付き携帯端末装置。
請求項１において、
前記識別部は、前記画像に含まれる人までの距離を識別し、
前記音声制御部は、前記識別部によって識別された前記距離に基づいて前記スピーカから出力される音声の音量を制御する、
ことを特徴とするカメラ付き携帯端末装置。
請求項１または２において、
前記識別部は、前記画像に含まれる人の位置を識別し、
前記音声制御部は、前記識別部によって識別された前記位置に基づいて前記スピーカから出力される音声の方向を制御する、
ことを特徴とするカメラ付き携帯端末装置。
請求項１ないし３の何れか一項において、
他の機器と通信を行う通信部と、
前記通信部を介して受信した音声情報から音声信号を生成する音声生成部を備え、
前記音声制御部は、前記音声生成部によって生成された音声信号を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する、
ことを特徴とするカメラ付き携帯端末装置。
請求項１ないし３の何れか一項において、
他の機器と通信を行う通信部と、
前記マイクによって取得した音声から前記通信に応じた音声情報を生成して前記通信部に出力する情報生成部と、
前記他の機器における前記音声情報の出力所要時間を判定する時間判定部を備え、
前記通信部は、前記他の機器の前記出力所要時間に基づいて、前記他の機器に対する前記音声情報の送信タイミングを制御する、
ことを特徴とするカメラ付き携帯端末装置。
請求項１ないし５の何れか一項において、
聴衆に対し移動を促す報知を行う報知部を備え、
前記識別部は、前記画像に含まれる人の位置を識別し、
前記報知部は、前記識別部によって識別された人の位置に基づいて前記報知を行う、
ことを特徴とするカメラ付き携帯端末装置。