JP2009218950A - カメラ付き携帯端末装置 - Google Patents

カメラ付き携帯端末装置 Download PDF

Info

Publication number
JP2009218950A
JP2009218950A JP2008061674A JP2008061674A JP2009218950A JP 2009218950 A JP2009218950 A JP 2009218950A JP 2008061674 A JP2008061674 A JP 2008061674A JP 2008061674 A JP2008061674 A JP 2008061674A JP 2009218950 A JP2009218950 A JP 2009218950A
Authority
JP
Japan
Prior art keywords
speaker
audio
unit
output
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008061674A
Other languages
English (en)
Inventor
Kenichi Hirako
賢一 平子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2008061674A priority Critical patent/JP2009218950A/ja
Publication of JP2009218950A publication Critical patent/JP2009218950A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Telephone Function (AREA)

Abstract

【課題】話者の音声を聴衆の状況に応じて良好に出力することができる拡声器機能を実現したカメラ付き携帯端末装置を提供する。
【解決手段】携帯電話機は、音声が入力されるマイク17と、マイク17による集音方向と反対方向に音声を出力するスピーカ15、16と、スピーカ15、16が向けられた方面の画像を撮るカメラモジュール13と、CPU100とを備える。CPU100は、カメラモジュール13で撮られた画像に対して画像認識処理を行い、画像中の人を識別する。そして、識別された人の配置に応じて、マイク17によって取得した音声の音量や出力方向を調整する。
【選択図】図3

Description

本発明は、携帯電話機やPDA(Personal Digital Assistant)等の携帯端末装置に関するものであり、特に、カメラが搭載されたカメラ付き携帯端末装置に用いて好適なものである。
従来、広い場所で聴衆に円滑に音声を届ける機器として拡声器が広く用いられている。この拡声器は、マイクから入力された音声を増幅してスピーカから出力するものである。マイクとスピーカが一体化されたハンディタイプの拡声器の一例が、たとえば、特許文献1に開示されている。この他、スピーカを所定の場所に据え置いて用いる形態の拡声器も知られている。
従来の拡声器では、聴衆の前で話をする際に、話者自身が聴衆の状況に応じて音量や音の出力方向(スピーカの向き)を調整する必要があった。ハンディタイプの拡声器では、話者は音の出力方向を容易に変えることができる。しかし、スピーカを据え置くタイプの拡声器では、聴衆の位置に応じて逐一、スピーカの向きを変える作業が必要となる。また、何れのタイプにおいても、話者は、聴衆までの距離に応じて、随時、音量を調整する必要がある。
さらに、スピーカが話者から遠く離れた場所にある場合には、話者はそのスピーカの周りの状況を的確に把握できない。よって、この場合は、そのスピーカから出力される音声を、その周りに居る聴衆の状況に適応するように適正に調整することは極めて困難となる。
特開2005−143067号公報
そこで、聴衆の状況に応じて音量や音の出力方向が自動的に調整される構成を拡声器に付加すれば、使用者の使い勝手が格段に向上し、拡声器の利用価値も高まる。しかし、これらの拡声器にこのような構成を付加しようとすると、別途、多くの部品を配する必要があり、コストが嵩むこととなる。このため、現実的には、拡声器にこのような構成を配するのは難しく、これまでに、聴衆の状況に適応し得る拡声器が商品化されることはなかった。
一方、現在広く普及している携帯電話機には、通話用以外にも外部に音声を出力するためのスピーカが配されている。このため、マイクとスピーカの配置等を調整すれば、携帯電話機に拡声器の機能を付加できる。また、近年、携帯電話機には、カメラが標準的に装備されている。このカメラを用いて聴衆の状況を検出することも可能である。したがって、カメラ付き携帯電話機では、カメラ機能とスピーカ機能を有効に利用することで、聴衆の状況に自動的に適応できるスピーカ機能が実現され得る。そして、このスピーカ機能は、部品の追加を抑制しながら、既に装備されているカメラやマイクを有効に使うことで、円滑に実現可能である。
本発明は、この点に鑑みてなされたものであり、話者の音声を聴衆の状況に応じて良好に出力制御できる拡声器機能を備えたカメラ付き携帯端末装置を提供することを目的とする。
本発明の第1の態様に係るカメラ付き携帯端末装置は、撮像部と、音声を集音するマイクと、前記マイクによって集音された音声を出力するスピーカと、前記撮像部によって撮像された画像に含まれる人の状況を識別する識別部と、前記マイクによって集音された音声を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する音声制御部とを有することを特徴とする。
本発明の第2の態様は、第1の態様に係るカメラ付き携帯端末装置において、前記識別部は、前記画像に含まれる人までの距離を識別し、前記音声制御部は、前記識別部によって識別された前記距離に基づいて前記スピーカから出力される音声の音量を制御することを特徴とする。
本発明の第3の態様は、第1または第2の態様に係るカメラ付き携帯端末装置において、前記識別部は、前記画像に含まれる人の位置を識別し、前記音声制御部は、前記識別部によって識別された前記位置に基づいて前記スピーカから出力される音声の方向を制御することを特徴とする。
本発明の第4の態様は、第1ないし第3の態様の何れかに係るカメラ付き携帯端末装置において、他の機器と通信を行う通信部と、前記通信部を介して受信した音声情報から音声信号を生成する音声生成部を備え、前記音声制御部は、前記音声生成部によって生成された音声信号を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御することを特徴とする。
本発明の第5の態様は、第1ないし第3の態様の何れかに係るカメラ付き携帯端末装置において、他の機器と通信を行う通信部と、前記マイクによって取得した音声から前記通信に応じた音声情報を生成して前記通信部に出力する情報生成部と、前記他の機器における前記音声情報の出力所要時間を判定する時間判定部を備え、前記通信部は、前記他の機器の前記出力所要時間に基づいて、前記他の機器に対する前記音声情報の送信タイミングを制御することを特徴とする。
本発明の第6の態様は、第1ないし第5の態様の何れかに係るカメラ付き携帯端末装置において、聴衆に対し移動を促す報知を行う報知部を備え、前記識別部は、前記画像に含まれる人の位置を識別し、前記報知部は、前記識別部によって識別された人の位置に基づいて前記報知を行うことを特徴とする。
上記各態様のカメラ付き携帯端末装置によれば、聴衆の状況に応じて音声の出力、たとえば音量や出力の方向が自動で調整されるため、話者が聴衆の状況に応じて逐一調整作業を行わずとも、聴衆に対して適正な音声を提供することができる。
また、第4の態様によれば、カメラ付き携帯端末装置が広い会場内の話者から離れた場所や、他の会場などに配置されて用いられる場合に、その場所における聴衆の状況に応じた音声出力が自動で行われるため、このように話者が状況を把握し難い状況下においても、適正な音声出力を実現することができる。
また、第5の態様によれば、他の機器を同じ会場内でサブスピーカとして使用する場合に、他の機器の性能に応じた送信タイミングで他の機器に音声情報が送信されるため、自身から出力される音声と他の機器から出力される音声との間で、リップシンク(音声ずれ)が発生するのを防止でき、聴衆に対し良好な音声を届けることができる。
また、第6の態様によれば、音声を良好に届けられない位置に聴衆が居るような場合に、聴衆を適正な位置に移動させることができるので、良好な音声を確実に聴衆に届けることが可能となる。
本発明の効果ないし意義は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも、本発明を実施化する際の一つの例示であって、本発明は、以下の実施の形態に記載されたものに何ら制限されるものではない。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は携帯電話機の外観構成を示す図である。同図(a)は、第1キャビネット1に対して第2キャビネット2をほぼ鉛直に立てた状態を示す側面図、同図(b)(c)は、第1キャビネット1と第2キャビネット2とを折り畳み、ヒンジ部3と反対側の端部を底にして、机等に立てた状態を示す図である。なお、同図(b)は、第2キャビネット2の背面側から見た図であり、同図(c)は、第1キャビネット1の背面側から見た図である。
携帯電話機は、第1キャビネット1と第2キャビネット2を備える。第1キャビネット1の正面側には、キー操作部11が設けられている。キー操作部11には、各種の機能モード(カメラ撮影モード、メール送受信モード、インターネットモード)への切替えキー、通話開始キー、通話終了キー、番号・文字入力キーなどの各種キーが配されている。また、各種キーには、後述するように携帯電話機を拡声器として機能させるためのキーが含まれている。
キー操作部11の背後には、バックライト装置12(以下、「キーバックライト」という)が配されている。キーバックライト12は、光源となるLEDを備え、キー操作部11に光を供給する。キー操作部11の主要なキーは、キーに付された表示の部分が透光性を有するよう構成されており、バックライト12で照らされることにより表示が光る。これにより、ユーザは、周囲が暗くてもキーに付された表示を見ることができる。
第1キャビネット1の内部には、カメラモジュール13が配されており、第1キャビネット1の背面には、カメラモジュール13に対応するレンズ窓14が設けられている。このレンズ窓14から被写体の像がカメラモジュール13に取り込まれる。
また、第1キャビネット1の背面には、左右方向に所定の間隔を有するようにして、右スピーカ15および左スピーカ16が配されている。さらに、第1キャビネット1の側面には、マイク17が配されている。マイク17は、その集音面が第1キャビネット1の正面側に向くよう構成されており、主に第1キャビネット1の正面側からの音声を集音する。
第2キャビネット2の正面側には、やや縦長の矩形状を有する液晶表示パネル21(以下、「メイン表示パネル」という)が配されており、その表示画面が正面に臨んでいる。メイン表示パネル21の背後には、バックライト装置22(以下、「メインバックライト」という)が配されている。メインバックライト22は、光源となるLEDを備え、メイン表示パネル21に光を供給する。第2キャビネット2の正面上部には、通話に用いるスピーカ(図示せず)が配されている。
第2キャビネット2の背面側には、液晶表示パネル23(以下、「サブ表示パネル」という)が配されており、その表示画面が背面に臨んでいる。サブ表示パネル23の背後には、バックライト装置24(以下、「サブバックライト」という)が配されている。サブバックライト24は、光源となるLEDを備え、サブ表示パネル23に光を供給する。サブ表示パネル23は、メイン表示パネル21よりも小さなサイズであり、横長の矩形状を有している。サブバックライト24も、サブ表示パネル23に合わせ、メインバックライト22より小さなサイズになっている。
第2キャビネット2は、ヒンジ部3によって、第1キャビネット1に対し回動可能に連結されている。ヒンジ部3は、第2キャビネット2の連結側端部から左右に延びる一対の回転軸31と、第1キャビネット1の連結側端部に形成され、回転軸31を受ける一対の軸受部32によって構成されている。
第1キャビネット1と第2キャビネット2は、メイン表示パネル21とキー操作部11が向かい合った状態となるように折り畳まれる。よって、折り畳まれた状態(閉じた状態)では、メイン表示パネル21とキー操作部11が外部から隠れた状態となる。
第2キャビネット2は、閉じた状態(図1(a)に一点鎖線で示す)から開き方向に回転されることにより、180度近くまで開くことができる。ヒンジ部3には、第2キャビネット2が最後まで開いた位置と、第1キャビネット1と第2キャビネット2とが略90度となる位置(90度よりやや大きい角度位置)にクリック感を持たせるよう、図示しないクリック機構が備えられている。第2キャビネット2が開くと、メイン表示パネル21とキー操作部11が外部に露出する。
携帯電話機は、図1(b)(c)に示すように、閉じた状態でヒンジ部3と反対側の端部が平坦な状態とされており、この端部を底にして机等の載置面上に起立させることができる。後述するように、携帯電話機を拡声器として機能させる際には、通常、このように机等に起立させて使用する。
図2は、携帯電話機の全体構成を示すブロック図である。携帯電話機は、上述した各構成要素の他、CPU100、2つの通信モジュール101、102、映像エンコーダ103、音声エンコーダ104、タイマー105、メモリ106、バックライト駆動回路107、映像デコーダ108、音声デコーダ109、音声出力回路110を備える。
通信モジュール101は、遠距離にある対象機器への通信に使用され、たとえば、CDMA(Code Division Multiple Access)による方式にて通信を行う。通信モジュール101は、CPU100からの音声信号や画像信号、テキスト信号などを無線信号に変換し、アンテナ101aを介して基地局へ送信する。また、アンテナ101aを介して受信した無線信号を音声信号や画像信号、テキスト信号などに変換してCPU100へ出力する。
通信モジュール102は、近距離にある対象機器への通信に使用され、たとえば、WiFi(Wireless fidelity)による方式にて通信を行う。通信モジュール102は、CPU100からの音声信号や画像信号、テキスト信号などを無線信号に変換し、アンテナ102aを介して対象機器へ送信する。また、アンテナ102aを介して受信した無線信号を音声信号や画像信号、テキスト信号などに変換してCPU100へ出力する。通信モジュール102の通信方式は、この他、Bluetoothによる方式やWiMAX(World Interoperabiliy for Microwave Access)による方式とすることもできる。
カメラモジュール13は、撮像レンズ131、撮像素子132などから構成されている。撮像レンズ131は、被写体の像を撮像素子132上に結像させる。撮像素子132は、例えばCCDからなり、取り込んだ画像に応じた撮像信号を生成し、映像エンコーダ103へ出力する。映像エンコーダ103は、撮像素子132からの撮像信号を、CPU100が処理できるディジタルの撮像信号に変換してCPU100へ出力する。
マイク17は、音声信号を電気信号に変換して音声エンコーダ104へ出力する。音声エンコーダ104は、マイク17からの音声信号を、CPU100が処理できるディジタルの音声信号に変換してCPU100へ出力する。タイマー105は、時間を計測してCPU100へ出力する。
メモリ106には、カメラモジュール13で撮影した画像データや通信モジュール101、102を介して外部から取り込んだ画像データ、テキストデータ(メールデータ)などが所定のファイル形式で保存されている。
メモリ106は、ROM、RAM含む。ROMには、CPU100を動作させるための制御プログラムが記憶されている。RAMは、各種情報を格納するとともに、後述する画像認識処理を行うときのCPU100のワークエリアとして機能する。
バックライト駆動回路107は、CPU100からの制御信号に応じた電圧信号をメインバックライト22、サブバックライト24、キーバックライト12に供給する。
映像デコーダ108は、CPU100からの映像信号をメイン表示パネル21およびサブ表示パネル23で表示できるアナログの映像信号に変換し、メイン表示パネル21およびサブ表示パネル23に出力する。
音声デコーダ109は、CPU100からの音声信号を右スピーカ15および左スピーカ16で出力できるアナログの音声信号に変換し音声出力回路110に出力する。音声出力回路110には、音声デコーダ109から音声信号が入力されるとともに、CPU100から音量調整のための制御信号が入力される。音声出力回路110は、入力された音声信号をCPU100からの制御信号に従って増幅して、右スピーカ15および左スピーカ16に出力する。右スピーカ15および左スピーカ16は、音声デコーダ109からの音声信号を音声として再生する。なお、音声出力回路110は、通話用のスピーカ(図示せず)にも音声信号を出力する。
CPU100は、キー操作部11、撮像素子13、マイク17など各部からの入力信号に基づいて、通信モジュール101、102、映像デコーダ108、音声デコーダ109などの各部に制御信号を出力することにより、通話処理や各種の機能モードの処理を行う。
この携帯電話機は、機能モードの一つとして、携帯電話機を拡声器として機能させる拡声器モードを備えている。この拡声器モードにおいて、携帯電話機は、カメラのレンズ窓14がある第1キャビネ1の背面側が聴衆側を向き、マイク17の集音面側となる第2キャビネット2の背面側が話者側を向くように、机などの上に載置される(図1(b)(c)参照)。
カメラモジュール13からは聴衆の配置状況が映像にて取得される。マイク17で集音された話者の音声は、その配置状況に応じた音量と方向で左右のスピーカ15、16から出力される。
以下、この拡声器モードにおける制御動作について、図3のフローチャートに従って説明する。同図(a)は、マイク17から入力した音声を左右のスピーカ15、16から出力するため音声出力ルーチンを示し、同図(b)は、カメラモジュール13によりで取得した映像に基づいて、出力音声の音量および方向を決定する条件決定ルーチンを示す。CPU100は、拡声器モードにおいて、音声出力ルーチンと条件決定ルーチンとを並列的に実行する。
まず、同図(a)を参照して、音声出力ルーチンに係る動作について説明する。話者により拡声器モードを作動するためのキーが押されると(S101:YES)、CPU100は、マイク17を作動させ、音声を集音できる状態とする(S102)。次に、話者から発話があると(S103:YES)、CPU100は、マイク17から音声データを取得する(S104)。
次に、CPU100は、取得した音声データに基づいて、右スピーカ15および左スピーカ16からそれぞれ出力される音声信号(右用音声信号、左用音声信号)を生成する。このとき、CPU100は、左右のスピーカ15、16から出力される音声の方向(左右の音声が重畳されて最も強くなる音声の方向)が条件決定ルーチンで決定された方向となるように、右用音声信号と左用音声信号の位相を調整する。
CPU100は、これら音声信号を音声デコーダ109へ出力するとともに、条件決定ルーチンで決定された音量(増幅量)で音声が出力されるよう、音声出力回路110へ制御信号を出力する。これにより、右用音声信号と左用音声信号が音声デコーダ109でデコードされた後、条件決定ルーチンで決定された音量となるよう音声出力回路110において増幅され、増幅された各信号が右スピーカ15および左スピーカ16から出力される(S105)。
話者によって、拡声器モードを終了するためのキーが押されなければ(S106:NO)、CPU100は、上記ステップS103からステップS105の動作を繰り返す。そして、話が終わるなどして、話者により終了するためのキーが押されれば(S106:YES)、拡声器モードを終了する。
次に、同図(b)を参照して、条件決定ルーチンに係る動作を説明する。上述のように話者により拡声器モードを作動するキーが押されると(S201:YES)、CPU100は、マイク17からの音声信号を待つ。話者から発話され、マイク17からの音声信号が入力されると(S202:YES)、CPU100は、カメラモジュール13を作動させ(S203)、撮像素子132から動画データを取得する(S204)。
次に、CPU100は、動画データから静止画像を取得(サンプリング)する(S205)。静止画像は、たとえば、MPEGピクチャ列中のIピクチャとされる。そして、CPU100は、取得した静止画像に対し画像認識処理を行い、カメラの撮像領域内に存在する聴衆(人)を識別する。この識別のための画像認識処理としては、たとえば、顔認識処理が用いられる。
図4および図5は、聴衆の配置状況とその配置状況における静止画像の状態を示す図である。図4(a)は、聴衆が話者に対して左右方向に略均等にいる配置状況を示し、図4(b)は、そのときの静止画像の状態を示す。また、図5(a)は、聴衆が話者に対して左右方向のやや右側に寄っている配置状況を示し、図5(b)は、そのときの静止画像の状態を示す。
携帯電話機から出力される音声は、最後尾の人が良好に聴ける大きさとなることが望ましい。そこで、CPU100は、図4(a)および図5(a)に示すように、携帯電話機と最後尾の人との距離Dを求める。このため、CPU100は、まず、画像認識により各人の顔の大きさを求める。通常、遠くにいるほど、カメラには顔が小さく映るので、CPU100は、最も顔の小さな人を最後尾の人と認定する。
たとえば、メモリ106には、標準的な顔の場合における、カメラで捕らえた顔の大きさを距離に換算するための換算テーブルが保存されており、CPU100は、この換算テーブルを用いて、最後尾の人の顔の大きさから距離Dを求める。そして、CPU100は、求めた距離Dから音量を決定する(S207)。話者が標準的な大きさで話したときに、求めた距離Dにいる人が音声を良好に聞くことができるよう、距離Dが長いほど音量が大きくされる。
次に、CPU100は、撮像領域Waと、聴衆が存在する領域Wb(以下、「人領域」)の左右方向における位置関係を求める。図4(a)のように、話者に対して聴衆が略均等にいる場合は、同図(b)のように、人領域Wbは撮影領域Waの中央Pに位置する。また、図5(a)のように、話者に対して聴衆が少し右側に寄っている場合は、同図(b)のように、人領域Wbは撮影領域Waの中央Pに対してやや右側に位置する。
CPU100は、撮像領域Wa内おける人領域Wbの位置に基づいて、音声の方向を決定する(S208)。たとえば、図4(b)の状況では、音声の方向が真正面方向とされ、図5(b)の状況では、音声の方向が中央からやや右方向とされる。中央から左右にどれだけ音声の方向をずらすかは、撮影領域Waの中央Pに対する人領域Wbのズレ量に応じて設定される。
話者によって、拡声器モードを終了するためのキーが押されなければ(S209:NO)、CPU100は、上記ステップS204からステップS208の動作を繰り返す。これにより、聴衆の配置状況に変化があれば、新たに音量や方向が決定される。そして、話が終わるなどして、話者により終了するためのキーが押されれば(S209:YES)、CPU100は拡声器モードを終了する。
こうして、CPU100は、上述した音声出力ルーチンのステップS105において、ステップS207で決定した音量となるように音声出力回路110を制御するとともに、ステップS208で決定した方向に向かうように左右の音声信号の位相を調整する。この結果、携帯電話機からは、聴衆の配置状況に応じた音量および方向の音声が出力される。
このように、本実施の形態によれば、話者が、聴衆の配置状況に応じて逐一、出力音声の音量や方向を調整する作業を行わなくとも、聴衆に対して自動で良好な音声が提供される。これにより、話者は、余計な心配をすることなく、話に集中することができ、聴衆も話者の話を円滑に聞くことができる。
以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、また、本発明の実施形態も、上記以外に種々の変更が可能である。
<変更例1>
図6は、変更例1に係る携帯電話機の使用例を説明するための図である。同図に示すように、話者のいるメイン会場には、送信側となる携帯電話機Aが設置されており、メイン会場から離れた場所にあるサブ会場には、受信側となる携帯電話機Bが設置されている。携帯電話機Aおよび携帯電話機Bの構成は、図1および図2に示す上記実施の形態の構成と同様である。
話者が話をすると、携帯電話機Aが集音した話者の音声が、携帯電話機Bに送信される。これと同時に、集音された音声が、メイン会場での聴衆の配置状況に応じた音量および方向で、携帯電話機Aから聴衆に対して出力される。携帯電話機Aから送信された音声データが携帯電話機Bに受信されると、受信された音声が、サブ会場の聴衆の配置状況に応じた音量および方向で、携帯電話機Bから聴衆に対して出力される。なお、携帯電話機Aから携帯電話機Bに対する音声データの送信は、遠距離用の通信モジュール101による通信機能を用いて行われる。サブ会場がメイン会場の近くにある場合には、近距離用の通信モジュール102による通信機能を用いて音声情報の送信を行うことも可能である。
変更例1の場合、送信側の携帯電話機Aでは、図3に示す音声出力ルーチンにおいて、通信モジュール101を介して音声データを携帯電話機Bへ送信するための処理ステップがステップS104の後に追加される。その他の処理は、図3に示す上記実施の形態の場合と同様となる。
また、受信側の携帯電話機Bでは、図3に示す音声出力ルーチンにおいて、ステップS102の処理が、通信モジュール101を作動させる処理に置き換えられ、さらに、ステップS103およびステップ104の処理が、携帯電話機Aから音声データを受信したかを判別する処理ステップと、受信したデータから音声データを取得する処理ステップに置き換えられる。この他、S202の処理ステップが、携帯電話機Aから音声データを受信したかを判別する処理ステップに置き換えられる。その他の処理は、図3に示す上記実施の形態と同様となる。
このように、変更例2の構成とすれば、メイン会場と離れたサブ会場においても、聴衆の配置状況に応じて音声が出力されるので、ユーザが特にサブ会場の状況を把握せずとも、サブ会場における音声出力を適正に行うことができる。
<変更例2>
図7は、変更例2に係る携帯電話機の使用例を説明するための図である。変更例2では、比較的大きな会場で、多くの聴衆に話が行われることが想定されており、送信側となる携帯電話機Cに加え、会場の中ほどの左右2箇所に受信側となる携帯電話機D、Eが設置されている。携帯電話機Cが集音した話者の音声は、携帯電話機D、Eに送信され、携帯電話機D、Eから会場の後方の聴衆に出力される。
ところで、このように同じ会場に複数台の携帯電話機が設置され、それぞれから音声が出力される場合には、それぞれの携帯電話機からの音声にリップシンク(音声ずれ)が生じる惧れがあり、聴衆が音声を聴きづらくなる惧れがある。
そこで、この変更例2では、3台の携帯電話機からの音声出力のタイミングが一致するよう、携帯電話機D、Eの性能(音声処理速度)に応じて、携帯電話機Cから携帯電話機D、Eへの音声データの送信タイミングが調整される。以下、そのための構成および処理を説明する。
携帯電話機Cのメモリ106には、上記送信タイミングを決める上で必要な携帯電話機D、Eの性能テスト(音声処理速度の検出)を行うため、エンコードされた音声信号からなるテスト信号が記憶されている。携帯電話機Cにおけるその他の構成は、図1および図2に示す上記実施の形態の構成と同様である。
携帯電話機D、Eの音声デコーダ110は、テストモードにおいて、テスト信号のデコードが終了すると、完了信号をCPU100に送り返すように構成されている。携帯電話機D、Eにおけるその他の構成は、図1および図2に示す上記実施の形態の構成と同様である。
携帯電話機Cと携帯電話機D、Eとの間の通信には、近距離用の通信モジュール102の通信機能が使用される。
拡声器モードが使用される前に、携帯電話機Cと携帯電話機D、Eとの間で通信路を確立するための処理が行われ、その後、テストモードが実行される。
図8は、テストモードにおける制御処理を説明するためのフローチャートである。同図(a)は、携帯電話機Cに係るテストモードのフローチャートであり、同図(b)は、携帯電話機D、Eに係るテストモードのフローチャートである。
同図(a)を参照して、携帯電話機Cにおいて、ユーザによりテスト開始の操作がなされると(S301:YES)、CPU100は、メモリ106からテスト信号を読み出し、このテスト信号にテストモードであることを示す識別情報を付与した通信データを、通信モジュール102を介して携帯電話機D(または、携帯電話機E)に送信する。
また、CPU100は、テスト信号を送信すると同時に、タイマー105を用いて計時を開始する(S306)。そして、CPU100は、携帯電話機D(または、携帯電話機E)から応答があると、これに付加された識別信号から、この応答がテスト完了を示すものであるかを判別し(S304)、テスト完了を示すものであれば(ステップS304:YES)、計時を終了する(S305)。そして、テスト信号を送信してから完了信号が返信されるまでの所要時間を取得し、これを携帯電話機D(または、携帯電話機E)に関連付けてメモリ106に保存する(S306)。
同図(b)を参照して、携帯電話機D(または、携帯電話機E)側のCPU100は、通信モジュール102を介して携帯電話Cから通信データを受信すると、これに付加された識別信号から、この通信データがテスト信号を含むものであるかを判別する(S401)。CPU100は、この通信データがテスト信号を含むと判断すると(S401:YES)、テスト信号を音声デコーダ109にデコードさせる(S402)。音声デコーダ109におけるデコードが完了すると、これを示す信号が音声デコーダからCPU100に出力される(S403:YES)。これを受けて、CPU100は、デコードが完了したことを示す完了信号に、テストモードであることを示す識別情報を付加した通信データを、通信モジュール102を介して携帯電話機Cに送信する(S404)。
このようにして、テストモードが行われることにより、携帯電話機D、Eの性能テストがそれぞれ行われ、テスト信号のデコードに要する時間(テスト信号の送信から完了信号の受信までの所要時間)が、携帯電話機D、Eと関連付けて、携帯電話機Cのメモリ106に保存される。
その後、携帯電話機Cに対し、話者により拡声器モードを作動させる操作がなされると、携帯電話機Cでは、図9に示す音声出力ルーチンが開始される。
携帯電話機CのCPU100は、ユーザにより拡声器モードを作動させる操作がなされたと判断すると(S501:YES)、メモリ106から携帯電話機D、Eの所要時間を読み出し、これら所要時間に基づいて、携帯電話機D、Eおよび自身の音声デコーダ109への音声信号の送信タイミングを決定する(S502)。
仮に、携帯電話機Dでは、送信してから音声が出力されるまでに0.5秒かかり、携帯電話機Eでは、0.3秒かかるとする。また、携帯電話機Cでは、音声デコーダ110に送信してから音声が出力されるまでに0.1秒かかるとする。このような場合、携帯電話機Dに音声信号が送信されてから0.2秒後に携帯電話機Eに音声信号が送信され、さらに、その0.2秒後に自身の音声デコーダ110に音声信号が出力されるよう、送信タイミングが決定される。
こうして各携帯電話機に対する送信タイミングが決定されると、CPU100は、マイク17を作動させ(S503)、その後、話者からの発話があると(S504:YES)、音声データを取得する(S505)。そして、CPU100は、ステップS502で決められた送信タイミングで、携帯電話機D、Eに音声信号を送信する(S506)。さらに、CPU100は、決定した出力タイミングで自身の音声デコーダ110に音声信号を送信し、スピーカ15、16から音声を出力させる(S507)。こうして、話者から終了の操作があれば(S508:YES)、拡声器モードを終了する。
この場合も、携帯電話機Cでは、並列的に、上記実施の形態と同様の条件決定ルーチンが実行され、聴衆の配置状況に応じた音量と方向で音声が出力される。
なお、携帯電話機D、Eにおける処理は、通信に使用される通信モジュールが異なる以外は、上記変更例1における携帯電話機Bの処理と同様である。よって、携帯電話機D、Eにおいても、聴衆の配置状況に応じた音量と方向で音声が出力されることになる。
このように、変更例2の構成では、受信側の携帯電話機の性能に応じた送信タイミングで送信側の携帯電話機から音声が送信されるので、リップシンク(音声ずれ)が防止され、聴衆が音声を良好に聴くことが可能となる。
<変更例3>
図10は、変更例3に係る携帯電話機の構成を示す図である。同図(a)は、携帯電話機を机等の載置面上に立てた状態で、第1キャビネット1の背面側から見た図である。同図(b)は、撮像領域Wa内に音場領域Wbを設定したときの画像認識処理を説明するための図である。
変更例3の携帯電話機では、同図(a)に示すように、第1キャビネット1の背面側に液晶表示パネル18が配されおり、その表示画面が背面に臨んでいる。この液晶表示パネル18の背後には、このパネルに光を供給するためのバックライト装置(図示せず)が配されている。また、この携帯電話機では、同図(b)に示すように、撮像領域Wa内に、スピーカ15、16から出力される音声を適切に聴くことが可能な限界領域Wc(以下、「音場領域」という)が設定されている。この音場領域Wcを示すデータは、メモリ106に記憶されている。その他の構成は、上記実施の形態と同様である。
なお、この変更例3では、カメラモジュール13で撮影される撮像領域Waが音場領域Wcより広いことが前提とされている。
この携帯電話機では、上記実施の形態と同様に、条件決定ルーチンにおいて、人領域Wbが求められる。CPU100は、人領域Wbが、図10(b)の破線で示すように音場領域Wc内にあれば、上述のように音量および方向を調整することによって聴衆に良好に音声が届けられると判断する。一方、人領域Wbが、図10(b)の実線で示すように音場領域Wcからはみ出しているときには、上述のように音量および方向を調整しても聴衆に良好に音声が届けられないと判断する。そして、人領域Wbが音場領域Wcからはみ出している場合、CPU100は、同図(a)に示す如く、聴衆を音場領域Wc内へ移動させるようなメッセージを、液晶表示パネル18に表示させる。
なお、話者から発話が行われていない状況であれば、液晶表示パネル18による表示とともに、あるいは表示に替えて、音声にて移動を促す報知をすることもできる。また、聴衆が見やすいように、液晶表示パネル18にメッセージの文字を1文字ずつ表示することもできる。
また、スピーカ15、16から出力される音声を適切に聴くことが可能な範囲は、聴衆が携帯電話機から離れるほど狭くなると考えられる。よって、音場領域Wcは、携帯電話機と聴衆の間の距離に応じて動的に変化させるのが好ましい。この場合、人領域Wbの任意の位置(たとえば、最前列)の人と携帯電話機との距離Dを求め、距離Dが大きいほど音場領域Wcが小さくなるよう、音場領域Wcが調整される。
このように、変更例3では、聴衆が音声を適切に聴ける限界領域からはみ出している場合に、聴衆を適正な位置に移動させることができるので、話者の音声を聴衆に良好に届けることができる。
<その他>
上記実施の形態では、撮像可能な範囲を拡大するために、種々の方法が取ることができる。たとえば、予めカメラモジュール13を水平方向(左右方向)に移動させて、複数方向の静止画を取得しておき、この画像をパノラマ合成することにより、撮像範囲を広げることができる。また、カメラモジュール13がズーム機能を有する場合には、聴衆が可能な限り納まるようにズーム拡大率を調整することもできる。
また、上記実施の形態では、スピーカ15、16に加えて、超音波による指向性スピーカと、これらスピーカを左右方向に駆動する駆動機構を設けることもできる。このような構成とすれば、聴衆が狭い領域に固まっている場合や特定の聴衆のみに音声を届けたい場合に、駆動機構によって指向性スピーカをその方向に向け、その領域に超音波による音声を届けることが可能となり、より聴衆の配置状況に応じた音声出力が可能になる。
さらに、上記実施の形態では、聴衆の中の最後尾の人と携帯電話機との距離に応じて、音量を決定するようにしたが、これに限らず、たとえば、聴衆の中の前後方向における中央の人と携帯電話機との距離に応じて、音量を決定するようにしてもよく、あるいは、それぞれの人との距離を平均した距離に応じて音量を決定するようにしても良い。
さらに、上記実施の形態では、音量と方向の双方を決定するようにしたが、これに限らず、少なくとも一方を決定するようにすれば良い。
さらに、音量や方向を調整するタイミングは、上記実施の形態のようにリアルタイムとされなくても良く、適宜変更することができる。たとえば、拡声器モードが実行され、最初に話者から発話があったときのみ音量や方向が調整されるようにしても良く、また、一定の時間間隔(たとえば、5分おき)で音量や方向が調整されるようにしても良い。
さらに、上記実施の形態では、カメラモジュール13と左右のスピーカ15、16が共にキャビネット1の背面側に配されているが、これに限らず、拡声器モードで使用される状態に携帯電話機がセッティングされたときに、スピーカの出力方向と同じ方向を向くように、カメラモジュール(レンズ窓)が配されていれば良い。なお、駆動機構などによって指向性スピーカの向きを聴衆の方向に向け得る構成とする場合には、スピーカがイニシャル位置(中立位置)にあるときに、スピーカの出力方向と同じ方向を向くように、カメラモジュール(レンズ窓)が配される。要するに、カメラモジュールは、マイクで集音した音声を拡声して伝えようとする前方領域周辺の状況を撮影可能な状態で配置されていれば良い。
この他、本発明の実施の形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。
実施の形態に係る携帯電話機の外観構成を示す図 実施の形態に係る携帯電話機の全体構成を示すブロック図 実施の形態に係る拡声器モードの制御処理を説明するためのフローチャート 実施の形態に係る聴衆の配置状況とその配置状況における静止画像の状態を示す図 実施の形態に係る聴衆の配置状況とその配置状況における静止画像の状態を示す図 変更例1に係る携帯電話機の使用例を説明するための図 変更例2に係る携帯電話機の使用例を説明するための図 変更例2に係るテストモードの制御処理を説明するためのフローチャート 変更例2に係る拡声器モードの制御処理を説明するためのフローチャート 変更例3に係る携帯電話機の構成を示す図
符号の説明
13 カメラモジュール(撮像部)
15 右スピーカ
16 左スピーカ
17 マイク
18 液晶表示パネル(報知部)
100 CPU(識別部、音声制御部)
101 通信モジュール(通信部)
102 通信モジュール(通信部)

Claims (6)

  1. 撮像部と、
    音声を集音するマイクと、
    前記マイクによって集音された音声を出力するスピーカと、
    前記撮像部によって撮像された画像に含まれる人の状況を識別する識別部と、
    前記マイクによって集音された音声を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する音声制御部とを有する、
    ことを特徴とするカメラ付き携帯端末装置。
  2. 請求項1において、
    前記識別部は、前記画像に含まれる人までの距離を識別し、
    前記音声制御部は、前記識別部によって識別された前記距離に基づいて前記スピーカから出力される音声の音量を制御する、
    ことを特徴とするカメラ付き携帯端末装置。
  3. 請求項1または2において、
    前記識別部は、前記画像に含まれる人の位置を識別し、
    前記音声制御部は、前記識別部によって識別された前記位置に基づいて前記スピーカから出力される音声の方向を制御する、
    ことを特徴とするカメラ付き携帯端末装置。
  4. 請求項1ないし3の何れか一項において、
    他の機器と通信を行う通信部と、
    前記通信部を介して受信した音声情報から音声信号を生成する音声生成部を備え、
    前記音声制御部は、前記音声生成部によって生成された音声信号を前記スピーカから出力する場合に、前記識別部による識別結果に基づいて前記スピーカから出力される音声の出力を制御する、
    ことを特徴とするカメラ付き携帯端末装置。
  5. 請求項1ないし3の何れか一項において、
    他の機器と通信を行う通信部と、
    前記マイクによって取得した音声から前記通信に応じた音声情報を生成して前記通信部に出力する情報生成部と、
    前記他の機器における前記音声情報の出力所要時間を判定する時間判定部を備え、
    前記通信部は、前記他の機器の前記出力所要時間に基づいて、前記他の機器に対する前記音声情報の送信タイミングを制御する、
    ことを特徴とするカメラ付き携帯端末装置。
  6. 請求項1ないし5の何れか一項において、
    聴衆に対し移動を促す報知を行う報知部を備え、
    前記識別部は、前記画像に含まれる人の位置を識別し、
    前記報知部は、前記識別部によって識別された人の位置に基づいて前記報知を行う、
    ことを特徴とするカメラ付き携帯端末装置。
JP2008061674A 2008-03-11 2008-03-11 カメラ付き携帯端末装置 Pending JP2009218950A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008061674A JP2009218950A (ja) 2008-03-11 2008-03-11 カメラ付き携帯端末装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008061674A JP2009218950A (ja) 2008-03-11 2008-03-11 カメラ付き携帯端末装置

Publications (1)

Publication Number Publication Date
JP2009218950A true JP2009218950A (ja) 2009-09-24

Family

ID=41190368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008061674A Pending JP2009218950A (ja) 2008-03-11 2008-03-11 カメラ付き携帯端末装置

Country Status (1)

Country Link
JP (1) JP2009218950A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012029094A (ja) * 2010-07-23 2012-02-09 Nec Casio Mobile Communications Ltd 携帯端末装置
WO2012128033A1 (ja) * 2011-03-23 2012-09-27 ブラザー工業株式会社 会議端末装置、会議端末制御方法、及び会議端末制御プログラム
CN103546841A (zh) * 2013-10-16 2014-01-29 广州番禺巨大汽车音响设备有限公司 一种基于wifi实现对数字音响音量控制的方法及系统
JP2014052216A (ja) * 2012-09-05 2014-03-20 Terumo Corp 測定システム
CN104936094A (zh) * 2015-05-26 2015-09-23 广州番禺巨大汽车音响设备有限公司 一种基于nfc实现音响控制的方法及系统
CN106937210A (zh) * 2017-05-09 2017-07-07 成都泰声科技有限公司 一种外接声频定向扬声器
US9955253B1 (en) * 2016-10-18 2018-04-24 Harman International Industries, Incorporated Systems and methods for directional loudspeaker control with facial detection
CN109068064A (zh) * 2018-09-27 2018-12-21 联想(北京)有限公司 电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012029094A (ja) * 2010-07-23 2012-02-09 Nec Casio Mobile Communications Ltd 携帯端末装置
WO2012128033A1 (ja) * 2011-03-23 2012-09-27 ブラザー工業株式会社 会議端末装置、会議端末制御方法、及び会議端末制御プログラム
JP2012199851A (ja) * 2011-03-23 2012-10-18 Brother Ind Ltd 会議端末装置、会議端末制御方法、及び会議端末制御プログラム、
JP2014052216A (ja) * 2012-09-05 2014-03-20 Terumo Corp 測定システム
CN103546841A (zh) * 2013-10-16 2014-01-29 广州番禺巨大汽车音响设备有限公司 一种基于wifi实现对数字音响音量控制的方法及系统
CN104936094A (zh) * 2015-05-26 2015-09-23 广州番禺巨大汽车音响设备有限公司 一种基于nfc实现音响控制的方法及系统
US9955253B1 (en) * 2016-10-18 2018-04-24 Harman International Industries, Incorporated Systems and methods for directional loudspeaker control with facial detection
CN106937210A (zh) * 2017-05-09 2017-07-07 成都泰声科技有限公司 一种外接声频定向扬声器
CN109068064A (zh) * 2018-09-27 2018-12-21 联想(北京)有限公司 电子设备

Similar Documents

Publication Publication Date Title
JP3798799B2 (ja) テレビ電話装置
JP2009218950A (ja) カメラ付き携帯端末装置
JP2001054084A (ja) テレビ電話装置
US9479704B2 (en) Apparatus and method for supporting zoom microphone functional in mobile terminal
JP2007201727A (ja) テレビ電話機能付き携帯電話機
CN114466097A (zh) 防漏音的移动终端及移动终端的声音输出方法
JP2007312039A (ja) Tv電話機能付き携帯端末
JP2004289688A (ja) テレビ電話装置
JP2010011079A (ja) 携帯電子機器及び通信システム
WO2018064883A1 (zh) 一种录音方法、装置、设备及计算机存储介质
KR100747581B1 (ko) 카메라를 구비한 통신 단말 장치와 이를 이용한 데이터송수신 방법
JP2005151073A (ja) Tv電話機能付き携帯端末装置
KR101232537B1 (ko) 화상통신 단말기 및 화상통신 단말기에서 화상통신 방법
JP2008060734A (ja) 携帯端末
CN114125352A (zh) 屏幕共享方法、电子设备及系统
KR101780969B1 (ko) 휴대용 단말기에서 줌 마이크 기능을 지원하기 위한 장치 및 방법
KR101143164B1 (ko) 휴대 단말기에서 동영상 촬영 시 오디오 입력 신호 처리 방법 및 장치
JP2006139138A (ja) 情報端末及び基地局
WO2023286678A1 (ja) 電子機器、プログラム、及びシステム
WO2023286680A1 (ja) 電子機器、プログラム、及びシステム
JP2006157558A (ja) 携帯端末装置
JP2006140596A (ja) 通信端末
JP2006186651A (ja) 通話システム、この通話システムに用いられる通話装置、並びにこの通話システムおよび通話装置に用いられるスピーカ
JP2005348006A (ja) 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法
JP4772136B2 (ja) 通話システム、通話装置