JP2014216787A

JP2014216787A - 会議端末装置及び増幅率登録方法

Info

Publication number: JP2014216787A
Application number: JP2013091651A
Authority: JP
Inventors: 松尾　義彦; Yoshihiko Matsuo; 義彦松尾
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2013-04-24
Filing date: 2013-04-24
Publication date: 2014-11-17

Abstract

【課題】ネットワークを介して接続された相手端末との間の電話会議又はテレビ会議において、会議出席者の発言内容を含む通話音声の音声信号の音量レベルを会議出席者に応じて増幅又は減衰でき、電話会議又はテレビ会議を円滑に行う。
【解決手段】会議端末装置１０Ａは、会議出席者の画像をカメラ２１０において撮像し、会議出席者の発言内容を含む通話音声をマイク２２０において収音する。顔画像処理部６００は、撮像された会議出席者の画像を基に、会議出席者の顔画像を抽出する。マイクゲイン設定部６４０は、収音された通話音声の音声信号を増幅させるためのマイク２２０のゲインを設定する。マイクゲイン登録部６５０は、抽出された会議出席者の顔画像に、設定されたマイク２２０のゲインを対応付けて登録する。
【選択図】図３

Description

本発明は、例えば双方向型の電話会議又はテレビ会議に用いられ、電話会議又はテレビ会議の相手に対する音声信号を収音するマイクのゲイン（増幅率）を登録する会議端末装置及び増幅率登録方法に関する。

近年、カメラ及びマイクを含む会議端末装置（例えばスマートフォン又はタブレット端末）等の利用が急速に広まっている。このような会議端末装置は、例えば企業内のテレビ会議においても利用され始めている。従来のテレビ会議では、会議出席者はテレビ会議用設備が備えられた専用会議室に居る必要があったが、例えばネットワークに接続された会議端末装置を会議出席者が個々に用いることで、会議出席者は、専用会議室に居なくてもそれぞれ離れた場所においてテレビ会議に参加できる。

音声信号及び映像信号を送受信するテレビ会議において、会議出席者の発話音声を的確に収音するためにマイクのゲイン（増幅度）を設定する先行技術として、例えば特許文献１に示すビデオ会議装置が知られている。特許文献１に示すビデオ会議装置は、カメラにより撮像された会議室内の画像から会議出席者の顔を検出することで会議出席者の在席状態を判定し、更に、この判定結果に応じて、マイクユニット内の複数の各マイクの増幅度を個別に設定する。

これにより、特許文献１に示すビデオ会議装置は、会議室内の会議出席者の在席状態に応じて、マイクユニットの収音特性を最適に設定することができる。

特開２０１１−１９３３９２号公報

しかしながら、特許文献１では、ビデオ会議装置がマイクユニット内の各マイクのゲインを設定する場合には、会議出席者が声の大きな人であるか又は声の小さな人であるかの会議出席者毎の声量の差異が考慮されていない。

このため、会議出席者の声量の大小に拘わらず一定のゲインが設定されたマイクにより収音される会議出席者が声の大きな人である場合には、声の大きな会議出席者の発言内容の音声の音量レベルが大きくなり過ぎて音声が割れてしまって通話が快適に行えず、ビデオ会議の相手との間で円滑な会議を進行することが困難となるという課題があった。

本発明は、上述した従来の課題を解決するために、ネットワークを介して接続された相手端末との間の電話会議又はテレビ会議において、会議出席者の発言内容を含む通話音声の音声信号の音量レベルを会議出席者に応じて増幅又は減衰でき、電話会議又はテレビ会議を円滑に行う会議端末装置及び増幅率登録方法を提供することを目的とする。

本発明は、ネットワークを介して接続された相手端末装置と通信する会議端末装置であって、前記会議端末装置を用いる会議出席者の画像を撮像する撮像部と、前記会議出席者の発言内容を含む通話音声を収音する収音部と、撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出する顔画像抽出部と、収音された前記通話音声の音声信号を増幅させるための前記収音部の増幅率を設定する増幅率設定部と、抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録する登録部と、を備える会議端末装置である。

また、本発明は、ネットワークを介して接続された相手端末装置と通信する会議端末装置における増幅率登録方法であって、前記会議端末装置を用いる会議出席者の画像を撮像するステップと、前記会議出席者の発言内容を含む通話音声を収音するステップと、撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出するステップと、収音された前記通話音声の音声信号を増幅させるための前記収音部の増幅率を設定するステップと、抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録するステップと、を有する増幅率登録方法である。

本発明によれば、ネットワークを介して接続された相手端末との間の電話会議又はテレビ会議において、会議出席者の発言内容を含む通話音声の音声信号の音量レベルを会議出席者に応じて増幅又は減衰でき、電話会議又はテレビ会議を円滑に行うことができる。

各実施形態のテレビ会議システムのシステム構成の一例を示すブロック図各実施形態の会議端末装置の内部構成の一例を示すブロック図第１の実施形態の会議端末装置の登録処理部の内部構成の一例を示すブロック図第１の実施形態の会議端末装置の登録処理部の動作手順を説明するフローチャート顔画像ＤＢに登録されるデータの構造の一例を示す説明図第２の実施形態の会議端末装置の登録処理部の内部構成の一例を示すブロック図第２の実施形態の会議端末装置の登録処理部の動作手順を説明するフローチャート第３の実施形態の会議端末装置の登録処理部及び制御部の各内部構成の一例を示すブロック図（Ａ）顔画像ＤＢエディタを起動した場合のメイン画面の一例を示す図、（Ｂ）処理選択画面の一例を示す図マイクゲイン値の更新用画面の一例を示す図（Ａ）メイン画面において選択されたレコードを削除する確認画面の一例を示す図、（Ｂ）選択されたレコードの削除後のメイン画面の一例を示す図第３の実施形態における顔画像ＤＢエディタの動作に用いられる画面の状態遷移の一例を示す図

以下、本発明に係る会議端末装置及び増幅率登録方法の各実施形態について、図面を参照して説明する。各実施形態の会議端末装置は、例えば携帯電話機、スマートフォン、タブレット端末又はＰＤＡ（Personal Digital Assistant）である。

以下の各実施形態では、本発明に係る会議端末装置の使用形態の一例として、例えば企業内の会議（例えば電話会議又はテレビ会議）において会議端末装置を用いるシチュエーションを説明し、説明を簡単にするためにテレビ会議のシチュエーションを具体的な一例として説明する。即ち、以下の各実施形態におけるテレビ会議では、テレビ会議の参加者が各実施形態の会議端末装置を個々に用いる。但し、各実施形態の会議端末装置の使用方法は以下の各実施形態における使用形態に限定されない。

なお、本発明は、会議端末装置が行う各動作（ステップ）を有する増幅率登録方法として表現することも可能である。更に、本発明は、コンピュータとしての会議端末装置が行う各動作（ステップ）を、会議端末装置に内蔵されるプロセッサ（例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor））に実行させるためのプログラムとして表現しても良い。

（第１の実施形態）
第１の実施形態では、会議端末装置１０Ａ，１０Ｂ，１０Ｃは、各会議端末装置１０Ａ，１０Ｂ，１０Ｃを用いる各会議出席者ＵＡ，ＵＢ，ＵＣの画像を撮像し、各会議出席者ＵＡ，ＵＢ，ＵＣのテレビ会議における通話音声の音声信号を収音する。会議端末装置１０Ａ，１０Ｂ，１０Ｃは、各会議端末装置１０Ａ，１０Ｂ，１０Ｃを用いる各会議出席者ＵＡ，ＵＢ，ＵＣの画像から顔画像を抽出し、抽出された各顔画像と会議端末装置１０Ａ，１０Ｂ，１０Ｃ毎に設定されたマイクのゲイン、即ちマイクにより収音された音声信号の音量レベルを増幅又は減衰させるため増幅率の値（以下、「マイクゲイン値」という）とを１対１に対応付けて登録して各会議端末装置１０Ａ，１０Ｂ，１０Ｃ内に保存（記憶）する。

先ず、本実施形態の会議端末装置１０Ａ，１０Ｂ，１０Ｃを含むテレビ会議システム１００のシステム構成について、図１を参照して説明する。図１は、各実施形態のテレビ会議システム１００のシステム構成の一例を示すブロック図である。テレビ会議システム１００は、例えば３個の会議端末装置１０Ａと、会議端末装置１０Ｂと、会議端末装置１０Ｃとを含むが、３個の会議端末装置１０Ａ，１０Ｂ，１０Ｃの構成に限定されない。各会議端末装置１０Ａ，１０Ｂ，１０Ｃは、それぞれネットワークＮＷを介して接続されている。ネットワークＮＷは、無線ネットワークでも良いし、有線ネットワークでも良い。

以下の各実施形態では、会議端末装置１０Ａは会議出席者ＵＡにより使用され、会議端末装置１０Ｂは会議出席者ＵＢにより使用され、会議端末装置１０Ｃは会議出席者ＵＣにより使用されるものとして説明する。なお、１個の会議端末装置１０Ａは、１人の会議出席者ＵＡにより使用されず、例えば複数の会議出席者により共用されても良い。

会議端末装置１０Ａ，１０Ｂ，１０Ｃの内部構成は同一であるため、以下、例えば会議端末装置１０Ａの構成及び動作について、図２及び図３を参照して例示的に説明する。図２は、各実施形態の会議端末装置１０Ａの内部構成の一例を示すブロック図である。図３は、第１の実施形態の会議端末装置１０Ａの登録処理部２１３の内部構成の一例を示すブロック図である。

図２に示す会議端末装置１０Ａは、カメラ２１０と、画像入力Ｉ／Ｆ２１２と、登録処理部２１３と、画像エンコーダ２１４と、マイク２２０と、音声処理部２２２と、音声エンコーダ２２４と、多重化部２３０と、無線送信部２４０と、ディスプレイ３１０と、画像出力Ｉ／Ｆ３１２と、画像デコーダ３１４と、スピーカ３２０と、音声出力Ｉ／Ｆ３２２と、音声デコーダ３２４と、分離部３３０と、無線受信部３４０と、制御部４００と、入力部５００とを含む。

撮像部の一例としてのカメラ２１０は、例えば入力部５００を介して入力された撮像操作に応じて、カメラ２１０の画角の範囲に含まれる会議出席者ＵＡ、即ち会議端末装置１０Ａを用いる会議出席者ＵＡを撮像する。撮像された会議出席者ＵＡの画像は、画像入力Ｉ／Ｆ２１２に入力される。

画像入力Ｉ／Ｆ（interface）２１２は、制御部４００から出力された制御信号に応じて、カメラ２１０の撮像動作を制御し、更に、カメラ２１０から出力された画像信号を登録処理部２１３に出力する。また、画像入力Ｉ／Ｆ２１２は、制御部４００から出力された制御信号に応じて、カメラ２１０から出力された画像信号に対して所定の信号処理（例えば符号化処理が可能となるように行われる正規化処理）を施し、所定の信号処理後の画像信号を画像エンコーダ２１４に出力する。

登録処理部２１３は、画像入力Ｉ／Ｆ２１２から出力された画像信号から会議出席者ＵＡの顔画像を抽出し、抽出された会議出席者ＵＡの顔画像と、例えば制御部４００を介して入力部５００から入力されたマイクゲイン値とを１対１に対応付けて登録する。登録処理部２１３の詳細な動作については図３から図５を参照して後述する。

画像エンコーダ２１４は、画像入力Ｉ／Ｆ２１２から出力された画像信号を符号化処理し、符号化処理後の画像信号を多重化部２３０に出力する。なお、画像エンコーダ２１４における符号化処理の方式及びその内容は、会議端末装置１０Ａ，１０Ｂ，１０Ｃにおいて既知である。

収音部の一例としてのマイク２２０は、会議端末装置１０Ａのユーザである会議出席者ＵＡがテレビ会議の間における通話音声と周囲の音声（例えば環境音、ノイズ）とを収音し、更に、会議出席者ＵＡが通話時でない間では周囲の音声を収音する。収音された音声は、マイク２２０によって電気信号、即ち音声信号に変換されて音声処理部２２２に入力される。

音声処理部２２２は、マイク２２０から出力された音声信号に所定の音声処理を行い、所定の音声処理後の音声信号を音声エンコーダ２２４に出力する。例えば、音声処理部２２２は、例えばマイク２２０から出力された音声信号の音量レベルを、登録処理部２１３から出力されたマイクゲイン値を用いて増幅又は減衰する（後述する数式（１）参照）。また、音声処理部２２２は、マイクゲイン値を用いて増幅又は減衰されたアナログの音声信号をデジタルの音声信号にＡＤ変換（Analog Digital）して音声エンコーダ２２４に出力する。

ここで、本実施形態を含む各実施形態におけるマイクゲイン値について簡単に説明する。

本実施形態を含む各実施形態では、会議端末装置１０Ａ，１０Ｂ，１０Ｃは、ネットワークＮＷを介して、画像信号及び音声信号を互いに送受信する。この場合、送信側の会議端末装置（例えば会議端末装置１０Ａ）は、マイク２２０により収音された通話音声の音声信号の音量レベルを音声処理部２２２において調整（増幅又は減衰）する。また、受信側の会議端末装置（例えば会議端末装置１０Ｂ）は、送信側の会議端末装置（例えば会議端末装置１０Ａ）から送信された音声信号の音量レベルを音声出力Ｉ／Ｆにおいて調整して出力する。

従って、受信側の会議端末装置（例えば会議端末装置１０Ｂ）では、送信側の会議端末装置（例えば会議端末装置１０Ａ）のマイク２２０により収音された通話音声の音声信号の音量レベルが小さ過ぎると、送信側及び受信側の両方の会議端末装置間のテレビ会議における通話の快適さが損なわれる可能性がある。

また、受信側の会議端末装置（例えば会議端末装置１０Ｂ）では、送信側の会議端末装置（例えば会議端末装置１０Ａ）のマイク２２０により収音された通話音声の音声信号の音量レベルが大き過ぎると、ノイズのレベルも増幅されてしまい、音声が割れてしまって送信側及び受信側の両方の会議端末装置間のテレビ会議における通話の快適さが損なわれる可能性がある。

そこで、本実施形態を含む各実施形態では、マイクゲイン値Ｇａは、所定の最小保証値と最大保証値との間の値として設定される。最小保証値と最大保証値とは、各会議端末装置１０Ａ，１０Ｂ，１０Ｃ間において音声信号の送受信テストを複数回繰り返して得られた実測値を基に統計処理等によって算出された値である。

例えば、音声処理部２２２は、例えばマイク２２０から出力された音声信号の音量レベルＬｖを、顔画像認証／登録部６２０から出力されたマイクゲイン値Ｇａを用いて増幅又は減衰することで、数式（１）に示す音量レベルＶＡＬＵＥに調整する。即ち、音声処理部２２２は、音量レベルＶＡＬＵＥの音声信号を音声エンコーダ２２４に出力する。数式（１）において、Ｌｖはマイク２２０により収音された音声信号の音量レベルを表し、Ｇａはマイクゲイン値を表す。

音声エンコーダ２２４は、音声処理部２２２から出力された音声信号を符号化処理し、符号化処理後の音声信号を多重化部２３０に出力する。なお、音声エンコーダ２２４における符号化処理の方式及びその内容は、会議端末装置１０Ａ，１０Ｂ，１０Ｃにおいて既知である。

多重化部２３０は、画像エンコーダ２１４から出力された符号化処理後の画像信号と、音声エンコーダ２２４から出力された符号化処理後の音声信号とを多重化処理し、多重化処理後の信号を無線送信部２４０に出力する。

無線送信部２４０は、多重化部２３０から出力された多重化処理後の信号を、例えば無線通信用の所定周波数帯の信号に変換して他の会議端末装置１０Ｂ，１０Ｃに送信する。

ディスプレイ３１０は、カメラ２１０が撮像した画像信号、又は他の会議端末装置１０Ｂ，１０Ｃから送信された画像信号、即ちテレビ会議の状況（例えば他の会議出席者ＵＢ，ＵＣが話している状況）を表す画像信号を表示する。

表示制御部の一例としての画像出力Ｉ／Ｆ３１２は、画像デコーダ３１４から出力された復号処理後の画像信号をディスプレイ３１０に表示させる。

画像デコーダ３１４は、分離部３３０から出力された画像信号を復号処理し、復号処理後の画像信号を画像出力Ｉ／Ｆ３１２に出力する。なお、画像デコーダ３１４における復号処理の方式及びその内容は、会議端末装置１０Ａ，１０Ｂ，１０Ｃにおいて既知である。

音声出力部の一例としてのスピーカ３２０は、音声出力Ｉ／Ｆ３２２から出力された音声信号、即ち他の会議端末装置１０Ｂ，１０Ｃを用いる他の会議出席者ＵＢ，ＵＣがテレビ会議の間に話す通話音声の音声信号を出力する。

音声出力Ｉ／Ｆ３２２は、音声デコーダ３２４から出力された復号処理後のデジタルの音声信号をアナログの音声信号にＤＡ（Digital Analog）変換してスピーカ３２０に出力する。また、音声出力Ｉ／Ｆ３２２は、ＤＡ変換後の音声信号の音量レベルを調整（増幅又は減衰）してスピーカ３２０に出力しても良い。

音声デコーダ３２４は、分離部３３０から出力された音声信号を復号処理し、復号処理後の音声信号を音声出力Ｉ／Ｆ３２２に出力する。なお、音声デコーダ３２４における復号処理の方式及びその内容は、会議端末装置１０Ａ，１０Ｂ，１０Ｃにおいて既知である。

分離部３３０は、無線受信部３４０から出力された多重化処理後の信号を、画像信号と音声信号とに分離し、画像信号を画像デコーダ３１４に出力し、音声信号を音声デコーダ３２４に出力する。

無線受信部３４０は、例えば他の会議端末装置１０Ｂ，１０Ｃから送信された無線通信用の所定周波数帯の信号を受信し、更に、受信した信号をベースバンドの多重化処理後の信号に変換して分離部３３０に出力する。

制御部４００は、会議端末装置１０Ａの各部を動作させるための制御信号を生成し、会議端末装置１０Ａの各部に制御信号を出力する。

入力部５００は、会議出席者ＵＡが会議端末装置１０Ａに対する操作を入力するためのユーザインターフェースであり、会議出席者ＵＡの操作内容に応じた操作コマンド信号を制御部４００に出力する。入力部５００は、例えば、会議端末装置１０Ａがスマートフォン又はタブレット端末である場合には、ディスプレイ３１０の上に配置され、会議出席者ＵＡの指又はスタイラスペンによる入力操作を受け付け可能なタッチパネルを用いて構成される。また、入力部５００は、会議端末装置１０Ａが携帯電話機である場合には、電話番号等を入力するテンキー、オンフック又はオフフックを行う通話器キー及びファンクションキー等の各種キーを用いて構成可能である。

ここで図３を参照して、登録処理部２１３の内部構成及びその動作を詳細に説明する。図３に示す登録処理部２１３は、顔画像切り出し部６００と、顔画像正規化部６１０と、顔画像認証／登録部６２０と、顔画像ＤＢ（database）６３０と、マイクゲイン設定部６４０と、マイクゲイン登録部６５０とを含む。

顔画像切り出し部６００は、公知の顔画像抽出処理によって、画像入力Ｉ／Ｆ２１２から出力された会議出席者ＵＡの画像を含む画像信号から会議出席者ＵＡの顔画像データを抽出する（切り出す）。顔画像切り出し部６００は、抽出された会議出席者ＵＡの顔画像データを顔画像正規化部６１０に出力する。

顔画像正規化部６１０は、顔画像切り出し部６００から出力された顔画像データに対し所定の正規化処理を施して顔画像認証／登録部６２０に出力する。所定の正規化処理は、例えば顔画像データに対する顔画像のサイズ及び明るさを調整し、顔画像認証／登録部６２０における顔画像の認証処理を効率的に行わせるための既定の処理である。

登録部の一例としての顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データに対して公知の顔認証処理を行うことで、顔画像正規化部６１０から出力された顔画像が顔画像ＤＢ６３０に登録（記憶）されているか否かを判定する。

顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データが顔画像ＤＢ６３０に登録（記憶）されていないと判定した場合には、顔画像正規化部６１０から出力された顔画像データを、顔画像ＤＢ６３０の個人認証用顔画像データ格納フィールド７１０（図５参照）に登録する。また、顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データを、顔画像ＤＢ６３０の個人認証用顔画像データ格納フィールド７１０（図５参照）に登録した旨の通知をマイクゲイン設定部６４０に出力する。

図５は、顔画像ＤＢに登録されるデータの構造の一例を示す説明図である。顔画像ＤＢ６３０では、個人認証用顔画像データ格納フィールド７１０と、マイクゲイン値格納フィールド７２０とが１対１に対応付けられたレコードが複数格納されている。

個人認証用顔画像データ格納フィールド７１０には、顔画像正規化部６１０から出力された顔画像データ、又は顔画像認証／登録部６２０における顔認証処理結果としての顔画像の特徴点のデータが格納される。個人認証用顔画像データ格納フィールド７１０に顔画像認証／登録部６２０における顔認証処理結果としての顔画像の特徴点のデータが格納されることで、顔画像ＤＢ６３０の容量を低減できる。マイクゲイン値格納フィールド７２０には、マイクゲイン登録部６５０により書き込まれて登録されたマイクゲイン値が格納される。

また、顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データが顔画像ＤＢ６３０に既に登録（記憶）されていると判定した場合には、顔画像正規化部６１０から出力された顔画像データに対応付けて登録されているマイクゲイン値を音声処理部２２２に出力する。

記憶部の一例としての顔画像ＤＢ６３０は、図５に示す個人認証用顔画像データ格納フィールド７１０とマイクゲイン値格納フィールド７２０とを含むレコードを記憶する。このレコードは、個人認証用顔画像データ格納フィールド７１０に格納される顔画像、即ち会議端末装置１０Ａを用いる会議出席者毎に生成される。

増幅率設定部の一例としてのマイクゲイン設定部６４０は、入力部５００において入力されたマイクゲイン値を制御部４００から取得した場合には、顔画像認証／登録部６２０から出力された通知を基に、マイクゲイン値をマイクゲイン登録部６５０に出力する。なお、制御部４００は、入力部５００において入力されたマイクゲイン値が上述した最小保証値から最大保証値の間の値ではない場合には、所定の警告メッセージをディスプレイ３１０に表示させ、適正なマイクゲイン値を会議出席者ＵＡに再度入力させても良い。

なお、マイクゲイン設定部６４０は、顔画像正規化部６１０から出力された顔画像データに対応付けられるマイクゲイン値が未だ登録されていない場合には、入力部５００において入力されたマイクゲイン値を用いずに、例えば参考特許文献１に示すゲイン自動設定装置の構成を用いることで、マイク２２０により収音された通話音声の音声信号に適したマイクゲイン値を算出してマイクゲイン登録部６５０に出力しても良い。

（参考特許文献１）特開２０１１−１５１６３４号公報

登録部の一例としてのマイクゲイン登録部６５０は、マイクゲイン設定部６４０から出力されたマイクゲイン値を、顔画像認証／登録部６２０により登録された顔画像データに対応付けて顔画像ＤＢ６３０に登録する。即ち、マイクゲイン登録部６５０は、マイクゲイン設定部６４０から出力されたマイクゲイン値を、顔画像認証／登録部６２０により登録された顔画像データが格納された個人認証用顔画像データ格納フィールド７１０に対応するマイクゲイン値格納フィールド７２０に書き込むことで登録する。

マイクゲイン登録部６５０は、マイクゲイン設定部６４０から出力されたマイクゲイン値を個人認証用顔画像データ格納フィールド７１０に対応するマイクゲイン値格納フィールド７２０に登録した旨の通知を顔画像認証／登録部６２０に出力する。これにより、顔画像認証／登録部６２０は、顔画像データとマイクゲイン値とが１対１に対応付けられたレコードが顔画像ＤＢ６３０に記憶されたことを判定することができる。

次に、本実施形態の会議端末装置１０Ａの登録処理部２１３の動作手順について、図４を参照して説明する。図４は、第１の実施形態の会議端末装置１０Ａの登録処理部２１３の動作手順を説明するフローチャートである。

図４において、顔画像切り出し部６００は、公知の顔画像抽出処理によって、画像入力Ｉ／Ｆ２１２から出力された会議出席者ＵＡの画像を含む画像信号から会議出席者ＵＡの顔画像データを抽出する（Ｓ１１）。顔画像切り出し部６００は、抽出された会議出席者ＵＡの顔画像データを顔画像正規化部６１０に出力する。

顔画像正規化部６１０は、顔画像切り出し部６００から出力された顔画像データに対し所定の正規化処理を施して顔画像認証／登録部６２０に出力する（Ｓ１２）。

顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データに対して公知の顔認証処理を行うことで、顔画像正規化部６１０から出力された顔画像が顔画像ＤＢ６３０に登録（記憶）されているか否かを判定する（Ｓ１３）。

顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データが顔画像ＤＢ６３０に既に登録（記憶）されていると判定した場合には（Ｓ１３、ＹＥＳ）、顔画像正規化部６１０から出力された顔画像データに対応付けて登録されているマイク２２０のマイクゲイン値を顔画像ＤＢ６３０から取得する（Ｓ１４）。更に、顔画像認証／登録部６２０は、顔画像ＤＢ６３０から取得したマイク２２０のマイクゲイン値を音声処理部２２２に出力する（Ｓ１８）。

一方、顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データが顔画像ＤＢ６３０に登録（記憶）されていないと判定した場合には（Ｓ１３、ＮＯ）、顔画像正規化部６１０から出力された顔画像データを、顔画像ＤＢ６３０の個人認証用顔画像データ格納フィールド７１０（図５参照）に新規に登録する（Ｓ１５）。顔画像認証／登録部６２０は、顔画像正規化部６１０から出力された顔画像データを、顔画像ＤＢ６３０の個人認証用顔画像データ格納フィールド７１０（図５参照）に登録した旨の通知をマイクゲイン設定部６４０に出力する。

マイクゲイン設定部６４０は、入力部５００において入力されたマイクゲイン値を制御部４００から取得した場合には、顔画像認証／登録部６２０から出力された通知を基に、入力部５００において入力されたマイクゲイン値を設定値としてマイクゲイン登録部６５０に出力する（Ｓ１６）。

マイクゲイン登録部６５０は、マイクゲイン設定部６４０から出力されたマイクゲイン値を、顔画像認証／登録部６２０により登録された顔画像データが格納された個人認証用顔画像データ格納フィールド７１０に対応するマイクゲイン値格納フィールド７２０に書き込むことで登録する（Ｓ１７）。ステップＳ１７の後、顔画像認証／登録部６２０は、顔画像ＤＢ６３０から取得したマイク２２０のマイクゲイン値を音声処理部２２２に出力する（Ｓ１８）。

なお、音声処理部２２２は、ステップＳ１８において取得したマイクゲイン値を用いて、例えばマイク２２０から出力された音声信号の音量レベルＬｖを増幅又は減衰することで、数式（１）に示す音量レベルＶＡＬＵＥに調整する。

以上により、本実施形態の会議端末装置１０Ａは、カメラ２１０により撮像された会議出席者ＵＡの顔画像と、マイク２２０により収音された会議出席者ＵＡが会議（例えば電話会議又はテレビ会議）における発言内容を含む通話音声の音声信号を増幅させるためのマイクゲイン値と、を対応付けて登録することができる。

これにより、会議端末装置１０Ａは、例えばネットワークＮＷを介して接続された相手端末装置（例えば会議端末装置１０Ｂ，１０Ｃ）との間の電話会議又はテレビ会議において、会議端末装置１０Ａを用いる会議出席者ＵＡの発言内容を含む通話音声の音声信号の音量レベルを、会議出席者ＵＡに応じて増幅又は減衰させることができる。従って、会議端末装置１０Ａは、会議端末装置１０Ａを用いる会議出席者ＵＡの声の声量に合わせてマイクゲイン値を調整できるので、通話音声が割れることがないので通話の快適さを損なわずに電話会議又はテレビ会議を円滑に行うことができる。

（第２の実施形態）
例えば会議出席者ＵＡの声量が一定である場合、会議端末装置１０Ａと会議出席者ＵＡとの間の距離が長いと、会議端末装置１０Ａと会議出席者ＵＡとの間の距離が短い場合に比べて、マイク２２０により収音された会議出席者ＵＡの音声の音量レベルは小さくなる。一方、同様に会議端末装置１０Ａと会議出席者ＵＡとの間の距離が短いと、会議端末装置１０Ａと会議出席者ＵＡとの間の距離が長い場合に比べて、マイク２２０により収音された会議出席者ＵＡの音声の音量レベルは大きくなる。

第１の実施形態では、上述した会議端末装置１０Ａと会議出席者ＵＡとの間の距離に起因する音声信号の音量レベルの大小関係は考慮されていない。

第２の実施形態では、会議端末装置１０Ａａは、マイクゲイン値を顔画像ＤＢ６３０に登録する際、会議端末装置１０Ａと会議出席者ＵＡとの間の距離に起因する音声信号の音量レベルの大小関係を考慮して、マイクゲイン値を補正する。

図６は、第２の実施形態の会議端末装置１０Ａａの登録処理部２１３の内部構成の一例を示すブロック図である。本実施形態の会議端末装置１０Ａａは、図２に示す会議端末装置１０の構成に、測距部８１０を更に含む構成である。即ち、会議端末装置１０Ａａは、カメラ２１０と、画像入力Ｉ／Ｆ２１２と、登録処理部２１３と、画像エンコーダ２１４と、マイク２２０と、音声処理部２２２と、音声エンコーダ２２４と、多重化部２３０と、無線送信部２４０と、ディスプレイ３１０と、画像出力Ｉ／Ｆ３１２と、画像デコーダ３１４と、スピーカ３２０と、音声出力Ｉ／Ｆ３２２と、音声デコーダ３２４と、分離部３３０と、無線受信部３４０と、制御部４００と、入力部５００と、測距部８１０とを含む。

図６に示す本実施形態の会議端末装置１０Ａａでは、図２又は図３に示す会議端末装置１０Ａ又は登録処理部２１３と同一の構成及び動作をするものには同一の符号を付して説明を省略又は簡略化し、異なる内容について説明する。

測距部８１０は、予め定められた既定の周期毎に、例えば市販されている測距センサを用いて構成され、会議端末装置１０Ａと会議出席者ＵＡとの間の距離を測定し、測定結果の距離データを顔画像認証／登録部６２０に出力する。なお、測距部８１０は、複数のカメラ２１０を用いて三角測量の原理に基づいて、会議端末装置１０Ａと会議出席者ＵＡとの間の距離を測定しても良い。また、測距部８１０は、スペクトル拡散された超音波の往復時間を基にして、会議端末装置１０Ａと会議出席者ＵＡとの間の距離を測定しても良い。

顔画像認証／登録部６２０は、測距部８１０から出力された距離データを用いて、数式（２）に従って、会議出席者ＵＡの顔画像データに対応付けられたマイクゲイン値Ｇａを補正する。顔画像認証／登録部６２０、顔画像正規化部６１０から出力された顔画像データに対応付けられているマイクゲイン値Ｇａを、数式（２）に従って補正されたマイクゲイン値Ｇａに更新する。顔画像認証／登録部６２０は、更新されたマイクゲイン値Ｇａを音声処理部２２２に出力する。

数式（２）において、Ｇａは補正後のマイクゲイン値を表し、Ｇａ０は会議端末装置１０Ａから既定の基準距離（例えば１００ｃｍ）離れた位置におけるマイクゲイン値を表し、Ｆａは会議端末装置１０Ａと会議出席者ＵＡとの間の距離と基準距離（例えば１００ｃｍ）との違いに応じたマイクゲイン値の補正要因係数を表す。

なお、基準距離はマイク２２０の性能に応じて定められる値であり、常に１００ｃｍに限定されない。また、補正要因係数Ｆａは、例えば音源が点である点音源モデルを想定した場合に、音声信号の音量レベルは点音源からの距離の２乗に比例して減衰する事実を基にして定められる。本実施形態では、補正要因係数Ｆａは、数式（３）により示される。数式（３）において、Ｂ１は基準距離を表し、Ｂ２は測距部８１０により測定された会議端末装置１０Ａと会議出席者ＵＡとの距離を表す。

次に、本実施形態の会議端末装置１０Ａａの登録処理部２１３の動作手順について、図７を参照して説明する。図７は、第２の実施形態の会議端末装置１０Ａａの登録処理部２１３の動作手順を説明するフローチャートである。図７では、図４に示すフローチャートの各動作と同一の内容の図示及び説明を省略又は簡略化し、異なる内容について説明する。

図７において、顔画像認証／登録部６２０は、ステップＳ１４又はステップＳ１７の後、会議出席者ＵＡの顔画像データに対応付けて登録されているマイクゲイン値Ｇａを顔画像ＤＢ６３０から読み出して取得する（Ｓ２１）。

顔画像認証／登録部６２０は、会議端末装置１０Ａと会議出席者ＵＡとの間の距離データを測距部８１０から取得する（Ｓ２２）。

顔画像認証／登録部６２０は、ステップＳ２１において読み出されたマイクゲイン値Ｇａと、ステップＳ２２において取得された会議端末装置１０Ａと会議出席者ＵＡとの間の距離データとを基に、上述した数式（２）に従って、会議出席者ＵＡの顔画像データに対応付けられたマイクゲイン値Ｇａを補正する（Ｓ２３）。

顔画像認証／登録部６２０は、ステップＳ２３において補正されたマイクゲイン値Ｇａを音声処理部２２２に出力する（Ｓ２４）。

以上により、本実施形態の会議端末装置１０Ａａは、測距部８１０においてマイク２２０と会議端末装置１０Ａａを用いる会議出席者ＵＡとの間の距離を測定する。これにより、会議端末装置１０Ａａは、会議端末装置１０Ａａと会議出席者ＵＡとの間の距離に起因する音声信号の音量レベルの大小関係を考慮して、測定結果の距離に応じて、会議出席者毎に登録されたマイク２２０のマイクゲイン値を効果的に補正することができる。例えば、会議端末装置１０Ａａは、マイク２２０と会議出席者ＵＡとの距離が長い場合には、マイク２２０のマイクゲイン値Ｇａを大きな値に補正でき、マイク２２０と会議出席者ＵＡとの距離が短い場合には、マイク２２０のマイクゲイン値Ｇａを小さい値に補正できる。

（第３の実施形態）
第３の実施形態では、会議端末装置１０Ａｂは、会議出席者ＵＡの入力操作に応じて、顔画像ＤＢ６３０に記憶されている１つ又は複数のレコード、即ち会議出席者の顔画像データとマイク２２０のマイクゲイン値Ｇａとが１対１に対応付けられた１つ又は複数のレコードを削除し、又は、顔画像データ若しくはマイクゲイン値Ｇａを修正する。

図８は、第３の実施形態の会議端末装置１０Ａｂの登録処理部２１３及び制御部４００の内部構成の一例を示すブロック図である。本実施形態の会議端末装置１０Ａｂは、図２に示す会議端末装置１０の制御部４００の構成に、顔画像ＤＢエディタ４２０を更に含む構成である。即ち、会議端末装置１０Ａｂは、カメラ２１０と、画像入力Ｉ／Ｆ２１２と、登録処理部２１３と、画像エンコーダ２１４と、マイク２２０と、音声処理部２２２と、音声エンコーダ２２４と、多重化部２３０と、無線送信部２４０と、ディスプレイ３１０と、画像出力Ｉ／Ｆ３１２と、画像デコーダ３１４と、スピーカ３２０と、音声出力Ｉ／Ｆ３２２と、音声デコーダ３２４と、分離部３３０と、無線受信部３４０と、顔画像ＤＢエディタ４２０を含む制御部４００と、入力部５００とを含む。

図８に示す本実施形態の会議端末装置１０Ａｂでは、図２又は図３に示す会議端末装置１０Ａ又は登録処理部２１３と同一の構成及び動作をするものには同一の符号を付して説明を省略又は簡略化し、異なる内容について説明する。

顔画像ＤＢエディタ４２０は、会議出席者ＵＡの入力部５００に入力された修正操作に応じて、会議出席者の顔画像データとマイク２２０のマイクゲイン値Ｇａとが１対１に対応付けて顔画像ＤＢ６３０に記憶されている１つ又は複数のレコードを削除し、又は、顔画像データ若しくはマイクゲイン値Ｇａを修正する。

例えば、退職者の顔画像データとマイクゲイン値Ｇａとが１対１に対応付けて登録されたレコードが顔画像ＤＢ６３０に記憶されている場合、そのレコードは今後不要となる可能性が高いと考えられる。この場合、顔画像ＤＢエディタ４２０は、会議出席者ＵＡの入力部５００に入力された修正操作に応じて、退職者の顔画像データとマイクゲイン値Ｇａとが１対１に対応付けて登録されたレコードを削除する（図１１参照）。

また、例えば会議出席者ＵＡの顔画像データと１対１に対応付けて登録されているマイクゲイン値Ｇａが少し低いと考えられる場合、他の会議端末装置１０Ｂ，１０Ｃに送信される通話音声の音声信号の音量レベルが小さくなり、快適なテレビ会議の進行が困難となる場合がある。この場合、顔画像ＤＢエディタ４２０は、会議出席者ＵＡの入力部５００に入力された修正操作に応じて、会議出席者ＵＡの顔画像データと１対１に対応付けられたマイクゲイン値Ｇａを現在値より大きな値に修正する（図９及び図１０参照）。

次に、本実施形態の会議端末装置１０Ａｂの顔画像ＤＢエディタ４２０の動作と、その動作に用いられる画面の状態遷移について、図１２を参照して説明する。図１２は、第３の実施形態における顔画像ＤＢエディタ４２０の動作に用いられる画面の状態遷移の一例を示す図である。図１２の説明では、必要に応じて、図９（Ａ）、図９（Ｂ）、図１０、図１１（Ａ）及び図１１（Ｂ）を参照する。

図９（Ａ）は、顔画像ＤＢエディタ４２０を起動した場合のメイン画面の一例を示す図である。図９（Ｂ）は、処理選択画面の一例を示す図である。

例えば図９（Ａ）に示すメイン画面において会議出席者ＵＡの指ＦＧによって「ＡＡＡさん」のレコードが選択（例えばタップ操作）されたとする（Ｓ３１）。顔画像ＤＢエディタ４２０は、指ＦＧによる「ＡＡＡさん」のレコードの選択に応じて、「ＡＡＡさん」のレコードに関する処理画面として、例えば「マイクゲイン値更新」のメニューと「レコード削除」のメニューとをディスプレイ３１０に表示させて、会議出席者ＵＡに選択を促す（図９（Ｂ）参照）。

ここで、会議出席者ＵＡの指ＦＧが「マイクゲイン値更新」のメニューを選択した場合（Ｓ３２−１）、顔画像ＤＢエディタ４２０は、ステップＳ３１において選択された「ＡＡＡさん」のレコードにおいて登録されているマイクゲイン値Ｇａの更新用画面をディスプレイ３１０に表示する（図１０参照）。図１０は、マイクゲイン値Ｇａの更新用画面の一例を示す図である。

例えば図１０に示す更新用画面において会議出席者ＵＡの指ＦＧによって「ＡＡＡさん」のマイクゲイン値が「１２」と入力されて「更新実行」のボタンが選択されたとする（Ｓ３２−２）。顔画像ＤＢエディタ４２０は、「ＡＡＡさん」のレコードのマイクゲイン値Ｇａを、ステップＳ３２−２において入力されたマイクゲイン値に更新する。

また、会議出席者ＵＡの指ＦＧが「レコード削除」のメニューを選択した場合（Ｓ３３−１）、顔画像ＤＢエディタ４２０は、ステップＳ３１において選択された「ＡＡＡさん」のレコードを削除するための確認用画面をディスプレイ３１０に表示する（図１１（Ａ）参照）。図１１（Ａ）は、メイン画面において選択されたレコードを削除する確認用画面の一例を示す図である。図１１（Ｂ）は、選択されたレコードの削除後のメイン画面の一例を示す図である。

例えば図１１（Ａ）に示す確認用画面において会議出席者ＵＡの指ＦＧによって「ＡＡＡさん」に関するレコードを削除するための「はい」のボタンが選択されたとする（Ｓ３３−２）。顔画像ＤＢエディタ４２０は、「ＡＡＡさん」のレコードを、顔画像ＤＢ６３０から削除する。

以上により、本実施形態の会議端末装置１０Ａｂは、会議端末装置１０Ａを用いる会議出席者ＵＡの入力操作に応じて、会議出席者毎に登録されたマイク２２０のマイクゲイン値を適宜修正することができ、又は必要ないレコードを削除することができ、顔画像ＤＢ６３０のメンテナンスを容易に行うことができる。

以下、上述した本発明に係る会議端末装置の構成、作用及び効果を説明する。

本発明の一実施形態は、ネットワークを介して接続された相手端末装置と通信する会議端末装置であって、前記会議端末装置を用いる会議出席者の画像を撮像する撮像部と、前記会議出席者の発言内容を含む通話音声を収音する収音部と、撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出する顔画像抽出部と、収音された前記通話音声の音声信号を増幅させるための前記収音部の増幅率を設定する増幅率設定部と、抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録する登録部と、を備える会議端末装置である。

この構成によれば、会議端末装置１０Ａは、撮像部としてのカメラ２１０により撮像された会議出席者の顔画像と、収音部としてのマイク２２０により収音された会議出席者が会議（例えば電話会議又はテレビ会議）における発言内容を含む通話音声の音声信号を増幅させるためのマイクゲイン値と、を対応付けて登録することができる。

これにより、会議端末装置１０Ａは、例えばネットワークＮＷを介して接続された相手端末装置（例えば会議端末装置１０Ｂ，１０Ｃ）との間の電話会議又はテレビ会議において、会議端末装置１０Ａを用いる会議出席者の発言内容を含む通話音声の音声信号の音量レベルを、会議出席者に応じて増幅又は減衰させることができる。従って、会議端末装置１０Ａは、会議端末装置１０Ａを用いる会議出席者の声の声量に合わせてマイクゲイン値を調整できるので、通話音声が割れることがないので電話会議又はテレビ会議を円滑に行うことができる。

また、本発明の一実施形態は、前記会議出席者の顔画像と前記収音部の増幅率とを対応付けて記憶する記憶部を更に備える会議端末装置である。

この構成によれば、会議端末装置１０Ａは、会議出席者の顔画像とマイク２２０のマイクゲイン値とを１対１に対応付けて登録したデータを記憶することができる。

また、本発明の一実施形態は、前記会議出席者毎に登録された前記収音部の増幅率に応じて、収音された前記通話音声の音声信号の音量レベルを調整する音声処理部、を更に備える会議端末装置である。

この構成によれば、会議端末装置１０Ａは、会議端末装置１０Ａを用いる会議出席者毎に登録されたマイク２２０のマイクゲイン値に応じて、マイク２２０により収音された通話音声の音声信号の音量レベルを調整（例えば増幅又は減衰）することができる。

また、本発明の一実施形態は、前記収音部と前記会議出席者との間の距離を測定する測距部を更に備え、前記登録部は、測定された前記距離に応じて、前記会議出席者毎に登録された収音部の増幅率を補正する会議端末装置である。

この構成によれば、会議端末装置１０Ａａは、測距部８１０においてマイク２２０と会議端末装置１０Ａａを用いる会議出席者との間の距離を測定できるので、測定結果の距離に応じて、会議出席者毎に登録されたマイク２２０のマイクゲイン値を効果的に補正することができる。例えば、会議端末装置１０Ａａは、マイク２２０と会議出席者との距離が長い場合には、マイク２２０のマイクゲイン値を大きな値に補正でき、マイク２２０と会議出席者との距離が短い場合には、マイク２２０のマイクゲイン値を小さい値に補正できる。

また、本発明の一実施形態は、所定の修正操作に応じて、前記記憶部に記憶された前記収音部の増幅率を修正する修正部を更に備える会議端末装置である。

この構成によれば、会議端末装置１０Ａは、テレビ会議の会議出席者毎に登録されたマイク２２０のマイクゲイン値を、会議出席者の修正操作に応じて、適宜修正することができ、顔画像ＤＢ６３０のメンテナンスを容易に行うことができる。

また、本発明の一実施形態は、ネットワークを介して接続された相手端末装置と通信する会議端末装置における増幅率登録方法であって、前記会議端末装置を用いる会議出席者の画像を撮像するステップと、前記会議出席者の発言内容を含む通話音声を収音するステップと、撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出するステップと、収音された前記通話音声の音声信号を増幅させるための前記収音部の増幅率を設定するステップと、抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録するステップと、を有する増幅率登録方法である。

この方法によれば、会議端末装置１０Ａは、撮像部としてのカメラ２１０により撮像された会議出席者の顔画像と、収音部としてのマイク２２０により収音された会議出席者が会議（例えば電話会議又はテレビ会議）における発言内容を含む通話音声の音声信号を増幅させるためのマイクゲイン値と、を対応付けて登録することができる。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明は、ネットワークを介して接続された相手端末との間の電話会議又はテレビ会議において、会議出席者の発言内容を含む通話音声の音声信号の音量レベルを会議出席者に応じて増幅又は減衰でき、電話会議又はテレビ会議を円滑に行う会議端末装置又はマイクゲイン登録方法として有用であり、会議端末装置としては例えば携帯電話機、スマートフォン又はタブレット端末が該当する。

１０Ａ、１０Ｂ、１０Ｃ会議端末装置
２１０カメラ
２１２画像入力Ｉ／Ｆ
２１３登録処理部
２１４画像エンコーダ
２２０マイク
２２２音声処理部
２２４音声エンコーダ
２３０多重化部
２４０無線送信部
３１０ディスプレイ
３１２画像出力Ｉ／Ｆ
３１４画像デコーダ
３２０スピーカ
３２２音声出力Ｉ／Ｆ
３２４音声デコーダ
３３０分離部
３４０無線受信部
４００制御部
４２０顔画像ＤＢエディタ
５００入力部
６００顔画像切り出し部
６１０顔画像正規化部
６２０、６２１顔画像認証／登録部
６３０顔画像ＤＢ
６４０マイクゲイン設定部
６５０マイクゲイン登録部
８１０測距部

Claims

ネットワークを介して接続された相手端末装置と通信する会議端末装置であって、
前記会議端末装置を用いる会議出席者の画像を撮像する撮像部と、
前記会議出席者の発言内容を含む通話音声を収音する収音部と、
撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出する顔画像抽出部と、
収音された前記通話音声の音声信号を増幅させるための前記収音部の増幅率を設定する増幅率設定部と、
抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録する登録部と、を備える、
会議端末装置。
請求項１に記載の会議端末装置であって、
前記会議出席者の顔画像と前記収音部の増幅率とを対応付けて記憶する記憶部、を更に備える、
会議端末装置。
請求項１に記載の会議端末装置であって、
前記会議出席者毎に登録された前記収音部の増幅率に応じて、収音された前記通話音声の音声信号の音量レベルを調整する音声処理部、を更に備える、
会議端末装置。
請求項１に記載の会議端末装置であって、
前記収音部と前記会議出席者との間の距離を測定する測距部、を更に備え、
前記登録部は、
測定された前記距離に応じて、前記会議出席者毎に登録された収音部の増幅率を補正する、
会議端末装置。
請求項２に記載の会議端末装置であって、
所定の修正操作に応じて、前記記憶部に記憶された前記収音部の増幅率を修正する修正部、を更に備える、
会議端末装置。
ネットワークを介して接続された相手端末装置と通信する会議端末装置における増幅率登録方法であって、
前記会議端末装置を用いる会議出席者の画像を撮像するステップと、
前記会議出席者の発言内容を含む通話音声を収音するステップと、
撮像された前記会議出席者の画像を基に、前記会議出席者の顔画像を抽出するステップと、
収音された前記通話音声の音声信号を増幅させるための収音部の増幅率を設定するステップと、
抽出された前記会議出席者の顔画像と設定された前記収音部の増幅率とを対応付けて登録するステップと、を有する、
増幅率登録方法。