JP2013162510A

JP2013162510A - 情報処理端末、およびマイクロホンの配置方法

Info

Publication number: JP2013162510A
Application number: JP2012025741A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-02-09
Filing date: 2012-02-09
Publication date: 2013-08-19

Abstract

【課題】音源分離性能を向上させることができるようにする。
【解決手段】撮影者側の面においては、表示部がその面の中央付近を中心として配置されており、撮影者用マイクロホンは、表示部の周縁部に配置されている。一方、被写体側の面においては、被写体用マイクロホンは、その面のほぼ中央付近に配置されている。すなわち、携帯端末においては、ある音源から被写体用マイクロホンへの距離と、撮影者用マイクロホンへの距離とに差が生じるように、被写体用マイクロホンは、裏面における筐体の端から最も離れた中央付近に配置される。本開示は、例えば、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末に適用することができる。
【選択図】図４

Description

本開示は、情報処理端末、およびマイクロホンの配置方法に関し、特に、音源分離性能を向上させることができるようにした情報処理端末、およびマイクロホンの配置方法に関する。

従来においては、複数のマイクロホンを具備し、音源を分離する提案がなされている（特許文献１参照）。この提案においては、対象音源１を近端話者の音声を聞くためのスピーカから放音される音、対象音源２を遠端話者の音声を聞くためのスピーカから放音される音とすると、対象音源１および２の各音に分離することでエコーを抑制していた。

特開２００９−１４７６５４号公報

上述した提案において、高い抑圧量と高音質とを両立するために、一方のマイクロホンは、対象音源１のそばに、他方のマイクロホンは、対象音源２のそばに設置する必要があった。

しかしながら、上述した提案を音全般に拡張する場合、すなわち、対象音源２が動く人物や車などである場合、実現が困難であった。

本開示は、このような状況に鑑みてなされたものであり、音源分離性能を向上させることができるものである。

本開示の一側面の情報処理端末は、筐体の一方の面に設けられる第１のマイクロホンと、前記筐体の他方の面に設けられる第２のマイクロホンとを備え、前記第１のマイクロホンおよび第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。

前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される。

前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される。

前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる。

前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる。

前記筐体の一方の面または他方の面に表示部をさらに備えることができる。

前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する。

前記筐体は、ユーザに携帯可能に形成されている。

前記第１のマイクロホンから入力される音声信号および前記第２のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部をさらに備えることができる。

本開示の一側面のマイクロホンの配置方法は、筐体の一方の面に設けられる第１のマイクロホンおよび前記筐体の他方の面に設けられる第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。

本開示の一側面においては、筐体の一方の面に設けられる第１のマイクロホンおよび前記筐体の他方の面に設けられる第２のマイクロホンが、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。

本開示によれば、音源分離を行うことができる。特に、音源分離性能を向上させることができる。

本技術を適用した携帯端末の外観の構成例を示す外観図である。携帯端末の内部の構成例を示すブロック図である。音源分離部の構成例を示すブロック図である。マイクロホンの配置例を示す図である。画像音声合成部の構成例を示すブロック図である。出力画像の例を示す図である。携帯端末の処理を説明するフローチャートである。マイクロホンの配置の他の例を示す図である。マイクロホンの配置のさらに他の例を示す図である。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。

[携帯端末の外観の構成例]
図１は、本技術を適用した情報処理端末の一例としての携帯端末の外観の構成例を示す図である。

携帯端末１１は、携帯可能に形成されている。携帯端末１１は、例えば、スマートフォンと呼ばれる、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末などである。携帯端末１１は、他に、タブレット端末や携帯電話機であってもよいし、モバイルＰＣ（Personal Computer）であってもよい。

携帯端末１１は、被写体用カメラ２１と撮影者用カメラ２２の２つのカメラ、被写体用マイクロホン２３と撮影者用マイクロホン２４の２つのマイクロホン、および表示部２５を備えている。被写体用カメラ２１は、被写体用マイクロホン２３に対応するカメラであり、撮影者用カメラ２２は、撮影者用マイクロホン２４に対応するカメラである。すなわち、携帯端末１１は、カメラおよびマイクロホンを２つずつ（２対）有している。これらの２対のカメラおよびマイクロホンは、単独で、あるいは、同時に信号を入力可能に構成されている。

携帯端末１１の筐体の一方の面には、表示部２５が設けられている。以下、表示部２５が設けられている面を表面とし、表示部２５が設けられている面の裏（反対側）を裏面として説明する。表示部２５は、例えば、LCD（Liquid Crystal Display）等で構成され、タッチパネルが積層されている。

１対の撮影者用カメラ２２および撮影者用マイクロホン２４は、表示部２５を見ながら自分（撮影者）の撮影と自分の音声の入力とができるように、携帯端末１１の筐体の表面に設けられている。

撮影者用カメラ２２は、表示部２５の上部に設けられており、撮影者を撮影し、撮影者画像３２の信号を入力する。撮影者用マイクロホン２４は、表示部２５の下部に設けられており、音声の信号を入力する。すなわち、撮影者用マイクロホン２４は、撮影時には撮影者側を向いているため、撮影者が声を発した場合には、撮影者用マイクロホン２４から入力される音声には、撮影者の音源からの音声が含まれる比率が高い。

もう１対の被写体用カメラ２１および被写体用マイクロホン２３は、表示部２５を見ながら、例えば、展示会場の様子や講演者、あるいは、電車などの被写体の撮影と、被写体の音声の入力とができるように、携帯端末１１の筐体の裏面に設けられている。

被写体用カメラ２１は、裏面の上部に設けられており、被写体を撮影し、被写体画像３１の信号を入力する。被写体用マイクロホン２３は、裏面のほぼ中央部に設けられており、音声の信号を入力する。すなわち、被写体用マイクロホン２３は、撮影時には被写体側を向いているため、被写体用マイクロホン２３から入力される音声には、被写体の音源からの音声が含まれる比率が高い。

また、音源（被写体や撮影者）からの被写体用マイクロホン２３の距離と、音源からの撮影者用マイクロホン２４の距離とに差がでるように、被写体用マイクロホン２３は、筐体の裏面に配置され、撮影者用マイクロホン２４は、筐体の表面に配置されている。具体的には、被写体用マイクロホン２３は、筐体の裏面において、ほぼ中央付近に配置され、撮影者用マイクロホン２４は、筐体の表面において、下側の周縁部に配置されている。

なお、図１の例において、携帯端末１１の筐体の表面側が示されているため、裏面に設けられる被写体用カメラ２１および被写体用マイクロホン２３を指し示すラインは点線で示されている。

携帯端末１１は、被写体用マイクロホン２３から入力される音声の信号と、撮影者用マイクロホン２４から入力される音声の信号とから、被写体音声と撮影者音声を分離し、分離した分離結果に応じてミックスバランス（合成割合）を計算する。携帯端末１１は、計算したミックスバランスに基づいて、被写体音声と撮影者音声とを合成した結果である出力音声を生成する。また、携帯端末１１は、計算したミックスバランスに基づいて、被写体画像と撮影者画像とを合成（重畳）した結果である出力画像を生成する。

例えば、ミックスバランスが、被写体音声が撮影者音声よりも大きいことを示す場合、被写体音声が撮影者音声よりも大きくなるように合成して出力音声が生成され、被写体画像が撮影者画像よりも大きくなるように合成して出力画像が生成される。

携帯端末１１は、生成した出力音声の信号と出力画像の信号とを、ネットワークを介して、図示せぬサーバに送信したり、記憶したりする。

以上のように、携帯端末１１においては、音声および画像が２対のカメラとマイクロホンにより入力され、入力された音声から分離される被写体音声と撮影者音声を比較したミックスバランスに応じて合成された出力音声と出力画像からなるコンテンツが得られる。すなわち、音声と画像が連動した割合で合成されるコンテンツが得られる。

したがって、撮影者は、外出先においてモバイル性に優れた携帯端末１１に備えられた２対のカメラおよびマイクロホンを用いて撮影するだけで、音声と画像が連動した割合で合成されるコンテンツを容易に得ることができ、それをサーバに送信することができる。

また、携帯端末１１においては、音源（被写体や撮影者）からの被写体用マイクロホン２３の距離と、音源からの撮影者用マイクロホン２４の距離とに差がでるように、被写体用マイクロホン２３と撮影者用マイクロホン２４とが筐体の各面に配置される。

これにより、２つのマイクロホンからの音声のパワー差が生じるので、入力された音声から被写体音声と撮影者音声との分離性能が向上する。

その結果、入力された音声から分離される被写体音声と撮影者音声を比較したミックスバランスに応じて合成された出力音声と出力画像からなるコンテンツの品質が向上する。

[携帯端末の内部の構成例]
図２は、携帯端末の内部の構成例を示す図である。

図２の例において、携帯端末１１は、図１の被写体用カメラ２１、撮影者用カメラ２２、被写体用マイクロホン２３、および撮影者用マイクロホン２４を含むように構成される。携帯端末１１は、さらに、信号処理部４１、操作入力部４２、通信部４３、および記憶部４４を含むように構成される。なお、図２の例においては、図１の表示部２５の図示は省略されている。

信号処理部４１は、例えば、デジタルシグナルプロセッサ（DSP）などで構成される。信号処理部４１は、音源分離部５１、音声比較部５２、および画像音声合成部５３を含むように構成される。

被写体用カメラ２１より入力された被写体画像３１の信号および撮影者用カメラ２２から入力された撮影者画像３２の信号は、画像音声合成部５３および記憶部４４に供給される。被写体用マイクロホン２３からの音声の信号および撮影者用マイクロホン２４からの音声の信号は、音源分離部５１に入力される。

被写体用マイクロホン２３からの音声には、撮影者用マイクロホン２４からの音声と比して被写体の音源からの音声が含まれる比率が高いが、被写体の音源からの音声だけでなく撮影者の音源からの音声や背景雑音なども含まれている。同様に、撮影者用マイクロホン２４からの音声には、被写体用マイクロホン２３からの音声と比して撮影者の音源からの音声が含まれる比率が高いが撮影者の音源からの音声だけでなく被写体の音源からの音声や背景雑音なども含まれている。

音源分離部５１は、被写体用マイクロホン２３からの音声の信号と撮影者用マイクロホン２４からの音声の信号とを用いて、音源を被写体音声と撮影者音声とに分離する。音源分離部５１においては、例えば、特許文献１や特開２００３−２７１１６７号公報に記載の非定常音源分離法などが用いられて、音源が被写体音声および撮影者音声に分離される。

なお、音源分離の詳細については、図３を参照して後述される。また、音源分離部５１において用いられる音源分離方法としては、上述した非定常音源分離法に限定されず、例えば、適応ビームフォーマやICAなどの音源分離方法であってもよく、どの方法が用いられてもよい。

音源分離部５１は、分離された被写体音声および撮影者音声の信号を、音声比較部５２、画像音声合成部５３、および記憶部４４に供給する。

音声比較部５２は、音源分離部５１による分離結果である被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス（合成割合）を算出する。

画像音声合成部５３には、被写体用カメラ２１より入力された被写体画像３１の信号と撮影者用カメラ２２から入力された撮影者画像３２の信号が供給される。画像音声合成部５３には、音源分離部５１により分離された被写体音声および撮影者音声の信号、並びに、音声比較部５により求められたミックスバランスが供給される。

画像音声合成部５３は、音源分離部５１からのミックスバランスに応じて、被写体画像３１および撮影者画像３２を編集し、出力画像を生成する。また、画像音声合成部５３は、音源分離部５１からのミックスバランスに応じて、被写体音声および撮影者音声を編集し、出力音声を生成する。

すなわち、画像音声合成部５３は、音源分離部５１からのミックスバランスに応じて、被写体画像３１および撮影者画像３２のサイズを変更し、それらを合成（重畳）して、出力画像を生成する。画像音声合成部５３は、音源分離部５１からのミックスバランスに応じて、被写体音声および撮影者音声の音量を変更し、それらを合成して、出力音声を生成する。

画像音声合成部５３は、生成された出力画像および出力音声からなるコンテンツを、通信部４３および記憶部４４に供給する。

操作入力部４２は、筐体に設けられるボタンや、図１の表示部２５に積層されるタッチパネルなどで構成される。操作入力部４２は、ユーザによる操作を、被写体用カメラ２１、撮影者用カメラ２２、被写体用マイクロホン２３、および撮影者用マイクロホン２４、並び画像音声合成部５３のうち、操作内容に対応する部に供給する。

通信部４３は、画像音声合成部５３から供給された出力画像および出力音声からなるコンテンツを、インターネットなどのネットワークを介してサーバに送信する。

記憶部４４は、画像音声合成部５３により編集された出力画像および出力音声からなるコンテンツを記憶する。記憶部４４は、合成前の画像として、被写体用カメラ２１より入力された被写体画像３１の信号と撮影者用カメラ２２から入力された撮影者画像３２の信号を記憶する。また、記憶部４４は、合成前の音声として、音源分離部５１により分離された被写体音声および撮影者音声の信号を記憶する。

なお、記憶部４４においては、合成前の音声として、分離後の被写体音声および撮影者音声の信号が記憶されるが、それらの代わりに、被写体用マイクロホン２３から入力された音声および撮影者用マイクロホン２４から入力された音声が記憶されてもよい。

[音源分離部の構成例]
図３は、図２の音源分離部５１の構成例を示す図である。

図３の例において、音源分離部５１は、帯域分割部６１ａおよび６１ｂ、音源分離部６２−１乃至６２−１０２４、並びに帯域合成部６３を含むように構成されている。

被写体用マイクロホン２３、撮影者用マイクロホン２４から供給されるアナログ音声データは、図示せぬA/D変換部により、ディジタル音声データに変換され、変換されたディジタル音声データは、それぞれ、帯域分割部６１ａおよび６１ｂに供給される。

帯域分割部６１ａおよび６１ｂは、それぞれ、供給されるディジタル音声データを、時間領域から周波数領域に変換し、１０２４チャンネルに帯域分割する。すなわち、帯域分割部６１ａおよび６１ｂは、ディジタル音声データに含まれる音声信号を、所定の周波数帯域毎に分割する帯域分割処理をそれぞれ行う。帯域分割処理には、例えば、フーリエ変換を用いる。フーリエ変換により、時間領域から周波数領域への変換をし、処理を加えた後に、フーリエ逆変換をすることで時間領域のデータに再合成できる。

なお、帯域分割処理には、DFT（Discrete Fourier Transform：離散フーリエ変換）フィルタバンク等の技術を用いても構わない。また、図３の例においては、被写体用マイクロホン２３および撮影者用マイクロホン２４のそれぞれに対応して、帯域分割部６１ａおよび６１ｂを設けているが、これに限定しない。すなわち、１つの帯域分割部を用いて、複数のマイクロホンが生成する音声信号を所定の周波数帯域毎に分割するようにしてもよい。

帯域分割部６１ａおよび６１ｂによって帯域分割された音声信号には、例えば、最も低域のチャンネルが第１チャンネルとし、最も高域のチャンネルが第１０２４チャンネルとするよう帯域の順に番号が振られる。そして、帯域分割部６１ａおよび６１ｂが出力する同じチャンネル（例えば、第ｎチャンネル）の音声信号は、音源分離部６２−ｎに供給される。このため、第１チャンネルの音声信号は、音源分離部６２−１に供給される。また、第２チャンネルの音声信号は、音源分離部６２−２に供給される。以下、同様に、帯域分割部６１ａおよび６１ｂが出力する第１０２４チャンネルの音声信号は、音源分離部６２−１０２４に供給される。

音源分離部６２−１乃至６２−１０２４は、帯域分割された音声信号から、収音した音声に含まれる被写体の音声と撮影者の音声とを分離する音源分離をそれぞれ行う。具体的には、音源分離部６２−１乃至６２−１０２４は、被写体用マイクロホン２３および撮影者用マイクロホン２４のパワーに基づいて音源分離をそれぞれ行う。すなわち、音源分離部６２−１乃至６２−１０２４は、それぞれ、帯域分割部６１ａおよび６１ｂで分割された音声信号の所定の周波数帯域毎に、被写体の音声に含まれる撮影者の音声を分離するとともに、撮影者の音声に含まれる被写体の音声を分離する。

また、音源分離部６２−１乃至６２−１０２４は、それぞれ、時間の変動が少なく定常的に生じる定常ノイズを除く機能も有する。この場合、音源分離部６２−１乃至６２−１０２４は、それぞれ、収音した音声から定常ノイズを取り除くため、２つの音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離する。そして、音源分離部６２−１乃至６２−１０２４は、それぞれ、定常信号に含まれるノイズ成分を抑え、被写体の音声に含まれる撮影者の音声を分離するとともに、撮影者の音声に含まれる被写体の音声を分離する。

帯域合成部６３は、音源分離部６２−１乃至６２−１０２４によってそれぞれ音源分離された音声信号を受取る。そして、音源分離された音声信号のうち、所定の周波数帯域毎に被写体の音声を含む音声信号に合成し、所定の周波数帯域毎に撮影者の音声を含む音声信号に合成する。そして、帯域合成部６３は、合成した被写体音声の音声信号と撮影者音声の音声信号を、他の処理部で処理可能な形式のディジタル音声データとして、音声比較部５２および画像音声合成部５３に供給する。

なお、音源分離部６２−１乃至６２−１０２４を用いて音源分離処理を行う際には、次式（１）乃至式（３）が用いられる。

ここで、各変数のうち、ωは周波数、ｉは被写体用マイクロホン２３と撮影者用マイクロホン２４が、被写体の音源と撮影者の音源からの音声を収音する時間、ＴＨ_１は第１の閾値、ＴＨ_２は第２の閾値、Ｅは期待値を示す関数である。そして、行列パラメータＨ（ω）は、音源Ｓｍからマイクロホンｎへの伝達特性（周波数応答）Ｈ_ｎｍ（ω）を要素とする（２×２）の混合行列である。

Ｈ_１１（ω，ｉ）は、被写体の音源から被写体用マイクロホン２３への第１の伝達特性を示す。Ｈ_２１（ω，ｉ）は、被写体の音源から撮影者用マイクロホン２４への第２の伝達特性を示す。Ｈ_１２（ω，ｉ）は、撮影者の音源から被写体用マイクロホン２３への第３の伝達特性を示す。Ｈ_２２（ω，ｉ）は、撮影者の音源から撮影者用マイクロホン２４への第４の伝達特性を示す。

そして、被写体用マイクロホン２３が生成する音声信号から求められるパワーを第１のパワーＸ_１（ｎ）とし、撮影者用マイクロホン２４が生成する音声信号から求められる第２のパワーＸ_２（ｎ）とする。第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）は、時間変化する値であり、所定の期間で時間平均される。

ただし、周波数ωは、帯域分割部６１ａおよび６１ｂによって、分割される所定の周波数帯域毎に定まる値である。また、第１のパワーＸ_１（ω）を、第２のパワーＸ_２（ω）で除した値が第１の閾値ＴＨ_１より大きくなる値の平均を求める関数Ｅが用いられる。さらに、第１のパワーＸ_１（ω）を、第２のパワーＸ_２（ω）で除した値が第２の閾値ＴＨ_２より大きくなる値の平均を求める関数Ｅが用いられる。

そして、次式（２）および式（３）より、被写体からの音声である時間変化する第１の音声信号Ｙ_１（ω，ｉ）と、撮影者からの音声である第２の音声信号Ｙ_２（ω，ｉ）を求めることによって音声分離を行う。第１の音声信号Ｙ_１（ω，ｉ）は、被写体の音声を含む音声信号である。第２の音声信号Ｙ_２（ω，ｉ）は、撮影者の音声を含む音声信号である。

式（１）は、第１の伝達特性Ｈ_２１（ω）と第２の伝達特性Ｈ_１１（ω）の比と、第３の伝達特性Ｈ_１２（ω）と第４の伝達特性Ｈ_２２（ω）の比を求める式である。式（１）で求まる行列パラメータＨ（ω）は、時間変動する値である。式（１）では、時間平均された第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比を、さらに時間平均することによって値を得る。このため、音源分離部６２−１乃至６２−１０２４で得られる、時間平均された第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比は、従来の音源分離方式における第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比を時間平均した値とは異なる。

式（２）は、式（１）で求めた行列パラメータＨ（ω）と、第１のパワーＸ_１（ｎ）と、第２のパワーＸ_２（ｎ）より、第１の音声信号Ｙ_１（ω）と、第２の音声信号Ｙ_２（ω）を求める式である。第１の音声信号Ｙ_１（ω）は、被写体からの音声である時間平均された被写体の第１の音声信号であり、第２の音声信号Ｙ_２（ω）は、撮影者からの音声である時間平均された第２の音声信号である。

式（３）は、式（２）で求めた第１の音声信号Ｙ_１（ω）と第２の音声信号Ｙ_２（ω）と、第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ω）に基づいて、第１の音声信号Ｙ_１（ω，ｉ）と、第２の音声信号Ｙ_２（ω，ｉ）を求める式である。第１の音声信号Ｙ_１（ω，ｉ）は、被写体からの音声である時間変化する第１の音声信号であり、第２の音声信号Ｙ_２（ω，ｉ）は、撮影者からの音声である時間変化する第２の音声信号である。

本技術においては、行列パラメータＨ（ω）を求める式（１）に、被写体用マイクロホン２３、撮影者用マイクロホン２４のパワー値を用いる。このため、行列パラメータＨ（ω）を求める精度が高い。さらに、音源分離を行う式（２）および式（３）においては、パワー値で求めた抑圧量を瞬時値に適用しているため、瞬時値のばらつきの影響を受けにくい。

なお、本技術においては、さらに、定常ノイズと非定常ノイズが生じる実際の環境に対応するため、式（１）乃至式（３）を、次式（４）乃至式（６）のように拡張する。式（４）乃至式（６）は、定常ノイズと非定常ノイズの影響を取り除くために用いる式である。各変数は、上述した従来の音源分離処理を行う式（１）乃至式（３）で定義したものと同様である。

式（４）は、第１の伝達特性Ｈ_２１（ω）と第２の伝達特性Ｈ_１１（ω）の比と、第３の伝達特性Ｈ_１２（ω）と第４の伝達特性Ｈ_２２（ω）の比を求める式である。

式（４）で求まる行列パラメータＨ（ω）は、時間変動する値である。式（４）においては、第１のパワーＸ_１（ｎ）から被写体用マイクロホン２３に入力される第１のノイズ成分Ｎ_１（ω）を減じる。同様に、第２のパワーＸ_２（ｎ）から撮影者用マイクロホン２４に入力される第２のノイズ成分Ｎ_２（ω）を減ずることを特徴としている。

式（５）は、式（４）で求めた行列パラメータＨ（ω）と、第１のパワーＸ_１（ｎ）と、第１の音声信号Ｙ_１（ω）と、第２のパワーＸ_２（ｎ）より、第１の音声信号Ｙ_１（ω）と、第２の音声信号Ｙ_２（ω）を求める式である。第１の音声信号Ｙ_１（ω）は、被写体からの音声である時間平均された第１の音声信号であり、第２の音声信号Ｙ_２（ω）は、撮影者からの音声である時間平均された第２の音声信号である。

式（６）は、式（５）で求めた第１の音声信号Ｙ_１（ω）と第２の音声信号Ｙ_２（ω）と、第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ω）に基づいて、第１の音声信号Ｙ_１（ω，ｉ）と、第２の音声信号Ｙ_２（ω，ｉ）を求める式である。第１の音声信号Ｙ_１（ω，ｉ）は、被写体からの音声である時間変化する第１の音声信号であり、第２の音声信号Ｙ_２（ω，ｉ）は、撮影者からの音声である時間変化する第２の音声信号である。

このように、式（４）乃至式（６）では、定常ノイズ（第１のノイズ成分Ｎ_１（ω）と第２のノイズ成分Ｎ_２（ω））の影響を除いて計算する。このため、計算した結果得られる音声信号に定常ノイズ成分の影響がない。また、音源分離を行う式（５）および式（６）において、定常ノイズ成分を除去してから非定常ノイズ成分を除去する逆行列を掛けている。このため、定常ノイズ成分と非定常ノイズ成分を同時に除去することが可能である。

[マイクロホンの配置例]
図４は、携帯端末１１におけるマイクロホンの配置例を示す図である。なお、図４の例において、被写体用マイクロホン２３および撮影者用マイクロホン２４は、指向性を有していてもかまわないが、無指向性のマイクロホンである。

図４のＡにおいては、携帯端末１１の筐体における撮影者側の面（表面）が示されており、図４のＢにおいては、携帯端末１１の筐体における被写体側の面（裏面）が示されている。

撮影者側の面においては、図４のＡに示されるように、表示部２５がその面の中央付近を中心として配置されており、撮影者用マイクロホン２４は、表示部２５の周縁部（特に、図中左側）に配置されている。

一方、被写体側の面においては、図４のＢに示されるように、被写体用マイクロホン２３は、その面のほぼ中央付近に配置されている。

携帯端末１１においては、２つのマイクロホンから入力される音声信号を用いて、音声が被写体音声と撮影者音声に分離される。その際、式（１）乃至式（３）を用いて上述したように、対象音に対するマイクロホン間のパワー差が、音源分離の抑圧量や音質の良し悪しに大きく影響してしまう。

例えば、Ｐ_１（ω，ｔ）およびＰ_２（ω，ｔ）は、被写体用マイクロホン２３および撮影者用マイクロホン２４の時刻ｔの周波数ωのパワーである。高い抑圧量と高音質とを両立するためには、撮影者のみが発話したときには、Ｐ_１（ω，ｔ）−Ｐ_２（ω，ｔ）が小さい値となり、被写体のみが発話したときには、Ｐ_１（ω，ｔ）−Ｐ_２（ω，ｔ）が大きい値となる必要がある。

そこで、携帯端末１１においては、ある音源からの被写体用マイクロホン２３への距離と、ある音源からの撮影者用マイクロホン２４への距離とに差が生じるように、被写体用マイクロホン２３が裏面に配置される。具体的には、被写体用マイクロホン２３は、裏面における筐体のいずれの端からも、最も離れた中央付近に配置される。

これにより、ある音源からの音の回り込みが起きることで、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。その結果、携帯端末１１における音源分離性能を向上させることができる。

なお、図４においては、被写体用マイクロホン２３を、筐体の端から最も離れた中央付近に配置する例を示したが、被写体用マイクロホン２３および撮影者用マイクロホン２４のどちらか一方が、筐体の端から最も離れた中央付近に配置されればよい。ただし、両方が筐体の端から最も離れた中央付近に配置されてもよい。

以下、本技術の携帯端末１１で行われる音源分離後の音声信号に対する信号処理の例について、詳細を説明していく。

[画像音声合成部の構成例]
図５は、図２の画像音声合成部５３の構成例を示す図である。

図５の例において、画像音声合成部５３は、合成制御部７１、画像合成部７２、および音声合成部７３を含むように構成される。

合成制御部７１には、操作入力部４２を介してのユーザの指示と、音声比較部５２により求められたミックスバランスが供給される。

なお、音声比較部５２は、音源分離部５１による分離結果である被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス（合成割合）を算出する。具体的には、音声比較部５２は、時間ｔの被写体音声の振幅幅ｘ_１(t)、撮影者音声の振幅幅ｘ_２(t)とすると、各信号のパワー比を用いて、被写体音声のミックスバランスｍ_１(t)と、撮影者音声のミックスバランスｍ_２(t)を求める。各ミックスバランスｍ_１(t)およびｍ_２(t)は、次の式（７）に示されるように求められる。

ここで、Ｅは、期待値演算を表す。

なお、音声比較部５２で求められるミックスバランスとしては、上述した式（７）以外にも、単純にパワーの小さい方を０にしたり、パワー比の二乗にしたりなど、さまざまなバランスが考えられるため、その求め方は、限定されない。

また、ミックスバランスとして、音声検知法（音声を統計モデルで学習するGuassian Miture Model）や、入力音声の倍音成分の割合を求めるSub harmonic summation法などから求められる各音声の音声らしさを用いるようにしてもよい。

合成制御部７１は、操作入力部４２を介してのユーザの指示のもと、供給されるミックスバランスに応じて、画像合成部７２の画像合成および音声合成部７３の音声合成を制御する。

画像合成部７２には、被写体用カメラ２１より入力された被写体画像３１の信号と撮影者用カメラ２２より入力された撮影者画像３２の信号が供給される。画像合成部７２は、合成制御部７１の制御のもと、被写体画像３１および撮影者画像３２のサイズを変更し、それを合成（重畳）して、出力画像を生成する。

音声合成部７３には、音源分離部５１により分離された被写体音声および撮影者音声が供給される。音声合成部７３は、合成制御部７１の制御のもと、被写体音声および撮影者音声の音量を変更し、それを合成し（足し合わせ）て、出力音声を生成する。

なお、音声合成部７３においては、上述した方法のほかに、被写体音声を、ステレオの左チャンネル、撮影者音声をステレオの右チャンネルにして、それぞれにミックスバランスｍ_１(t)、ｍ_２(t)をかけるものを出力してもよい。

次に、これらの合成制御部７１、画像合成部７２、および音声合成部７３の処理について、図６を参照して説明する。

図６の例においては、上段から順に、時刻t0乃至t4に生成される出力画像１０１−１乃至出力画像１０１−４、被写体用カメラ２１より入力される被写体画像３１、音声比較部５２により求められる被写体音声のミックスバランスが示されている。また、それらの下段に、撮影者用カメラ２２より入力される撮影者画像３２、および音声比較部５２により求められる撮影者音声のミックスバランスが示されている。なお、被写体画像３１および撮影者画像３２に関しては、時刻t0乃至t4において矢印が示されているが、これは、左の被写体画像３１および撮影者画像３２が入力され続けていることを表している。

時刻t0乃至t1において、被写体音声のミックスバランスｍ_１(t)は、0.8であり、撮影者音声のミックスバランスｍ_２(t)は、0.2である。合成制御部７１は、ｍ_１(t)＝0.8およびｍ_２(t)＝0.2の場合、被写体画像３１が１とすると、被写体画像３１上に、撮影者画像３２をｍ_２(t)/ ｍ_１(t)＝0.25倍して重畳して表示させるように、画像合成部７２を制御する。

その結果、画像合成部７２においては、画面全体の大きさの被写体画像３１上に0.25倍された撮影者画像３２が右下に重畳（Picture In Picture：PinP）される出力画像１０１−１が生成される。このとき、音声合成部７３も同様に制御されるので、音声合成部７３において、被写体音声が１とすると、撮影者音声は、0.25倍されて、被写体音声と合成され、合成された出力音声が生成される。

次の時刻t1乃至t2において、被写体音声のミックスバランスｍ_１(t)は、1.0であり、撮影者音声のミックスバランスｍ_２(t)は、0.0である。合成制御部７１は、ｍ_１(t)＝1.0およびｍ_２(t)＝0.0の場合、被写体画像３１のみを表示させるように、画像合成部７２を制御する。

その結果、画像合成部７２においては、画面全体の大きさの被写体画像３１のみからなる出力画像１０１−２が生成される。このとき、音声合成部７３も同様に制御されるので、音声合成部７３において、被写体音声のみからなる出力音声が生成される。

時刻t2乃至t3において、被写体音声のミックスバランスｍ_１(t)は、0.2であり、撮影者音声のミックスバランスｍ_２(t)は、0.8である。合成制御部７１は、ｍ_１(t)＝0.2およびｍ_２(t)＝0.8の場合、撮影者画像３２が１とすると、撮影者画像３２上に、被写体画像３１をｍ_１(t)/ ｍ_２(t)＝0.25倍して重畳して表示させるように、画像合成部７２を制御する。

その結果、画像合成部７２においては、画面全体の大きさの撮影者画像３２上に0.25倍された被写体画像３１が右下に重畳される出力画像１０１−３が生成される。このとき、音声合成部７３も同様に制御されるので、音声合成部７３において、撮影者音声が１とすると、被写体音声は、0.25倍されて、撮影者音声と合成され、合成された出力音声が生成される。

次の時刻t3乃至t4において、被写体音声のミックスバランスｍ_１(t)は、0.0であり、撮影者音声のミックスバランスｍ_２(t)は、1.0である。合成制御部７１は、ｍ_１(t)＝0.0およびｍ_２(t)＝1.0の場合、撮影者画像３２のみを表示させるように、画像合成部７２を制御する。

その結果、画像合成部７２においては、画面全体の大きさの撮影者画像３２のみからなる出力画像１０１−４が生成される。このとき、音声合成部７３も同様に制御されるので、音声合成部７３において、撮影者音声のみからなる出力音声が生成される。

以上のように、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声が合成される。すなわち、画像および音声が連動して合成されたコンテンツが生成される。

したがって、ユーザは、画像および音声が連動して合成されたコンテンツを即座に、かつ、容易に得ることができる。また、ユーザは、得られたコンテンツを、通信部４３を介して即座にサーバに送信できるので、その結果、他のユーザも、撮影者と被写体の２つの画像および音声が合成されたコンテンツを即座に楽しむことができる。

なお、図６の例においては、t4までしか示されていないが、t4以降も、それぞれの画像および音声が入力され、音声が分離されて、ミックスバランスが求められる。そして、合成制御部７１においては、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声の合成が制御される。

また、上記説明においては、画像の合成方法として、PinPの例を説明したが、複数の画像を横に並べて表示するSide By Sideにおいて、ミックスバランスに応じて画像サイズを変更するようにしてもよい。

[携帯端末の処理例]
次に、図７のフローチャートを参照して、２対のカメラおよびマイクロホンを用いて撮影した画像および音声をリアルタイムで編集し、サーバに送信する携帯端末１１の処理について説明する。

操作入力部４２を介してユーザの指示が入力されると、被写体用カメラ２１、撮影者用カメラ２２、被写体用マイクロホン２３、および撮影者用マイクロホン２４が動作を開始する。そして、ステップＳ１１において、被写体用カメラ２１、撮影者用カメラ２２、被写体用マイクロホン２３、および撮影者用マイクロホン２４は、それぞれ、画像および音声を入力する。

入力された被写体用カメラ２１からの被写体画像３１の信号および撮影者用カメラ２２からの撮影者画像３２の信号は、画像音声合成部５３および記憶部４４に供給される。入力された被写体用マイクロホン２３からの音声の信号と撮影者用マイクロホン２４からの音声の信号は、音源分離部５１に供給される。

音源分離部５１は、ステップＳ１２において、被写体用マイクロホン２３からの音声の信号と撮影者用マイクロホン２４からの音声の信号を用いて、音源を被写体音声および撮影者音声に分離する。音源分離には、例えば、上述した式（１）乃至式（３）または式（４）乃至式（６）が用いられる。分離された被写体音声および撮影者音声の信号は、音声比較部５２、画像音声合成部５３、および記憶部４４に供給される。

音声比較部５２は、ステップＳ１３において、分離された被写体音声および撮影者音声を用いて、上述した式（７）により、被写体音声のミックスバランスｍ_１(t)と、撮影者音声のミックスバランスｍ_２(t)を計算する。求められたミックスバランスｍ_１(t)およびｍ_２(t)は、合成制御部７１に供給される。

合成制御部７１は、ステップＳ１４において、被写体音声のミックスバランスｍ_１(t)が撮影者音声のミックスバランスｍ_２(t)より大きいか否かを判定する。ステップＳ１４において、被写体音声のミックスバランスｍ_１(t)が撮影者音声のミックスバランスｍ_２(t)より大きいと判定された場合、処理は、ステップＳ１５に進む。

合成制御部７１は、ステップＳ１５において、被写体画像３１の圧縮率ｇ_１(t)と撮影者画像３２の圧縮率ｇ_２(t)を、次の式（８）のように設定し、設定した圧縮率ｇ_１(t)およびｇ_２(t)を、画像合成部７２に供給する。

ｇ_１(t)＝１．０
ｇ_２(t)＝ｍ_２(t)/ ｍ_１(t) ・・・（８）

また、ステップＳ１４において、被写体音声のミックスバランスｍ_１(t)が撮影者音声のミックスバランスｍ_２(t)以下であると判定された場合、処理は、ステップＳ１６に進む。

合成制御部７１は、ステップＳ１６において、被写体画像３１の圧縮率ｇ_１(t)と撮影者画像３２の圧縮率ｇ_２ (t)を、次の式（９）のように設定し、設定した圧縮率ｇ_１(t)およびｇ_２(t)を、画像合成部７２に供給する。

ｇ_１(t)＝ｍ_１(t)/ ｍ_２(t)
ｇ_２(t)＝１．０・・・（９）

ステップＳ１７において、画像合成部７２は、合成制御部７１から供給された圧縮率ｇ_１(t)およびｇ_２(t)で、被写体画像３１と撮影者画像３２の画像サイズを変更し、被写体画像３１と撮影者画像３２を重畳する。これにより、被写体画像３１と撮影者画像３２が重畳された出力画像（例えば、図６の出力画像１０１−１）が生成される。

ステップＳ１８において、合成制御部７１は、音声合成部７３に、被写体音声のミックスバランスｍ_１(t)および撮影者音声のミックスバランスｍ_２(t)を供給し、出力音声ｙ(t)を生成させる。

すなわち、音声合成部７３は、被写体音声の振幅幅ｘ_１(t)および撮影者音声の振幅幅ｘ_２(t)と、被写体音声のミックスバランスｍ_１(t)および撮影者音声のミックスバランスｍ_２(t)とを用いて、次の式（１０）のように、出力音声ｙ(t)を生成する。

ｙ(t) ＝ｍ_１(t)×ｘ_１(t)＋ｍ_２(t)×ｘ_２(t) ・・・（１０）

ステップＳ１９において、画像合成部７２および音声合成部７３は、合成制御部７１の制御のもと、生成された出力画像および出力音声を同期させて、コンテンツとして、通信部４３および記憶部４４に出力する。

これに対応して、通信部４３は、ネットワークを介して図示せぬサーバの所望のサイトに、コンテンツを送信する。記憶部４４は、コンテンツを記憶する。なお、記憶部４４においては、入力された被写体用カメラ２１からの被写体画像３１の信号および撮影者用カメラ２２からの撮影者画像３２の信号、分離された被写体音声および撮影者音声の信号、並びに、それらから生成されたコンテンツは関連付けて記憶される。

合成制御部７１は、ステップＳ２０において、処理を終了するか否かを判定する。操作入力部４２を介して、ユーザにより処理終了が指示されると、合成制御部７１は、ステップＳ２０において、処理を終了すると判定し、図７の処理は終了される。

一方、ステップＳ２０において、処理を終了しないと判定されると、処理は、ステップＳ１１に戻り、それ以降の処理が繰り返される。

以上のように、２対のカメラおよびマイクロホンを用いて入力された画像および音声が、リアルタイムで編集され、編集（すなわち、画像および音声が連動して合成）されたコンテンツがサーバに送信される。

すなわち、ユーザは、リアルタイム編集を容易に行うことができ、ユーザにとって利便性が高い。また、他のユーザは、即座にコンテンツがサーバにアップされるので、リアルタイムに近い時間で、撮影者の画像やコメントなども含まれている、面白みのあるコンテンツを見ることができる。

なお、上記説明においては、被写体用マイクロホン２３および撮影者用マイクロホン２４が、無指向性のマイクロホンである場合の例を説明してきたが、指向性を有するマイクロホンである場合について、次の図８を参照して説明する。

[マイクロホンの配置の他の例]
図８は、携帯端末１１におけるマイクロホンの配置例を示す図である。なお、図８の例において、被写体用マイクロホン１５１および撮影者用マイクロホン１５２は、単一の指向性を有している。なお、被写体用マイクロホン１５１および撮影者用マイクロホン１５２は、指向性の有無が異なるだけであり、その他は、基本的に、被写体用マイクロホン２３および撮影者用マイクロホン２４と同様に動作する。

図８のＡにおいては、携帯端末１１の筐体における撮影者側の面（表面）が示されており、図８のＢにおいては、携帯端末１１の筐体における被写体側の面（裏面）が示されている。

撮影者側の面においては、図８のＡに示されるように、表示部２５がその面の中央付近を中心として配置されており、撮影者用マイクロホン１５２は、表示部２５の周縁部（特に図中左側）に配置されている。

一方、被写体側の面においては、図８のＢに示されるように、被写体用マイクロホン１５１は、その面の周縁部（図中右上側）に配置されている。特に、図８の例においては、被写体用マイクロホン１５１は、撮影者用マイクロホン１５２に対して左右逆側に配置されている。

すなわち、図８の例においては、被写体用マイクロホン１５１および撮影者用マイクロホン１５２が、指向性を有しているため、一方を撮影者側に向け、他方を被写体側に向けるだけで、対象音（音源）に対するマイクロホン間のパワー差を大きくすることができる。これにより、高い抑圧量と高音質を実現できる。

なお、図８の例においては、被写体用マイクロホン１５１および撮影者用マイクロホン１５２の両方が指向性を有する例を説明したが、少なくともどちらか一方が指向性を有していればよい。例えば、一方のマイクロホンが指向性を有しており、他方のマイクロホンが無指向性である場合でも、パワー差が大きくなるので、高い抑圧量と高音質を実現できる。

以上のように、少なくとも一方のマイクロホンが単一の指向性を有している場合、一方を撮影者側に向け、他方を被写体側に向けるだけで、対象音（音源）に対するマイクロホン間のパワー差を大きくすることができる。したがって、この場合、どちらか一方のマイクロホンを、筐体の面のほぼ中央に置く必要がないので、マイクロホンの配置位置の面で、図４の例よりも自由度が増す。

なお、例えば、両方のマイクロホンが指向性を有していない場合に、表示部が設けられるなどの理由で、筐体のほぼ中央にどちらか一方のマイクロホンが配置できないこともあり得る。このような場合には、次の図９に示される部品などを設けることにより、両方のマイクロホンが指向性を有していない場合に両方のマイクロホンを筐体の周縁部などに配置しても、パワー差を大きくすることが可能になる。

[マイクロホンの配置の他の例]
図９は、携帯端末１１におけるマイクロホンの配置例を示す図である。なお、図９の例において、被写体用マイクロホン１６１および撮影者用マイクロホン１６２は、指向性を有していない。また、被写体用マイクロホン１６１および撮影者用マイクロホン１６２は、基本的に、被写体用マイクロホン２３および撮影者用マイクロホン２４と同様に動作する。

図９のＡにおいては、携帯端末１１の筐体における撮影者側の面（表面）が示されており、図９のＢにおいては、携帯端末１１の筐体における被写体側の面（裏面）が示されている。

撮影者側の面においては、図９のＡに示されるように、表示部２５がその面の中央付近を中心として配置されており、撮影者用マイクロホン１６２は、表示部２５の周縁部（特に図中左側）に配置されている。さらに、撮影者用マイクロホン１６２と、表面における端のうち、撮影者用マイクロホン１６２の位置から距離の近い左端との間に、音を回避（回り込ませる）させるための凸部１７１が設けられている。

この凸部１７１は、筐体の表面から０以上１ｍｍ未満ほど出るように設けられている。なお、図９の例においては、凸部１７１は、半楕円の形状をしているが、撮影者用マイクロホン１６２の位置から距離の近い左端側において、表面（：ひょうめん）より突出していれば、どのような形状であってもかまわない。また、撮影者用マイクロホン１６２の位置が、図中上下の端から距離がある場合には、上下側を囲むようにする必要もないので、長方形の形状であってもよい。

この凸部１７１により、音の回り込みが起き、ある音源から被写体用マイクロホン２３への距離と、撮影者用マイクロホン２４への距離とに差が生じるので、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。

一方、被写体側の面においては、図９のＢに示されるように、被写体用マイクロホン１５１は、その面の周縁部（図中右上側）に配置されている。さらに、表面における端のうち、撮影者用マイクロホン１６２の位置から距離の近い端に、音を回避（回り込ませる）させるための突起物１７２が設けられている。

なお、図９のＢの場合は、被写体用マイクロホン１６１は、右側の筐体の端と、上側の筐体の端の２つの端から距離が近い位置に配置されている。したがって、突起物１７２は、右側の筐体の端と、上側の筐体の端の２つの端にかかるように設けられている。

なお、被写体用マイクロホン１５１が、右側の筐体の端にだけ距離が近い位置に配置されている場合には、突起物１７２は、右側の筐体の端に突起する長方形状で構成される。すなわち、図９のＢに点線で示されるように、撮影者用マイクロホン１６２に対して突起物１７３を設ける場合、撮影者用マイクロホン１６２は、表示部２５の図中左側の周縁部に配置されているので、突起物１７３は、左側の筐体の端に突起する長方形状で構成される。

この突起物１７２または１７３により、音の回り込みが起き、ある音源から被写体用マイクロホン２３への距離と、撮影者用マイクロホン２４への距離とに差が生じるので、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。

なお、図９の例においては、被写体用マイクロホン１６１に対して、凸部１７１を設け、撮影者用マイクロホン１６２に対して、突起物１７２を設ける例を示したが、図９の例のように、両方に凸部および突起物を設けるようにしてもよい。もちろん、両方に設けられなくてもよく、どちらか一方のマイクロホンに対して、凸部１７１または突起物１７２が設けられていればよい。

以上のように、携帯端末１１においては、ある音源から被写体用マイクロホンへの距離と、撮影者用マイクロホンへの距離とに差が生じるように、被写体用マイクロホンと撮影者用マイクロホンが、各面に配置される。

なお、本技術が適用される音源分離方法は、上述した方法に限らない。例えば、音源分離方法が、適応ビームフォーマやICAなどであっても、マイクロホン間の相互相関が低くなることで、音源性能が向上する。

なお、本技術の適用範囲は、上述したような携帯可能な端末に限らない。また、本技術は、図１の携帯端末などにより入力された音声信号を用いて、他の信号処理装置（例えば、サーバなど）において音声の分離を行う場合にも適用される。

また、上述した、図１の携帯端末１１における音源分離後の信号処理は、一例であり、音源分離後の音声信号に対して、他の信号処理が行われてもよい。

上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

[コンピュータの構成例]
図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロホンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）筐体の一方の面に設けられる第１のマイクロホンと、
前記筐体の他方の面に設けられる第２のマイクロホンと
を備え、
前記第１のマイクロホンおよび第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
情報処理端末。
（２）前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される
前記（１）に記載の情報処理端末。
（３）前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される
前記（１）または（２）に記載の情報処理端末。
（４）前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる
前記（３）に記載の情報処理端末。
（５）前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる
前記（３）に記載の情報処理端末。
（６）前記筐体の一方の面または他方の面に表示部を
さらに備える前記（１）乃至（５）のいずれかに記載の情報処理端末。
（７）前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する
前記（１）乃至（６）のいずれかに記載の情報処理端末。
（８）前記筐体は、ユーザに携帯可能に形成されている
前記（１）乃至（７）のいずれかに記載の情報処理端末。
（９）前記第１のマイクロホンから入力される音声信号および前記第２のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部を
さらに備える前記（１）乃至（８）のいずれかに記載の情報処理端末。
（１０）筐体の一方の面に設けられる第１のマイクロホンおよび前記筐体の他方の面に設けられる第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
マイクロホンの設置方法。

１１携帯端末，２１被写体用カメラ，２２撮影者用カメラ，２３被写体用マイクロホン，２４撮影者用マイクロホン，２５表示部，４１信号処理部，４２操作入力部，４３通信部，４４記憶部，５１音源分離部，５２音声比較部，５３画像音声合成部，６１ａ，６１ｂ帯域分割部，６２−１乃至６２−１０２４音源分離部，６３帯域合成部，７１合成制御部，７２画像合成部，７３音声合成部，１５１被写体用マイクロホン，１５２撮影者用マイクロホン，１６１被写体用マイクロホン，１６２撮影者用マイクロホン，

Claims

筐体の一方の面に設けられる第１のマイクロホンと、
前記筐体の他方の面に設けられる第２のマイクロホンと
を備え、
前記第１のマイクロホンおよび第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
情報処理端末。
前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される
請求項１に記載の情報処理端末。
前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される
請求項１に記載の情報処理端末。
前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる
請求項３に記載の情報処理端末。
前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる
請求項３に記載の情報処理端末。
前記筐体の一方の面または他方の面に表示部を
さらに備える請求項１に記載の情報処理端末。
前記第１のマイクロホンおよび前記第２のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する
請求項１に記載の情報処理端末。
前記筐体は、ユーザに携帯可能に形成されている
請求項１に記載の情報処理端末。
前記第１のマイクロホンから入力される音声信号および前記第２のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部を
さらに備える請求項１に記載の情報処理端末。
筐体の一方の面に設けられる第１のマイクロホンおよび前記筐体の他方の面に設けられる第２のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
マイクロホンの配置方法。