JP2013162510A - 情報処理端末、およびマイクロホンの配置方法 - Google Patents

情報処理端末、およびマイクロホンの配置方法 Download PDF

Info

Publication number
JP2013162510A
JP2013162510A JP2012025741A JP2012025741A JP2013162510A JP 2013162510 A JP2013162510 A JP 2013162510A JP 2012025741 A JP2012025741 A JP 2012025741A JP 2012025741 A JP2012025741 A JP 2012025741A JP 2013162510 A JP2013162510 A JP 2013162510A
Authority
JP
Japan
Prior art keywords
microphone
photographer
subject
sound
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012025741A
Other languages
English (en)
Inventor
Yohei Sakuraba
洋平 櫻庭
Yasuhiko Kato
靖彦 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012025741A priority Critical patent/JP2013162510A/ja
Publication of JP2013162510A publication Critical patent/JP2013162510A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】音源分離性能を向上させることができるようにする。
【解決手段】撮影者側の面においては、表示部がその面の中央付近を中心として配置されており、撮影者用マイクロホンは、表示部の周縁部に配置されている。一方、被写体側の面においては、被写体用マイクロホンは、その面のほぼ中央付近に配置されている。すなわち、携帯端末においては、ある音源から被写体用マイクロホンへの距離と、撮影者用マイクロホンへの距離とに差が生じるように、被写体用マイクロホンは、裏面における筐体の端から最も離れた中央付近に配置される。本開示は、例えば、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末に適用することができる。
【選択図】図4

Description

本開示は、情報処理端末、およびマイクロホンの配置方法に関し、特に、音源分離性能を向上させることができるようにした情報処理端末、およびマイクロホンの配置方法に関する。
従来においては、複数のマイクロホンを具備し、音源を分離する提案がなされている(特許文献1参照)。この提案においては、対象音源1を近端話者の音声を聞くためのスピーカから放音される音、対象音源2を遠端話者の音声を聞くためのスピーカから放音される音とすると、対象音源1および2の各音に分離することでエコーを抑制していた。
特開2009−147654号公報
上述した提案において、高い抑圧量と高音質とを両立するために、一方のマイクロホンは、対象音源1のそばに、他方のマイクロホンは、対象音源2のそばに設置する必要があった。
しかしながら、上述した提案を音全般に拡張する場合、すなわち、対象音源2が動く人物や車などである場合、実現が困難であった。
本開示は、このような状況に鑑みてなされたものであり、音源分離性能を向上させることができるものである。
本開示の一側面の情報処理端末は、筐体の一方の面に設けられる第1のマイクロホンと、前記筐体の他方の面に設けられる第2のマイクロホンとを備え、前記第1のマイクロホンおよび第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。
前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される。
前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される。
前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる。
前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる。
前記筐体の一方の面または他方の面に表示部をさらに備えることができる。
前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する。
前記筐体は、ユーザに携帯可能に形成されている。
前記第1のマイクロホンから入力される音声信号および前記第2のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部をさらに備えることができる。
本開示の一側面のマイクロホンの配置方法は、筐体の一方の面に設けられる第1のマイクロホンおよび前記筐体の他方の面に設けられる第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。
本開示の一側面においては、筐体の一方の面に設けられる第1のマイクロホンおよび前記筐体の他方の面に設けられる第2のマイクロホンが、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される。
本開示によれば、音源分離を行うことができる。特に、音源分離性能を向上させることができる。
本技術を適用した携帯端末の外観の構成例を示す外観図である。 携帯端末の内部の構成例を示すブロック図である。 音源分離部の構成例を示すブロック図である。 マイクロホンの配置例を示す図である。 画像音声合成部の構成例を示すブロック図である。 出力画像の例を示す図である。 携帯端末の処理を説明するフローチャートである。 マイクロホンの配置の他の例を示す図である。 マイクロホンの配置のさらに他の例を示す図である。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。
[携帯端末の外観の構成例]
図1は、本技術を適用した情報処理端末の一例としての携帯端末の外観の構成例を示す図である。
携帯端末11は、携帯可能に形成されている。携帯端末11は、例えば、スマートフォンと呼ばれる、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末などである。携帯端末11は、他に、タブレット端末や携帯電話機であってもよいし、モバイルPC(Personal Computer)であってもよい。
携帯端末11は、被写体用カメラ21と撮影者用カメラ22の2つのカメラ、被写体用マイクロホン23と撮影者用マイクロホン24の2つのマイクロホン、および表示部25を備えている。被写体用カメラ21は、被写体用マイクロホン23に対応するカメラであり、撮影者用カメラ22は、撮影者用マイクロホン24に対応するカメラである。すなわち、携帯端末11は、カメラおよびマイクロホンを2つずつ(2対)有している。これらの2対のカメラおよびマイクロホンは、単独で、あるいは、同時に信号を入力可能に構成されている。
携帯端末11の筐体の一方の面には、表示部25が設けられている。以下、表示部25が設けられている面を表面とし、表示部25が設けられている面の裏(反対側)を裏面として説明する。表示部25は、例えば、LCD(Liquid Crystal Display)等で構成され、タッチパネルが積層されている。
1対の撮影者用カメラ22および撮影者用マイクロホン24は、表示部25を見ながら自分(撮影者)の撮影と自分の音声の入力とができるように、携帯端末11の筐体の表面に設けられている。
撮影者用カメラ22は、表示部25の上部に設けられており、撮影者を撮影し、撮影者画像32の信号を入力する。撮影者用マイクロホン24は、表示部25の下部に設けられており、音声の信号を入力する。すなわち、撮影者用マイクロホン24は、撮影時には撮影者側を向いているため、撮影者が声を発した場合には、撮影者用マイクロホン24から入力される音声には、撮影者の音源からの音声が含まれる比率が高い。
もう1対の被写体用カメラ21および被写体用マイクロホン23は、表示部25を見ながら、例えば、展示会場の様子や講演者、あるいは、電車などの被写体の撮影と、被写体の音声の入力とができるように、携帯端末11の筐体の裏面に設けられている。
被写体用カメラ21は、裏面の上部に設けられており、被写体を撮影し、被写体画像31の信号を入力する。被写体用マイクロホン23は、裏面のほぼ中央部に設けられており、音声の信号を入力する。すなわち、被写体用マイクロホン23は、撮影時には被写体側を向いているため、被写体用マイクロホン23から入力される音声には、被写体の音源からの音声が含まれる比率が高い。
また、音源(被写体や撮影者)からの被写体用マイクロホン23の距離と、音源からの撮影者用マイクロホン24の距離とに差がでるように、被写体用マイクロホン23は、筐体の裏面に配置され、撮影者用マイクロホン24は、筐体の表面に配置されている。具体的には、被写体用マイクロホン23は、筐体の裏面において、ほぼ中央付近に配置され、撮影者用マイクロホン24は、筐体の表面において、下側の周縁部に配置されている。
なお、図1の例において、携帯端末11の筐体の表面側が示されているため、裏面に設けられる被写体用カメラ21および被写体用マイクロホン23を指し示すラインは点線で示されている。
携帯端末11は、被写体用マイクロホン23から入力される音声の信号と、撮影者用マイクロホン24から入力される音声の信号とから、被写体音声と撮影者音声を分離し、分離した分離結果に応じてミックスバランス(合成割合)を計算する。携帯端末11は、計算したミックスバランスに基づいて、被写体音声と撮影者音声とを合成した結果である出力音声を生成する。また、携帯端末11は、計算したミックスバランスに基づいて、被写体画像と撮影者画像とを合成(重畳)した結果である出力画像を生成する。
例えば、ミックスバランスが、被写体音声が撮影者音声よりも大きいことを示す場合、被写体音声が撮影者音声よりも大きくなるように合成して出力音声が生成され、被写体画像が撮影者画像よりも大きくなるように合成して出力画像が生成される。
携帯端末11は、生成した出力音声の信号と出力画像の信号とを、ネットワークを介して、図示せぬサーバに送信したり、記憶したりする。
以上のように、携帯端末11においては、音声および画像が2対のカメラとマイクロホンにより入力され、入力された音声から分離される被写体音声と撮影者音声を比較したミックスバランスに応じて合成された出力音声と出力画像からなるコンテンツが得られる。すなわち、音声と画像が連動した割合で合成されるコンテンツが得られる。
したがって、撮影者は、外出先においてモバイル性に優れた携帯端末11に備えられた2対のカメラおよびマイクロホンを用いて撮影するだけで、音声と画像が連動した割合で合成されるコンテンツを容易に得ることができ、それをサーバに送信することができる。
また、携帯端末11においては、音源(被写体や撮影者)からの被写体用マイクロホン23の距離と、音源からの撮影者用マイクロホン24の距離とに差がでるように、被写体用マイクロホン23と撮影者用マイクロホン24とが筐体の各面に配置される。
これにより、2つのマイクロホンからの音声のパワー差が生じるので、入力された音声から被写体音声と撮影者音声との分離性能が向上する。
その結果、入力された音声から分離される被写体音声と撮影者音声を比較したミックスバランスに応じて合成された出力音声と出力画像からなるコンテンツの品質が向上する。
[携帯端末の内部の構成例]
図2は、携帯端末の内部の構成例を示す図である。
図2の例において、携帯端末11は、図1の被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24を含むように構成される。携帯端末11は、さらに、信号処理部41、操作入力部42、通信部43、および記憶部44を含むように構成される。なお、図2の例においては、図1の表示部25の図示は省略されている。
信号処理部41は、例えば、デジタルシグナルプロセッサ(DSP)などで構成される。信号処理部41は、音源分離部51、音声比較部52、および画像音声合成部53を含むように構成される。
被写体用カメラ21より入力された被写体画像31の信号および撮影者用カメラ22から入力された撮影者画像32の信号は、画像音声合成部53および記憶部44に供給される。被写体用マイクロホン23からの音声の信号および撮影者用マイクロホン24からの音声の信号は、音源分離部51に入力される。
被写体用マイクロホン23からの音声には、撮影者用マイクロホン24からの音声と比して被写体の音源からの音声が含まれる比率が高いが、被写体の音源からの音声だけでなく撮影者の音源からの音声や背景雑音なども含まれている。同様に、撮影者用マイクロホン24からの音声には、被写体用マイクロホン23からの音声と比して撮影者の音源からの音声が含まれる比率が高いが撮影者の音源からの音声だけでなく被写体の音源からの音声や背景雑音なども含まれている。
音源分離部51は、被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号とを用いて、音源を被写体音声と撮影者音声とに分離する。音源分離部51においては、例えば、特許文献1や特開2003−271167号公報に記載の非定常音源分離法などが用いられて、音源が被写体音声および撮影者音声に分離される。
なお、音源分離の詳細については、図3を参照して後述される。また、音源分離部51において用いられる音源分離方法としては、上述した非定常音源分離法に限定されず、例えば、適応ビームフォーマやICAなどの音源分離方法であってもよく、どの方法が用いられてもよい。
音源分離部51は、分離された被写体音声および撮影者音声の信号を、音声比較部52、画像音声合成部53、および記憶部44に供給する。
音声比較部52は、音源分離部51による分離結果である被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス(合成割合)を算出する。
画像音声合成部53には、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22から入力された撮影者画像32の信号が供給される。画像音声合成部53には、音源分離部51により分離された被写体音声および撮影者音声の信号、並びに、音声比較部5により求められたミックスバランスが供給される。
画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体画像31および撮影者画像32を編集し、出力画像を生成する。また、画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体音声および撮影者音声を編集し、出力音声を生成する。
すなわち、画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体画像31および撮影者画像32のサイズを変更し、それらを合成(重畳)して、出力画像を生成する。画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体音声および撮影者音声の音量を変更し、それらを合成して、出力音声を生成する。
画像音声合成部53は、生成された出力画像および出力音声からなるコンテンツを、通信部43および記憶部44に供給する。
操作入力部42は、筐体に設けられるボタンや、図1の表示部25に積層されるタッチパネルなどで構成される。操作入力部42は、ユーザによる操作を、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24、並び画像音声合成部53のうち、操作内容に対応する部に供給する。
通信部43は、画像音声合成部53から供給された出力画像および出力音声からなるコンテンツを、インターネットなどのネットワークを介してサーバに送信する。
記憶部44は、画像音声合成部53により編集された出力画像および出力音声からなるコンテンツを記憶する。記憶部44は、合成前の画像として、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22から入力された撮影者画像32の信号を記憶する。また、記憶部44は、合成前の音声として、音源分離部51により分離された被写体音声および撮影者音声の信号を記憶する。
なお、記憶部44においては、合成前の音声として、分離後の被写体音声および撮影者音声の信号が記憶されるが、それらの代わりに、被写体用マイクロホン23から入力された音声および撮影者用マイクロホン24から入力された音声が記憶されてもよい。
[音源分離部の構成例]
図3は、図2の音源分離部51の構成例を示す図である。
図3の例において、音源分離部51は、帯域分割部61aおよび61b、音源分離部62−1乃至62−1024、並びに帯域合成部63を含むように構成されている。
被写体用マイクロホン23、撮影者用マイクロホン24から供給されるアナログ音声データは、図示せぬA/D変換部により、ディジタル音声データに変換され、変換されたディジタル音声データは、それぞれ、帯域分割部61aおよび61bに供給される。
帯域分割部61aおよび61bは、それぞれ、供給されるディジタル音声データを、時間領域から周波数領域に変換し、1024チャンネルに帯域分割する。すなわち、帯域分割部61aおよび61bは、ディジタル音声データに含まれる音声信号を、所定の周波数帯域毎に分割する帯域分割処理をそれぞれ行う。帯域分割処理には、例えば、フーリエ変換を用いる。フーリエ変換により、時間領域から周波数領域への変換をし、処理を加えた後に、フーリエ逆変換をすることで時間領域のデータに再合成できる。
なお、帯域分割処理には、DFT(Discrete Fourier Transform:離散フーリエ変換)フィルタバンク等の技術を用いても構わない。また、図3の例においては、被写体用マイクロホン23および撮影者用マイクロホン24のそれぞれに対応して、帯域分割部61aおよび61bを設けているが、これに限定しない。すなわち、1つの帯域分割部を用いて、複数のマイクロホンが生成する音声信号を所定の周波数帯域毎に分割するようにしてもよい。
帯域分割部61aおよび61bによって帯域分割された音声信号には、例えば、最も低域のチャンネルが第1チャンネルとし、最も高域のチャンネルが第1024チャンネルとするよう帯域の順に番号が振られる。そして、帯域分割部61aおよび61bが出力する同じチャンネル(例えば、第nチャンネル)の音声信号は、音源分離部62−nに供給される。このため、第1チャンネルの音声信号は、音源分離部62−1に供給される。また、第2チャンネルの音声信号は、音源分離部62−2に供給される。以下、同様に、帯域分割部61aおよび61bが出力する第1024チャンネルの音声信号は、音源分離部62−1024に供給される。
音源分離部62−1乃至62−1024は、帯域分割された音声信号から、収音した音声に含まれる被写体の音声と撮影者の音声とを分離する音源分離をそれぞれ行う。具体的には、音源分離部62−1乃至62−1024は、被写体用マイクロホン23および撮影者用マイクロホン24のパワーに基づいて音源分離をそれぞれ行う。すなわち、音源分離部62−1乃至62−1024は、それぞれ、帯域分割部61aおよび61bで分割された音声信号の所定の周波数帯域毎に、被写体の音声に含まれる撮影者の音声を分離するとともに、撮影者の音声に含まれる被写体の音声を分離する。
また、音源分離部62−1乃至62−1024は、それぞれ、時間の変動が少なく定常的に生じる定常ノイズを除く機能も有する。この場合、音源分離部62−1乃至62−1024は、それぞれ、収音した音声から定常ノイズを取り除くため、2つの音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離する。そして、音源分離部62−1乃至62−1024は、それぞれ、定常信号に含まれるノイズ成分を抑え、被写体の音声に含まれる撮影者の音声を分離するとともに、撮影者の音声に含まれる被写体の音声を分離する。
帯域合成部63は、音源分離部62−1乃至62−1024によってそれぞれ音源分離された音声信号を受取る。そして、音源分離された音声信号のうち、所定の周波数帯域毎に被写体の音声を含む音声信号に合成し、所定の周波数帯域毎に撮影者の音声を含む音声信号に合成する。そして、帯域合成部63は、合成した被写体音声の音声信号と撮影者音声の音声信号を、他の処理部で処理可能な形式のディジタル音声データとして、音声比較部52および画像音声合成部53に供給する。
なお、音源分離部62−1乃至62−1024を用いて音源分離処理を行う際には、次式(1)乃至式(3)が用いられる。
ここで、各変数のうち、ωは周波数、iは被写体用マイクロホン23と撮影者用マイクロホン24が、被写体の音源と撮影者の音源からの音声を収音する時間、THは第1の閾値、THは第2の閾値、Eは期待値を示す関数である。そして、行列パラメータH(ω)は、音源Smからマイクロホンnへの伝達特性(周波数応答)Hnm(ω)を要素とする(2×2)の混合行列である。
11(ω,i)は、被写体の音源から被写体用マイクロホン23への第1の伝達特性を示す。H21(ω,i)は、被写体の音源から撮影者用マイクロホン24への第2の伝達特性を示す。H12(ω,i)は、撮影者の音源から被写体用マイクロホン23への第3の伝達特性を示す。H22(ω,i)は、撮影者の音源から撮影者用マイクロホン24への第4の伝達特性を示す。
そして、被写体用マイクロホン23が生成する音声信号から求められるパワーを第1のパワーX(n)とし、撮影者用マイクロホン24が生成する音声信号から求められる第2のパワーX(n)とする。第1のパワーX(n)と第2のパワーX(n)は、時間変化する値であり、所定の期間で時間平均される。
ただし、周波数ωは、帯域分割部61aおよび61bによって、分割される所定の周波数帯域毎に定まる値である。また、第1のパワーX(ω)を、第2のパワーX(ω)で除した値が第1の閾値THより大きくなる値の平均を求める関数Eが用いられる。さらに、第1のパワーX(ω)を、第2のパワーX(ω)で除した値が第2の閾値THより大きくなる値の平均を求める関数Eが用いられる。
そして、次式(2)および式(3)より、被写体からの音声である時間変化する第1の音声信号Y(ω,i)と、撮影者からの音声である第2の音声信号Y(ω,i)を求めることによって音声分離を行う。第1の音声信号Y(ω,i)は、被写体の音声を含む音声信号である。第2の音声信号Y(ω,i)は、撮影者の音声を含む音声信号である。
Figure 2013162510
式(1)は、第1の伝達特性H21(ω)と第2の伝達特性H11(ω)の比と、第3の伝達特性H12(ω)と第4の伝達特性H22(ω)の比を求める式である。式(1)で求まる行列パラメータH(ω)は、時間変動する値である。式(1)では、時間平均された第1のパワーX(n)と第2のパワーX(n)の比を、さらに時間平均することによって値を得る。このため、音源分離部62−1乃至62−1024で得られる、時間平均された第1のパワーX(n)と第2のパワーX(n)の比は、従来の音源分離方式における第1のパワーX(n)と第2のパワーX(n)の比を時間平均した値とは異なる。
Figure 2013162510
式(2)は、式(1)で求めた行列パラメータH(ω)と、第1のパワーX(n)と、第2のパワーX(n)より、第1の音声信号Y(ω)と、第2の音声信号Y(ω)を求める式である。第1の音声信号Y(ω)は、被写体からの音声である時間平均された被写体の第1の音声信号であり、第2の音声信号Y(ω)は、撮影者からの音声である時間平均された第2の音声信号である。
Figure 2013162510
式(3)は、式(2)で求めた第1の音声信号Y(ω)と第2の音声信号Y(ω)と、第1のパワーX(n)と第2のパワーX(ω)に基づいて、第1の音声信号Y(ω,i)と、第2の音声信号Y(ω,i)を求める式である。第1の音声信号Y(ω,i)は、被写体からの音声である時間変化する第1の音声信号であり、第2の音声信号Y(ω,i)は、撮影者からの音声である時間変化する第2の音声信号である。
本技術においては、行列パラメータH(ω)を求める式(1)に、被写体用マイクロホン23、撮影者用マイクロホン24のパワー値を用いる。このため、行列パラメータH(ω)を求める精度が高い。さらに、音源分離を行う式(2)および式(3)においては、パワー値で求めた抑圧量を瞬時値に適用しているため、瞬時値のばらつきの影響を受けにくい。
なお、本技術においては、さらに、定常ノイズと非定常ノイズが生じる実際の環境に対応するため、式(1)乃至式(3)を、次式(4)乃至式(6)のように拡張する。式(4)乃至式(6)は、定常ノイズと非定常ノイズの影響を取り除くために用いる式である。各変数は、上述した従来の音源分離処理を行う式(1)乃至式(3)で定義したものと同様である。
Figure 2013162510
式(4)は、第1の伝達特性H21(ω)と第2の伝達特性H11(ω)の比と、第3の伝達特性H12(ω)と第4の伝達特性H22(ω)の比を求める式である。
式(4)で求まる行列パラメータH(ω)は、時間変動する値である。式(4)においては、第1のパワーX(n)から被写体用マイクロホン23に入力される第1のノイズ成分N(ω)を減じる。同様に、第2のパワーX(n)から撮影者用マイクロホン24に入力される第2のノイズ成分N(ω)を減ずることを特徴としている。
Figure 2013162510
式(5)は、式(4)で求めた行列パラメータH(ω)と、第1のパワーX(n)と、第1の音声信号Y(ω)と、第2のパワーX(n)より、第1の音声信号Y(ω)と、第2の音声信号Y(ω)を求める式である。第1の音声信号Y(ω)は、被写体からの音声である時間平均された第1の音声信号であり、第2の音声信号Y(ω)は、撮影者からの音声である時間平均された第2の音声信号である。
Figure 2013162510
式(6)は、式(5)で求めた第1の音声信号Y(ω)と第2の音声信号Y(ω)と、第1のパワーX(n)と第2のパワーX(ω)に基づいて、第1の音声信号Y(ω,i)と、第2の音声信号Y(ω,i)を求める式である。第1の音声信号Y(ω,i)は、被写体からの音声である時間変化する第1の音声信号であり、第2の音声信号Y(ω,i)は、撮影者からの音声である時間変化する第2の音声信号である。
このように、式(4)乃至式(6)では、定常ノイズ(第1のノイズ成分N(ω)と第2のノイズ成分N(ω))の影響を除いて計算する。このため、計算した結果得られる音声信号に定常ノイズ成分の影響がない。また、音源分離を行う式(5)および式(6)において、定常ノイズ成分を除去してから非定常ノイズ成分を除去する逆行列を掛けている。このため、定常ノイズ成分と非定常ノイズ成分を同時に除去することが可能である。
[マイクロホンの配置例]
図4は、携帯端末11におけるマイクロホンの配置例を示す図である。なお、図4の例において、被写体用マイクロホン23および撮影者用マイクロホン24は、指向性を有していてもかまわないが、無指向性のマイクロホンである。
図4のAにおいては、携帯端末11の筐体における撮影者側の面(表面)が示されており、図4のBにおいては、携帯端末11の筐体における被写体側の面(裏面)が示されている。
撮影者側の面においては、図4のAに示されるように、表示部25がその面の中央付近を中心として配置されており、撮影者用マイクロホン24は、表示部25の周縁部(特に、図中左側)に配置されている。
一方、被写体側の面においては、図4のBに示されるように、被写体用マイクロホン23は、その面のほぼ中央付近に配置されている。
携帯端末11においては、2つのマイクロホンから入力される音声信号を用いて、音声が被写体音声と撮影者音声に分離される。その際、式(1)乃至式(3)を用いて上述したように、対象音に対するマイクロホン間のパワー差が、音源分離の抑圧量や音質の良し悪しに大きく影響してしまう。
例えば、P(ω,t)およびP(ω,t)は、被写体用マイクロホン23および撮影者用マイクロホン24の時刻tの周波数ωのパワーである。高い抑圧量と高音質とを両立するためには、撮影者のみが発話したときには、P(ω,t)−P(ω,t)が小さい値となり、被写体のみが発話したときには、P(ω,t)−P(ω,t)が大きい値となる必要がある。
そこで、携帯端末11においては、ある音源からの被写体用マイクロホン23への距離と、ある音源からの撮影者用マイクロホン24への距離とに差が生じるように、被写体用マイクロホン23が裏面に配置される。具体的には、被写体用マイクロホン23は、裏面における筐体のいずれの端からも、最も離れた中央付近に配置される。
これにより、ある音源からの音の回り込みが起きることで、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。その結果、携帯端末11における音源分離性能を向上させることができる。
なお、図4においては、被写体用マイクロホン23を、筐体の端から最も離れた中央付近に配置する例を示したが、被写体用マイクロホン23および撮影者用マイクロホン24のどちらか一方が、筐体の端から最も離れた中央付近に配置されればよい。ただし、両方が筐体の端から最も離れた中央付近に配置されてもよい。
以下、本技術の携帯端末11で行われる音源分離後の音声信号に対する信号処理の例について、詳細を説明していく。
[画像音声合成部の構成例]
図5は、図2の画像音声合成部53の構成例を示す図である。
図5の例において、画像音声合成部53は、合成制御部71、画像合成部72、および音声合成部73を含むように構成される。
合成制御部71には、操作入力部42を介してのユーザの指示と、音声比較部52により求められたミックスバランスが供給される。
なお、音声比較部52は、音源分離部51による分離結果である被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス(合成割合)を算出する。具体的には、音声比較部52は、時間tの被写体音声の振幅幅x(t)、撮影者音声の振幅幅x(t)とすると、各信号のパワー比を用いて、被写体音声のミックスバランスm(t)と、撮影者音声のミックスバランスm(t)を求める。各ミックスバランスm(t)およびm(t)は、次の式(7)に示されるように求められる。
Figure 2013162510

ここで、Eは、期待値演算を表す。
なお、音声比較部52で求められるミックスバランスとしては、上述した式(7)以外にも、単純にパワーの小さい方を0にしたり、パワー比の二乗にしたりなど、さまざまなバランスが考えられるため、その求め方は、限定されない。
また、ミックスバランスとして、音声検知法(音声を統計モデルで学習するGuassian Miture Model)や、入力音声の倍音成分の割合を求めるSub harmonic summation法などから求められる各音声の音声らしさを用いるようにしてもよい。
合成制御部71は、操作入力部42を介してのユーザの指示のもと、供給されるミックスバランスに応じて、画像合成部72の画像合成および音声合成部73の音声合成を制御する。
画像合成部72には、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22より入力された撮影者画像32の信号が供給される。画像合成部72は、合成制御部71の制御のもと、被写体画像31および撮影者画像32のサイズを変更し、それを合成(重畳)して、出力画像を生成する。
音声合成部73には、音源分離部51により分離された被写体音声および撮影者音声が供給される。音声合成部73は、合成制御部71の制御のもと、被写体音声および撮影者音声の音量を変更し、それを合成し(足し合わせ)て、出力音声を生成する。
なお、音声合成部73においては、上述した方法のほかに、被写体音声を、ステレオの左チャンネル、撮影者音声をステレオの右チャンネルにして、それぞれにミックスバランスm(t)、m(t)をかけるものを出力してもよい。
次に、これらの合成制御部71、画像合成部72、および音声合成部73の処理について、図6を参照して説明する。
図6の例においては、上段から順に、時刻t0乃至t4に生成される出力画像101−1乃至出力画像101−4、被写体用カメラ21より入力される被写体画像31、音声比較部52により求められる被写体音声のミックスバランスが示されている。また、それらの下段に、撮影者用カメラ22より入力される撮影者画像32、および音声比較部52により求められる撮影者音声のミックスバランスが示されている。なお、被写体画像31および撮影者画像32に関しては、時刻t0乃至t4において矢印が示されているが、これは、左の被写体画像31および撮影者画像32が入力され続けていることを表している。
時刻t0乃至t1において、被写体音声のミックスバランスm(t)は、0.8であり、撮影者音声のミックスバランスm(t)は、0.2である。合成制御部71は、m(t)=0.8およびm(t)=0.2の場合、被写体画像31が1とすると、被写体画像31上に、撮影者画像32をm(t)/ m(t)=0.25倍して重畳して表示させるように、画像合成部72を制御する。
その結果、画像合成部72においては、画面全体の大きさの被写体画像31上に0.25倍された撮影者画像32が右下に重畳(Picture In Picture:PinP)される出力画像101−1が生成される。このとき、音声合成部73も同様に制御されるので、音声合成部73において、被写体音声が1とすると、撮影者音声は、0.25倍されて、被写体音声と合成され、合成された出力音声が生成される。
次の時刻t1乃至t2において、被写体音声のミックスバランスm(t)は、1.0であり、撮影者音声のミックスバランスm(t)は、0.0である。合成制御部71は、m(t)=1.0およびm(t)=0.0の場合、被写体画像31のみを表示させるように、画像合成部72を制御する。
その結果、画像合成部72においては、画面全体の大きさの被写体画像31のみからなる出力画像101−2が生成される。このとき、音声合成部73も同様に制御されるので、音声合成部73において、被写体音声のみからなる出力音声が生成される。
時刻t2乃至t3において、被写体音声のミックスバランスm(t)は、0.2であり、撮影者音声のミックスバランスm(t)は、0.8である。合成制御部71は、m(t)=0.2およびm(t)=0.8の場合、撮影者画像32が1とすると、撮影者画像32上に、被写体画像31をm(t)/ m(t)=0.25倍して重畳して表示させるように、画像合成部72を制御する。
その結果、画像合成部72においては、画面全体の大きさの撮影者画像32上に0.25倍された被写体画像31が右下に重畳される出力画像101−3が生成される。このとき、音声合成部73も同様に制御されるので、音声合成部73において、撮影者音声が1とすると、被写体音声は、0.25倍されて、撮影者音声と合成され、合成された出力音声が生成される。
次の時刻t3乃至t4において、被写体音声のミックスバランスm(t)は、0.0であり、撮影者音声のミックスバランスm(t)は、1.0である。合成制御部71は、m(t)=0.0およびm(t)=1.0の場合、撮影者画像32のみを表示させるように、画像合成部72を制御する。
その結果、画像合成部72においては、画面全体の大きさの撮影者画像32のみからなる出力画像101−4が生成される。このとき、音声合成部73も同様に制御されるので、音声合成部73において、撮影者音声のみからなる出力音声が生成される。
以上のように、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声が合成される。すなわち、画像および音声が連動して合成されたコンテンツが生成される。
したがって、ユーザは、画像および音声が連動して合成されたコンテンツを即座に、かつ、容易に得ることができる。また、ユーザは、得られたコンテンツを、通信部43を介して即座にサーバに送信できるので、その結果、他のユーザも、撮影者と被写体の2つの画像および音声が合成されたコンテンツを即座に楽しむことができる。
なお、図6の例においては、t4までしか示されていないが、t4以降も、それぞれの画像および音声が入力され、音声が分離されて、ミックスバランスが求められる。そして、合成制御部71においては、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声の合成が制御される。
また、上記説明においては、画像の合成方法として、PinPの例を説明したが、複数の画像を横に並べて表示するSide By Sideにおいて、ミックスバランスに応じて画像サイズを変更するようにしてもよい。
[携帯端末の処理例]
次に、図7のフローチャートを参照して、2対のカメラおよびマイクロホンを用いて撮影した画像および音声をリアルタイムで編集し、サーバに送信する携帯端末11の処理について説明する。
操作入力部42を介してユーザの指示が入力されると、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24が動作を開始する。そして、ステップS11において、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24は、それぞれ、画像および音声を入力する。
入力された被写体用カメラ21からの被写体画像31の信号および撮影者用カメラ22からの撮影者画像32の信号は、画像音声合成部53および記憶部44に供給される。入力された被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号は、音源分離部51に供給される。
音源分離部51は、ステップS12において、被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号を用いて、音源を被写体音声および撮影者音声に分離する。音源分離には、例えば、上述した式(1)乃至式(3)または式(4)乃至式(6)が用いられる。分離された被写体音声および撮影者音声の信号は、音声比較部52、画像音声合成部53、および記憶部44に供給される。
音声比較部52は、ステップS13において、分離された被写体音声および撮影者音声を用いて、上述した式(7)により、被写体音声のミックスバランスm(t)と、撮影者音声のミックスバランスm(t)を計算する。求められたミックスバランスm(t)およびm(t)は、合成制御部71に供給される。
合成制御部71は、ステップS14において、被写体音声のミックスバランスm(t)が撮影者音声のミックスバランスm(t)より大きいか否かを判定する。ステップS14において、被写体音声のミックスバランスm(t)が撮影者音声のミックスバランスm(t)より大きいと判定された場合、処理は、ステップS15に進む。
合成制御部71は、ステップS15において、被写体画像31の圧縮率g(t)と撮影者画像32の圧縮率g(t)を、次の式(8)のように設定し、設定した圧縮率g(t)およびg(t)を、画像合成部72に供給する。

(t)=1.0
(t)=m(t)/ m(t) ・・・(8)
また、ステップS14において、被写体音声のミックスバランスm(t)が撮影者音声のミックスバランスm(t)以下であると判定された場合、処理は、ステップS16に進む。
合成制御部71は、ステップS16において、被写体画像31の圧縮率g(t)と撮影者画像32の圧縮率g (t)を、次の式(9)のように設定し、設定した圧縮率g(t)およびg(t)を、画像合成部72に供給する。

(t)=m(t)/ m(t)
(t)=1.0 ・・・(9)
ステップS17において、画像合成部72は、合成制御部71から供給された圧縮率g(t)およびg(t)で、被写体画像31と撮影者画像32の画像サイズを変更し、被写体画像31と撮影者画像32を重畳する。これにより、被写体画像31と撮影者画像32が重畳された出力画像(例えば、図6の出力画像101−1)が生成される。
ステップS18において、合成制御部71は、音声合成部73に、被写体音声のミックスバランスm(t)および撮影者音声のミックスバランスm(t)を供給し、出力音声y(t)を生成させる。
すなわち、音声合成部73は、被写体音声の振幅幅x(t)および撮影者音声の振幅幅x(t)と、被写体音声のミックスバランスm(t)および撮影者音声のミックスバランスm(t)とを用いて、次の式(10)のように、出力音声y(t)を生成する。

y(t) = m(t)×x(t)+ m(t)×x(t) ・・・(10)
ステップS19において、画像合成部72および音声合成部73は、合成制御部71の制御のもと、生成された出力画像および出力音声を同期させて、コンテンツとして、通信部43および記憶部44に出力する。
これに対応して、通信部43は、ネットワークを介して図示せぬサーバの所望のサイトに、コンテンツを送信する。記憶部44は、コンテンツを記憶する。なお、記憶部44においては、入力された被写体用カメラ21からの被写体画像31の信号および撮影者用カメラ22からの撮影者画像32の信号、分離された被写体音声および撮影者音声の信号、並びに、それらから生成されたコンテンツは関連付けて記憶される。
合成制御部71は、ステップS20において、処理を終了するか否かを判定する。操作入力部42を介して、ユーザにより処理終了が指示されると、合成制御部71は、ステップS20において、処理を終了すると判定し、図7の処理は終了される。
一方、ステップS20において、処理を終了しないと判定されると、処理は、ステップS11に戻り、それ以降の処理が繰り返される。
以上のように、2対のカメラおよびマイクロホンを用いて入力された画像および音声が、リアルタイムで編集され、編集(すなわち、画像および音声が連動して合成)されたコンテンツがサーバに送信される。
すなわち、ユーザは、リアルタイム編集を容易に行うことができ、ユーザにとって利便性が高い。また、他のユーザは、即座にコンテンツがサーバにアップされるので、リアルタイムに近い時間で、撮影者の画像やコメントなども含まれている、面白みのあるコンテンツを見ることができる。
なお、上記説明においては、被写体用マイクロホン23および撮影者用マイクロホン24が、無指向性のマイクロホンである場合の例を説明してきたが、指向性を有するマイクロホンである場合について、次の図8を参照して説明する。
[マイクロホンの配置の他の例]
図8は、携帯端末11におけるマイクロホンの配置例を示す図である。なお、図8の例において、被写体用マイクロホン151および撮影者用マイクロホン152は、単一の指向性を有している。なお、被写体用マイクロホン151および撮影者用マイクロホン152は、指向性の有無が異なるだけであり、その他は、基本的に、被写体用マイクロホン23および撮影者用マイクロホン24と同様に動作する。
図8のAにおいては、携帯端末11の筐体における撮影者側の面(表面)が示されており、図8のBにおいては、携帯端末11の筐体における被写体側の面(裏面)が示されている。
撮影者側の面においては、図8のAに示されるように、表示部25がその面の中央付近を中心として配置されており、撮影者用マイクロホン152は、表示部25の周縁部(特に図中左側)に配置されている。
一方、被写体側の面においては、図8のBに示されるように、被写体用マイクロホン151は、その面の周縁部(図中右上側)に配置されている。特に、図8の例においては、被写体用マイクロホン151は、撮影者用マイクロホン152に対して左右逆側に配置されている。
すなわち、図8の例においては、被写体用マイクロホン151および撮影者用マイクロホン152が、指向性を有しているため、一方を撮影者側に向け、他方を被写体側に向けるだけで、対象音(音源)に対するマイクロホン間のパワー差を大きくすることができる。これにより、高い抑圧量と高音質を実現できる。
なお、図8の例においては、被写体用マイクロホン151および撮影者用マイクロホン152の両方が指向性を有する例を説明したが、少なくともどちらか一方が指向性を有していればよい。例えば、一方のマイクロホンが指向性を有しており、他方のマイクロホンが無指向性である場合でも、パワー差が大きくなるので、高い抑圧量と高音質を実現できる。
以上のように、少なくとも一方のマイクロホンが単一の指向性を有している場合、一方を撮影者側に向け、他方を被写体側に向けるだけで、対象音(音源)に対するマイクロホン間のパワー差を大きくすることができる。したがって、この場合、どちらか一方のマイクロホンを、筐体の面のほぼ中央に置く必要がないので、マイクロホンの配置位置の面で、図4の例よりも自由度が増す。
なお、例えば、両方のマイクロホンが指向性を有していない場合に、表示部が設けられるなどの理由で、筐体のほぼ中央にどちらか一方のマイクロホンが配置できないこともあり得る。このような場合には、次の図9に示される部品などを設けることにより、両方のマイクロホンが指向性を有していない場合に両方のマイクロホンを筐体の周縁部などに配置しても、パワー差を大きくすることが可能になる。
[マイクロホンの配置の他の例]
図9は、携帯端末11におけるマイクロホンの配置例を示す図である。なお、図9の例において、被写体用マイクロホン161および撮影者用マイクロホン162は、指向性を有していない。また、被写体用マイクロホン161および撮影者用マイクロホン162は、基本的に、被写体用マイクロホン23および撮影者用マイクロホン24と同様に動作する。
図9のAにおいては、携帯端末11の筐体における撮影者側の面(表面)が示されており、図9のBにおいては、携帯端末11の筐体における被写体側の面(裏面)が示されている。
撮影者側の面においては、図9のAに示されるように、表示部25がその面の中央付近を中心として配置されており、撮影者用マイクロホン162は、表示部25の周縁部(特に図中左側)に配置されている。さらに、撮影者用マイクロホン162と、表面における端のうち、撮影者用マイクロホン162の位置から距離の近い左端との間に、音を回避(回り込ませる)させるための凸部171が設けられている。
この凸部171は、筐体の表面から0以上1mm未満ほど出るように設けられている。なお、図9の例においては、凸部171は、半楕円の形状をしているが、撮影者用マイクロホン162の位置から距離の近い左端側において、表面(:ひょうめん)より突出していれば、どのような形状であってもかまわない。また、撮影者用マイクロホン162の位置が、図中上下の端から距離がある場合には、上下側を囲むようにする必要もないので、長方形の形状であってもよい。
この凸部171により、音の回り込みが起き、ある音源から被写体用マイクロホン23への距離と、撮影者用マイクロホン24への距離とに差が生じるので、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。
一方、被写体側の面においては、図9のBに示されるように、被写体用マイクロホン151は、その面の周縁部(図中右上側)に配置されている。さらに、表面における端のうち、撮影者用マイクロホン162の位置から距離の近い端に、音を回避(回り込ませる)させるための突起物172が設けられている。
なお、図9のBの場合は、被写体用マイクロホン161は、右側の筐体の端と、上側の筐体の端の2つの端から距離が近い位置に配置されている。したがって、突起物172は、右側の筐体の端と、上側の筐体の端の2つの端にかかるように設けられている。
なお、被写体用マイクロホン151が、右側の筐体の端にだけ距離が近い位置に配置されている場合には、突起物172は、右側の筐体の端に突起する長方形状で構成される。すなわち、図9のBに点線で示されるように、撮影者用マイクロホン162に対して突起物173を設ける場合、撮影者用マイクロホン162は、表示部25の図中左側の周縁部に配置されているので、突起物173は、左側の筐体の端に突起する長方形状で構成される。
この突起物172または173により、音の回り込みが起き、ある音源から被写体用マイクロホン23への距離と、撮影者用マイクロホン24への距離とに差が生じるので、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。
なお、図9の例においては、被写体用マイクロホン161に対して、凸部171を設け、撮影者用マイクロホン162に対して、突起物172を設ける例を示したが、図9の例のように、両方に凸部および突起物を設けるようにしてもよい。もちろん、両方に設けられなくてもよく、どちらか一方のマイクロホンに対して、凸部171または突起物172が設けられていればよい。
以上のように、携帯端末11においては、ある音源から被写体用マイクロホンへの距離と、撮影者用マイクロホンへの距離とに差が生じるように、被写体用マイクロホンと撮影者用マイクロホンが、各面に配置される。
これにより、ある音源からの音の回り込みが起きることで、対象音に対するマイクロホン間のパワー差が大きくなり、高い抑圧量と高音質を実現できる。その結果、携帯端末11における音源分離性能を向上させることができる。
なお、本技術が適用される音源分離方法は、上述した方法に限らない。例えば、音源分離方法が、適応ビームフォーマやICAなどであっても、マイクロホン間の相互相関が低くなることで、音源性能が向上する。
なお、本技術の適用範囲は、上述したような携帯可能な端末に限らない。また、本技術は、図1の携帯端末などにより入力された音声信号を用いて、他の信号処理装置(例えば、サーバなど)において音声の分離を行う場合にも適用される。
また、上述した、図1の携帯端末11における音源分離後の信号処理は、一例であり、音源分離後の音声信号に対して、他の信号処理が行われてもよい。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
[コンピュータの構成例]
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
入力部206は、キーボード、マウス、マイクロホンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本技術は以下のような構成も取ることができる。
(1) 筐体の一方の面に設けられる第1のマイクロホンと、
前記筐体の他方の面に設けられる第2のマイクロホンと
を備え、
前記第1のマイクロホンおよび第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
情報処理端末。
(2) 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される
前記(1)に記載の情報処理端末。
(3) 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される
前記(1)または(2)に記載の情報処理端末。
(4) 前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる
前記(3)に記載の情報処理端末。
(5) 前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる
前記(3)に記載の情報処理端末。
(6) 前記筐体の一方の面または他方の面に表示部を
さらに備える前記(1)乃至(5)のいずれかに記載の情報処理端末。
(7) 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する
前記(1)乃至(6)のいずれかに記載の情報処理端末。
(8) 前記筐体は、ユーザに携帯可能に形成されている
前記(1)乃至(7)のいずれかに記載の情報処理端末。
(9) 前記第1のマイクロホンから入力される音声信号および前記第2のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部を
さらに備える前記(1)乃至(8)のいずれかに記載の情報処理端末。
(10) 筐体の一方の面に設けられる第1のマイクロホンおよび前記筐体の他方の面に設けられる第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
マイクロホンの設置方法。
11 携帯端末, 21 被写体用カメラ, 22 撮影者用カメラ, 23 被写体用マイクロホン, 24 撮影者用マイクロホン, 25 表示部, 41 信号処理部, 42 操作入力部, 43 通信部, 44 記憶部, 51 音源分離部, 52 音声比較部, 53 画像音声合成部, 61a,61b 帯域分割部, 62−1乃至62−1024 音源分離部, 63 帯域合成部, 71 合成制御部, 72 画像合成部, 73 音声合成部, 151 被写体用マイクロホン, 152 撮影者用マイクロホン,161 被写体用マイクロホン, 162 撮影者用マイクロホン,

Claims (10)

  1. 筐体の一方の面に設けられる第1のマイクロホンと、
    前記筐体の他方の面に設けられる第2のマイクロホンと
    を備え、
    前記第1のマイクロホンおよび第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
    情報処理端末。
  2. 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面のほぼ中央付近に配置される
    請求項1に記載の情報処理端末。
  3. 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、設けられる面の周縁部に配置される
    請求項1に記載の情報処理端末。
  4. 前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端との間に、音を回避させるための凸部が設けられる
    請求項3に記載の情報処理端末。
  5. 前記一方のマイクロホンが設けられる面における端のうち、前記一方のマイクロホンの位置から距離の近い端に、音を回避させるための突起物が設けられる
    請求項3に記載の情報処理端末。
  6. 前記筐体の一方の面または他方の面に表示部を
    さらに備える請求項1に記載の情報処理端末。
  7. 前記第1のマイクロホンおよび前記第2のマイクロホンのうち少なくとも一方のマイクロホンは、指向性を有する
    請求項1に記載の情報処理端末。
  8. 前記筐体は、ユーザに携帯可能に形成されている
    請求項1に記載の情報処理端末。
  9. 前記第1のマイクロホンから入力される音声信号および前記第2のマイクロホンから入力される音声信号を用いて、音声を分離する音声分離部を
    さらに備える請求項1に記載の情報処理端末。
  10. 筐体の一方の面に設けられる第1のマイクロホンおよび前記筐体の他方の面に設けられる第2のマイクロホンは、設けられる各面において、音源からのそれぞれの距離に差がでるように配置される
    マイクロホンの配置方法。
JP2012025741A 2012-02-09 2012-02-09 情報処理端末、およびマイクロホンの配置方法 Pending JP2013162510A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012025741A JP2013162510A (ja) 2012-02-09 2012-02-09 情報処理端末、およびマイクロホンの配置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012025741A JP2013162510A (ja) 2012-02-09 2012-02-09 情報処理端末、およびマイクロホンの配置方法

Publications (1)

Publication Number Publication Date
JP2013162510A true JP2013162510A (ja) 2013-08-19

Family

ID=49174386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012025741A Pending JP2013162510A (ja) 2012-02-09 2012-02-09 情報処理端末、およびマイクロホンの配置方法

Country Status (1)

Country Link
JP (1) JP2013162510A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019135836A (ja) * 2019-02-28 2019-08-15 株式会社ニコン 撮像装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019135836A (ja) * 2019-02-28 2019-08-15 株式会社ニコン 撮像装置

Similar Documents

Publication Publication Date Title
US9936323B2 (en) System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
JP6023779B2 (ja) オーディオ情報処理の方法及び装置
JP6703525B2 (ja) 音源を強調するための方法及び機器
EP2984852B1 (en) Method and apparatus for recording spatial audio
EP2824663B1 (en) Audio processing apparatus
US20120082322A1 (en) Sound scene manipulation
US9838821B2 (en) Method, apparatus, computer program code and storage medium for processing audio signals
WO2020228404A1 (zh) 即时通讯的音质优化方法、装置及设备
JP2013062640A (ja) 信号処理装置、信号処理方法、およびプログラム
US20200045493A1 (en) Matrix decomposition of audio signal processing filters for spatial rendering
KR20210117120A (ko) 오디오 신호 처리 방법 및 장치, 저장 매체
JP2013062640A5 (ja)
RU2635838C2 (ru) Способ и устройство для звукозаписи
JP5190859B2 (ja) 音源分離装置、音源分離方法、音源分離プログラム及び記録媒体
JP2013162510A (ja) 情報処理端末、およびマイクロホンの配置方法
EP4280211A1 (en) Sound signal processing method and electronic device
CN115942108A (zh) 一种视频处理方法及电子设备
CN113194387A (zh) 音频信号处理方法、装置、电子设备及存储介质
US9047862B2 (en) Audio signal processing method, audio apparatus therefor, and electronic apparatus therefor
JP2016133647A (ja) 通信システム、方法、装置およびプログラム
US20240080608A1 (en) Perceptual enhancement for binaural audio recording
CN116048448B (zh) 一种音频播放方法及电子设备
WO2024044113A2 (en) Rendering audio captured with multiple devices
CN116636233A (zh) 用于双耳音频录制的感知增强
CN116634319A (zh) 音频处理方法、装置、电子设备和存储介质