JP6996501B2

JP6996501B2 - 情報処理装置および方法

Info

Publication number: JP6996501B2
Application number: JP2018516940A
Authority: JP
Inventors: 繁利林; 宏平浅田; 祐史山邉
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-05-11
Filing date: 2017-04-27
Publication date: 2022-01-17
Anticipated expiration: 2037-04-27
Also published as: US10798516B2; WO2017195616A1; US20190149940A1; JPWO2017195616A1

Description

本開示は、情報処理装置および方法に関し、特に、録音環境によらず、標準的な音に補償することができるようにした情報処理装置および方法に関する。

特許文献１においては、ヘッドホン型の機構を有し、ノイズキャンセルのマイクを使用したバイノーラル録音装置が提案されている。

特開２００９－４９９４７号公報

しかしながら、聴衆者の耳の形、耳の大きさといった身体的特徴は録音に使用されたダミーヘッド（または、人間の実耳を使用した録音環境）と異なるため、録音されたコンテンツをそのまま再生しても高い臨場感は得られない恐れがあった。

本開示は、このような状況に鑑みてなされたものであり、録音環境によらず、標準的な音に補償することができるものである。

本技術の一側面の情報処理装置は、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する送信部を備え、前記送信部は、送信されてきた画像を用いての顔の形状のマッチングにより選択された前記バイノーラルコンテンツを送信する。

本技術の他の側面の情報処理装置は、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を備え、前記受信部は、送信された画像を用いての顔の形状のマッチングにより選択されて送信されてくる前記バイノーラルコンテンツを受信する。

本技術の一側面においては、送信されてきた画像を用いての顔の形状のマッチングにより選択されたバイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータが送信される。

本技術の他の側面においては、送信された画像を用いての顔の形状のマッチングにより選択されて送信されてくるバイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータが受信される。

本技術によれば、録音環境によらず、標準的な音に補償することができる。

なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。

本技術を適用する録音再生システムの構成例を示すブロック図である。録音時の補償処理の例を説明する図である。再生時に最適な音圧の調整について説明する図である。実耳使用時の位置補償について説明する図である。実耳使用時の位置補償について説明する図である。再生の際の外耳道に対する影響の補償を説明する図である。録音時補償処理を伝送前に施す場合の録音再生システムの例を示すブロック図である。録音装置の録音処理について説明するフローチャートである。再生装置の再生処理について説明するフローチャートである。録音時補償処理を伝送後に施す場合の録音再生システムの例を示すブロック図である。録音装置の録音処理について説明するフローチャートである。再生装置の再生処理について説明するフローチャートである。本技術を適用したバイノーラルマッチングシステムの例を示すブロック図である。スマートフォンの構成例を示すブロック図である。サーバの構成例を示すブロック図である。バイノーラルマッチングシステムの処理例を説明するフローチャートである。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（概要）
２．第２の実施の形態（システム）
３．第３の実施の形態（応用例）

＜１．第１の実施の形態＞
＜概要＞
携帯型の音楽プレイヤが普及している昨今では、音楽の視聴環境が主として家の外であり、ヘッドホンを利用して視聴を行うユーザは多いと考えられる。また、ヘッドホンを利用するユーザ数の増加に伴い、人間頭部の音響効果を再現するダミーヘッドや人間の実耳を利用して録音されたバイノーラルコンテンツを、ステレオ・イヤホンやステレオ・ヘッドホンにて使用するユースケースが今後増加すると考えられる。

ところが、視聴者によってはバイノーラルコンテンツの視聴時に臨場感が損なわれる恐れがあった。これは、録音時に使用されたダミーヘッド（人間の実耳を利用した場合は頭部の形状など）について、視聴者との間に身体的な特徴差が生じることが要因となる。また、収音時の音圧レベルと再生時の音圧レベルに隔たりがあると、臨場感の低下につながる恐れがあった。

さらに一般的に知られている通り、ヘッドホンやイヤホンには周波数特性が存在し、視聴者は好みに合わせたヘッドホンを選択することにより、快適に音楽コンテンツを使用することができる。しかしながら、バイノーラルコンテンツを再生する際は、ヘッドホンの周波数特性がコンテンツに付加されるため、再生ヘッドホンによっては臨場感の低下が生じる恐れがあった。加えて、本来ダミーヘッドを用いて鼓膜位置の音を収音すべきバイノーラル録音において、ノイズキャンセルマイクを用いて録音を行うと、録音位置の鼓膜に対する誤差によって臨場感に影響が生じる恐れがあった。

本技術は、ダミーヘッドや実耳を使用してバイノーラル録音を実施する際に、
1.耳間の距離、頭部の形状といった個人差の要因になる情報
2.収音に使用するマイクの情報（周波数特性、感度など）
などの録音結果に影響がでる、録音環境（状況）に関するデータをメタデータとしてコンテンツに付加し、コンテンツ再生時に取得したメタデータを基に信号を補償することによって、録音機器や録音機材に依存せず、どのような機材を使用して録音しても標準的な音質および音量で録音が可能で、再生時においては、視聴者にとって最適な音量および音質の信号を再生する補償方法に関するものである。

＜録音再生システムの構成例＞
図１は、本技術を適用する録音再生システムの構成例を示す図である。図１の例において、録音再生システム１は、バイノーラルコンテンツの録音と再生を行う。例えば、音源(source)１１、ダミーヘッド１２、ダミーヘッド１２の鼓膜位置に設置されるマイクロホン１３、録音装置１４、再生装置１５、ユーザ１７の耳に装着して使用されるヘッドホン１６、およびネットワーク１８を含むように構成されている。なお、図１の例においては、録音装置１４や再生装置１５の表示部や操作部は説明の便宜上その図示は省略されている。

音源１１は、音声を出力する。マイクロホン１３は、音源１１からの音声を収音して、アナログの音声信号として録音装置１４に入力する。録音装置１４は、バイノーラル録音を行い、バイノーラル録音された音声の音声ファイルを生成する情報処理装置であり、生成された音声ファイルを送信する送信装置である。録音装置１４は、バイノーラル録音された音声ファイルに、バイノーラルコンテンツの録音時環境に関するメタデータを付加し、再生装置１５に送信する。

録音装置１４は、マイクアンプ２２、ボリュームスライダ２３、ADC(Analog-Digital Convertor)２４、メタデータDB２５、メタデータ付加部２６、送信部２７、および記憶部２８により構成される。

マイクアンプ２２は、ボリュームスライダ２３からのユーザによる操作信号に対応した音量となるように、マイクロホン１３からの音声信号を増幅し、ADC２４に出力する。ボリュームスライダ２３は、ユーザ１７によるマイクアンプ２２のボリュームの操作を受け付け、受け付けた操作信号を、マイクアンプ２２に送る。

ADC２４は、マイクアンプ２２により増幅されたアナログの音声信号をデジタルの音声信号に変換し、メタデータ付加部２６に出力する。メタデータDB（データベース）２５は、録音に影響するデータであって、録音時の環境（状況）に関するデータを、すなわち、個人差の要因となり得る身体的特徴データ、および収音に使用した機材のデータをメタデータとして保持しており、メタデータ付加部２６に供給する。具体的には、メタデータは、ダミーヘッドの型番、ダミーヘッド（または頭部）の耳間距離、頭の大きさ（縦、横）や形、髪型、マイクロホン情報（周波数特性、感度）、マイクアンプ２２のゲインなどからなる。

メタデータ付加部２６は、メタデータDB２５からのメタデータを、ADC２４からの音声信号に付加し、音声ファイルとして、送信部２７および記憶部２８に供給する。送信部２７は、メタデータが付加された音声ファイルを、ネットワーク１８に送信する。記憶部２８は、メモリやハードディスクにより構成され、メタデータが付加された音声ファイルを記憶する。

再生装置１５は、バイノーラル録音された音声の音声ファイルを再生する情報処理装置であり、受信装置である。再生装置１５は、受信部３１、メタデータDB３２、補償信号処理部３３、DAC(Digital - Analog Convertor)３４、およびヘッドホンアンプ３５を含むように構成されている。

受信部３１は、ネットワーク１８から音声ファイルを受信し、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号（デジタル）をDAC３４に供給し、取得したメタデータをメタデータDB３２に蓄積する。

補償信号処理部３３は、受信部３１からの音声信号に対して、再生時にメタデータを用いて個人差を補償し、視聴者（リスナ）にとって最適な信号を生成する処理を行う。DAC３４は、補償信号処理部３３により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ３５は、DAC３４からの音声信号を増幅する。ヘッドホン１６は、DAC３４からの音声信号対応する音声を出力する。

ヘッドホン１６は、ステレオ・ヘッドホンまたはステレオ・イヤホンであり、コンテンツ再生時に、再生されたコンテンツが聞けるように、ユーザ１７の頭部や耳に装着される。

ネットワーク１８は、インターネットに代表されるネットワークである。なお、図１の録音再生システム１においては、ネットワーク１８を介して、録音装置１４から再生装置１５に音声ファイルが送信され、再生装置１５において受信されるように構成されているが、録音装置１４から図示せぬサーバに音声ファイルが送信され、サーバを介して、再生装置１５が音声ファイルを受信するようにしてもよい。

なお、本技術においては、マイクロホンからの信号に対してメタデータを付加するが、このマイクロホンは、ダミーヘッドの鼓膜位置に設定されたものであってもよいし、実耳での使用を想定したバイノーラルマイクや、ノイズキャンセラ用の収音マイクを使用してもよい。さらに、別の目的のために設置されたマイクロホンを機能的に同時に使用する場合にも、本技術は適用される。

図１の録音再生システム１は、上述したように、バイノーラル録音された録音コンテンツに対して、メタデータを付加し、伝送する機能を有する。

＜録音時の補償処理＞
次に、図２を参照して、メタデータを用いることにより得られる補償処理の例について説明する。図２の例においては、基準となるダミーヘッド１２－１でのバイノーラル録音の例と、録音の際に使用されるダミーヘッド１２－２でのバイノーラル録音の例とが示されている。

基準となるダミーヘッド１２－１の特定位置の音源１１からマイクロホン１３－１が設置される鼓膜位置までの空間特性Fが測定される。また、録音の際に使用されるダミーヘッド１２－２の音源１１からマイクロホン１３－２が設置される鼓膜位置までの空間特性Gが測定される。

これらの空間特性を事前測定しておき、メタデータとして、メタデータDB２５に記録しておくことにより、メタデータから得られる情報を用いて再生時に標準的な音に変換することが可能となる。

録音データの標準化は、信号の伝送前に実施してもよいし、メタデータとして補償に必要なEQ（イコライザ）処理の係数などをメタデータとして付加してもよい。

また、頭部における耳間の距離をメタデータとして保持、付加し、音像を広げる（狭める）処理を行うことで、より標準的な音による録音が可能になる。本機能を便宜上、録音時補償処理と称する。この録音時補償処理を、数式を用いて説明を追加すると、基準となるダミーヘッド１２－１を用いて録音した鼓膜位置の音圧Pは、次の式（１）により表される。

一方で、標準とは異なるダミーヘッド（例えば、ダミーヘッド１２－２）を用いて録音された際の音圧P´は、次の式（２）で表される。

ここで、M₁は基準となるマイクロホン１３－１の感度であり、M₂はマイクロホン１３－２の感度である。Sは、音源の場所（位置）を表す。Fは上述したように基準となるダミーヘッド１２－１の特定位置の音源１１からマイクロホン１３－１が設置される鼓膜位置までの空間特性である。Gは、録音の際に使用されるダミーヘッド１２－２の音源１１からマイクロホン１３－２が設置される鼓膜位置までの空間特性である。

以上より、録音時に補償処理として、以下の式（３）で表されるEQ₁処理（イコライザ処理）を施すことにより、基準と異なるダミーヘッドを使用したとしても標準的な音にて録音が可能となる。

なお、EQ₁処理に加えて、耳間距離を用い、音像を広げる（狭める）処理実施してもよい。より臨場感が期待できる。

＜再生時の補償処理＞
次に、図３を参照して、再生時に最適な音圧の調整について説明する。図３の録音再生システム５１は、再生装置１５において、補償信号処理部３３が、再生時補償処理部６１に入れ替わった点と、その図示が省略されていた表示部６２と操作部６３が明示された点が、図１の録画再生システム１と異なっている。

図３の例の録音装置１４においては、マイクアンプ２２のマイク感度の情報をメタデータとしてメタデータDB２５に記録しておき、再生装置１５において、そのマイク感度の情報を用いることにより、ヘッドホンアンプ３５の再生音圧を、最適値に設定することができる。なお、これを実現するためには、録音時の入力音圧の情報だけでなく、再生用ドライバの感度情報も必要となる。

さらに、例えば、録音装置１４において114dBSPLで入力された音源１１を、再生装置１５において114dBSPLの音声を出力できる。その際、すなわち、再生装置１５において最適音量に調整する際は、事前にユーザに確認を呼びかけるメッセージを表示部６２に表示させるか、または、音声ガイドとして出力させる。これにより、ユーザを驚かすことなく、音量調整を行うことができる。

＜実耳使用時の位置補償＞
次に、図４を参照して、実耳使用時の位置補償について説明する。図４の例においては、図２と同様に、基準となるダミーヘッド１２－１でのバイノーラル録音の例と、録音の際に使用されるダミーヘッド１２－２でのバイノーラル録音と、実耳使用時のバイノーラル録音の例とが示されている。

図４に示されるように、ユーザ８１が実耳型のバイノーラルマイク８２にて収音する場合、ダミーヘッド１２－１や１２－２の場合の鼓膜位置と異なり、マイク位置での収音となるため、マイク位置と鼓膜位置での目標音圧になるよう補償が必要となる。

そこで、メタデータとして、実耳型のバイノーラルマイク８２にて収音を実施したという実耳録音フラグを用いて、鼓膜位置にて最適な音を聴取するための補償処理が行われる。

なお、この図４の補償処理は、図２を参照して上述した録音時補償処理と等価であるが、図４の補償処理は、以下、録音時位置補償処理と称する。

この録音時位置補償処理を、数式を用いて説明するに、本来鼓膜位置にて録音した場合における鼓膜位置にて録音した場合における鼓膜位置での音圧Pは次の式（４）により表される。

一方で、実耳型のバイノーラルマイク８２を用いて録音を行った際のマイク位置における音圧P´は、次の式（５）で表される。

図２の場合と同様に、M₁は基準となるマイクロホン１３－１の感度であり、M₂はマイクロホン１３－２の感度である。Sは、音源の場所（位置）を表す。Fは上述したように基準となるダミーヘッド１２－１の特定位置の音源１１からマイクロホン１３－１が設置される鼓膜位置までの空間特性である。Gは、録音の際に使用されるダミーヘッド１２－２の音源１１からバイノーラルマイク８２（マイクロホン１３－２）が設置される鼓膜位置までの空間特性である。

以上より、次の式（６）のEQ₂処理を施すことにより、鼓膜位置と異なる位置におけるマイクをしようしたとしても標準な音にて録音することが可能となる。

なお、メタデータを用いて、鼓膜位置以外の位置に設置されたマイクの信号を鼓膜位置での標準的な信号に変換する為には、バイノーラル録音を実施したというフラグ、鼓膜位置でなく、実耳を用いて耳介付近に設置したマイクにて録音したというフラグ、そして、音源からバイノーラルマイクまでの空間特性が必要となる。

ここで、ユーザ８１が何らかの方法を用いて空間特性を測定できるのであれば、本人のデータを使用しても良い。しかしながら、データを有していない場合を考慮すると、図５のＡに示されるように、標準的なダミーヘッド１２－２にバイノーラルマイク８２を設置し、音源からバイノーラルマイクまでの空間特性を事前測定すると、実耳を用いて録音したデータに対しても、標準的な音として録音が可能となる。

なお、録音時位置補償処理に用いるEQ₂の作成例について述べると、EQ₂においてM₁及びM₂の項はマイクの感度差を補償する項となっており、周波数特性の差はF/Gの項に主に表れる。F/Gはマイク位置から鼓膜位置までの特性の差として表すことができるが、図５のＢの矢印に示されるように、F/G特性は外耳道共振の影響を大きく受ける特性となる。つまり、標準的なデータとしては、耳介側が開放端、鼓膜側が密閉端とした共振構造を考えて、次のEQ構造を持てばよい。
・3kHz（1乃至4kHz）付近にピークを持つ
・ピークに向けて、200Hz-2kHzの間で3dB/octのカーブを描く

なお、図５および図６の例においては、バイノーラルマイクを用いて説明したが、実耳型のノイズキャンセラ用の収音マイクである場合も同様である。

＜再生の際の外耳道に対する影響の補償＞
バイノーラルコンテンツ再生時に実施する補償処理は鼓膜位置にて収音されたバイノーラル録音コンテンツおよび人間の実耳を利用して収録したコンテンツ両方に対して必要となる。

すなわち、鼓膜位置で収音されたコンテンツは既に外耳道を経由しており、ヘッドホン等を利用してバイノーラルコンテンツを再生すると、二重に外耳道共振の影響を受けてしまう為である。また、実耳を使用してバイノーラルコンテンツを録音する際については、録音位置と再生位置が異なる為、上記の位置補償を事前に実施する必要がある。

したがって、実耳を使用した録音コンテンツに対しても同様に、本補償処理は必要となる。本補償処理を、以下、便宜上、再生時補償処理と呼ぶものとする。補償処理EQ₃について数式を用いて説明を追加すると、図６に示されるように、EQ₃はヘッドホンの周波数特性に加え、耳穴密閉時の外耳道特性を補正する処理となる。

吹き出しに記載の長方形は、外耳道を表しており、例えば、左側が耳介側で、固定端、右側が鼓膜側で固定端である。このような外耳道の場合、図６のグラフに示されるように、外耳道特性として、5kHzと7kHz付近に録音EQのディップがくる。

したがって、標準的なデータとしては、耳穴密閉時の外耳道共振である、次の特徴を持たせればよい
・5kHz付近に-5dB程度のディップを持つ
・7kHz付近に-5dB程度のディップを持つ

以上のように補償処理が行われるが、補償処理を行う際には、補償処理を施す位置によって、複数のパターンが考えられる。次に、パターン毎のシステム例について説明する。

＜２．第２の実施の形態＞
＜本技術を適用した録音再生システムの例＞
図７は、録音時補償処理を伝送前に施す場合の録音再生システムの例を示す図である。図７の例の録音再生システムにおいては、録音の際にメタデータとして、基準ダミーヘッドと録音時に使用したダミーヘッドの情報が付加されるのではなく、２つのダミーヘッド間の特性差から、伝送前に録音時補償処理が実施されて、標準的な音に変換後、伝送が行われる。

図７の録音再生システム１０１は、録音装置１４において、録音時補償処理部１１１が追加された点と、再生装置１５において、補償信号処理部３３が、再生時補償処理部６１に入れ替わった点とが、図１の録画再生システム１と異なっている。

また、録音装置１４から、再生装置１５に送信される音声ファイル１０２は、ヘッダ部、データ部、フラグを含むメタデータが格納されるメタデータ領域で構成されている。フラグとしては、例えば、バイノーラル録音であるか否かを示すバイノーラル録音フラグ、ダミーヘッドor実耳装着マイクを用いて録音したのかを示す使用判別フラグ、録音時補償処理がなされているか否かを示す録音時補償処理実施フラグなどがある。図７の音声ファイル１０２においては、例えば、メタデータ領域において１が示される領域に、バイノーラル録音フラグが格納されており、２が示される領域に、使用判別フラグが格納されており、３が示される領域に、録音時補償処理実施フラグが格納されている。

すなわち、録音装置１４のメタデータ付加部２６は、メタデータDB２５からのメタデータを、ADC２４からの音声信号に付加し、音声ファイル１０２として、録音時補償処理部１１１に供給する。録音時補償処理部１１１は、２つのダミーヘッド間の特性差に基づいて、音声ファイル１０２の音声信号に対して録音時補償処理を行う。そして、録音時補償処理部１１１は、音声ファイル１０２のメタデータ領域の３が示される領域に格納されている録音時補償処理実施フラグをオンに設定する。なお、録音時補償処理実施フラグは、メタデータとして付加される時点ではオフに設定されている。録音時補償処理部１１１は、録音時補償処理がなされ、メタデータのうち、録音時補償処理実施フラグがオンされた音声ファイルを、送信部２７および記憶部２８に供給する。

再生装置１５の受信部３１は、ネットワーク１８から音声ファイルを受信し、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号（デジタル）をDAC３４に出力し、取得したメタデータをメタデータDB３２に蓄積する。

補償信号処理部３３は、メタデータのうち録音時補償処理実施フラグを参照することで、録音時補償処理がなされていることがわかる。したがって、補償信号処理部３３は、受信部３１からの音声信号に対して、再生時補償処理を行い、視聴者（リスナ）にとって最適な信号を生成する処理を行う。

なお、ダミーヘッドor 実耳装着マイクの使用判別フラグが実耳装着マイク示すとき、録音時補償処理には、録音時位置補償処理が含まれる。ダミーヘッドor 実耳装着マイクの使用判別フラグがダミーヘッドの場合には、録音時位置補償処理は必要なくなる。

＜録音再生システムの動作例＞
次に、図８のフローチャートを参照して、図７の録音装置１４の録音処理について説明する。ステップＳ１０１において、マイクロホン１３は、音源１１からの音声を収音して、アナログの音声信号として録音装置１４に入力する。

ステップＳ１０２において、マイクアンプ２２は、ボリュームスライダ２３からのユーザによる操作信号に対応した音量で、マイクロホン１３からの音声信号を増幅し、ADC２４に出力する。

ステップＳ１０３において、ADC２４は、マイクアンプ２２により増幅されたアナログの音声信号に対して、AD変換を行い、デジタルの音声信号に変換し、メタデータ付加部２６に出力する。

メタデータ付加部２６は、ステップＳ１０４において、ADC２４からの音声信号に、メタデータDB２５からのメタデータを付加し、音声ファイルとして、録音時補償処理部１１１に出力する。ステップＳ１０５において、録音時補償処理部１１１は、２つのダミーヘッド間の特性差に基づいて、音声ファイル１０２の音声信号に対して録音時補償処理を行う。その際、録音時補償処理部１１１は、音声ファイル１０２のメタデータ領域の３が示される領域に格納されている録音時補償処理実施フラグをオンに設定し、音声ファイル１０２を、送信部２７および記憶部２８に供給する。

ステップＳ１０６において、送信部２７は、音声ファイル１０２を、ネットワーク１８を介して、再生装置１５に送信する。

次に、図９のフローチャートを参照して、図７の再生装置１５の再生処理について説明する。

再生装置１５の受信部３１は、ステップＳ１２１において、図８のステップＳ１０６において送信されてきた音声ファイル１０２を、受信し、ステップＳ１２２において、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号（デジタル）をDAC３４に出力し、取得したメタデータをメタデータDB３２に蓄積する。

再生時補償処理部６１は、メタデータのうち録音時補償処理実施フラグを参照することで、録音時補償処理がなされていることがわかる。したがって、補償信号処理部３３は、ステップＳ１２３において、受信部３１からの音声信号に対して、再生時補償処理を行い、視聴者（リスナ）にとって最適な信号を生成する処理を行う。

DAC３４は、ステップＳ１２４において、補償信号処理部３３により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ３５は、DAC３４からの音声信号を増幅する。ヘッドホン１６は、ステップＳ１２６において、DAC３４からの音声信号対応する音声を出力する。

＜本技術を適用した録音再生システムの他の例＞
図１０は、録音時補償処理を伝送後に施す場合の録音再生システムの例を示す図である。図１０の例の録音再生システムにおいては、録音の際にメタデータとして、基準ダミーヘッドと録音時に使用したダミーヘッドの情報が付加して、伝送後、受信側にて得られたメタデータを基に、録音時補償処理が実施される。

図１０の録音再生システム１５１は、図１の録音再生システム１と基本的に同様に構成されている。録音装置１４から、再生装置１５に送信される音声ファイル１５２は、図７の音声ファイル１０２と同様に構成されている。ただし、音声ファイル１５２においては、録音時補償処理実施フラグはオフに設定されている。

＜録音再生システムの動作例＞
次に、図１１のフローチャートを参照して、図１０の録音装置１４の録音処理について説明する。ステップＳ１５１において、マイクロホン１３は、音源１１からの音声を収音して、アナログの音声信号として録音装置１４に入力する。

ステップＳ１５２において、マイクアンプ２２は、ボリュームスライダ２３からのユーザによる操作信号に対応した音量で、マイクロホン１３からの音声信号を増幅し、ADC２４に出力する。

ステップＳ１５３において、ADC２４は、マイクアンプ２２により増幅されたアナログの音声信号に対して、AD変換を行い、デジタルの音声信号に変換し、メタデータ付加部２６に出力する。

メタデータ付加部２６は、ステップＳ１５４において、ADC２４からの音声信号に、メタデータDB２５からのメタデータを付加し、音声ファイルとして、送信部２７および記憶部２８に供給する。ステップＳ１５５において、送信部２７は、音声ファイル１０２を、ネットワーク１８を介して、再生装置１５に送信する。

次に、図１２のフローチャートを参照して、図７の再生装置１５の再生処理について説明する。

再生装置１５の受信部３１は、ステップＳ１７１において、図１０のステップＳ１５５において送信されてきた音声ファイル１０２を受信し、ステップＳ１７２において、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号（デジタル）をDAC３４に出力し、取得したメタデータをメタデータDB３２に蓄積する。

補償信号処理部３３は、ステップＳ１７３において、受信部３１からの音声信号に対して、録音時補償処理と再生時補償処理を行い、視聴者（リスナ）にとって最適な信号を生成する処理を行う。

DAC３４は、ステップＳ１７４において、補償信号処理部３３により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ３５は、DAC３４からの音声信号を増幅する。ヘッドホン１６は、ステップＳ１７５において、DAC３４からの音声信号対応する音声を出力する。

また、再生装置における周波数特性は一般的に未知数であることが多いため、再生装置の情報が得られない場合は、再生時補償処理を施さないという選択肢も存在する。あるいは、再生装置のドライバ特性がフラットという仮定に基づき、外耳道共振の影響のみを補償する処理を実施してもよい。

以上のように、本技術においては、バイノーラルコンテンツ録音時に、コンテンツに対してメタデータを付加するようにしたので、バイノーラルコンテンツにおいて、どのようなダミーヘッドやマイクロホンといった機材を用いて録音を実施しても、標準的な音に補償することができる。

また、録音にしようしたマイクロホンの感度情報をメタデータとして付加することにより、コンテンツの再生時に、出力音圧を適切に調整することができる。

人の実耳を使用してバイノーラルコンテンツを収音した場合に、収音位置と鼓膜位置とのマイク位置の音圧の差を補償することができる。

なお、近年、他人との交流の一手段としてSNSが多く利用されている。本技術のバイノーラルコンテンツにメタデータを付加することにより、以下のようなSNSに近い試みである、バイノーラルマッチングシステムが考えられる。

＜３．第３の実施の形態＞
＜本技術を適用したバイノーラルマッチングシステムの他の例＞
図１３は、本技術を適用したバイノーラルマッチングシステムの例を示す図である。

図１３のバイノーラルマッチングシステム２０１においては、スマートフォン（多機能携帯電話機）２１１とサーバ２１２とが、ネットワーク２１３を介して接続されている。なお、ネットワーク２１３には、スマートフォン２１１とサーバ２１２とが１台ずつしか接続されていないが、実際には、複数台のスマートフォン２１１、複数台のサーバ２１２が接続されている。

スマートフォン２１１は、タッチパネル２２１を有しており、いま、図示せぬカメラなどで撮像された自分の顔画像が表示されている。スマートフォン２１１は、顔画像に対して、画像解析を行い、図１を参照して上述したメタデータ（例えば、ユーザの耳の形状、耳間距離、性別、髪形など、すなわち、顔の形状のメタデータ）を生成して、生成したメタデータを、ネットワーク２１３を介して、サーバ２１２に送信する。

スマートフォン２１１は、送信したメタデータに対して特性が近いとされたメタデータと、メタデータに対応するバイノーラル録音コンテンツを受信し、メタデータを基に、バイノーラル録音コンテンツを再生する。

サーバ２１２は、例えば、コンテンツDB２３１およびメタデータDB２３２を有している。コンテンツDB２３１には、他のユーザがスマートフォンや携帯型パーソナルコンピュータを用いてライブ会場などでバイノーラル録音して、送信してきたバイノーラル録音コンテンツが登録されている。メタデータDB２３２には、バイノーラル録音コンテンツDB２３１に登録されているバイノーラル録音コンテンツに対応させて、そのコンテンツを録音したユーザに関するメタデータ（例えば、耳の形状、耳間距離、性別、髪形など）が登録されている。

サーバ２１２は、スマートフォン２１１からのメタデータを受信すると、メタデータDB２３２から、受信したメタデータに特性の近いメタデータを検索し、そのメタデータが対応するバイノーラル録音コンテンツを、コンテンツDB２３１から検索する。そして、サーバ２１２は、コンテンツDB２３１から、メタデータの特性の近いバイノーラル録音コンテンツを、ネットワーク２１３を介して、スマートフォン２１１に送信する。

このようにすることで、骨格や耳の形が似ている他のユーザが録音したバイノーラル録音コンテンツを得ることができる。すなわち、より臨場感の高いコンテンツを受信することができる。

図１４は、スマートフォン２１１の構成例を示すブロック図である。

スマートフォン２１１は、通信部２５２、音声コーデック２５３、カメラ部２５６、画像処理部２５７、記録再生部２５８、記録部２５９、タッチパネル２２１（表示装置）、CPU（Central Processing Unit）２６３を有している。これらは、バス２６５を介して互いに接続されている。

また、通信部２５２にはアンテナ２５１が接続されており、音声コーデック２５３には、スピーカ２５４とマイクロホン２５５が接続されている。さらに、CPU２６３には、電源ボタンなどの操作部２６４が接続されている。

スマートフォン２１１は、通信モード、通話モード、撮影モードなどの各種のモードの処理を行う。

スマートフォン２１１が通話モードの処理を行う場合、マイクロホン２５５で生成されたアナログの音声信号が、音声コーデック２５３に入力される。音声コーデック２５３は、アナログの音声信号をデジタルの音声データへ変換し、変換後の音声データを圧縮して、通信部２５２に供給する。通信部２５２は、圧縮後の音声データの変調処理や周波数変換処理等を行い、送信信号を生成する。そして、通信部２５２は、送信信号をアンテナ２５１に供給し、図示しない基地局へ送信する。

通信部２５２はまた、アンテナ２５１で受信した受信信号の増幅、周波数変換処理、復調処理等を行うことにより、通話相手から送信されたデジタルの音声データを取得し、音声コーデック２５３に供給する。音声コーデック２５３は、音声データを伸張し、伸長後の音声データをアナログの音声信号へ変換して、スピーカ２５４に出力する。

また、スマートフォン２１１が通信モードの処理としてメール送信を行う場合、CPU２６３は、ユーザがタッチパネル２２１を操作することにより入力した文字を受け付け、その文字をタッチパネル２２１に表示する。また、CPU２６３は、ユーザがタッチパネル２２１を操作することにより入力した指示等に基づいて、メールデータを生成し、通信部２５２に供給する。通信部２５２は、メールデータの変調処理や周波数変換処理等を行い、得られた送信信号をアンテナ２５１から送信する。

通信部２５２はまた、アンテナ２５１で受信した受信信号の増幅、周波数変換処理、復調処理等を行い、メールデータを復元する。このメールデータは、タッチパネル２２１に供給され、表示部２６２に表示される。

なお、スマートフォン２１１は、受信したメールデータを、記録再生部２５８により記録部２５９に記録させることも可能である。記録部２５９は、RAM(Random Access Memory)や内蔵型フラッシュメモリ等の半導体メモリ、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USB（Universal Serial Bus）メモリ、またはメモリカード等のリムーバブルメディアである。

スマートフォン２１１が撮影モードの処理を行う場合、CPU２６３は、撮影準備動作の開始指令を、カメラ部２５６に供給する。カメラ部２５６は、通常使用状態におけるスマートフォン２１１の裏面（タッチパネル２２１と対向する面）にレンズを有するバックカメラと、表面（タッチパネル２２１が配置される面）にレンズを有するフロントカメラとからなる。バックカメラは、ユーザが自分以外の被写体を撮影するときに用いられ、フロントカメラは、ユーザが自分を被写体として撮影するときに用いられる。

カメラ部２５６のバックカメラまたはフロントカメラは、CPU２６３から供給される撮影準備動作の開始指令に応じて、ＡＦ（測距）動作、仮撮影などの撮影準備動作を行う。CPU２６３は、ユーザがタッチパネル２２１を操作することにより入力した撮影指令に応じて、撮影指令をカメラ部２５６に供給する。カメラ部２５６は、撮影指令に応じて、本撮影を行う。仮撮影や本撮影によって撮影された撮影画像は、タッチパネル２２１に供給され、表示部２６２に表示される。また、本撮影によって撮影された撮影画像は、画像処理部２５７にも供給され、画像処理部２５７において符号化される。符号化の結果生成される符号化データは、記録再生部２５８に供給され、記録部２５９に記録される。

タッチパネル２２１は、LCDからなる表示部２６２の上に、タッチセンサ２６０が積層されて構成されている。

CPU２６３は、ユーザの操作によるタッチセンサ２６０からの情報に応じて、タッチ位置を計算することで、タッチ位置を判定する。

また、CPU２６３は、ユーザにより操作部２６４の電源ボタンが押下された場合、スマートフォン２１１の電源をオンまたはオフにする。

CPU２６３は、上述した処理を、例えば記録部２５９に記録されているプログラムを実行することにより行う。このプログラムは、有線または無線の伝送媒体を介して、通信部２５２で受信し、記録部２５９にインストールすることができる。その他、プログラムは、記録部２５９に、あらかじめインストールしておくことができる。

図１５は、サーバ２１２のハードウエアの構成例を示すブロック図である。

サーバ２１２において、CPU３０１、ROM（Read Only Memory）３０２、RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロホンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるサーバ２１２では、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、RAM３０３にロードして実行する。これにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、リムーバブルメディア３１１に記録して提供することができる。リムーバブルメディア３１１は、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータにおいて、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。

＜バイノーラルマッチングシステムの動作例＞
次に、図１６のフローチャートを参照して、バイノーラルマッチングシステムの処理例について説明する。

サーバ２１２にアクセスする際に、ステップＳ２０１において、スマートフォン２１１のCPU２６３は、自分の顔画像データが登録済みであるか否かを判定する。ステップＳ２０１において、顔画像データが登録済みであると判定された場合、ステップＳ２０２およびＳ２０３はスキップされ、処理は、ステップＳ２０４に進む。

ステップＳ２０１において、顔画像データは登録済みではないと判定された場合、CPU２６３は、ステップＳ２０２において、自分の顔画像データの登録を行い、ステップＳ２０３において、画像処理部２５７に対し、登録された画像データの解析処理を行わせる。解析結果として、メタデータ（例えば、ユーザの耳の形状、耳間距離、性別など、すなわち、顔の形状のメタデータ）が生成される。

ステップＳ２０４において、CPU２６３は、通信部２５２を制御し、サーバ２１２にメタデータを送信して、コンテンツをリクエストする。

サーバ２１２のCPU３０１は、ステップＳ２２１において、通信部３０９を介してリクエストを受ける。このとき、通信部３０９は、メタデータも受信する。ステップＳ２２２において、CPU３０１は、コンテンツDB２３１に登録されているコンテンツから候補を抽出する。ステップＳ２２３において、CPU３０１は、受信したメタデータと、メタデータDB２３２のメタデータとのマッチングを行う。ステップＳ２２４において、CPU３０１は、メタデータに関して類似度の高いコンテンツを、スマートフォン２１１にレスポンスする。

スマートフォン２１１のCPU２６３は、ステップＳ２０５において、サーバ２１２からレスポンスがあったか否かを判定する。ステップＳ２０５において、レスポンスがあったと判定された場合、処理は、ステップＳ２０６に進む。ステップＳ２０６において、通信部２５２を制御して、コンテンツを受信させる。

一方、ステップＳ２０５において、レスポンスがないと判定された場合、処理は、ステップＳ２０７に進む。ステップＳ２０７において、CPU２６３は、表示部２６２に、エラーである旨が示されているエラー画像を表示させる。

なお、上記説明では、画像分析を行って抽出されたメタデータを、サーバに送ることでそのメタデータに類似度の高いコンテンツを選ぶ例を説明したが、画像そのものをサーバに送り、サーバにおいて画像分析を行って抽出されたメタデータを用いてコンテンツを選ぶようにしてもよい。すなわち、メタデータ抽出は、ユーザ側で行ってもよいし、サーバ側で行ってもよい。

以上のように、本技術によれば、バイノーラルコンテンツ録音時に、コンテンツに対してメタデータを付加することにより、自撮り画像を解析して、近い特性の録音データを受信する機能を実現することができ、SNSとして利用することができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。

また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数のデバイス（装置）により構成される装置全体を表すものである。

例えば、本開示は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、以上において、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する送信部を
備える情報処理装置。
（２）前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたダミーヘッドまたは頭部の耳間距離である
前記（１）に記載の情報処理装置。
（３）前記メタデータは、前記バイノーラルコンテンツの録音時にダミーヘッドが使用されたか、実耳が使用されたかを示す使用フラグである
前記（１）または（２）に記載の情報処理装置。
（４）前記メタデータは、前記バイノーラルコンテンツの録音時におけるマイク位置が鼓膜付近であるか、または耳介付近であるかを示す位置フラグである
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）前記位置フラグが耳介付近であることを示す場合、１乃至４kHz付近で補償処理が施される
前記（４）に記載の情報処理装置。
（６）前記位置フラグに応じて、耳穴密閉時の外耳道特性の補償処理である再生時補償処理が行われる
前記（４）に記載の情報処理装置。
（７）前記再生時補償処理は、5kHz付近および７kHz付近にディップを持つように行われる
前記（６）に記載の情報処理装置。
（８）前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクロホンの情報である
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクアンプのゲイン情報である
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）録音時の音源からマイクロホンの位置までの音圧差を補償するための録音時補償処理を行う補償処理部を
さらに備え、
前記メタデータは、前記録音時補償処理が済んでいるか否かを示す補償フラグである
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）情報処理装置が、
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する
情報処理方法。
（１２）バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を
備える情報処理装置。
（１３）前記メタデータに応じて、補償処理を行う補償処理部
をさらに備える
前記（１２）に記載の情報処理装置。
（１４）送信された画像を用いてのマッチングにより選択されて送信されてくるコンテンツを受信する
前記（１２）または（１３）に記載の情報処理装置。
（１５）情報処理装置が、
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する
情報処理方法。

１録音再生システム，１１音源，１２，１２－１，１２－２ダミーヘッド，１３，１３－１，１３－２マイクロホン，１４録音装置，１５再生装置，１６ヘッドホン，１７ユーザ，１８ネットワーク，２２マイクアンプ，２３スライダ，２４ ADC, ２５メタデータDB，２６メタデータ付加部，２７送信部，２８記憶部，３１受信部，３２メタデータDB，３３補償信号処理部，３４ DAC，３５ヘッドホンアンプ，５１録音再生システム，６１再生時補償処理部，６２表示部，６３操作部，８１ユーザ，８２バイノーラルマイク，１０１録音再生システム，１０２音声ファイル，１１１録音時補償処理部，１５１録音再生システム，１５２音声ファイル，２０１バイノーラルマッチングシステム，２１１スマートフォン，２１２サーバ，２１３ネットワーク，２２１タッチパネル，２３１コンテンツDB，２３２メタデータDB，２５２通信部，２５７画像処理部，２６３ CPU，３０１ CPU，３０９通信部

Claims

バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する送信部を備え、
前記送信部は、送信されてきた画像を用いての顔の形状のマッチングにより選択された前記バイノーラルコンテンツを送信する
情報処理装置。
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたダミーヘッドまたは頭部の耳間距離である
請求項１に記載の情報処理装置。
前記メタデータは、前記バイノーラルコンテンツの録音時にダミーヘッドが使用されたか、実耳が使用されたかを示す使用フラグである
請求項１または２に記載の情報処理装置。
前記メタデータは、前記バイノーラルコンテンツの録音時におけるマイク位置が鼓膜付近であるか、または耳介付近であるかを示す位置フラグである
請求項１乃至３のいずれかに記載の情報処理装置。
前記位置フラグが前記耳介付近であることを示す場合、１乃至４kHz付近で補償処理が施される
請求項４に記載の情報処理装置。
前記位置フラグに応じて、耳穴密閉時の外耳道特性の補償処理である再生時補償処理が行われる
請求項４に記載の情報処理装置。
前記再生時補償処理は、5kHz付近および７kHz付近にディップを持つように行われる
請求項６に記載の情報処理装置。
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクロホンの情報である
請求項１乃至７のいずれかに記載の情報処理装置。
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクアンプのゲイン情報である
請求項１乃至８のいずれかに記載の情報処理装置。
録音時の音源からマイクロホンの位置までの音圧差を補償するための録音時補償処理を行う補償処理部を
さらに備え、
前記メタデータは、前記録音時補償処理が済んでいるか否かを示す補償フラグである
請求項１乃至９のいずれかに記載の情報処理装置。
情報処理装置が、
送信されてきた画像を用いての顔の形状のマッチングにより選択されたバイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関する
メタデータを送信する
情報処理方法。
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を備え、
前記受信部は、送信された画像を用いての顔の形状のマッチングにより選択されて送信されてくる前記バイノーラルコンテンツを受信する
情報処理装置。
前記メタデータに応じて、補償処理を行う補償処理部
をさらに備える請求項１２に記載の情報処理装置。
情報処理装置が、
送信された画像を用いての顔の形状のマッチングにより選択されて送信されてくるバイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する
情報処理方法。