JP2015119248A

JP2015119248A - バイノーラル録音を用いた立体音響ｉｐ電話

Info

Publication number: JP2015119248A
Application number: JP2013259920A
Authority: JP
Inventors: 伊藤　嘉浩; Yoshihiro Ito; 伊藤　　嘉浩; 涼村上; Ryo Murakami
Original assignee: Nagoya Institute of Technology NUC
Current assignee: Nagoya Institute of Technology NUC
Priority date: 2013-12-17
Filing date: 2013-12-17
Publication date: 2015-06-25

Abstract

【課題】従来の電話システムにはない、3次元音響である立体音響をインターネット上で伝送し、臨場感のある次世代の立体音響電話システムに関する。【解決手段】立体音響電話システムの利用者は、２チャンネルのマイク内蔵型イヤホンを左右の耳に装着し携帯端末に接続する。一方の利用者の左右の耳部のマイクで集音した現場の音声を音声携帯端末に録音し符号化して、既存のIP電話システムの2回線を使って各々の音声データを、他方の利用者の携帯端末に送信する。他方の利用者の携帯端末で複号化し、その耳部で左右に対応する音声をイヤホンで再生する双方向のIP電話システムにより、次世代の立体音響電話システムを実現する。【選択図】図１

Description

本発明は、バイノーラル録音を用いて、3次元音響である立体音響（以下、立体音響）をインターネット上で伝送し、臨場感のある次世代のインターネット電話システム（以下、立体音響IP 電話システム）に関するものである。即ち、立体音響IP電話システムは、インターネット回線に立体音響を利用した電話サービス（以下。立体音響IP電話サービス）を提案するものである。立体音響とは、非特許文献１に示されるように、ある空間に存在する音声を録音し、人間が聴覚によって知覚している音源の方向や音源までの距離などの情報を再生時に立体的に再現する方式のことである。立体音響をIP 電話システムに利用することで、再生された音声を聴いた人間（以下、人間２）が、音声が発生している現場の音声（以下、現場音声）を聞いている人間（以下、人間１）と同じ録音した音声を聞くことで、あたかも音声が発生している現場の空間にいるような臨場感を得ることが期待される。
特に、本発明では、既存のIP 電話システムのIP電話サービスの拡張によりによるサービスを提供する発明のため、現在利用されているIP 電話用の伝送符号化方式を用いた、立体音響IP 電話サービスを検討する。即ち、立体音響をベストエフォート型のネットワークであるIP ネットワーク上で伝送する場合、IP パケットの遅延や損失などによりサービス品質が低下する。よって、IP ネットワークの通信品質の劣化が立体音響IP 電話サービスに及ぼす影響を明らかにすると共に、品質向上に係る発明を提案する。

本発明の従来技術はIP電話システムとは関係の無い立体音響であり、例えば非特許文献２があるが、これは、多地点の音声を合成して、疑似的な立体音響環境を構成するものであり、本発明の目的とは関連しないものである。
立体音響の関連研究は多く行われているが、IP ネットワーク上で立体音響を伝送することを扱った研究は見られない。一方、非特許文献３および非特許文献４には、従来のIP 電話サービスの品質評価手法があるが、これらの品質評価手法は立体音響を考慮したものではない。

日本音響学会，新版音響用語辞典，コロナ社，July 2003．飯塚真也, 菊入圭, 仲信彦. モバイル多地点音声チャットのためのサラウンド音声伝送技術. NTT DOCOMO テクニカル・ジャーナル, Vol. 17, No. 2, pp.25-29, July 2009. 北脇信彦. 携帯電話の符号化―音声コーディング，対音環境特性，通話品質.日本音響学会誌, Vol. 58, No. 12, pp. 780-785, 2002. 北脇信彦. IP 電話の通話音質評価. 日本音響学会誌, Vol. 63, No. 11, pp.680-685, 2007. ITU-T, G.711 : Pulse Code Modulation (PCM) of Voice Frequencies," Nov.1988. J.M. Valin, Speex: A Free Codec For Free Speech," 2002. Xiph.OrgFoundation. 西山静男．池谷和夫．山口善司．奥島基良．音響振動工学／コロナ社．1979. 西巻正郎．電気音響振動学／コロナ社．1978.

前述のように従来技術には、3次元音響である立体音響（以下、立体音響）をインターネット上で伝送し、臨場感のある次世代のインターネット電話システム（以下、立体音響IP 電話システム）に関するものはない。

本発明は、バイノーラル方式による立体音響を利用したインターネットにおける次世代電話システムとして立体音響IP 電話システムを提案する。この立体音響IP電話システムによる立体音響IP電話サービスによる立体音響により、左右、後方音源の位置など、３D画像などの視覚情報からは知覚できない情報を提供することができる。従って、本発明の立体音響IP電話システムの実現により、これまでのサービスにはない高い臨場感を与える次世代インターネット電話サービスとなる。
よって、本発明は、インターネット上での新しいサービスの提供により、生活の質（QOL）を大きく向上させることを目的とする。

前記目的を達成するため、請求項１に記載の発明は、一方の人間の左右の耳部に装着する２チャンネルのマイク内臓型イヤホンのマイクにてバイノーラル録音を行い、前記バイノーラ録音を、一方の携帯端末によりそれぞれ符号化信号とし、前記符号化信号をインターネットの２つの電話回線を用いて、他方の人間の携帯端末に送信し、前記他方の携帯端末にて、受信した符号化信号を複号化してバイノーラル出力として、前記他方人間の左右の耳部に装着した２チャンネルのマイク内臓イヤホンにて再生する、双方向のIP電話システムに関する。
本発明によれば、送信者が左右の耳で聞いている現場の音声を、既存のIP電話システムを2回線使い送信して、受信者の左右の耳部でそのまま再生することができ、立体音響IP 電話システムを構築することができる。
請求項２に記載の発明は、前記一方および他方の携帯端末に、２チャンネルのAD/DA変換機、イコライザ、およびパケット生成器／パケット受信器、を備えたことを特徴とする請求項１に記載のIP電話システムである。
本発明によれば、録音した音声を周波数帯ごとに分割して、送信、再生することが可能となる。
請求項３に記載の発明は」、周波数帯1,000Hz〜3,000Hzの帯域成分を保有する音声データを優先的に扱うことを特徴とする請求項１および２に記載に記載のIP電話システムである。
本発明によれば、IP電話システムによるパケット損失による影響を最小限に抑え、会話による音声の明瞭度を現場の音声と同程度に維持することができる。
請求項４に記載の発明は、送信者側から録音した音声のうち、受信者側では周波数帯2,000Hz〜3,000Hzの音声を強調することを特徴とする請求項１乃至３に記載のIP電話システムである。
本発明によれば、現場の音声データでも識別困難な、前後方向の音源定位能の向上を図ることができる。

本発明の実施形態１であるバイノーラル録音を用いた立体音響IP電話システムの全体構成本発明の有効性評価の実験装置本発明の有効性評価の実験結果本発明の有効性評価を比較するための実験結果本発明の実施形態２および３のバイノーラル録音を用いた立体音響IP電話システムの全体構成

（実施形態１）
本発明の立体音響IP電話システムの基本構成である実施形態１の特徴を図に従って以下に説明する。

図１に、本発明の第１実施形態であるバイノーラル録音を用いた立体音響IP電話システムの全体構成を示す。一方の立体音響IP電話システムの利用者を人間１、他方の利用者を人間２とする。人間１および人間２は、マイク内蔵型イヤホンを左右の耳に装着する。ここで立体音響IP電話システムを、人間１を送信者、人間２を受信者として説明する。人間１が左右の耳部に装着したマイクを通じて、人間１が話した音声及び人間１が周囲から聞いた音声を集音し、携帯端末・スマートホン等（以下、携帯端末）に入力する。人間１の携帯端末１では、録音した音声信号を、バイノーラル方式により録音し信号補正・符号化（以下、符号化）をおこなう。符号化した音声はインターネットを介して、人間２の携帯端末２に送信される。即ち、インターネットにおいて、音声信号は、人間１の携帯端末１から人間１のエリアの基地局１に送信され、基地局１から人間２のエリアの基地局２へ送信される。更に、基地局２から人間２の携帯端末２へ送信される。携帯端末２では、音声信号をバイノーラル方式の音声へ複号化される。複号化された音声は、人間２の装着するマイク内臓型イヤホンでバイノーラル出力として再生される。

ここで、立体音響IP電話システムでは左右の耳に各々マイク内蔵型イヤホンが装着され、各々別々の音声として、音声信号化されて送信する。よって、既存のIP電話システムにおけるチャンネルを2回線使用する。そして、1回線を用いて人間１の右側の耳部で録音した音声を送信し人間２の右側耳部で再生し、他の1回線を用いて人間１の左側の耳部で録音した音声を送信し人間２の左側耳部で再生する。尚、左右のそれぞれの信号は、現在利用されている通常のIP電話システムの回線を用い、モノラルでも良い。以上のように左右別々の信号を扱うことにより、3次元音響である立体音響となる。

携帯端末等１における集音した音声の符号化、送信は瞬時（約5ｍｓ）で行われ、携帯端末等２における受信した符号化信号の複号化も瞬時（約5ｍｓ）で行われるので、インターネットのIP電話システムの回線が有効ならば人間１の耳部で集音した音声は、瞬時に人間２の耳部で再生される。また、実施形態１の立体音響IP電話システムは、利用者である人間１、人間２共に、2チャンネルのマイク内蔵イヤホンを装着しているので、人間２から人間１への送信もできる。よって、双方向の送受信が可能で電話としての機能を有する。

立体音響IP 電話サービスを提供するために検討すべき事項として、受聴者が音源を定位する能力（以下、音源定位能）、立体音響の録音・再生方式，立体音響の伝送符号化方式の３点がある。
音源定位能とは、受聴者である人間２が、立体音響IP電話サービスから発せられた音声を基に音像を知覚し、音源の空間的性質を判断する能力である。正しく音源定位がなされた場合、受聴者（人間２）が音声信号により知覚した音源の空間的性質である人間２から音源の方向や音源までの距離は、送信者（人間１）がおかれた空間的性質である人間１から音源の方向や音源までの距離と一致する。
立体音響の録音・再生方式には、IP電話サービスであることを踏まえ、バイノーラル方式を採用する。バイノーラル方式とは、主にダミーヘッドと呼ばれる両耳の部分にマイクロホンを埋め込んだ人工の頭部模型で録音した左右2 チャンネルの音声を、ヘッドホンを用いて受聴者の両耳に提示する方式である。具体的には、IP電話サービスの利用者が２チャンネルのマイク内蔵イヤホンを使用することで、バイノーラル方式であるダミーヘッドの両耳の部分にマイクロホンを埋め込んだ人工の頭部模型で録音した左右2 チャンネルの音声と同等の音声を、マイク内蔵イヤホンのマイクで集音できるので録音も可能となる。また、イヤホンのよる再生もできる。
バイノーラル方式を利用することで、IP電話サービスの利用者である送信者（人間１）が左右の耳で聞いた音が、そのまま受聴者（人間２）の左右の耳で再現でき、人間の頭部の影響による両耳間差を再現することが可能となる。よって、普段人間が音源定位能の手がかりとしている情報も再現できる。またバイノーラル録音では、多数のスピーカやマイクなどを用いずに、マイク内蔵イヤホンにて立体音響の作成、復元が簡易かつ低コストで実現できるため、電話サービスに非常に適している。
立体音響の符号化方式には、IP 電話に用いられる符号化方式の中から採用する。例えば、非特許文献５に示されるITU-TG.711、または、非特許文献６に示されるSpeexなどを採用する。ITU-T G.711 は、電話サービスISDN や固定電話網などで多く使われている音声符号化方式である。符号ビットレートは64kb/s で固定されている。一方、Speex はIP ネットワークでVoIP を利用した電話サービスアプリケーションなどで採用されることを想定した音声符号化方式である。

（有効性の確認）
発明者らは、立体音響IP 電話システムの有効性を以下の実験で確認した。即ち、本実験は、被験者を用いた実験により、立体音響の符号化方式およびIP ネットワークの通信品質が音源定位に及ぼす影響を評価するものである。

図２に実験装置を示す。部屋１に人間１の代わりにダミーヘッド（型式：KU-100）を置き、左右の耳部にマイクをつけた。ダミーヘッドの正面においたスピーカ（型式：AT-SPB30）
より、評価用音声として女性のアナウンス音声を出力した。出力された評価用音声はダミーヘッドの左右の耳部の２つのマイクを通して集音しマイクロホンアンプで増幅する。増幅した評価用音声は、左右2 チャンネルのアナログ信号として音声録音・符号化端末へ送られる。
音声録音・符号化端末にて、チャンネル毎にリニアPCM 形式で符号化され、これを伝送前の原音として扱う。その後、伝送用の符号化処理を施され、部屋２の音声復号化・再生端末に向けて送信される。
送信は、ネットワークエミュレエータにてインターネットのIP電話システムを介して行う。伝送時の符号化方式の条件には、ITU-TG.711(64kb/s)形式と、符号化ビットレートをそれぞれ変更したSpeex 形式が利用されている。
尚、部屋２の音声復号化・再生端末は、部屋１のスピーカの音声を直接聞き取れない場所にある。部屋２において被験者（人間）が、ダミーヘッドの左右耳部に対応した左右の耳部に装着したヘッドホン（型式：ATH-T300）にて音声を聞き、音源定位能を確認・評価する。

図３に図２の実験装置を用いて評価した、音源定位能の具体的な実験結果を示す。横軸は、実際の音源方向である部屋１におけるダミーヘッドに対する音源であるスピーカの方向であり、縦軸は、被験者が聞こえた音源の方向である部屋２における人間が評価した音源の方向である。評価する方向は、ダミーヘッドの正面にスピーカを置いた場合を0°として、反時計回りに45°、90°、135°、180°、225°、270°、315°の8 通りを設定した。即ち、右の耳部は90°、後方は180°、左の耳部は270°である。
図３は、IPパケットの損失率3％、被験者24人の結果である。右の耳部である90°方向は、音源の方向とその評価方向が同じ被験者が20人であり、左の耳部である270°方向は、同様に22人である。よって、左右方向は実際の音源方向を特定できている。

更に図３の実験結果の比較検証を行うため、追加実験を行い図４の実験結果を得た。これは部屋１においてダミーヘッドの代わりに被験者（人間）24人が目隠しをして、図３と同様の音源方向を評価したものである。よって、図４が現場音声の音声定位能であり、現場にいる人間が3次元音響である立体音響を聞き、臨場感を体感している状態といえる。図３と図４を比較すると、右の耳部である90°方向は、音源の方向とその評価方向が同じ被験者が図４の21人に対し図3は20人であり、左の耳部である270°方向は、図４の23人に対し図３は22人である。また、他の方向の実験結果においても、個人差によるバラツキはあるものの、現場音声である図４と立体音響IP 電話システム本実験の実施形態１の結果である図３とは、ほぼ一致している。以上より、被験者は左右の音源の方向を正確に知覚できており、実施形態１の立体音響IP 電話システムの有効性が確認できた。
尚、当初懸念した、立体音響をベストエフォート型のネットワークであるIP ネットワーク上で伝送する場合、IP パケットの遅延や損失などによりサービス品質が低下については、パケット損失率3％であり、このレベルであれば評価用音声として用いた女性のアナウンス音声のような通常の人間の会話による通信に関するレベルでは問題ないことも分かった。よって、現在利用されている通常のIP電話システムを立体音響IP電話システムとして使用できる。

（実施形態２）
本発明の実施形態２は、音質向上の方法に関する。会話音質における重要な周波数帯として、非特許文献7には、音声の明瞭度に寄与する周波数帯は、250Hz〜7,000Hzであり、中でも重要な周波数帯は 250Hz〜3,400Hzと開示されている。更に、非特許文献8には、非特許文献7より、1,000Hz〜3,000Hzの範囲を通過させれば、明瞭度を約90％に保つことが出来ることが開示されている。
よって、低い周波数を切り捨ててもさほど明瞭度には影響しないが、高い周波数を切り捨てると子音の明瞭度は著しく低下するといえる。実施形態２は、これら1,000Hz〜3,000Hzの帯域成分を保有する音声データを優先的に扱うことで、音質の劣化を防ぐものである。

図５に実施形態２のインターネット電話システムの構成を示す。実施形態２は、図１の携帯端末に、符号器/複号器に次の構成を加える。具体的には、一方の送信者側で、マイク内蔵型イヤホンで集音した音声を携帯端末に送る。携帯端末では、２チャンネル・AD変換機によりアナログ信号をデジタル信号に変換する。これを音像補正イコライザで、周波数帯ごとの音声データに分割する。その音声データを符号器によりIP電話システムの送信データに変換する。更に、パケット生成器により音質向上のための優先制御を行い、優先した周波数帯のデータを優先してネットワークで他方の受信者の携帯端末に送信する。
受信者の携帯端末では、パケット受信器により受信したデータを音質向上のための優先制御により優先した周波数の処理を優先して行う。優先して受信したデータを複号器で音声データに複号化する。次に、音質・音像補正イコライザにて周波数帯ことに優先する周波数帯を増幅する。これを２チャンネルイヤホン・DA変換器でデジタル信号からアナログ信号に変換し、受信者の２チャンネルマイク内蔵イヤホンにて再生出力を行う。
ここで優先制御する周波数は、1,000Hz〜3,000Hzの範囲である。即ち、音声の明瞭度に寄与する周波数帯を優先して使用することにより、会話の音質の低下を最小限として、会話の音声の明瞭度を向上させることができる。
ここでは、一方の送信者から他方の受信者への送信する構成で説明したが、実際には双方向のIP電話システムであるので、AD変換機とDA変換機、音像補正イコライザと音質・音像補正イコライザ、符号器と複号器、パケット生成器とパケット受信器は、送信者と受信者の双方が使用する形態端末に装備されている。
尚、実施形態２では音像補正イコライザの機能および音質・音像補正イコライザの内、音像補正イコライザの機能は使用しない。

（実施形態３）
実施形態１および実施形態２は、送信者の現場音声を忠実に受信者に送信し再生することで立体音響IP 電話システムを構成しているが、一方、図３、４において、前方方向である０°、後方方向である180°においては、音源の方向を正確に知覚できた被験者が、左右方向である90°、270°に比べて少ない。
そこで、実施形態３の発明は、収録した音声の内、脳が後方からの音声を認識する周波数帯を強調して再生することで、更に、受信者に臨場感のある立体音響IP 電話システムを提供する。送信者の視覚情報がない受信者にとって、この3次元音響により更に臨場感のあるものとなる。

一般的に、高周波数帯の音声は、前方からの音声に比べて、後方からは聞き取りにくいことが知られている。よって、実施形態３では、周波数帯2,000Hz〜3,000Hzの音声を強調して再生する。
実施形態３の構成は図５と同じであり、送信側および受信側の携帯端末において、音像補正イコライザが機能する。

本発明のサービスと、映像伝送（特に立体映像伝送）、位置情報システムなどと組み合わせることにより、更に臨場感の高いIP電話サービスを提供できる。

１人間１
１−１人間１のマイク内蔵型イヤホン（２チャンネル）
１−２人間１の携帯端末１
１−３人間１のエリアの基地局１
２人間２
２−１人間２のマイク内蔵型イヤホン（２チャンネル）
２−２人間２の携帯端末２
２−３人間２のエリアの基地局２
３実施形態２および実施形態３の携帯端末
３−１ AD/DA変換機
３−２音質・音像補正イコライザ
３−３符号器/複号器
３−４パケット生成器/パケット受信器

Claims

一方の人間の左右の耳部に装着する２チャンネルのマイク内臓型イヤホンのマイクにてバイノーラル録音を行い、
前記バイノーラ録音を、一方の携帯端末によりそれぞれ符号化信号とし、
前記符号化信号をインターネットの２つの電話回線を用いて、
他方の人間の携帯端末に送信し、
前記他方の携帯端末にて、受信した符号化信号を複号化してバイノーラル出力として、
前記他方人間の左右の耳部に装着した２チャンネルのマイク内臓イヤホンにて再生する、
双方向のIP電話システム。
前記一方および他方の携帯端末に、
２チャンネルのAD/DA変換機、イコライザ、およびパケット生成器／パケット受信器、
を備えたことを特徴とする請求項１に記載のIP電話システム。
周波数帯1,000Hz〜3,000Hzの帯域成分を保有する音声データを優先的に扱うことを特徴とする請求項１および２に記載に記載のIP電話システム。
送信者側から録音した音声のうち、受信者側では周波数帯2,000Hz〜3,000Hzの音声を強調することを特徴とする請求項１乃至３に記載のIP電話システム。