JP6377557B2

JP6377557B2 - 通信システム、通信方法、およびプログラム

Info

Publication number: JP6377557B2
Application number: JP2015057620A
Authority: JP
Inventors: 達也加古; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2018-08-22
Anticipated expiration: 2035-03-20
Also published as: JP2016177153A

Description

この発明は、スレーブ端末で生成した信号をマスター端末へネットワークを介して伝送し、マスター端末で信号を同期して所望の処理を行う通信技術に関する。

デジタル端末（例えば、スマートフォンやパーソナルコンピュータ、ビデオカメラ、カーナビゲーションシステム、テレビなど）で音声を用いるサービス（例えば、テレビ会議や動画撮影、防犯記録など）を利用する場合、デジタル端末に搭載されているマイクを用いて、そのサービスで利用する音を取得する。しかし、例えば、デジタル端末がモノラルマイクしか搭載していない場合や、ハンズフリーによる収音に特化したチューニングがされており遠方の音のＳ／Ｎ比が悪い場合など、デジタル端末から離れた場所の音を取得することが困難な場合がある。また、ビデオカメラでは通常ステレオマイクを搭載しているが、指向性が低いため離れた音をピンポイントで取得することは困難である。

このような問題を解決するために非特許文献１から５のような従来技術がある。非特許文献１では、デジタル端末にイヤホン端子やUSB（Universal Serial Bus）端子を介して外付けのステレオマイクや多チャンネルマイクを接続することでマイクの音響特性を改善し、適切な方向の音のみを取得する技術が記載されている。非特許文献２には、有線で接続された単一指向性のクリップ付きのマイクロホンが記載されている。非特許文献３には、指向性を持ったガンマイク型のモノラルマイクロホンが記載されている。非特許文献４には、デジタル端末から離れた音を取得する技術として、デジタル端末とヘッドセットをBluetooth（登録商標）でペアリングして接続し、ヘッドセットからの音をデジタル端末に伝送してワイヤレスで音声を取得する技術が記載されている。非特許文献５には、手元のリモコンにマイクを導入して音声を取得するテレビが記載されている。なお、以降の説明では、音声サービスを制御するデジタル端末をマスター端末と呼び、マスター端末から離れた場所で音声を取得する機器をスレーブ端末と呼ぶ。

株式会社ズーム、"iQ7オペレーション・マニュアル"、[online]、［平成27年2月24日検索］、インターネット<URL: http://www.zoom.co.jp/download/J_iQ7.pdf> 株式会社オーディオテクニカ、"AT9902iS | マイクロホン"、[online]、［平成27年2月24日検索］、インターネット<URL: https://www.audio-technica.co.jp/atj/show_model.php?modelId=970> 株式会社オーディオテクニカ、"AT9913iS | マイクロホン"、[online]、［平成27年2月24日検索］、インターネット<URL: https://www.audio-technica.co.jp/atj/show_model.php?modelId=971> エレコム株式会社、"LBT-MPHS510シリーズ、LBT-PCHS510シリーズ取扱説明書"、[online]、［平成27年2月24日検索］、インターネット<URL: http://www.elecom.co.jp//support/manual/avd/headphone/bluetooth/LBT-HS510_manual_v2.pdf> パナソニック株式会社、"4K対応テレビ AX800/AX800Fシリーズ（液晶）"、[online]、［平成27年2月24日検索］、インターネット<URL: http://panasonic.jp/viera/products/ax800_800f/>

外付けのガンマイクを接続する方法では、ガンマイクを向けた方向の音の感度を上げて取得することができるが、向けた方向に存在する雑音なども合わせて感度が上がってしまう。また、ガンマイクであっても収音できる範囲には限界があり、ガンマイクから例えば３メートルほど離れた発話者の音声を取得するとＳ／Ｎ比が劣化してしまう。

Bluetoothによりヘッドセットを接続する方法では、マスター端末から離れた音を取得することができるが、マスター端末が持っているマイクに入る音声は遮断してしまうため、例えばビデオ撮影や音声会議など広範囲の音が必要となる利用シーンでは必要な範囲の音声を取得することができない。テレビリモコンのマイクを同時に収音して記録する場合も、同様に、テレビリモコンの音声のみを利用し、マスター端末のマイク収音機能は遮断してしまう。

仮に、マスター端末とスレーブ端末とで時間的な同期を考慮せず単純にミキシングして収音した場合、通信網やBluetoothによる伝送遅延によって音が二重に聴こえてしまい、音質が劣化してしまうことがある。

この発明の目的は、このような点に鑑みて、マスター端末とスレーブ端末の間のパケット伝送時間に基づいて時間調整を行うことで広範囲に配置された端末間の通信を同期することができる通信技術を提供することである。

上記の課題を解決するために、この発明の通信システムは、マスター端末と少なくとも１台のスレーブ端末とを含む通信システムであって、スレーブ端末は、通信対象の信号をパケットに格納してマスター端末へ送信するパケット送信部を含み、マスター端末は、スレーブ端末からパケットを受信し信号を取り出すパケット受信部と、スレーブ端末ごとにパケット伝送時間を計測し、パケット伝送時間の算術平均をスレーブ端末の遅延量として求める遅延量決定部と、スレーブ端末ごとに信号に対してスレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理部と、を含む。

この発明の通信技術によれば、マスター端末とスレーブ端末の間のパケット伝送時間に基づいて時間調整を行うことで広範囲に配置された端末間の通信を同期することができる。この発明を様々な音声を用いるサービスに適用すれば、サービスを提供するマスター端末と収音機能を持つスレーブ端末とがネットワークを介して接続することで、マイク数を増やし広範囲で収音することができる。また、映像撮影サービスと連携すれば、マスター端末がミキシング機能を備えることで複数のマイクからの音声を１つの画面でリアルタイムに処理することができる。広範囲の音を取得した信号は、例えば音声会議システムや映像コンテンツ作成、動画配信サービスなどと連携することで、コンテンツの音声品質を向上することができる。

図１は、第一実施形態の通信システムの機能構成を例示する図である。図２は、音声処理部の機能構成を例示する図である。図３は、第一実施形態の通信方法の処理フローを例示する図である。図４は、接続制御部の処理フローを例示する図である。図５は、第一実施形態のＧＵＩ制御部の表示方法を例示する図である。図６は、第二実施形態の通信システムの機能構成を例示する図である。図７は、第二実施形態のＧＵＩ制御部の表示方法を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態は、デジタル端末であるマスター端末とスレーブ端末との接続を行い、各端末で取得した音声に対して所望の音声処理を行う通信システムである。本形態では、スレーブ端末が音声を取得しマスター端末へ伝送し、マスター端末がスレーブ端末からの音声と自ら取得した音声に対して目的の話者の音声を強調する音声強調処理を行う例を説明する。

本形態の通信システムは、図１に例示するように、１台のマスター端末１とn（≧1）台のスレーブ端末２₁,…,２_nとを含む。マスター端末１とスレーブ端末２₁,…,２_nとは、通信網９を介して通信可能なように接続される。通信網９は、接続される各装置が相互に通信可能なように構成されたパケット交換方式の通信網であり、その通信プロトコルとしてはWi-Fiのような無線LAN（Local Area Network）、NFC（Near Field Connection）やBluetoothのような近距離無線通信などを用いることができる。マスター端末１は、マイクＭ₀、接続制御部１０、ＧＵＩ制御部１１、および音声処理部１２を含む。スレーブ端末２_k（k∈{1,…,n}）は、マイクＭ_k、接続制御部２０_k、Ａ／Ｄ変換部２１_k、エンコード処理部２２_k、およびパケット送信部２３_kを含む。図１では、マイクＭ₀,…,Ｍ_nが各端末に内蔵されるように示しているが各端末の各種のインターフェースを介して接続される外付けマイクとして構成されていても構わない。

マスター端末１の音声処理部１２は、図２に例示するように、Ａ／Ｄ変換部１２０、n個のパケット受信部１２１₁,…,１２１_n、n個のデコード処理部１２２₁,…,１２２_n、n個のマイクバッファ処理部１２３₁,…,１２３_n、遅延量決定部１２４、n+1個の遅延バッファ処理部１２５₀,…,１２５_n、n個の音声遅延量推定部１２６₁,…,１２６_n、話者強調処理部１２７、n+1個のノイズ除去部１２８₀,…,１２８_n、およびミキシング部１２９を含む。

マスター端末１およびスレーブ端末２の各端末は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各端末は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各端末に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。各端末の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

マスター端末１は、具体的には、例えばパーソナルコンピュータやスマートフォン、タブレット端末のような音声取得機能および無線通信機能を備えた情報処理装置である。スレーブ端末２は、具体的には、例えばパーソナルコンピュータやスマートフォン、タブレット端末のような音声取得機能および無線通信機能を備えた情報処理装置でもよいし、従来技術で用いられるヘッドセットやリモコンのような音声取得機能を備えた専用のデジタル機器でもよい。

図３を参照して、第一実施形態の通信方法の処理手続きを説明する。以下では、任意の１台のスレーブ端末２_kに対する処理手続きを説明するが、複数のスレーブ端末を利用する場合には各スレーブ端末に対して同様の処理が行われるものとする。

ステップＳ１０およびＳ２０において、マスター端末１の接続制御部１０とスレーブ端末２_kの接続制御部２０_kは、マスター端末１とスレーブ端末２_kの間の通信の接続を行う。接続の方法は、例えば、無線LANや有線LANなどの通信網を用いたIP（Internet Protocol）通信や、BluetoothやNFCなどを用いた近距離無線通信、Wi-Fi Direct（登録商標）やMultipeer Connectivityなどの端末同士が直接通信するピアツーピア通信などが考えられる。無線LANや有線LANを用いたIP通信の接続制御方法には、例えば、参考文献１に記載の公知技術で用いられている方法がある。
〔参考文献１〕日本電信電話株式会社、“手持ちのスマホでワイヤレスマイク機能を簡単に実現〜スマホがテレビ電話・テレビ会議の拡張マイクとして使える「振幅スペクトルビームフォーマ技術」を開発〜”、[online]、［平成27年2月24日検索］、インターネット<URL: http://www.ntt.co.jp/news2014/1401/140129a.html>

図４を参照して、NFCとWi-Fi Directを用いた接続制御のシーケンスについて述べる。まず、スレーブ端末２_kでWi-Fi Directの初期化処理を行う。スレーブ端末２_kの初期化処理では、自端末のMACアドレス（Media Access Control address）を取得する。同時に、マスター端末１でWi-Fi Directの初期化処理を行う。マスター端末１の初期化処理では、Wi-Fi Direct Groupを作成し、Wi-Fi Directのグループオーナーアドレスを生成する。

その後、マスター端末１と同一ネットワークに接続するスレーブ端末２₁,…,２_nのそれぞれについてMACアドレス等のネットワーク接続情報を取得する。ネットワーク接続情報の取得方法の一例を以下に記載する。マスター端末１とスレーブ端末２_kとの間でNFCなどの近距離無線通信を行う。この際、情報伝送の承認をユーザーに依頼する。承認なしで送信することもできる。ユーザーへの依頼方法は、例えば、マスター端末１の画面に情報伝送を行う等のダイアログを表示し承認ボタンを選択させる。承認後、NFCなどの近距離無線通信を用いて、マスター端末１からスレーブ端末２_kへ通信接続に必要なMACアドレス、グループオーナーアドレス、コーデック種別、ポート番号などを通知する。仮に接続が不可の場合には、例えば、「-1」などのエラーコードをスレーブ端末２_kに送信する。

スレーブ端末２_kでは、受信したマスター端末１のグループオーナーアドレスにWi-Fi Direct接続を行う。マスター端末１に対してはWi-Fi Directに用いるIPアドレスとMACアドレスを通知する。マスター端末１では、スレーブ端末２_kからIPアドレスとMACアドレスを受信するまで一定時間待機を行う。例えば、10秒間待機を行い、取得できなければ接続を拒否し、再度Wi-Fi Directの初期化を行う。

接続が確立するとスレーブ端末２_kはグループオーナーアドレスを取得する。スレーブ端末２_kはグループオーナーアドレスへWi-Fi Directで接続を行う。グループオーナーアドレスへ接続することで、Wi-Fi Directグループ接続デバイスリストの更新がマスター端末１およびスレーブ端末２_kへ通知される。マスター端末１は、例えばUDPなどの通信プロトコルを用いてスレーブ端末２_kからの情報を受信するための受信ポートを開く。受信ポート番号は任意に決定してよいが、例えば、18081番以降のポートを開く。スレーブ端末２_kはマスター端末１のWi-Fi Directグループオーナーアドレスの指定された受信ポートへUDP等の通信プロトコルを用いて音声パケットの送信を開始する。

ステップＳ１２０において、マスター端末１のＡ／Ｄ変換部１２０は、マスター端末１に接続されたマイクＭ₀を用いて観測した音声をサンプリングしデジタルの観測信号を取得する。デジタルの観測信号は遅延バッファ処理部１２５₀および遅延量決定部１２４へ送られる。

ステップＳ２１において、スレーブ端末２_kのＡ／Ｄ変換部２１_kは、スレーブ端末２_kに接続されたマイクＭ_kを用いて観測した音声をサンプリングしデジタルの観測信号を取得する。デジタルの観測信号はエンコード処理部２２_kへ送られる。

ステップＳ２２において、スレーブ端末２_kのエンコード処理部２２_kは、Ａ／Ｄ変換部２１_kから観測信号を受け取り、その観測信号に対してコーデックをかけ音声圧縮を行う。コーデックには、例えばOpus, SILKなどを用いることができる。コーデックの情報とエンコードした圧縮音声信号はパケット送信部２３_kへ送られる。コーデックを用いず無圧縮のPCM（Pulse Code Modulation）信号を伝送する場合はエンコード処理部２２_kの処理を行わない。

ステップＳ２３において、スレーブ端末２_kのパケット送信部２３_kは、エンコード処理部２２_kで圧縮した観測信号とコーデック情報を受け取り、そのコーデック情報をパケットのヘッダーに、観測信号をパケットのペイロードに格納して、そのパケットをマスター端末１のパケット受信部１２１_kへ送信する。

ステップＳ１２１において、マスター端末１のパケット受信部１２１_kは、スレーブ端末２_kのパケット送信部２３_kから送られたパケットを受信し、そのパケットのヘッダーに格納されたコーデック情報とペイロードに格納された観測信号を取り出す。取り出したコーデック情報と観測信号はデコード処理部１２２_kへ送られる。

ステップＳ１２２において、マスター端末１のデコード処理部１２２_kは、パケット受信部１２１_kから受け取ったコーデック情報を用いて観測信号に対してデコード処理を行う。無圧縮のPCM信号を受信した場合はデコード処理部１２２_kの処理は行わない。コーデックが行われている場合はコーデック情報に従って観測信号のデコードを行う。デコードされた観測信号はマイクバッファ処理部１２３_kへ送られる。

マイクバッファ処理部１２３_kは、デコード処理部１２２_kから観測信号を受け取り、以後の処理の基準となる信号長分の観測信号のバッファリングを行う。バッファ処理には固定長のバッファリングを行ってもよいし、動的遅延バッファのように後述のパケット伝送時間に基づいてバッファ長を動的に変更してもよい。バッファした観測信号は遅延バッファ処理部１２５_kおよび遅延量決定部１２４へ送られる。

ステップＳ１２４において、マスター端末１の遅延量決定部１２４は、各端末から取得した観測信号を同期するために各観測信号に与える遅延量を決定する。マスター端末１とスレーブ端末２_kとはパケット通信による通信網を介して観測信号の伝送を行っているため、パケット伝送時間の遅延を考慮しなければならない。マスター端末１とスレーブ端末２_kとの距離が大きく離れており、話者の音声をいくつかのスレーブ端末２_kで観測できない場合、互いに観測された音声を手がかりに遅延を揃えることはできない。そこで、スレーブ端末２_kごとにマスター端末１とスレーブ端末２_kの間のパケット伝送時間を計測し、そのパケット伝送時間に基づいて各端末で取得した観測信号の遅延を揃えるための遅延量を求める。

マスター端末１とスレーブ端末２_kの間のパケット伝送時間は、ラウンドトリップ時間（RTT: Round-Trip Time）の計測により求める。マスター端末１はラウンドトリップ時間を計測するためのパケット（以下、RTT計測パケットと呼ぶ。）をスレーブ端末２_kへ向けて送信し、スレーブ端末２_kはRTT計測パケットを受信した後ラウンドトリップ時間を計測するための返答パケット（以下、RTT計測返答パケットと呼ぶ。）をマスター端末１へ送信する。マスター端末１では、受信したRTT計測返答パケットの受信時間とRTT計測パケットの送信時間との差を計算し、マスター端末１とスレーブ端末２_kとのラウンドトリップ時間T_kとする。ラウンドトリップ時間は往復の伝送時間となるため、スレーブ端末２_kからマスター端末１へのパケット伝送時間はt_k(n)=T_k/2となる。ここで、t_k(n)はスレーブ端末２_kからのパケットが伝送されるのに要した時間を表し、nはパケット到達の順番を表す。ラウンドトリップ時間の計測は任意の時間間隔で定期的に行う。例えば500ミリ秒単位で計測を行う。

次に、計測したパケット伝送時間t_k(n)を用いて各スレーブ端末２_kから受信した観測信号に対する遅延量を計算する。通信網を用いてパケットを伝送する場合、伝送元から伝送先までの間でパケット伝送時間にゆらぎが生じる。このゆらぎを許容し遅延量を決定する。パケット伝送時間のゆらぎがガウス分布に従っていると仮定し、パケット伝送時間から頑健に遅延時間を推定する。スレーブ端末２_kからマスター端末１へのパケット伝送にかかる真の時間をτ_0kとし、パケット伝送時間のゆらぎをノイズε(n)とする。このノイズε(n)が分散σ0のガウス分布（ε(n)=N(n|0,σ0)）に従うとすると、パケット伝送時間t_k(n)はt_k(n)=τ_0k+ε(n)で表すことができる。すなわち、パケット伝送時間のゆらぎとは、計測したパケット伝送時間と真のパケット伝送時間の差分とも言える。真のパケット伝送時間τ_0kの最尤推定値は、実際に計測されたパケット伝送時間t_k(n)から算術平均E[t_k(n)]として求めることができる。

しかしながら、パケット伝送時間は伝送経路や無線LANルーターなどのネットワーク機器がバッファリングを行うなど様々な要因からパケット伝送時間が大幅に遅くなってしまうことがある。この伝送時間の大幅な遅延は算術平均E[t_k(n)]に影響を与えてしまう。そこで、外れ値を除去して推定値を計算する。パケット伝送時間のゆらぎがガウス分布に従っていると仮定し、次式により、パケット伝送時間t_k(n)から分布の平均M_T_kと分散V_T_kとを求める。

ここで、E[・]は一定パケット数で平均値を算出する期待値演算処理であり、τ_kはスレーブ端末２_kの音声遅延量である。音声遅延量τ_kは後述の音声遅延量推定部１２６_kで求めるものである。τ_kが一度も更新されていない場合には、τ_k=0と初期値を与える。

求めた平均M_T_kと分散V_T_kとから分布の外れ値を省いてサンプリングを行うためパケット伝送時間の選別を行う。まず、パケット伝送時間t_k(n)を観測したときの起こり得る確率qを次式により計算する。

ここで、G(・)はガウス分布を示す。確率qの両側検定で５％の棄却域に入るパケット伝送時間t_k(n)に対しては到達時間の平均M_T_kと分散V_T_kの更新は行わない。

もしくは、平均M_T_kと分散V_T_kとから次式により評価値zを計算する。

ここで、Nはこれまでに平均値に採用したパケット伝送時間の数である。βが１のときは観測数Nに従い、平均M_t_kからの誤差の許容範囲が狭くなり、ある到達時刻に収束していく。βの値をβ=1/Nとし分母を√V_T_kとすることで、観測数が増加しても分散値が変化しないようにして、単純な平均値と分散値を求めて外れ値を取り除くこともできる。βは0<β<1の範囲の値を取る。評価値zが閾値rを超える場合に到達時間を棄却する。例えばr=1.96とし、z<-rもしくはz>rとなる場合、n番目のパケット伝送時間t_k(n)を棄却する。または、q=G(t_k(n)|M_T_k, V_T_k)で求めたパケット伝送時間t_k(n)の確率値qから閾値を決めてもよい。例えば分散値が±10ミリ秒と想定し、r=0.0058とし、q<rとなるパケット伝送時間t_k(n)を除き平均M_t_kと分散V_T_kの更新を行う。

これにより、大きなゆらぎがあるパケット伝送時間に対しても安定した平均と分散を求めることができるとともに、パケット伝送時間のゆらぎに対して頑健に遅延量を求めることができるため、収録する音の不連続性を抑えることができる。

遅延量決定部１２４は、外れ値を除外した後のパケット伝送時間t_kを用いて平均M_t_kと分散V_T_kを更新する。更新は一定時間おきに計算を行うか、逐次的に計算を行うことが可能である。観測したパケット伝送時間を記録し、パケット伝送時間を観測する度に平均値と分散値を計算してもよいし、逐次計算を行い更新してもよい。逐次的に計算を行う際の更新式は以下を用いる。

ここでαは0以上1未満の正の実数値であり、例えば0.1をとる。M'_T_k, V'_T_kはそれぞれM_T_k, V_T_kの更新値である。観測したパケット伝送時間の平均M_T_kは遅延バッファ処理部１２５_kにおいてスレーブ端末２_kからの観測信号に与えられる遅延量となる。

遅延量決定部１２４は、音声遅延量推定部１２６_kから音声遅延量τ_kを受け取ると、パケット伝送時間の平均M_T_kを更新する。更新後の平均M'_T_kは遅延バッファ処理部１２５_kへ送られる。平均M_T_kの更新は、パケット伝送時間の平均M_T_kの最大値をM_maxとし、M_maxとM_T_kの差分をそれぞれ計算し、さらにτ_kにより補正を行う。これにより、最大遅延のスレーブ端末は遅延０とし、その他の遅延の少ないスレーブ端末は遅延の差分が与えられるため、すべてのスレーブ端末の遅延を揃えることができる。平均M_T_kの更新は次式により行う。

遅延バッファ処理部１２５_kは、遅延量決定部１２４から受け取ったパケット伝送時間の平均M'_T_kに対応する遅延をスレーブ端末２_kからの観測信号に与える。遅延を与えた観測信号は音声遅延量推定部１２６_kへ送られる。

ステップＳ１２６において、マスター端末１の音声遅延量推定部１２６_kは、観測信号に含まれる音声の相対的なずれを示す音声遅延量を推定する。各端末からの観測信号に共通の音声が入る場合、音声の波形情報を用いて端末間に伝送する音声の遅延量を計算し、その音声遅延量を用いてパケット伝送時間の再修正を行う。この処理を行うことで、パケット伝送遅延の誤りの修正ができる。また、複数のスレーブ端末２やマスター端末１のマイクに同一の音が入り遅延を修正せずミキシングしてしまうと音が二重に聴こえてしまう問題があるが、その問題を修正することができる。

音声遅延量推定部１２６_kは、他の観測信号と同一の音声が混入しているか否かを判定するために、各観測信号にそれぞれ信号検出処理を行う。各スレーブ端末２およびマスター端末１からの観測信号をx_k(t)とする。ここで、tはサンプル点の番号を表す。信号検出には、VAD手法を用いてもよいが、ここでは、ノイズレベル推定と閾値を用いた単純な信号処理手法を用いた場合を説明する。まず、数十ミリ秒程度で観測信号に対してスムージング処理を行う。スムージング処理は次式により行う。

ここで、βはβ<1となる定数である。時定数=処理間隔/(1-β)とすると、ノイズ推定に利用するスムージングの信号は時定数150ミリ秒とする。また信号比較を行うために時定数の短い40ミリ秒の信号を用意する。次に、雑音信号パワーを以下のように更新する。

このN(t)を定数α倍し、それを雑音の閾値とする。定数αは例えば2.5とする。この閾値を時定数40ミリ秒の信号が上回れば音声信号観測時刻tだと判断する。２個未満のスレーブ端末２で音声信号を観測したと判定されなければ、音声遅延量τ_kの推定は行わない。２個以上のスレーブ端末２で音声信号を観測したと判定された場合、判定された音声信号間で音声遅延量τ_kを推定する。

１．マスター端末１で音声信号を観測したと判定した場合、音声遅延量の推定にはマスター端末１の観測信号を基準信号x_kM(n)とし、音声信号を観測したと判定したスレーブ端末２_kの観測信号x_k(n)との相互相関を次式により求める。相互相関が最大となるサンプル数mを、基準信号としたマスター端末１と、比較対象としたスレーブ端末２_kとの相対的な音の伝送時間ずれとする。

求めた音声遅延量τ_kを用いてスレーブ端末２_kの観測信号に与える遅延量M_T_kを修正する。遅延量の修正は遅延量決定部１２４で行うため、音声遅延量τ_kを遅延量決定部１２４に渡す。

２．マスター端末１で音声信号を観測せず、複数のスレーブ端末２で音声信号を観測したと判定した場合、音声遅延量の推定には、音声信号を観測した複数のスレーブ端末２のうち任意の１つを基準信号として選択する。選択したスレーブ端末２をスレーブ端末２_k'とする。このスレーブ端末２_k'の観測信号x_k'(n)と、他の音声信号を観測したスレーブ端末２_kの観測信号x_k(n)との相互相関を次式により求める。相互相関が最大となるサンプル数mを、基準信号としたスレーブ端末２_k'と、比較対象としたスレーブ端末２_kとの相対的な音の伝送時間ずれとする。

ステップＳ１２７において、マスター端末１の話者強調部１２７は非同期分散マイクロホンを用いた音声強調手法を用いる。音声強調処理は、例えば、参考文献２に記載された非同期マイクロホンアレイ処理を利用することができる。また、参考文献３に記載されるように、各PCM信号までの到達時間差を揃え、特定方向のみの音を強調するマイクロホンアレイ処理を行ってもよいし、参考文献４に記載されるように、特定話者だけの音が残るように周波数スペクトル上で雑音のスペクトル成分を差し引くスペクトルサブトラクションを行い、雑音抑圧を行ってもよい。話者強調された音声信号はミキシング部１２９へ送られる。
〔参考文献２〕加古達也、小林和則、大室仲、“非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、日本音響学会2013年春季研究発表会講演論文集、1-P-5、2013年
〔参考文献３〕浅野太著、“音のアレイ信号処理”、コロナ社、2011年
〔参考文献４〕向井良等、“非定常スペクトルサブトラクションによる音源分離後の残留雑音除去”、日本音響学会秋季研究発表会、2010年
ステップＳ１２８において、マスター端末１のノイズ除去部１２８_kは、遅延バッファ部１２５_kから遅延後の観測信号を受け取り、その観測信号に対して定常雑音のノイズリダクションを行う。ノイズリダクションは、例えば参考文献５に記載されたスペクトルサブトラクションを用いて実現することができる。ノイズ除去した観測信号はミキシング部１２９へ送られる。
〔参考文献５〕Steven Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. Acoust. Speech and Signal Processing, Vol. ASSP-27, pp.113-120, 1979

ステップＳ１２９において、マスター端末１のミキシング部１２９は、ノイズ除去部１２８₀,…,１２８_nおよび話者強調部１２７から音声信号を受け取り、ＧＵＩ制御部１０から各信号のゲインを受け取る。受け取ったゲインに基づいて各音声信号の音量を増幅する係数A_kを乗算し、乗算後の音声信号からパワーを計算する。パワーは乗算後の音声信号の二乗値の単位区間の平均とする。単位区間は例えば500ミリ秒とし、500ミリ秒ごとにパワーを算出する。算出したパワーの値はＧＵＩ制御部１０へ送られる。その後、乗算後の音声信号をミキシングする。ミキシングは各音声信号の和を算出しミキシング信号を取得する。ミキシング信号にＧＵＩ制御部１０から取得した係数A_mixを乗算して処理後音声信号を得、この処理後音声信号を出力する。出力先にはテレビ会議システムや音声認識システム、動画撮影などの音声入力などを接続し、所望のサービスを提供することができる。

ＧＵＩ制御部１０ではミキシング処理の音量調整を行う。ＧＵＩ制御部１０の表示イメージを図５に示す。ＧＵＩ制御部１０は、各音声信号のゲイン調整用のスライドバー１０１、各音声信号のミュート制御用のボタン１０２、各スレーブ端末との接続状態を色等で知らせるボタン、スレーブ端末のマイクから取得しているゲイン値を示すレベルメーター１０３、録音の制御を行うボタン１０４、スレーブ端末の接続状態などを表示するステータス表示エリア１０５を有する。レベルメーターのバーの値は、ミキシング部１２９から受け取ったパワーの値を用いて決定する。ミキシング部１２９で各音声信号に与えるゲインA_kの値は、ゲイン調整のスライドバー１０１から取得する。ゲインの値は連続値を取得してもよいし、離散値を取得してもよい。例えば15段階の離散値とすると、最大値を+7とし、ゲインの値は21dBに対応する11.2倍とする。中間値は0とし、0dBに対応する1.0倍を取る。最低値は-7とし、-∞dBに対応する0.0倍とする。また、ミュートボタンがオンのときはゲインA_kに0.0倍を与え、ミュートボタンがオフのときはゲインA_kにスライドバーから取得したゲインを用いる。このゲインA_kをミキシング部１２９に受け渡す。また、ミキシングした後の処理後音声信号に対してもスライドバーからゲイン値A_mixを受け渡す。

［第二実施形態］
第二実施形態は、マスター端末が動画撮影機能を有しており、複数のスレーブ端末を用いて収音した遠方の音声を、マスター端末で撮影した動画に付加して出力する通信システムである。本形態のスレーブ端末は、例えばスマートフォンとする。スマートフォンで取得した音声をマスター端末に伝送し、マスター端末では取得した音声信号から目的の話者の音声を強調する音声強調処理を行う。また、各マイクで取得した音声信号を手元のスマートフォンを用いて任意にユーザーがミキシングすることができる機能を持つ。

本形態のマスター端末３は、図６に例示するように、マイクＭ₀、接続制御部１０、ＧＵＩ制御部１１、および音声処理部１２に加えて、ビデオカメラＶ、動画処理部１３、バッファ処理部１４、および映像出力部１５を含む。ビデオカメラＶは各種の受光素子を備え映像を取得することが可能な機器であり、図６に示すようにマスター端末１に内蔵されていてもよいし、マスター端末１へ各種のインターフェースを介して接続されたウェブカメラのような周辺機器であってもよい。

動画処理部１３は、ビデオカメラＶで取得した映像をサンプリングしてデジタルの映像信号へ変換する。取得した映像信号はバッファ処理部１４へ送られる。

バッファ処理部１４は、音声処理部１２の遅延量決定部１２４が計算する遅延量を用いて、動画処理部１３が出力する映像信号に遅延を与える。バッファ処理部１４は、音声処理部１２の遅延量決定部１２４から各スレーブ端末２₁,…,２_nの遅延量M_T₁,…,M_T_nを受け取り、その遅延量M_T₁,…,M_T_nに基づいて映像信号のフレームをバッファして映像信号に遅延を与える。遅延は各スレーブ端末に対する遅延量M_T₀,…,M_T_nのうち最も大きい値を与える。これにより映像信号と音声信号のフレームずれが無くなる。遅延させた映像信号は映像出力部１５へ送られる。

映像出力部１５は、バッファ処理部１４の出力する遅延後映像信号と音声処理部１１の出力する処理後音声信号を受け取り、遅延後映像信号に処理後音声信号を付与して音声付映像信号を生成する。音声付映像信号は後段のサービスに合わせて適切なコーデックで符号化して出力する。例えば、動画配信サービスに出力する場合は、映像はMP4（MPEG-4）、音声はAAC（Advanced Audio Coding）でコーデックを行う等の動画処理を行う。

本形態のＧＵＩ制御部１０には、図７に示すように、ビデオカメラＶの取得している映像表示エリア１０６、各音声信号のゲイン調整用のスライドバー１０１、各音声信号のミュート制御用のボタン１０２、スレーブ端末との接続状態を色等で知らせるボタン、スレーブ端末のマイクから取得しているゲイン値を示すレベルメーター１０３、録音・録画の制御を行うボタン１０４、スレーブ端末の接続状態などを表示するステータス表示エリア１０５を有する。レベルメーターのバーの値は、ミキシング部１２９から受け取ったパワーの値を用いて決定する。ミキシング部１２９で各音声信号に与えるゲインA_kの値は、ゲイン調整のスライドバーから取得する。ゲインの値は連続値を取得してもよいし、離散値を取得してもよい。例えば15段階の離散値とすると、最大値を+7とし、ゲインの値は21dBに対応する11.2倍とする。中間値は0とし、0dBに対応する1.0倍を取る。最低値は-7とし、-∞dBに対応する0.0倍とする。また、ミュートボタンがオンのときはゲインA_kに0.0倍を与え、ミュートボタンがオフのときはゲインA_kにスライドバーから取得したゲインを用いる。このゲインA_kをミキシング部１２９に受け渡す。また、ミキシングした後の処理後音声信号に対してもスライドバーからゲイン値A_mixを受け渡す。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、３マスター端末
２スレーブ端末
９通信網
１０接続制御部
１１ＧＵＩ制御部
１２音声処理部
１３動画処理部
１４バッファ処理部
１５映像出力部
２０接続制御部
２１Ａ／Ｄ変換部
２２エンコード処理部
２３パケット送信部
１２０Ａ／Ｄ変換部
１２１パケット受信部
１２２デコード処理部
１２３マイクバッファ処理部
１２４遅延量決定部
１２５遅延バッファ処理部
１２６音声遅延量推定部
１２７話者強調処理部
１２８ノイズ除去部
１２９ミキシング部

Claims

マスター端末と少なくとも１台のスレーブ端末とを含む通信システムであって、
上記スレーブ端末は、
当該スレーブ端末に接続されたマイクを用いてデジタルの観測信号を取得するＡ／Ｄ変換部と、
上記観測信号をパケットに格納して上記マスター端末へ送信するパケット送信部と、
を含み、
上記マスター端末は、
当該マスター端末に接続されたビデオカメラを用いてデジタルの映像信号を取得する動画処理部と、
当該マスター端末に接続されたマイクを用いてデジタルの観測信号を取得するＡ／Ｄ変換部と、
上記スレーブ端末から上記パケットを受信し上記観測信号を取り出すパケット受信部と、
当該マスター端末および上記スレーブ端末が取得した複数の観測信号のうち音声が含まれる観測信号の各組について相互相関が最大となる時間差を当該観測信号の音声遅延量として求める音声遅延量推定部と、
上記スレーブ端末ごとにパケット伝送時間を計測し、上記音声遅延量を用いて上記パケット伝送時間を補正して上記パケット伝送時間の算術平均を当該スレーブ端末の遅延量として求める遅延量決定部と、
上記スレーブ端末ごとに上記観測信号に対して当該スレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理部と、
上記映像信号に対して上記スレーブ端末の遅延量のうち最大の遅延量に対応する遅延を与えた遅延後映像信号を生成するバッファ処理部と、
上記遅延後映像信号に上記遅延後信号に基づく信号を付加して音声付映像信号を生成する動画出力部と、
を含む通信システム。
請求項１に記載の通信システムであって、
上記遅延量決定部は、計測したパケット伝送時間と真のパケット伝送時間の差がガウス分布に従うと仮定して上記パケット伝送時間から上記ガウス分布の平均と分散を求め、上記ガウス分布の平均と分散を用いて上記パケット伝送時間が外れ値であるか否かを判定し、外れ値であると判定されたパケット伝送時間は算術平均の計算に用いないものである
通信システム。
請求項１または２に記載の通信システムであって、
上記マスター端末は、上記遅延後信号に対して特定の話者の音声を強調する話者強調処理を行う話者強調処理部をさらに含む
通信システム。
請求項１から３のいずれかに記載の通信システムであって、
上記マスター端末は、
上記遅延後信号からノイズを除去してノイズ除去後音声信号を生成するノイズ除去部と、
上記ノイズ除去後音声信号の総和を算出して処理後音声信号を生成するミキシング部と、
をさらに含む通信システム。
少なくとも１台のスレーブ端末が、当該スレーブ端末に接続されたマイクを用いてデジタルの観測信号を取得するＡ／Ｄ変換ステップと、
上記スレーブ端末が、上記観測信号をパケットに格納してマスター端末へ送信するパケット送信ステップと、
上記マスター端末が、当該マスター端末に接続されたビデオカメラを用いてデジタルの映像信号を取得する動画処理ステップと、
上記マスター端末が、当該マスター端末に接続されたマイクを用いてデジタルの観測信号を取得するＡ／Ｄ変換ステップと、
上記マスター端末が、上記スレーブ端末から上記パケットを受信し上記観測信号を取り出すパケット受信ステップと、
上記マスター端末が、当該マスター端末および上記スレーブ端末が取得した複数の観測信号のうち音声が含まれる観測信号の各組について相互相関が最大となる時間差を当該観測信号の音声遅延量として求める音声遅延量推定ステップと、
上記マスター端末が、上記スレーブ端末ごとにパケット伝送時間を計測し、上記音声遅延量を用いて上記パケット伝送時間を補正して上記パケット伝送時間の算術平均を当該スレーブ端末の遅延量として求める遅延量決定ステップと、
上記マスター端末が、上記スレーブ端末ごとに上記観測信号に対して当該スレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理ステップと、
上記マスター端末が、上記映像信号に対して上記スレーブ端末の遅延量のうち最大の遅延量に対応する遅延を与えた遅延後映像信号を生成するバッファ処理ステップと、
上記マスター端末が、上記遅延後映像信号に上記遅延後信号に基づく信号を付加して音声付映像信号を生成する動画出力ステップと、
を含む通信方法。
請求項１から４のいずれかに記載のマスター端末としてコンピュータを機能させるためのプログラム。