JP6377557B2 - 通信システム、通信方法、およびプログラム - Google Patents

通信システム、通信方法、およびプログラム Download PDF

Info

Publication number
JP6377557B2
JP6377557B2 JP2015057620A JP2015057620A JP6377557B2 JP 6377557 B2 JP6377557 B2 JP 6377557B2 JP 2015057620 A JP2015057620 A JP 2015057620A JP 2015057620 A JP2015057620 A JP 2015057620A JP 6377557 B2 JP6377557 B2 JP 6377557B2
Authority
JP
Japan
Prior art keywords
signal
terminal
master terminal
delay amount
slave terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015057620A
Other languages
English (en)
Other versions
JP2016177153A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015057620A priority Critical patent/JP6377557B2/ja
Publication of JP2016177153A publication Critical patent/JP2016177153A/ja
Application granted granted Critical
Publication of JP6377557B2 publication Critical patent/JP6377557B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Small-Scale Networks (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、スレーブ端末で生成した信号をマスター端末へネットワークを介して伝送し、マスター端末で信号を同期して所望の処理を行う通信技術に関する。
デジタル端末(例えば、スマートフォンやパーソナルコンピュータ、ビデオカメラ、カーナビゲーションシステム、テレビなど)で音声を用いるサービス(例えば、テレビ会議や動画撮影、防犯記録など)を利用する場合、デジタル端末に搭載されているマイクを用いて、そのサービスで利用する音を取得する。しかし、例えば、デジタル端末がモノラルマイクしか搭載していない場合や、ハンズフリーによる収音に特化したチューニングがされており遠方の音のS/N比が悪い場合など、デジタル端末から離れた場所の音を取得することが困難な場合がある。また、ビデオカメラでは通常ステレオマイクを搭載しているが、指向性が低いため離れた音をピンポイントで取得することは困難である。
このような問題を解決するために非特許文献1から5のような従来技術がある。非特許文献1では、デジタル端末にイヤホン端子やUSB(Universal Serial Bus)端子を介して外付けのステレオマイクや多チャンネルマイクを接続することでマイクの音響特性を改善し、適切な方向の音のみを取得する技術が記載されている。非特許文献2には、有線で接続された単一指向性のクリップ付きのマイクロホンが記載されている。非特許文献3には、指向性を持ったガンマイク型のモノラルマイクロホンが記載されている。非特許文献4には、デジタル端末から離れた音を取得する技術として、デジタル端末とヘッドセットをBluetooth(登録商標)でペアリングして接続し、ヘッドセットからの音をデジタル端末に伝送してワイヤレスで音声を取得する技術が記載されている。非特許文献5には、手元のリモコンにマイクを導入して音声を取得するテレビが記載されている。なお、以降の説明では、音声サービスを制御するデジタル端末をマスター端末と呼び、マスター端末から離れた場所で音声を取得する機器をスレーブ端末と呼ぶ。
株式会社ズーム、"iQ7オペレーション・マニュアル"、[online]、[平成27年2月24日検索]、インターネット<URL: http://www.zoom.co.jp/download/J_iQ7.pdf> 株式会社オーディオテクニカ、"AT9902iS | マイクロホン"、[online]、[平成27年2月24日検索]、インターネット<URL: https://www.audio-technica.co.jp/atj/show_model.php?modelId=970> 株式会社オーディオテクニカ、"AT9913iS | マイクロホン"、[online]、[平成27年2月24日検索]、インターネット<URL: https://www.audio-technica.co.jp/atj/show_model.php?modelId=971> エレコム株式会社、"LBT-MPHS510シリーズ、LBT-PCHS510シリーズ 取扱説明書"、[online]、[平成27年2月24日検索]、インターネット<URL: http://www.elecom.co.jp//support/manual/avd/headphone/bluetooth/LBT-HS510_manual_v2.pdf> パナソニック株式会社、"4K対応テレビ AX800/AX800Fシリーズ(液晶)"、[online]、[平成27年2月24日検索]、インターネット<URL: http://panasonic.jp/viera/products/ax800_800f/>
外付けのガンマイクを接続する方法では、ガンマイクを向けた方向の音の感度を上げて取得することができるが、向けた方向に存在する雑音なども合わせて感度が上がってしまう。また、ガンマイクであっても収音できる範囲には限界があり、ガンマイクから例えば3メートルほど離れた発話者の音声を取得するとS/N比が劣化してしまう。
Bluetoothによりヘッドセットを接続する方法では、マスター端末から離れた音を取得することができるが、マスター端末が持っているマイクに入る音声は遮断してしまうため、例えばビデオ撮影や音声会議など広範囲の音が必要となる利用シーンでは必要な範囲の音声を取得することができない。テレビリモコンのマイクを同時に収音して記録する場合も、同様に、テレビリモコンの音声のみを利用し、マスター端末のマイク収音機能は遮断してしまう。
仮に、マスター端末とスレーブ端末とで時間的な同期を考慮せず単純にミキシングして収音した場合、通信網やBluetoothによる伝送遅延によって音が二重に聴こえてしまい、音質が劣化してしまうことがある。
この発明の目的は、このような点に鑑みて、マスター端末とスレーブ端末の間のパケット伝送時間に基づいて時間調整を行うことで広範囲に配置された端末間の通信を同期することができる通信技術を提供することである。
上記の課題を解決するために、この発明の通信システムは、マスター端末と少なくとも1台のスレーブ端末とを含む通信システムであって、スレーブ端末は、通信対象の信号をパケットに格納してマスター端末へ送信するパケット送信部を含み、マスター端末は、スレーブ端末からパケットを受信し信号を取り出すパケット受信部と、スレーブ端末ごとにパケット伝送時間を計測し、パケット伝送時間の算術平均をスレーブ端末の遅延量として求める遅延量決定部と、スレーブ端末ごとに信号に対してスレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理部と、を含む。
この発明の通信技術によれば、マスター端末とスレーブ端末の間のパケット伝送時間に基づいて時間調整を行うことで広範囲に配置された端末間の通信を同期することができる。この発明を様々な音声を用いるサービスに適用すれば、サービスを提供するマスター端末と収音機能を持つスレーブ端末とがネットワークを介して接続することで、マイク数を増やし広範囲で収音することができる。また、映像撮影サービスと連携すれば、マスター端末がミキシング機能を備えることで複数のマイクからの音声を1つの画面でリアルタイムに処理することができる。広範囲の音を取得した信号は、例えば音声会議システムや映像コンテンツ作成、動画配信サービスなどと連携することで、コンテンツの音声品質を向上することができる。
図1は、第一実施形態の通信システムの機能構成を例示する図である。 図2は、音声処理部の機能構成を例示する図である。 図3は、第一実施形態の通信方法の処理フローを例示する図である。 図4は、接続制御部の処理フローを例示する図である。 図5は、第一実施形態のGUI制御部の表示方法を例示する図である。 図6は、第二実施形態の通信システムの機能構成を例示する図である。 図7は、第二実施形態のGUI制御部の表示方法を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態は、デジタル端末であるマスター端末とスレーブ端末との接続を行い、各端末で取得した音声に対して所望の音声処理を行う通信システムである。本形態では、スレーブ端末が音声を取得しマスター端末へ伝送し、マスター端末がスレーブ端末からの音声と自ら取得した音声に対して目的の話者の音声を強調する音声強調処理を行う例を説明する。
本形態の通信システムは、図1に例示するように、1台のマスター端末1とn(≧1)台のスレーブ端末21,…,2nとを含む。マスター端末1とスレーブ端末21,…,2nとは、通信網9を介して通信可能なように接続される。通信網9は、接続される各装置が相互に通信可能なように構成されたパケット交換方式の通信網であり、その通信プロトコルとしてはWi-Fiのような無線LAN(Local Area Network)、NFC(Near Field Connection)やBluetoothのような近距離無線通信などを用いることができる。マスター端末1は、マイクM0、接続制御部10、GUI制御部11、および音声処理部12を含む。スレーブ端末2k(k∈{1,…,n})は、マイクMk、接続制御部20k、A/D変換部21k、エンコード処理部22k、およびパケット送信部23kを含む。図1では、マイクM0,…,Mnが各端末に内蔵されるように示しているが各端末の各種のインターフェースを介して接続される外付けマイクとして構成されていても構わない。
マスター端末1の音声処理部12は、図2に例示するように、A/D変換部120、n個のパケット受信部1211,…,121n、n個のデコード処理部1221,…,122n、n個のマイクバッファ処理部1231,…,123n、遅延量決定部124、n+1個の遅延バッファ処理部1250,…,125n、n個の音声遅延量推定部1261,…,126n、話者強調処理部127、n+1個のノイズ除去部1280,…,128n、およびミキシング部129を含む。
マスター端末1およびスレーブ端末2の各端末は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各端末は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各端末に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。各端末の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
マスター端末1は、具体的には、例えばパーソナルコンピュータやスマートフォン、タブレット端末のような音声取得機能および無線通信機能を備えた情報処理装置である。スレーブ端末2は、具体的には、例えばパーソナルコンピュータやスマートフォン、タブレット端末のような音声取得機能および無線通信機能を備えた情報処理装置でもよいし、従来技術で用いられるヘッドセットやリモコンのような音声取得機能を備えた専用のデジタル機器でもよい。
図3を参照して、第一実施形態の通信方法の処理手続きを説明する。以下では、任意の1台のスレーブ端末2kに対する処理手続きを説明するが、複数のスレーブ端末を利用する場合には各スレーブ端末に対して同様の処理が行われるものとする。
ステップS10およびS20において、マスター端末1の接続制御部10とスレーブ端末2kの接続制御部20kは、マスター端末1とスレーブ端末2kの間の通信の接続を行う。接続の方法は、例えば、無線LANや有線LANなどの通信網を用いたIP(Internet Protocol)通信や、BluetoothやNFCなどを用いた近距離無線通信、Wi-Fi Direct(登録商標)やMultipeer Connectivityなどの端末同士が直接通信するピアツーピア通信などが考えられる。無線LANや有線LANを用いたIP通信の接続制御方法には、例えば、参考文献1に記載の公知技術で用いられている方法がある。
〔参考文献1〕日本電信電話株式会社、“手持ちのスマホでワイヤレスマイク機能を簡単に実現 〜スマホがテレビ電話・テレビ会議の拡張マイクとして使える「振幅スペクトルビームフォーマ技術」を開発〜”、[online]、[平成27年2月24日検索]、インターネット<URL: http://www.ntt.co.jp/news2014/1401/140129a.html>
図4を参照して、NFCとWi-Fi Directを用いた接続制御のシーケンスについて述べる。まず、スレーブ端末2kでWi-Fi Directの初期化処理を行う。スレーブ端末2kの初期化処理では、自端末のMACアドレス(Media Access Control address)を取得する。同時に、マスター端末1でWi-Fi Directの初期化処理を行う。マスター端末1の初期化処理では、Wi-Fi Direct Groupを作成し、Wi-Fi Directのグループオーナーアドレスを生成する。
その後、マスター端末1と同一ネットワークに接続するスレーブ端末21,…,2nのそれぞれについてMACアドレス等のネットワーク接続情報を取得する。ネットワーク接続情報の取得方法の一例を以下に記載する。マスター端末1とスレーブ端末2kとの間でNFCなどの近距離無線通信を行う。この際、情報伝送の承認をユーザーに依頼する。承認なしで送信することもできる。ユーザーへの依頼方法は、例えば、マスター端末1の画面に情報伝送を行う等のダイアログを表示し承認ボタンを選択させる。承認後、NFCなどの近距離無線通信を用いて、マスター端末1からスレーブ端末2kへ通信接続に必要なMACアドレス、グループオーナーアドレス、コーデック種別、ポート番号などを通知する。仮に接続が不可の場合には、例えば、「-1」などのエラーコードをスレーブ端末2kに送信する。
スレーブ端末2kでは、受信したマスター端末1のグループオーナーアドレスにWi-Fi Direct接続を行う。マスター端末1に対してはWi-Fi Directに用いるIPアドレスとMACアドレスを通知する。マスター端末1では、スレーブ端末2kからIPアドレスとMACアドレスを受信するまで一定時間待機を行う。例えば、10秒間待機を行い、取得できなければ接続を拒否し、再度Wi-Fi Directの初期化を行う。
接続が確立するとスレーブ端末2kはグループオーナーアドレスを取得する。スレーブ端末2kはグループオーナーアドレスへWi-Fi Directで接続を行う。グループオーナーアドレスへ接続することで、Wi-Fi Directグループ接続デバイスリストの更新がマスター端末1およびスレーブ端末2kへ通知される。マスター端末1は、例えばUDPなどの通信プロトコルを用いてスレーブ端末2kからの情報を受信するための受信ポートを開く。受信ポート番号は任意に決定してよいが、例えば、18081番以降のポートを開く。スレーブ端末2kはマスター端末1のWi-Fi Directグループオーナーアドレスの指定された受信ポートへUDP等の通信プロトコルを用いて音声パケットの送信を開始する。
ステップS120において、マスター端末1のA/D変換部120は、マスター端末1に接続されたマイクM0を用いて観測した音声をサンプリングしデジタルの観測信号を取得する。デジタルの観測信号は遅延バッファ処理部1250および遅延量決定部124へ送られる。
ステップS21において、スレーブ端末2kのA/D変換部21kは、スレーブ端末2kに接続されたマイクMkを用いて観測した音声をサンプリングしデジタルの観測信号を取得する。デジタルの観測信号はエンコード処理部22kへ送られる。
ステップS22において、スレーブ端末2kのエンコード処理部22kは、A/D変換部21kから観測信号を受け取り、その観測信号に対してコーデックをかけ音声圧縮を行う。コーデックには、例えばOpus, SILKなどを用いることができる。コーデックの情報とエンコードした圧縮音声信号はパケット送信部23kへ送られる。コーデックを用いず無圧縮のPCM(Pulse Code Modulation)信号を伝送する場合はエンコード処理部22kの処理を行わない。
ステップS23において、スレーブ端末2kのパケット送信部23kは、エンコード処理部22kで圧縮した観測信号とコーデック情報を受け取り、そのコーデック情報をパケットのヘッダーに、観測信号をパケットのペイロードに格納して、そのパケットをマスター端末1のパケット受信部121kへ送信する。
ステップS121において、マスター端末1のパケット受信部121kは、スレーブ端末2kのパケット送信部23kから送られたパケットを受信し、そのパケットのヘッダーに格納されたコーデック情報とペイロードに格納された観測信号を取り出す。取り出したコーデック情報と観測信号はデコード処理部122kへ送られる。
ステップS122において、マスター端末1のデコード処理部122kは、パケット受信部121kから受け取ったコーデック情報を用いて観測信号に対してデコード処理を行う。無圧縮のPCM信号を受信した場合はデコード処理部122kの処理は行わない。コーデックが行われている場合はコーデック情報に従って観測信号のデコードを行う。デコードされた観測信号はマイクバッファ処理部123kへ送られる。
マイクバッファ処理部123kは、デコード処理部122kから観測信号を受け取り、以後の処理の基準となる信号長分の観測信号のバッファリングを行う。バッファ処理には固定長のバッファリングを行ってもよいし、動的遅延バッファのように後述のパケット伝送時間に基づいてバッファ長を動的に変更してもよい。バッファした観測信号は遅延バッファ処理部125kおよび遅延量決定部124へ送られる。
ステップS124において、マスター端末1の遅延量決定部124は、各端末から取得した観測信号を同期するために各観測信号に与える遅延量を決定する。マスター端末1とスレーブ端末2kとはパケット通信による通信網を介して観測信号の伝送を行っているため、パケット伝送時間の遅延を考慮しなければならない。マスター端末1とスレーブ端末2kとの距離が大きく離れており、話者の音声をいくつかのスレーブ端末2kで観測できない場合、互いに観測された音声を手がかりに遅延を揃えることはできない。そこで、スレーブ端末2kごとにマスター端末1とスレーブ端末2kの間のパケット伝送時間を計測し、そのパケット伝送時間に基づいて各端末で取得した観測信号の遅延を揃えるための遅延量を求める。
マスター端末1とスレーブ端末2kの間のパケット伝送時間は、ラウンドトリップ時間(RTT: Round-Trip Time)の計測により求める。マスター端末1はラウンドトリップ時間を計測するためのパケット(以下、RTT計測パケットと呼ぶ。)をスレーブ端末2kへ向けて送信し、スレーブ端末2kはRTT計測パケットを受信した後ラウンドトリップ時間を計測するための返答パケット(以下、RTT計測返答パケットと呼ぶ。)をマスター端末1へ送信する。マスター端末1では、受信したRTT計測返答パケットの受信時間とRTT計測パケットの送信時間との差を計算し、マスター端末1とスレーブ端末2kとのラウンドトリップ時間Tkとする。ラウンドトリップ時間は往復の伝送時間となるため、スレーブ端末2kからマスター端末1へのパケット伝送時間はtk(n)=Tk/2となる。ここで、tk(n)はスレーブ端末2kからのパケットが伝送されるのに要した時間を表し、nはパケット到達の順番を表す。ラウンドトリップ時間の計測は任意の時間間隔で定期的に行う。例えば500ミリ秒単位で計測を行う。
次に、計測したパケット伝送時間tk(n)を用いて各スレーブ端末2kから受信した観測信号に対する遅延量を計算する。通信網を用いてパケットを伝送する場合、伝送元から伝送先までの間でパケット伝送時間にゆらぎが生じる。このゆらぎを許容し遅延量を決定する。パケット伝送時間のゆらぎがガウス分布に従っていると仮定し、パケット伝送時間から頑健に遅延時間を推定する。スレーブ端末2kからマスター端末1へのパケット伝送にかかる真の時間をτ0kとし、パケット伝送時間のゆらぎをノイズε(n)とする。このノイズε(n)が分散σ0のガウス分布(ε(n)=N(n|0,σ0))に従うとすると、パケット伝送時間tk(n)はtk(n)=τ0k+ε(n)で表すことができる。すなわち、パケット伝送時間のゆらぎとは、計測したパケット伝送時間と真のパケット伝送時間の差分とも言える。真のパケット伝送時間τ0kの最尤推定値は、実際に計測されたパケット伝送時間tk(n)から算術平均E[tk(n)]として求めることができる。
しかしながら、パケット伝送時間は伝送経路や無線LANルーターなどのネットワーク機器がバッファリングを行うなど様々な要因からパケット伝送時間が大幅に遅くなってしまうことがある。この伝送時間の大幅な遅延は算術平均E[tk(n)]に影響を与えてしまう。そこで、外れ値を除去して推定値を計算する。パケット伝送時間のゆらぎがガウス分布に従っていると仮定し、次式により、パケット伝送時間tk(n)から分布の平均M_Tkと分散V_Tkとを求める。
ここで、E[・]は一定パケット数で平均値を算出する期待値演算処理であり、τkはスレーブ端末2kの音声遅延量である。音声遅延量τkは後述の音声遅延量推定部126kで求めるものである。τkが一度も更新されていない場合には、τk=0と初期値を与える。
求めた平均M_Tkと分散V_Tkとから分布の外れ値を省いてサンプリングを行うためパケット伝送時間の選別を行う。まず、パケット伝送時間tk(n)を観測したときの起こり得る確率qを次式により計算する。
ここで、G(・)はガウス分布を示す。確率qの両側検定で5%の棄却域に入るパケット伝送時間tk(n)に対しては到達時間の平均M_Tkと分散V_Tkの更新は行わない。
もしくは、平均M_Tkと分散V_Tkとから次式により評価値zを計算する。
ここで、Nはこれまでに平均値に採用したパケット伝送時間の数である。βが1のときは観測数Nに従い、平均M_tkからの誤差の許容範囲が狭くなり、ある到達時刻に収束していく。βの値をβ=1/Nとし分母を√V_Tkとすることで、観測数が増加しても分散値が変化しないようにして、単純な平均値と分散値を求めて外れ値を取り除くこともできる。βは0<β<1の範囲の値を取る。評価値zが閾値rを超える場合に到達時間を棄却する。例えばr=1.96とし、z<-rもしくはz>rとなる場合、n番目のパケット伝送時間tk(n)を棄却する。または、q=G(tk(n)|M_Tk, V_Tk)で求めたパケット伝送時間tk(n)の確率値qから閾値を決めてもよい。例えば分散値が±10ミリ秒と想定し、r=0.0058とし、q<rとなるパケット伝送時間tk(n)を除き平均M_tkと分散V_Tkの更新を行う。
これにより、大きなゆらぎがあるパケット伝送時間に対しても安定した平均と分散を求めることができるとともに、パケット伝送時間のゆらぎに対して頑健に遅延量を求めることができるため、収録する音の不連続性を抑えることができる。
遅延量決定部124は、外れ値を除外した後のパケット伝送時間tkを用いて平均M_tkと分散V_Tkを更新する。更新は一定時間おきに計算を行うか、逐次的に計算を行うことが可能である。観測したパケット伝送時間を記録し、パケット伝送時間を観測する度に平均値と分散値を計算してもよいし、逐次計算を行い更新してもよい。逐次的に計算を行う際の更新式は以下を用いる。
ここでαは0以上1未満の正の実数値であり、例えば0.1をとる。M'_Tk, V'_TkはそれぞれM_Tk, V_Tkの更新値である。観測したパケット伝送時間の平均M_Tkは遅延バッファ処理部125kにおいてスレーブ端末2kからの観測信号に与えられる遅延量となる。
遅延量決定部124は、音声遅延量推定部126kから音声遅延量τkを受け取ると、パケット伝送時間の平均M_Tkを更新する。更新後の平均M'_Tkは遅延バッファ処理部125kへ送られる。平均M_Tkの更新は、パケット伝送時間の平均M_Tkの最大値をMmaxとし、MmaxとM_Tkの差分をそれぞれ計算し、さらにτkにより補正を行う。これにより、最大遅延のスレーブ端末は遅延0とし、その他の遅延の少ないスレーブ端末は遅延の差分が与えられるため、すべてのスレーブ端末の遅延を揃えることができる。平均M_Tkの更新は次式により行う。
遅延バッファ処理部125kは、遅延量決定部124から受け取ったパケット伝送時間の平均M'_Tkに対応する遅延をスレーブ端末2kからの観測信号に与える。遅延を与えた観測信号は音声遅延量推定部126kへ送られる。
ステップS126において、マスター端末1の音声遅延量推定部126kは、観測信号に含まれる音声の相対的なずれを示す音声遅延量を推定する。各端末からの観測信号に共通の音声が入る場合、音声の波形情報を用いて端末間に伝送する音声の遅延量を計算し、その音声遅延量を用いてパケット伝送時間の再修正を行う。この処理を行うことで、パケット伝送遅延の誤りの修正ができる。また、複数のスレーブ端末2やマスター端末1のマイクに同一の音が入り遅延を修正せずミキシングしてしまうと音が二重に聴こえてしまう問題があるが、その問題を修正することができる。
音声遅延量推定部126kは、他の観測信号と同一の音声が混入しているか否かを判定するために、各観測信号にそれぞれ信号検出処理を行う。各スレーブ端末2およびマスター端末1からの観測信号をxk(t)とする。ここで、tはサンプル点の番号を表す。信号検出には、VAD手法を用いてもよいが、ここでは、ノイズレベル推定と閾値を用いた単純な信号処理手法を用いた場合を説明する。まず、数十ミリ秒程度で観測信号に対してスムージング処理を行う。スムージング処理は次式により行う。
ここで、βはβ<1となる定数である。時定数=処理間隔/(1-β)とすると、ノイズ推定に利用するスムージングの信号は時定数150ミリ秒とする。また信号比較を行うために時定数の短い40ミリ秒の信号を用意する。次に、雑音信号パワーを以下のように更新する。
このN(t)を定数α倍し、それを雑音の閾値とする。定数αは例えば2.5とする。この閾値を時定数40ミリ秒の信号が上回れば音声信号観測時刻tだと判断する。2個未満のスレーブ端末2で音声信号を観測したと判定されなければ、音声遅延量τkの推定は行わない。2個以上のスレーブ端末2で音声信号を観測したと判定された場合、判定された音声信号間で音声遅延量τkを推定する。
1.マスター端末1で音声信号を観測したと判定した場合、音声遅延量の推定にはマスター端末1の観測信号を基準信号xkM(n)とし、音声信号を観測したと判定したスレーブ端末2kの観測信号xk(n)との相互相関を次式により求める。相互相関が最大となるサンプル数mを、基準信号としたマスター端末1と、比較対象としたスレーブ端末2kとの相対的な音の伝送時間ずれとする。
求めた音声遅延量τkを用いてスレーブ端末2kの観測信号に与える遅延量M_Tkを修正する。遅延量の修正は遅延量決定部124で行うため、音声遅延量τkを遅延量決定部124に渡す。
2.マスター端末1で音声信号を観測せず、複数のスレーブ端末2で音声信号を観測したと判定した場合、音声遅延量の推定には、音声信号を観測した複数のスレーブ端末2のうち任意の1つを基準信号として選択する。選択したスレーブ端末2をスレーブ端末2k'とする。このスレーブ端末2k'の観測信号xk'(n)と、他の音声信号を観測したスレーブ端末2kの観測信号xk(n)との相互相関を次式により求める。相互相関が最大となるサンプル数mを、基準信号としたスレーブ端末2k'と、比較対象としたスレーブ端末2kとの相対的な音の伝送時間ずれとする。
求めた音声遅延量τkを用いてスレーブ端末2kの観測信号に与える遅延量M_Tkを修正する。遅延量の修正は遅延量決定部124で行うため、音声遅延量τkを遅延量決定部124に渡す。
ステップS127において、マスター端末1の話者強調部127は非同期分散マイクロホンを用いた音声強調手法を用いる。音声強調処理は、例えば、参考文献2に記載された非同期マイクロホンアレイ処理を利用することができる。また、参考文献3に記載されるように、各PCM信号までの到達時間差を揃え、特定方向のみの音を強調するマイクロホンアレイ処理を行ってもよいし、参考文献4に記載されるように、特定話者だけの音が残るように周波数スペクトル上で雑音のスペクトル成分を差し引くスペクトルサブトラクションを行い、雑音抑圧を行ってもよい。話者強調された音声信号はミキシング部129へ送られる。
〔参考文献2〕加古達也、小林和則、大室仲、“非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、日本音響学会2013年春季研究発表会講演論文集、1-P-5、2013年
〔参考文献3〕浅野太著、“音のアレイ信号処理”、コロナ社、2011年
〔参考文献4〕向井良等、“非定常スペクトルサブトラクションによる音源分離後の残留雑音除去”、日本音響学会秋季研究発表会、2010年
ステップS128において、マスター端末1のノイズ除去部128kは、遅延バッファ部125kから遅延後の観測信号を受け取り、その観測信号に対して定常雑音のノイズリダクションを行う。ノイズリダクションは、例えば参考文献5に記載されたスペクトルサブトラクションを用いて実現することができる。ノイズ除去した観測信号はミキシング部129へ送られる。
〔参考文献5〕Steven Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. Acoust. Speech and Signal Processing, Vol. ASSP-27, pp.113-120, 1979
ステップS129において、マスター端末1のミキシング部129は、ノイズ除去部1280,…,128nおよび話者強調部127から音声信号を受け取り、GUI制御部10から各信号のゲインを受け取る。受け取ったゲインに基づいて各音声信号の音量を増幅する係数Akを乗算し、乗算後の音声信号からパワーを計算する。パワーは乗算後の音声信号の二乗値の単位区間の平均とする。単位区間は例えば500ミリ秒とし、500ミリ秒ごとにパワーを算出する。算出したパワーの値はGUI制御部10へ送られる。その後、乗算後の音声信号をミキシングする。ミキシングは各音声信号の和を算出しミキシング信号を取得する。ミキシング信号にGUI制御部10から取得した係数Amixを乗算して処理後音声信号を得、この処理後音声信号を出力する。出力先にはテレビ会議システムや音声認識システム、動画撮影などの音声入力などを接続し、所望のサービスを提供することができる。
GUI制御部10ではミキシング処理の音量調整を行う。GUI制御部10の表示イメージを図5に示す。GUI制御部10は、各音声信号のゲイン調整用のスライドバー101、各音声信号のミュート制御用のボタン102、各スレーブ端末との接続状態を色等で知らせるボタン、スレーブ端末のマイクから取得しているゲイン値を示すレベルメーター103、録音の制御を行うボタン104、スレーブ端末の接続状態などを表示するステータス表示エリア105を有する。レベルメーターのバーの値は、ミキシング部129から受け取ったパワーの値を用いて決定する。ミキシング部129で各音声信号に与えるゲインAkの値は、ゲイン調整のスライドバー101から取得する。ゲインの値は連続値を取得してもよいし、離散値を取得してもよい。例えば15段階の離散値とすると、最大値を+7とし、ゲインの値は21dBに対応する11.2倍とする。中間値は0とし、0dBに対応する1.0倍を取る。最低値は-7とし、-∞dBに対応する0.0倍とする。また、ミュートボタンがオンのときはゲインAkに0.0倍を与え、ミュートボタンがオフのときはゲインAkにスライドバーから取得したゲインを用いる。このゲインAkをミキシング部129に受け渡す。また、ミキシングした後の処理後音声信号に対してもスライドバーからゲイン値Amixを受け渡す。
[第二実施形態]
第二実施形態は、マスター端末が動画撮影機能を有しており、複数のスレーブ端末を用いて収音した遠方の音声を、マスター端末で撮影した動画に付加して出力する通信システムである。本形態のスレーブ端末は、例えばスマートフォンとする。スマートフォンで取得した音声をマスター端末に伝送し、マスター端末では取得した音声信号から目的の話者の音声を強調する音声強調処理を行う。また、各マイクで取得した音声信号を手元のスマートフォンを用いて任意にユーザーがミキシングすることができる機能を持つ。
本形態のマスター端末3は、図6に例示するように、マイクM0、接続制御部10、GUI制御部11、および音声処理部12に加えて、ビデオカメラV、動画処理部13、バッファ処理部14、および映像出力部15を含む。ビデオカメラVは各種の受光素子を備え映像を取得することが可能な機器であり、図6に示すようにマスター端末1に内蔵されていてもよいし、マスター端末1へ各種のインターフェースを介して接続されたウェブカメラのような周辺機器であってもよい。
動画処理部13は、ビデオカメラVで取得した映像をサンプリングしてデジタルの映像信号へ変換する。取得した映像信号はバッファ処理部14へ送られる。
バッファ処理部14は、音声処理部12の遅延量決定部124が計算する遅延量を用いて、動画処理部13が出力する映像信号に遅延を与える。バッファ処理部14は、音声処理部12の遅延量決定部124から各スレーブ端末21,…,2nの遅延量M_T1,…,M_Tnを受け取り、その遅延量M_T1,…,M_Tnに基づいて映像信号のフレームをバッファして映像信号に遅延を与える。遅延は各スレーブ端末に対する遅延量M_T0,…,M_Tnのうち最も大きい値を与える。これにより映像信号と音声信号のフレームずれが無くなる。遅延させた映像信号は映像出力部15へ送られる。
映像出力部15は、バッファ処理部14の出力する遅延後映像信号と音声処理部11の出力する処理後音声信号を受け取り、遅延後映像信号に処理後音声信号を付与して音声付映像信号を生成する。音声付映像信号は後段のサービスに合わせて適切なコーデックで符号化して出力する。例えば、動画配信サービスに出力する場合は、映像はMP4(MPEG-4)、音声はAAC(Advanced Audio Coding)でコーデックを行う等の動画処理を行う。
本形態のGUI制御部10には、図7に示すように、ビデオカメラVの取得している映像表示エリア106、各音声信号のゲイン調整用のスライドバー101、各音声信号のミュート制御用のボタン102、スレーブ端末との接続状態を色等で知らせるボタン、スレーブ端末のマイクから取得しているゲイン値を示すレベルメーター103、録音・録画の制御を行うボタン104、スレーブ端末の接続状態などを表示するステータス表示エリア105を有する。レベルメーターのバーの値は、ミキシング部129から受け取ったパワーの値を用いて決定する。ミキシング部129で各音声信号に与えるゲインAkの値は、ゲイン調整のスライドバーから取得する。ゲインの値は連続値を取得してもよいし、離散値を取得してもよい。例えば15段階の離散値とすると、最大値を+7とし、ゲインの値は21dBに対応する11.2倍とする。中間値は0とし、0dBに対応する1.0倍を取る。最低値は-7とし、-∞dBに対応する0.0倍とする。また、ミュートボタンがオンのときはゲインAkに0.0倍を与え、ミュートボタンがオフのときはゲインAkにスライドバーから取得したゲインを用いる。このゲインAkをミキシング部129に受け渡す。また、ミキシングした後の処理後音声信号に対してもスライドバーからゲイン値Amixを受け渡す。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、3 マスター端末
2 スレーブ端末
9 通信網
10 接続制御部
11 GUI制御部
12 音声処理部
13 動画処理部
14 バッファ処理部
15 映像出力部
20 接続制御部
21 A/D変換部
22 エンコード処理部
23 パケット送信部
120 A/D変換部
121 パケット受信部
122 デコード処理部
123 マイクバッファ処理部
124 遅延量決定部
125 遅延バッファ処理部
126 音声遅延量推定部
127 話者強調処理部
128 ノイズ除去部
129 ミキシング部

Claims (6)

  1. マスター端末と少なくとも1台のスレーブ端末とを含む通信システムであって、
    上記スレーブ端末は、
    当該スレーブ端末に接続されたマイクを用いてデジタルの観測信号を取得するA/D変換部と、
    上記観測信号をパケットに格納して上記マスター端末へ送信するパケット送信部と、
    を含み、
    上記マスター端末は、
    当該マスター端末に接続されたビデオカメラを用いてデジタルの映像信号を取得する動画処理部と、
    当該マスター端末に接続されたマイクを用いてデジタルの観測信号を取得するA/D変換部と、
    上記スレーブ端末から上記パケットを受信し上記観測信号を取り出すパケット受信部と、
    当該マスター端末および上記スレーブ端末が取得した複数の観測信号のうち音声が含まれる観測信号の各組について相互相関が最大となる時間差を当該観測信号の音声遅延量として求める音声遅延量推定部と、
    上記スレーブ端末ごとにパケット伝送時間を計測し、上記音声遅延量を用いて上記パケット伝送時間を補正して上記パケット伝送時間の算術平均を当該スレーブ端末の遅延量として求める遅延量決定部と、
    上記スレーブ端末ごとに上記観測信号に対して当該スレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理部と、
    上記映像信号に対して上記スレーブ端末の遅延量のうち最大の遅延量に対応する遅延を与えた遅延後映像信号を生成するバッファ処理部と、
    上記遅延後映像信号に上記遅延後信号に基づく信号を付加して音声付映像信号を生成する動画出力部と、
    を含む通信システム。
  2. 請求項に記載の通信システムであって、
    上記遅延量決定部は、計測したパケット伝送時間と真のパケット伝送時間の差がガウス分布に従うと仮定して上記パケット伝送時間から上記ガウス分布の平均と分散を求め、上記ガウス分布の平均と分散を用いて上記パケット伝送時間が外れ値であるか否かを判定し、外れ値であると判定されたパケット伝送時間は算術平均の計算に用いないものである
    通信システム。
  3. 請求項またはに記載の通信システムであって、
    上記マスター端末は、上記遅延後信号に対して特定の話者の音声を強調する話者強調処理を行う話者強調処理部をさらに含む
    通信システム。
  4. 請求項からのいずれかに記載の通信システムであって、
    上記マスター端末は、
    上記遅延後信号からノイズを除去してノイズ除去後音声信号を生成するノイズ除去部と、
    上記ノイズ除去後音声信号の総和を算出して処理後音声信号を生成するミキシング部と、
    をさらに含む通信システム。
  5. 少なくとも1台のスレーブ端末が、当該スレーブ端末に接続されたマイクを用いてデジタルの観測信号を取得するA/D変換ステップと、
    上記スレーブ端末が、上記観測信号をパケットに格納してマスター端末へ送信するパケット送信ステップと、
    上記マスター端末が、当該マスター端末に接続されたビデオカメラを用いてデジタルの映像信号を取得する動画処理ステップと、
    上記マスター端末が、当該マスター端末に接続されたマイクを用いてデジタルの観測信号を取得するA/D変換ステップと、
    上記マスター端末が、上記スレーブ端末から上記パケットを受信し上記観測信号を取り出すパケット受信ステップと、
    上記マスター端末が、当該マスター端末および上記スレーブ端末が取得した複数の観測信号のうち音声が含まれる観測信号の各組について相互相関が最大となる時間差を当該観測信号の音声遅延量として求める音声遅延量推定ステップと、
    上記マスター端末が、上記スレーブ端末ごとにパケット伝送時間を計測し、上記音声遅延量を用いて上記パケット伝送時間を補正して上記パケット伝送時間の算術平均を当該スレーブ端末の遅延量として求める遅延量決定ステップと、
    上記マスター端末が、上記スレーブ端末ごとに上記観測信号に対して当該スレーブ端末の遅延量に対応する遅延を与えて遅延後信号を生成する遅延バッファ処理ステップと、
    上記マスター端末が、上記映像信号に対して上記スレーブ端末の遅延量のうち最大の遅延量に対応する遅延を与えた遅延後映像信号を生成するバッファ処理ステップと、
    上記マスター端末が、上記遅延後映像信号に上記遅延後信号に基づく信号を付加して音声付映像信号を生成する動画出力ステップと、
    を含む通信方法。
  6. 請求項1からのいずれかに記載のマスター端末としてコンピュータを機能させるためのプログラム。
JP2015057620A 2015-03-20 2015-03-20 通信システム、通信方法、およびプログラム Active JP6377557B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015057620A JP6377557B2 (ja) 2015-03-20 2015-03-20 通信システム、通信方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015057620A JP6377557B2 (ja) 2015-03-20 2015-03-20 通信システム、通信方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016177153A JP2016177153A (ja) 2016-10-06
JP6377557B2 true JP6377557B2 (ja) 2018-08-22

Family

ID=57069043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015057620A Active JP6377557B2 (ja) 2015-03-20 2015-03-20 通信システム、通信方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6377557B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI826159B (zh) * 2022-09-22 2023-12-11 聯發科技股份有限公司 音頻增強的方法、耳機、耳機系統及用戶設備

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6374936B2 (ja) * 2016-02-25 2018-08-15 パナソニック株式会社 音声認識方法、音声認識装置及びプログラム
JP2021015202A (ja) * 2019-07-12 2021-02-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
WO2021229828A1 (ja) * 2020-05-11 2021-11-18 ヤマハ株式会社 信号処理方法、信号処理装置、及びプログラム
CN112804610B (zh) * 2021-01-07 2022-06-10 深圳市博陆科电子科技有限公司 TWS蓝牙耳机控制PC上微软Teams的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH025660A (ja) * 1988-06-24 1990-01-10 Nippon Telegr & Teleph Corp <Ntt> 映像パケット音声パケット同期転送制御方式
JPH03109828A (ja) * 1989-09-25 1991-05-09 Hitachi Ltd 平坦遅延長計測方法および装置、反響消去装置ならびに電話端末
JP2005033499A (ja) * 2003-07-14 2005-02-03 Iwatsu Electric Co Ltd 音声ip端末の伝搬時間ゆらぎ吸収方法と装置
JP2005167684A (ja) * 2003-12-03 2005-06-23 Toyota Motor Corp 伝送制御装置
JP2006314078A (ja) * 2005-04-06 2006-11-16 Sony Corp 撮像装置、音声記録装置および音声記録方法
JP4698555B2 (ja) * 2006-11-17 2011-06-08 富士通株式会社 検出方法、検出装置及びコンピュータプログラム
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
JP5937955B2 (ja) * 2012-11-19 2016-06-22 日本電信電話株式会社 パケット転送遅延計測装置及び方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI826159B (zh) * 2022-09-22 2023-12-11 聯發科技股份有限公司 音頻增強的方法、耳機、耳機系統及用戶設備

Also Published As

Publication number Publication date
JP2016177153A (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
JP6377557B2 (ja) 通信システム、通信方法、およびプログラム
JP6703525B2 (ja) 音源を強調するための方法及び機器
EP2761617B1 (en) Processing audio signals
US10552114B2 (en) Auto-mute redundant devices in a conference room
US9042574B2 (en) Processing audio signals
WO2015191788A1 (en) Intelligent device connection for wireless media in an ad hoc acoustic network
US8731940B2 (en) Method of controlling a system and signal processing system
US20150358767A1 (en) Intelligent device connection for wireless media in an ad hoc acoustic network
US20170104867A1 (en) In-service monitoring of voice quality in teleconferencing
EP3202106B1 (en) Method to handle problematic patterns in a low latency multimedia streaming environment
CN104580764A (zh) 电话会议系统中的超声配对信号控制
JP2022514325A (ja) 聴覚デバイスにおけるソース分離及び関連する方法
CN113424558A (zh) 智能个人助理
CN107967921B (zh) 会议系统的音量调节方法及装置
KR101597768B1 (ko) 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법
WO2016151974A1 (ja) 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム
KR101892268B1 (ko) 영상 회의 시 단말기를 제어하기 위한 방법, 장치 및 기록 매체
CN103002171B (zh) 处理音频信号的方法和装置
US10997984B2 (en) Sounding device, audio transmission system, and audio analysis method thereof
JP2017157880A (ja) エコーキャンセル装置及びエコーキャンセル方法
JP6230969B2 (ja) 音声収音システム、ホスト装置及びプログラム
JP5931707B2 (ja) ビデオ会議システム
GB2567013A (en) Sound processing system
TW202433905A (zh) 視訊會議評估方法及系統
TW201424258A (zh) 電子裝置、收音電路、雜音濾除方法以及基於適應性時間反轉法之資料庫建構方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180725

R150 Certificate of patent or registration of utility model

Ref document number: 6377557

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150