JP6193800B2 - 音声収音システム、音声再生システム - Google Patents

音声収音システム、音声再生システム Download PDF

Info

Publication number
JP6193800B2
JP6193800B2 JP2014090961A JP2014090961A JP6193800B2 JP 6193800 B2 JP6193800 B2 JP 6193800B2 JP 2014090961 A JP2014090961 A JP 2014090961A JP 2014090961 A JP2014090961 A JP 2014090961A JP 6193800 B2 JP6193800 B2 JP 6193800B2
Authority
JP
Japan
Prior art keywords
unit
client
control unit
host
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014090961A
Other languages
English (en)
Other versions
JP2015211303A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014090961A priority Critical patent/JP6193800B2/ja
Publication of JP2015211303A publication Critical patent/JP2015211303A/ja
Application granted granted Critical
Publication of JP6193800B2 publication Critical patent/JP6193800B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、マイクロホンやスピーカーを備える音響装置を複数用いて、収音した音声を雑音抑圧や音声強調、エリア再生などの音響処理を行って再生する音声収音再生技術に関する。
従来からテレビに取り付けたカメラ機能付きのマイクロホンを利用して音声会議を行う技術が存在していた(非特許文献1、2、3参照)。非特許文献1、2に記載された音声会議技術では、発話者がカメラ機能付きマイクロホンから近い場所で話した音声をサービスに適した品質で収音することができるが、発話者がカメラ機能付きマイクロホンから遠い場所で話した音声の収音品質は劣化してしまう問題がある。
この問題を解決するために、非特許文献3に記載された通信端末では、非特許文献4に記載された音響装置をUSB(Universal Serial Bus)ケーブルで接続して拡張マイクロホンとして利用することができる。これにより、USBケーブルを延長することで、カメラ機能付きマイクロホンから離れた場所の発話者の音声を収音することが可能になる。また、非特許文献4に記載された音響装置はスピーカー機能も有し、非特許文献3に記載された通信端末が備えるスピーカーを補助することが可能である。
東日本電信電話株式会社、"ひかりシェアプレイス"、[online]、[平成26年4月14日検索]、インターネット<URL:https://web116.jp/shop/goods/hlv1-tel/hlv1-tel_00.html> 西日本電信電話株式会社、"光だんらんTV"、[online]、[平成26年4月14日検索]、インターネット<URL:http://flets-w.com/hikaridenwa/danlan/> 西日本電信電話株式会社、"HLV1-TEL取扱説明書"、[online]、[平成26年4月14日検索]、インターネット<URL:https://www.ntt-west.co.jp/kiki/download/reflection/danlan/HLV1-TEL_man3.pdf> エヌ・ティ・ティ・アドバンステクノロジ株式会社、"R-Talk取扱説明書"、[online]、[平成26年4月14日検索]、インターネット<URL:http://www.ntt-at.co.jp/product/rt800/pdf/rt800_manual.pdf>
非特許文献3に記載された通信端末においてマイクロホンやスピーカーを拡張するためには、非特許文献4に記載された音響装置のような専用の機器が必要となる。また、非特許文献4に記載された音響装置はUSBケーブルのような有線で接続する必要があるため、既存の通信端末に新規に音響装置を追加する場合は、ハードウェアの改造や設計をやり直す必要がある。
この発明は、マイクロホン機能やスピーカー機能を備える音響装置を必要に応じて追加してマイクロホンアレイ処理やスピーカーアレイ処理を行う音声収音再生技術を実現することを目的とする。
上記の課題を解決するために、この発明の第一の態様の音声収音システムは、ホスト部と少なくとも1つのクライアント部を含む。クライアント部は、収音した音声に基づいて生成した音響信号をホスト部へ送信する音声取得部と、ホスト部へ接続要求を送信する接続制御部と、を含む。ホスト部は、収音した音声に基づいて音響信号を生成する音声取得部と、ホスト部の音声取得部が出力する音響信号と、クライアント部から受信する音響信号とを用いて、所望のマイクロホンアレイ処理を施した処理後音響信号を出力するマイクロホンアレイ制御部と、接続要求を受信してマイクロホンアレイ制御部にクライアント部を追加する接続制御部と、を含む。
この発明の第二の態様の音声再生システムは、ホスト部と少なくとも1つのクライアント部を含む。クライアント部は、ホスト部へ接続要求を送信する接続制御部と、ホスト部から受信する処理後音響信号を再生する音声再生部と、を含む。ホスト部は、入力された音響信号に対して所望のスピーカーアレイ処理を施した処理後音響信号を出力し、クライアント部へ音響信号を送信するスピーカーアレイ制御部と、処理後音響信号を再生する音声再生部と、接続要求を受信してスピーカーアレイ制御部にクライアント部を追加する接続制御部と、を含む。
この発明によれば、マイクロホン機能やスピーカー機能を備える音響装置を必要に応じて追加してマイクロホンアレイ処理やスピーカーアレイ処理を行う音声収音再生技術を実現することができる。例えば、音響装置として無線LAN(Local Area Network)のような無線通信機能を備えるスマートフォンなどを利用することで、有線の接続を必要とせずに、必要に応じて、マイクロホンやスピーカーをマイクロホンアレイ処理やスピーカーアレイ処理に追加することができる。
図1は、音声収音再生システムの機能構成を例示する図である。 図2は、ホスト部の機能構成を例示する図である。 図3は、クライアント部の機能構成を例示する図である。 図4は、クライアント部の入力インターフェースを例示する図である。 図5は、音声収音再生方法の処理フローを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
この発明の音声収音再生技術は、ホスト部の処理とクライアント部の処理から構成される。ホスト部の処理はクライアント部から送られた音声を集約し、非同期音声処理を行うことで特定の音声のみを強調する。ホスト部は、非同期音声処理を行いクライアント部近傍の話者ごとに音声を分離した信号に対し、利用する音声サービスに合わせて音響処理を行う。例えば、音声通話であれば話者ごとの音量を調整する自動利得制御(AGC: Automatic Gain Control)を行った後にミキシングして他地点に送信する。
この発明では、ホスト部とクライアント部とを無線LANなどの無線通信により接続することで、より広い範囲の収音を実現する。また、スピーカー機能を有するクライアント部を接続することで、無線で手軽にスピーカーの連携を実現する。
無線LANの範囲は一つのアクセスポイントでは比較的狭いエリアにしか電波が届かないが、無線LANが届く範囲であれば、クライアント部を追加することですべての話者の音声をマイクロホンによって収音することができるようになり、音声収音再生サービスとして適切に機能する。
実施形態の音声収音再生システム5は、図1に示すように、ホスト部1及びK(>1)個のクライアント部31,…,3Kを例えば含む。音声収音再生システム5は少なくとも二組で連携することにより音声収音再生機能を実現する。この実施形態では音声収音再生システム5が二組の場合を例として説明するが、三組以上の音声収音再生システム5を用いて三つ以上の空間が互いに収音した音声を再生する構成とすることも可能である。
図1に示す通り、音声収音再生システム5Aと音声収音再生システム5Bとにより音声収音再生機能を実現する場合、音声収音再生システム5Aのクライアント部31,…,3Kが配置された空間と音声収音再生システム5Bのクライアント部31,…,3Kが配置された空間とはそれぞれ異なる空間である。
音声収音再生システム5Aのホスト部1と音声収音再生システム5Bのホスト部1は共に通信網9に接続される。通信網9は、接続される各装置が相互に通信可能なように構成されていればよく、例えばインターネット、WAN(Wide Area Network)、LAN(Local Area Network)、公衆交換電話網、専用線などで構成することができる。
音声収音再生システム5Aに含まれるクライアント部3の数と音声収音再生システム5Bに含まれるクライアント部3の数とは同一であってもよいし、異なっていてもよい。
ホスト部1は、図2に示すように、マイクロホンM、スピーカーS、接続制御部10、画面制御部11、音声取得部12、パケット受信部13、エコーキャンセラ部14、信号バッファ部15、マイクロホンアレイ制御部16、音声サービス処理部17、スピーカーアレイ制御部18、パケット送信部19及び音声取得部20を例えば含む。
ホスト部1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ホスト部1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ホスト部1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、ホスト部1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
クライアント部3は、図3に示すように、マイクロホンM、スピーカーS、接続制御部30、画面制御部31、音声取得部32、パケット送信部33、パケット受信部34及び音声再生部35を例えば含む。
クライアント部3は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。クライアント部3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。クライアント部3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、クライアント部3の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
クライアント部3は無線LANのような無線通信ネットワークや、Bluetooth(登録商標)、NFC(Near Field Connection)のような近距離無線通信などの無線通信機能を有する音響装置であることが望ましい。クライアント部3は、具体的には、例えば、スマートフォン、タブレット端末、既存のテレビ会議装置や音声会議装置、テレビ、マイクロホンやスピーカーを有するテレビのリモコン、マイクロホンやスピーカーを内蔵もしくは外付けしたラップトップ型もしくはデスクトップ型のパーソナルコンピュータ、据置型のテレビゲーム機、テレビゲーム機のコントローラ、ポータブルゲーム機などである。
クライアント部3は、画面を用いた入力インターフェースを持つ。クライアント部3の入力インターフェースは、例えば、図4に示すようなユーザーインターフェースを持つアプリケーションとして実装することができる。図4(A)は、クライアント部3がホスト部1との接続を切断している状態の例である。図4(B)は、クライアント部3がホスト部1と接続して、マイクロホンが利用可能となっている状態の例である。図4(C)は、クライアント部3がホスト部1と接続するための操作を行っている状態の例である。
クライアント部3をスマートフォンなどの汎用的な情報処理装置で実装する場合には、そのスマートフォンへクライアント部3を実装したプログラム(以下、アプリという)をインストールする必要がある。アプリの配布方法としては、スマートフォンの製造事業者や携帯通信事業者が提供するデジタルコンテンツ配信サービスを利用したアプリの配信が利用できる。また、クライアント部3がホスト部1にアクセスすることで、ホスト部1に内蔵されたアプリをインストールする方法も可能である。ホスト部1へのアクセス方法としては、例えば、上述のように、無線LAN、Bluetooth(登録商標)、NFCなどを利用することができる。また、ホスト部1からのアプリの取得だけではなく、各クライアント部3同士がアプリを共有し導入することも可能である。クライアント部3同士のアクセス方法としては、例えば、赤外線通信やNFCなどが利用できる。
図5を参照して、実施形態の音声収音再生方法を説明する。
ステップS30において、クライアント部3の接続制御部30は、クライアント部3とホスト部1との接続制御を行う。クライアント部3がホスト部1へ接続するために、まず、接続先のホスト部1のIPアドレスを指定する必要がある。接続先のIPアドレスは、例えば、画面制御部31から受け取ったIPアドレスを接続先として利用する。もしくは、ホスト部1のIPアドレスを固定して決める。もしくは、クライアント部3が接続先のホスト部1を探索する方法を利用することができる。
クライアント部3が接続先のホスト部1を探索する方法は、例えば、以下のような方法とすることができる。まず、利用者の操作によりクライアント部3の画面制御部31から開始信号が入力される。クライアント部3の接続制御部30は、クライアント部3が接続されている無線LAN内に要求パケットをブロードキャストする。ブロードキャストしたパケットに対して反応することができるホスト部1が存在する場合、そのホスト部1の接続制御部10が返答パケットを返信する。クライアント部3の接続制御部30は、返答パケットに記されるIPアドレスを接続先のホスト部1のIPアドレスとして決定する。
また、クライアント部3の接続制御部30は、接続先のホスト部1に対して利用者の認証を施すこともできる。例えば、PIN(Personal Identification Number)コードを利用した認証の場合、クライアント部3の接続制御部30は、画面制御部31から受け取ったPINコードをホスト部1の接続制御部10へ送信する。ホスト部1の接続制御部10は自身が生成したPINコードと受信したPINコードとを照合し、認証が成功した場合は、承認を示すパケットを返信し、認証が失敗した場合は、接続拒否を示すパケットを返信する。クライアント部3の接続制御部30は、承認を示すパケットを受け取ると、ホスト部1との接続を確立し、接続拒否を示すパケットを受け取ると、パケット送信部33に対してパケット送信を止める指令を受け渡す。
ステップS10において、ホスト部1の接続制御部10は、クライアント部3とホスト部1との接続制御を行う。ホスト部1の接続制御部10は、無線LAN内に接続されたクライアント部3からブロードキャストされた要求パケットを受信する。要求パケットを受信したホスト部1は、クライアント部3の接続を受け入れることができる場合には、ホスト部1のIPアドレスを通知する返答パケットをクライアント部3に対して返信する。
また、ホスト部1の接続制御部10は、接続先のクライアント部3に対して利用者の認証を施すこともできる。例えば、PINコードを利用した認証の場合、クライアント部3へ返答パケットを送信した後、画面制御部11に認証開始の指示とランダムに生成したPINコードを受け渡す。利用者は、ホスト部1の画面制御部11に表示されたPINコードを確認し、クライアント部3の画面制御部31でそのPINコードを入力する。クライアント部3の接続制御部30はホスト部1の接続制御部10へ入力されたPINコードを送信する。ホスト部1の接続制御部10は自身が生成したPINコードと受信したPINコードとを照合し、認証が成功した場合は、承認を示すパケットを返信し、認証が失敗した場合は、接続拒否を示すパケットを返信する。認証が失敗した場合には、さらに、画面制御部11に失敗の通知を受け渡す。
クライアント部3とホスト部1を接続する認証方法についてより詳しく説明する。
無線LAN内に他に接続可能なホスト部1が存在しない場合は、認証なしで接続するように構成してもよい。
クライアント部3にあらかじめ利用者を特定するIDとパスワードを入力しておき、そのIDとパスワードをホスト部1に送信し認証を行うように構成してもよい。
クライアント部3がホスト部1による認証を待っている任意の時間内に、ホスト部1で指定の操作を行うようにしてもよい。例えば、クライアント部3が接続認証を待機する20秒の間に、ホスト部1で音声ミュートボタンを二回押す、また、ホスト部1で接続を許可するボタンを押す、などの方法により認証を行うように構成してもよい。図4(C)は、このように構成した場合におけるクライアント部3の画面制御部31の表示の例である。
クライアント部3のMACアドレスやクライアント部3の固有のIDを事前にホスト部1に登録しておき、登録されたクライアント部3のみを自動で接続可能とするように構成してもよい。
クライアント部3とホスト部1とで、BluetoothやNFCのような近距離無線通信を利用し、接続IDやIPアドレスなどの情報を交換し、接続を行うように構成してもよい。
ステップS31において、クライアント部3の画面制御部31は、クライアント側の画面表示の制御を行う。画面制御部31は、クライアント部3の画面上で音声取得部32を有効にするか、無効にするかを指定することを可能にする。画面制御部31は、無効が指定された場合、音声取得部32に信号を渡し、音声取得部32を停止する。有効が指定された場合、音声取得部32に信号を渡し、音声取得部32を起動し維持する。
図4(A)は、音声取得部32が無効となっている状態の画面制御部31の表示の例である。図4(B)は、音声取得部32が有効となっている状態の画面制御部31の表示の例である。いずれの例でも画面下部のボタン押下により音声取得部32を有効にするか、無効にするかを指定することができる。
また、画面制御部31は、クライアント部3の画面上で音声再生部35を有効にするか、無効にするかを指定することを可能にする。画面制御部31は、無効が指定された場合、音声再生部35に信号を渡し、音声再生部35を停止する。有効が指定された場合、音声再生部35に信号を渡し、音声再生部35を起動し維持する。
また、画面制御部31はパケット送信部33の宛先IPアドレスを画面上で入力させ、送信先のホスト部1のIPアドレスとして決定する。入力されたIPアドレスはパケット送信部30に受け渡す。もしくは、画面制御部31は、ホスト部1のIPアドレスを探索する開始ボタンを画面上に用意し、開始動作を制御する。開始ボタンが利用者によって操作されると、接続制御部30に開始の信号を受け渡す。接続制御のために用いるPINコードの入力も同時に行う。画面制御部31は、入力されたPINコードをパケット送信部33に受け渡す。
ステップS11において、ホスト部1の画面制御部11は、接続制御部10から認証開始の指示とPINコードとを受け取り、受け取ったPINコードを画面上に表示させる。また、受信ポート番号を利用者から入力させ、入力されたポート番号をパケット受信部13に受け渡す。
ステップS12において、ホスト部1の音声取得部12は、ホスト部1のマイクロホンMから音声を収音し、収音したアナログ信号をアナログデジタル(A/D)変換器を用いて、指定したサンプリング周波数でデジタル信号に変換する。例えば、16kHzサンプリングで音声を収音する。デジタル信号とした音声はエコーキャンセラ部14に受け渡す。
ステップS32において、クライアント部3の音声取得部32は、クライアント部3のマイクロホンMから音声を収音し、収音したアナログ信号をアナログデジタル(A/D)変換器を用いて、指定したサンプリング周波数でデジタル信号に変換する。例えば、16kHzサンプリングで音声を収音する。デジタル信号とした音声はパケット送信部33に受け渡す。
ステップS33において、クライアント部3のパケット送信部33は、固定のポート番号とIPアドレスに対して指定したプロトコルで、指定したPCM(Pulse Code Modulation)データ長で音声パケットを送信する。ポート番号とIPアドレスは画面制御部31で利用者が入力することもできる。また、接続制御部30で探索したホスト部1のIPアドレスを受け取り送信先としてIPアドレスを指定することもできる。音声パケットの送信方法は、例えばRTP(Real-time Transport Protocol)で送信し、PCMデータ長を20ミリ秒として送信する。また、送信する音声パケットは、例えばIPsecなどの暗号化技術によりセキュリティを確保した方法で送信してもよいし、例えばG.711などの符号化技術により符号化し送信してもよい。音声パケットはホスト部1のパケット受信部13に送信される。
ステップS13において、ホスト部1のパケット受信部13は、利用者が画面制御部10で入力したポート番号や、固定のポート番号に対して送られてきた音声パケットを受信する。パケット受信部13は、受信した音声パケットをバッファリングして音切れを減らすようにする。また、音声パケットが暗号化されている場合は復号してPCM信号を得る。仮に、音声パケットに符号化が行われている場合は復号してデジタル信号のPCM信号に変換する。PCM信号はエコーキャンセラ部14に受け渡す。
ホスト部1のパケット受信部13は複数のポートに送られてきた音声パケットを同時に処理する機能を有する。受信した音声パケットをそれぞれのポートごとに暗号化の復号や音声符号化の復号を行ない、複数のPCM信号をエコーキャンセラ部14に受け渡す。
ステップS14において、ホスト部1のエコーキャンセラ部14は、音声取得部12からのPCM信号と、他地点からのPCM信号とを受け取る。エコーキャンセラ部14は、二つの入力のPCM信号に対し遅延を揃える。遅延の揃え方としては、例えば、最大相互相関を利用した遅延補正を行う。また、エコーキャンセラ部14は、他地点からのPCM信号の成分を音声取得部12から受け取るPCM信号から取り除く処理を行う。この処理は、例えば、「特許第5087024号公報(参考文献1)」に記載されたエコーキャンセラの技術を適用することができる。エコーキャンセラの処理を行った出力結果は信号バッファ部15に受け渡す。
また、エコーキャンセラ部14は、パケット受信部13からの1つもしくは複数のPCM信号と、他地点からのPCM信号とを受け取る。エコーキャンセラ部14は、各ポートに対して送られてきた1つ以上のPCM信号と、他地点からのPCM信号とに対し、遅延を揃える。遅延の揃え方としては、例えば、最大相互相関を利用した遅延補正を行う。また、エコーキャンセラ部14は、他地点からのPCM信号の成分をパケット受信部13の各ポートで受信したPCM信号から取り除く処理を行う。この処理は、一般的な適応フィルタのアルゴリズムを用いたエコーキャンセラの処理(例えば、「浅野太著、“音のアレイ信号処理”、コロナ社、2011年(参考文献2)」参照)によって行ってもよいし、上述の参考文献1に記載されたエコーキャンセラの技術を利用してもよい。エコーキャンセラの処理を行った出力結果は信号バッファ部15に受け渡す。
ステップS15において、ホスト部1の信号バッファ部15は、エコーキャンセラ部14からの複数のPCM信号を受け取り、これらのPCM信号の遅延を揃える。遅延の揃え方としては、例えば、最大相互相関を利用した遅延補正を行う。遅延を揃えた複数のPCM信号はマイクロホンアレイ制御部16に受け渡す。
ステップS16において、ホスト部1のマイクロホンアレイ制御部16は、信号バッファ部15から受け取った複数のPCM信号に対して、特定音声を強調するマイクロホンアレイ処理を施し、処理後音響信号を生成する。特定音声を強調する処理は、例えば、「加古達也、小林和則、大室仲、“非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、日本音響学会2013年春季研究発表会講演論文集、1-P-5、2013年(参考文献3)」に記載された非同期マイクロホンアレイ処理を利用することができる。また、上記の参考文献2に記載されるように、各PCM信号までの到達時間差を揃え、特定方向のみの音を強調するマイクロホンアレイ処理を行ってもよいし、「向井良等、“非定常スペクトルサブトラクションによる音源分離後の残留雑音除去”、日本音響学会秋季研究発表会、2010年(参考文献4)」に記載されるように、特定話者だけの音が残るように周波数スペクトル上で雑音のスペクトル成分を差し引くスペクトルサブトラクションを行ない、雑音抑圧を行ってもよい。複数の処理後音響信号と音声信号の発話者区間情報は音声サービス処理部17に受け渡す。
ステップS17において、ホスト部1の音声サービス処理部17は、受け取った複数の処理後音響信号と発話者区間情報を利用し、提供している音声サービスに合わせた処理を施す。音声サービス処理部17は、例えば、リアルタイムな音声コミュニケーションで利用するために、話者ごとの音声のパワーを調整する。音声サービス処理部17は、また、発話者区間情報を利用して発話者が割り振られない音声に対しては、音声のパワーを小さくする。音声サービス処理部17は、具体的には、係数Gを掛け合わせる。係数Gは、例えば0.1などの値を与える。また、発話者が割り振られる音声に対してはそれぞれの音声のパワーを求め、そのパワーが1になるよう係数Gを掛け合わせる。音声サービス処理部17は、このようにそれぞれ掛け合わせて得た音声信号を足し合わせて処理後音響信号を出力する。また、音声信号を足し合わせることなく、そのまま複数の処理後音響信号を他地点へ送信してもよい。
ステップS18において、ホスト部1のスピーカーアレイ制御部18は、他地点のホスト部1の音声サービス処理部17から受け取った音響信号を利用してスピーカーアレイ処理を施し、処理後音響信号を生成する。例えば、音量や位相を制御することによりスピーカーの指向性を高めエリア再生を実現する。また左右に音源を定位させるために、左右のスピーカーの音量を調整し、話者がどちらから話しているかを把握することを可能にする。部屋の空間全体の音場をスピーカーアレイによって制御し、スピーカーが存在しない場所から音源が鳴っているような音場再生も可能にする。位相と音量を制御した処理後音響信号はパケット送信部19に受け渡す。また、ホスト部1のスピーカーSで再生する処理後音響信号は音声再生部20に受け渡す。
ステップS19において、ホスト部1のパケット送信部19は、固定のポート番号とIPアドレスに対して指定したプロトコルで、指定したPCMデータ長で音声パケットを送信する。ポート番号とIPアドレスは画面制御部11で利用者が入力することもできる。また、接続制御部10で要求パケットを送ってきたクライアント部3のIPアドレスを指定することもできる。音声パケットの送信方法は、例えばRTPで送信し、PCMデータ長を20ミリ秒として送信する。また、送信するパケットは、例えばIPsecなどの暗号化技術によりセキュリティを確保した方法で送ってもよいし、例えばG.711などの符号化技術により符号化し送信してもよい。音声パケットはクライアント部3のパケット受信部34に送信される。
ステップS34において、クライアント部3のパケット受信部34は、ホスト部1のパケット送信部19から送られてきた音声パケットを受信する。パケット受信部34は、受信した音声パケットをバッファリングして音切れを減らす。また、音声パケットが暗号化されている場合は復号してPCM信号を得る。仮に、音声パケットに符号化が行われている場合は復号してデジタル信号のPCM信号に変換する。PCM信号は音声再生部35に受け渡す。
ステップS20において、ホスト部1の音声再生部20は、スピーカーアレイ制御部18から音声信号のデジタル信号を受け取る。このデジタル信号は、例えばPCM信号である。PCM信号をデジタルアナログ(D/A)変換器を用いてアナログ信号に変換し、ホスト部1のスピーカーSを用いて再生を行う。
ステップS35において、クライアント部3の音声再生部35は、パケット受信部34から音声信号のデジタル信号を受け取る。このデジタル信号は、例えばPCM信号である。PCM信号をデジタルアナログ(D/A)変換器を用いてアナログ信号に変換し、クライアント部3のスピーカーSを用いて再生を行う。
[応用例1]
実施形態の音声収音再生システムにおいて、ホスト部1をセットトップボックスとして実装し、クライアント部3をスマートフォンとして実装した応用例を説明する。
ホスト部1となるセットトップボックスと、クライアント部3となるスマートフォンを同じネットワークのLAN内に接続する。クライアント部3を起動することで、LAN内に要求パケットをブロードキャストする。ホスト部1は特定のパケットを要求することで、自身のIPアドレスを知らせるための返答パケットをクライアント部3に対して送信する。これにより、ホスト部1とクライアント部3との接続が確立する。
クライアント部3で音声入力を有効にすることで、クライアント部3からホスト部1にパケット化された音声が送信される。ホスト部1ではクライアント部3から受け取った音声パケットを処理することで、クライアント部3の音声も収音することが可能となる。
この応用例では、複数のスマートフォンを利用することで、音声会議システムを実現することができる。複数のスマートフォンから任意に選択した1台のスマートフォンをホスト部1とし、残りの複数のスマートフォンをクライアント部3とする。複数のクライアント部3を1台のホスト部1と接続することで、各スマートフォンの近くで話した話者ごとの音声を強調し、収音信号を得ることができるようになる。
この応用例では、また、複数のスマートフォンを利用することで、スピーカーアレイを実現することができる。複数のスマートフォンから任意に選択した1台のスマートフォンをホスト部1とし、残りの複数のスマートフォンをクライアント部3とする。ホスト部1が、入力された音響信号の位相と再生タイミングを制御して、複数のクライアント部3それぞれに送信する。クライアント部3で受け取った音響信号をスピーカーSで再生することで、特定の方向のみに音を再生するエリア再生を実現することができる。また、それぞれの方向で異なる音を再生させたり、スピーカーが存在しない場所にも音源を作ったりして空間全体の音場を再現する音場再生が可能となる。
[応用例2]
実施形態の音声収音再生システムにおいて、ホスト部1をセットトップボックスとして実装し、クライアント部3をスマートフォンとして実装し、クライアント部3の接続台数を変化させる応用例を説明する。
ホスト部1となるセットトップボックスと、クライアント部3となるスマートフォンを同じネットワークのLAN内に接続する。クライアント部3を起動することで、LAN内に要求パケットをブロードキャストする。ホスト部1は要求パケットを受信することで、自身のIPアドレスを知らせるための返答パケットをクライアント部3に対して送信する。これにより、ホスト部1とクライアント部3との接続が確立する。
クライアント部3で音声入力を有効にすることで、クライアント部3からホスト部1にパケット化された音声が送信される。ホスト部1ではクライアント部3から受け取った音声パケットを処理することで、クライアント部3の音声も収音することが可能となる。
さらに、クライアント部3を増やす場合は、同一LAN内にクライアント部3を接続し、同様にしてホスト部1と接続する。このとき、ホスト部1の接続制御部10は、複数の接続を許可してもよいし、同時接続数を制限したい場合には、後から接続してきたクライアント部3の接続を拒否する処理を行ってもよいし、最初に繋がっていたクライアント部3の接続を拒否して後に繋がったクライアント部3の接続を許可してもよい。
マイクロホンアレイ制御部16は、接続制御部10によって新たなクライアントが接続された時に、内部の情報をリセットし、再度フィルタの学習を行ない直す。また、スピーカーアレイ制御部18は、接続制御部10によって新たなクライアント部3が接続された時に、内部の情報をリセットし、再度フィルタの学習を行ない直す。
[応用例3]
クライアント部3を実装するアプリを販売することによって料金を取得するようにすることもできる。クライアント部3を実装するアプリを既存の音声通話ソフトのオプション機能として追加してもよい。このときオプション料金を支払うことにより初めてアプリを取得できるようにしてもよい。また、アプリを利用して通話した時間に応じて利用料を徴収するようにしてもよい。アプリ内に広告を配置し、広告収入によって収入を得るようにしてもよい。アプリ自体は無料で配信し、ホスト部1に接続した時点で課金する方法で料金を取得してもよい。
[発明の効果]
自由に配置した複数の音響装置から得られた音響信号はサンプリング周波数やマイクロホン感度が異なる。この発明は、異なった音響信号を利用しても特定の話者の音を強調することが可能な非同期音声処理を利用することで、必要に応じて容易にマイクロホン数を増やして特定話者の音声の強調や雑音抑圧を実現する技術である。
この発明の音声収音再生システムは、複数の端末からの音響信号を一台のホスト部に集約することで、拡張マイクロホン機能を容易に実現する。これにより、従来の一つのマイクロホンに比べ、複数のマイクロホンを同時に利用することで特定話者の音声の強調や雑音抑圧、特定話者の音声を収音しないなどのマイクロホンアレイ処理を行うことができるようになる。
また、この発明の音声収音再生システムは、一台のホスト部からの音響信号を複数のクライアント部に向けて送信することで、拡張スピーカー機能を容易に実現する。これにより、従来のスピーカーアレイシステムをワイヤレスのネットワークで実現し、特定エリアだけで音が聞こえるエリア再生や、複数のスピーカーの信号を制御することで空間の音場を再現する音場再生も行うことができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 ホスト部
3 クライアント部
5 音声収音再生システム
9 通信網
10、30 接続制御部
11、31 画面制御部
12、32 音声取得部
13、34 パケット受信部
14 エコーキャンセラ部
15 信号バッファ部
16 マイクロホンアレイ制御部
17 音声サービス処理部
18 スピーカーアレイ制御部
19、33 パケット送信部
20、35 音声再生部

Claims (10)

  1. ホスト部と少なくとも1つのクライアント部を含む音声収音システムであって、
    上記クライアント部は、
    収音した音声に基づいて生成した音響信号を上記ホスト部へ送信する音声取得部と、
    上記ホスト部へ接続要求を送信する接続制御部と、
    を含み、
    上記ホスト部は、
    収音した音声に基づいて音響信号を生成する音声取得部と、
    上記ホスト部の音声取得部が出力する音響信号と、上記クライアント部から受信する音響信号とを用いて、所望のマイクロホンアレイ処理を施した処理後音響信号を出力するマイクロホンアレイ制御部と、
    上記接続要求を受信して上記マイクロホンアレイ制御部に上記クライアント部を追加する接続制御部と、
    を含む音声収音システム。
  2. 請求項1に記載の音声収音システムであって、
    上記音声収音システムは、無線通信により構成される通信網をさらに含み、
    上記ホスト部及び上記クライアント部は、上記通信網を経由して相互に接続可能であり、
    上記クライアント部の接続制御部は、上記通信網を利用可能な場合に、上記接続要求を送信するものである
    音声収音システム。
  3. 請求項1または2に記載の音声収音システムであって、
    上記マイクロホンアレイ制御部は、上記ホスト部の音声取得部が出力する音響信号及び上記クライアント部から受信する音響信号に含まれる特定の音声を強調し、及び/又は、特定の音声以外の音声を抑圧するフィルタを用いて、上記マイクロホンアレイ処理を施すものである
    音声収音システム。
  4. 請求項3に記載の音声収音システムであって、
    上記マイクロホンアレイ制御部は、上記ホスト部の接続制御部により上記クライアント部が追加された場合には、上記フィルタをリセットして再度学習するものである
    音声収音システム。
  5. 請求項1から4のいずれかに記載の音声収音システムであって、
    上記ホスト部の接続制御部は、上記接続要求を受信すると、上記クライアント部の認証を行い、認証に成功した場合にのみ、上記マイクロホンアレイ制御部に上記クライアント部を追加するものである
    音声収音システム。
  6. ホスト部と少なくとも1つのクライアント部を含む音声再生システムであって、
    上記クライアント部は、
    上記ホスト部へ接続要求を送信する接続制御部と、
    上記ホスト部から受信する処理後音響信号を再生する音声再生部と、
    を含み、
    上記ホスト部は、
    入力された音響信号に対して所望のスピーカーアレイ処理を施した上記処理後音響信号を出力し、上記クライアント部へ上記音響信号を送信するスピーカーアレイ制御部と、
    上記処理後音響信号を再生する音声再生部と、
    上記接続要求を受信して上記スピーカーアレイ制御部に上記クライアント部を追加する接続制御部と、
    を含む音声再生システム。
  7. 請求項6に記載の音声再生システムであって、
    上記音声再生システムは、無線通信により構成される通信網をさらに含み、
    上記ホスト部及び上記クライアント部は、上記通信網を経由して相互に接続可能であり、
    上記クライアント部の接続制御部は、上記通信網を利用可能な場合に、上記接続要求を送信するものである
    音声再生システム。
  8. 請求項6または7に記載の音声再生システムであって、
    上記スピーカーアレイ制御部は、上記入力された音響信号に含まれる特定の音声を強調し、及び/又は、特定の音声以外の音声を抑圧するフィルタを用いて、上記スピーカーアレイ処理を施すものである
    音声再生システム。
  9. 請求項8に記載の音声再生システムであって、
    上記スピーカーアレイ制御部は、上記ホスト部の接続制御部により上記クライアント部が追加された場合には、上記フィルタをリセットして再度学習するものである
    音声再生システム。
  10. 請求項6から9のいずれかに記載の音声再生システムであって、
    上記ホスト部の接続制御部は、上記接続要求を受信すると、上記クライアント部の認証を行い、認証に成功した場合にのみ、上記スピーカーアレイ制御部に上記クライアント部を追加するものである
    音声再生システム。
JP2014090961A 2014-04-25 2014-04-25 音声収音システム、音声再生システム Active JP6193800B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014090961A JP6193800B2 (ja) 2014-04-25 2014-04-25 音声収音システム、音声再生システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014090961A JP6193800B2 (ja) 2014-04-25 2014-04-25 音声収音システム、音声再生システム

Publications (2)

Publication Number Publication Date
JP2015211303A JP2015211303A (ja) 2015-11-24
JP6193800B2 true JP6193800B2 (ja) 2017-09-06

Family

ID=54613217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014090961A Active JP6193800B2 (ja) 2014-04-25 2014-04-25 音声収音システム、音声再生システム

Country Status (1)

Country Link
JP (1) JP6193800B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462214B2 (en) 2017-12-06 2022-10-04 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019073549A1 (ja) 2017-10-11 2019-04-18 ヤマハ株式会社 放音機器、収音機器、マイク認証システム、及びマイク認証方法
JP7230427B2 (ja) * 2018-10-24 2023-03-01 ヤマハ株式会社 音信号処理装置、ミキサ、および音信号処理方法
CN113411459B (zh) * 2021-06-10 2022-11-11 品令科技(北京)有限公司 一种由发起方控制的远程声音交互系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5332243B2 (ja) * 2008-03-11 2013-11-06 ヤマハ株式会社 放音システム
US8831761B2 (en) * 2010-06-02 2014-09-09 Sony Corporation Method for determining a processed audio signal and a handheld device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462214B2 (en) 2017-12-06 2022-10-04 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof

Also Published As

Publication number Publication date
JP2015211303A (ja) 2015-11-24

Similar Documents

Publication Publication Date Title
US11456369B2 (en) Realtime wireless synchronization of live event audio stream with a video recording
US8606249B1 (en) Methods and systems for enhancing audio quality during teleconferencing
US20070283033A1 (en) System and method for mobile telephone as audio gateway
US20160308929A1 (en) Conferencing based on portable multifunction devices
JP6193800B2 (ja) 音声収音システム、音声再生システム
US9219807B1 (en) Wireless audio communications device, system and method
US20200259674A1 (en) Responsive communication system
WO2016158313A1 (ja) 情報処理装置およびその情報処理方法
JP6377557B2 (ja) 通信システム、通信方法、およびプログラム
US9549429B1 (en) Wireless network interconnection
JP6580362B2 (ja) 会議決定方法およびサーバ装置
CN106993242A (zh) 一种乐器演绎麦克风系统
US9363562B1 (en) Method and system for authorizing a user device
JP7004727B2 (ja) 音声連携システム
US20160309205A1 (en) System and method for transmitting digital audio streams to attendees and recording video at public events
US20230185520A1 (en) Audio-based near field communication
GB2602895A (en) A method and system for authenticating a device
CN104506588B (zh) 一种实现乐队的移动排练的方法及装置
KR101911905B1 (ko) 오디오 데이터를 이용한 디바이스 간 통신 설정 시스템 및 방법
CN113726936A (zh) 一种音频数据处理方法及装置
WO2017078003A1 (ja) コンテンツ再生システム、認証方法、及び媒体
JP6392161B2 (ja) 音声会議システム、音声会議装置、その方法及びプログラム
CN107240403B (zh) 声波传输方法及装置
JP2016029428A (ja) 音声収音システム、ホスト装置及びプログラム
US10051367B2 (en) Portable speaker

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170810

R150 Certificate of patent or registration of utility model

Ref document number: 6193800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150