JP2023072187A - 音声処理システム、音声処理方法、及び音声処理プログラム - Google Patents
音声処理システム、音声処理方法、及び音声処理プログラム Download PDFInfo
- Publication number
- JP2023072187A JP2023072187A JP2021184570A JP2021184570A JP2023072187A JP 2023072187 A JP2023072187 A JP 2023072187A JP 2021184570 A JP2021184570 A JP 2021184570A JP 2021184570 A JP2021184570 A JP 2021184570A JP 2023072187 A JP2023072187 A JP 2023072187A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- speaker device
- audio
- voice
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。
【解決手段】音声処理システムは、音響機器に入力される特定音声の第1音声データと、マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得部と、前記音声取得部が前記第1音声データを取得した時点と前記音声取得部が前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、を備える。
【選択図】図1
【解決手段】音声処理システムは、音響機器に入力される特定音声の第1音声データと、マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得部と、前記音声取得部が前記第1音声データを取得した時点と前記音声取得部が前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、を備える。
【選択図】図1
Description
本発明は、マイクスピーカー装置の音声の送受信を行う音声処理システム、音声処理方法、及び音声処理プログラムに関する。
従来、複数の拠点(会議室など)をネットワーク接続して、複数のユーザーが参加して会議(オンライン会議)を行うことを可能にするシステムが知られている(例えば特許文献1参照)。例えば、前記システムは、各拠点に配置されたマイクスピーカー装置(通信端末)をネットワークに接続して、一方のマイクスピーカー装置が集音するユーザーの発話音声の音声データを他のマイクスピーカー装置から再生させることによりオンライン会議を実現する。
ところで、マイク及びスピーカーを備え、ユーザーの首周りに装着可能なウェアラブル型のマイクスピーカー装置が知られている。このマイクスピーカー装置は、装着者の発話音声を取得して他のマイクスピーカー装置に送信したり、他のマイクスピーカー装置から受信した音声を当該装着者に向けて再生したりすることができる。ユーザーは、ウェアラブル型のマイクスピーカー装置を利用することにより、自身の発話音声をマイクに確実に集音(音声認識)させることができ、またスピーカーから再生される音声を容易に聞き取ることができる。
ここで、例えば、同一拠点(会議室など)において、マイクスピーカー装置を装着したユーザーが発話した発話音声が当該ユーザーの近くにいるユーザーが装着するマイクスピーカー装置のマイクに集音される場合がある。この場合、複数のマイクスピーカー装置を管理する機器に同一の音声データが複数回入力されたり、当該機器において同一の音声データを重複して音声認識処理したりすることにより、音声の品質が低下する問題が生じる。
本発明の目的は、マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することにある。
本発明の一の態様に係る音声処理システムは、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理システムであって、前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得部と、前記音声取得部が前記第1音声データを取得した時点と前記音声取得部が前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、を備えるシステムである。
本発明の他の態様に係る音声処理方法は、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理方法であって、一又は複数のプロセッサーが、前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得ステップと、前記音声取得ステップにおいて前記第1音声データを取得した時点と前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、を実行する方法である。
本発明の他の態様に係る音声処理プログラムは、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得ステップと、前記音声取得ステップにおいて前記第1音声データを取得した時点と前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、を一又は複数のプロセッサーに実行させるためのプログラムである。
本発明によれば、マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することできる。
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
本発明に係る音声処理システムは、例えば2つの拠点(例えば会議室R1,R2)において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議(オンライン会議など)を行うケースに適用することができる。前記マイクスピーカー装置は、ユーザーが携帯する携帯型の音響機器である。また、前記マイクスピーカー装置は、例えばネックバンド型の形状を有し、各ユーザーは、前記マイクスピーカー装置を自身の首に装着して会議に参加する。各ユーザーは、前記マイクスピーカー装置のスピーカーから再生される音声を聞き取ることができ、また自身が発話した音声を前記マイクスピーカー装置のマイクに集音させることができる。なお、本発明に係る音声処理システムは、1つの拠点において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議を行うケースにも適用することができる。
[会議システム100]
図1は、本発明の実施形態に係る会議システムの構成を示す図である。会議システム100は、音声処理装置1と複数のマイクスピーカー装置2と会議サーバー3とを含んでいる。マイクスピーカー装置2は、マイク24及びスピーカー25を搭載する音響機器である。なお、マイクスピーカー装置2は、例えばAIスピーカー、スマートスピーカなどの機能を備えてもよい。会議システム100は、複数のユーザーのそれぞれが自身に装着するウェアラブル型のマイクスピーカー装置2を複数含み、複数のマイクスピーカー装置2の間でユーザーの発話音声の音声データを送受信するシステムである。会議システム100は、本発明の音声処理システムの一例である。
図1は、本発明の実施形態に係る会議システムの構成を示す図である。会議システム100は、音声処理装置1と複数のマイクスピーカー装置2と会議サーバー3とを含んでいる。マイクスピーカー装置2は、マイク24及びスピーカー25を搭載する音響機器である。なお、マイクスピーカー装置2は、例えばAIスピーカー、スマートスピーカなどの機能を備えてもよい。会議システム100は、複数のユーザーのそれぞれが自身に装着するウェアラブル型のマイクスピーカー装置2を複数含み、複数のマイクスピーカー装置2の間でユーザーの発話音声の音声データを送受信するシステムである。会議システム100は、本発明の音声処理システムの一例である。
会議サーバー3は、前記オンライン会議を実現する会議アプリケーションを実行する。また、会議サーバー3は、会議情報を管理する。音声処理装置1は、各マイクスピーカー装置2を制御して、会議が開始されると各マイクスピーカー装置2との間で音声を送受信する処理を実行する。なお、音声処理装置1単体が、本発明の音声処理システムを構成してもよい。なお、本発明の音声処理システムが音声処理装置1単体で構成される場合、音声処理装置1は、マイクスピーカー装置2から取得する音声を記録用音声として蓄積したり、取得した音声を自装置内で認識する処理(音声認識処理)を実行したりしてもよい。また、本発明の音声処理システムは、会議サーバーに代えて、音声認識による字幕サービス、翻訳サービス、議事録サービスなど各種サービスを提供する各種サーバーを含んでもよい。
本実施形態では、図2に示すオンライン会議を例に挙げて説明する。オンライン会議の参加者であるユーザーA~HのうちユーザーA,B,C,Dは会議室R1に位置しており、ユーザーE,F,G,Hは会議室R2に位置している。ユーザーA~Hは、それぞれマイクスピーカー装置2A~2Hを首に装着して会議に参加する。また、会議室R1には音声処理装置1a及びディスプレイDP1が設置されており、会議室R2には音声処理装置1b及びディスプレイDP2が設置されている。ディスプレイDP1,DP2は、それぞれの画面が共有されており、例えば会議資料を表示する。音声処理装置1a及びディスプレイDP1と、音声処理装置1b及びディスプレイDP2とは、通信網N1(例えばインターネット)を介してデータ通信可能に構成されている。音声処理装置1a,1bは、同一の機能を有する情報処理装置(例えばパーソナルコンピューター)である。以下では、音声処理装置1a,1bにおいて共通の説明する場合は、「音声処理装置1」と称す。
具体的には、会議サーバー3は、インターネットの通信網N1を利用して、会議室R1,R2の音声データをマイクスピーカー装置2及び音声処理装置1a,1bを介して送受信する。例えば音声処理装置1aは、ユーザーAの発話音声のデータをマイクスピーカー装置2Aから取得すると、音声データを会議サーバー3に送信する。会議サーバー3は、音声処理装置1aから取得した前記音声データを音声処理装置1bに送信する。音声処理装置1bは、会議サーバー3から取得した前記音声データをユーザーE~Hのマイクスピーカー装置2E~2Hのそれぞれに送信して当該発話音声を再生(放音)させる。なお、音声処理装置1aは、会議サーバー3から取得した前記音声データをユーザーB~Dのマイクスピーカー装置2B~2Dのそれぞれに送信して当該発話音声を再生させてもよい。また、会議サーバー3は、ユーザーの操作を受け付けて会議資料などをディスプレイDP1,DP2に表示させる。このようにして、会議サーバー3は、オンライン会議を実現する。
また、会議サーバー3には、オンライン会議に関する会議情報D1などのデータが記憶される。図4には、会議情報D1の一例を示している。図4に示すように、会議情報D1には、会議ごとに、会議の識別情報(会議ID)、会議の開催場所、会議の開始日時及び終了日時、会議の参加者、会議に使用する資料の各情報が含まれる。会議ID「M001」には、図2に示すオンライン会議に対応する情報が登録されている。例えば前記オンライン会議の主催者は、自身の端末(パーソナルコンピューター)を使用して会議情報D1を事前に登録する。会議サーバー3は、クラウドサーバーで構成されてもよい。
[マイクスピーカー装置2]
図3には、マイクスピーカー装置2の外観の一例を示している。図3に示すように、マイクスピーカー装置2は、電源22、接続ボタン23、マイク24、スピーカー25、通信部(不図示)などを備える。マイクスピーカー装置2は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。マイクスピーカー装置2は、ユーザーの音声をマイク24を介して取得したり、当該ユーザーに対してスピーカー25から音声を再生(出力)したりする。マイクスピーカー装置2は、各種情報を表示する表示部を備えてもよい。
図3には、マイクスピーカー装置2の外観の一例を示している。図3に示すように、マイクスピーカー装置2は、電源22、接続ボタン23、マイク24、スピーカー25、通信部(不図示)などを備える。マイクスピーカー装置2は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。マイクスピーカー装置2は、ユーザーの音声をマイク24を介して取得したり、当該ユーザーに対してスピーカー25から音声を再生(出力)したりする。マイクスピーカー装置2は、各種情報を表示する表示部を備えてもよい。
図3に示すように、マイクスピーカー装置2の本体21は、マイクスピーカー装置2を装着したユーザーから見て左右のアームを備え、U字状に形成されている。
マイク24は、ユーザーの発話音声を集音し易いように、マイクスピーカー装置2の先端部に配置されている。マイク24は、マイクスピーカー装置2に内蔵されたマイク用基板(不図示)に接続されている。
スピーカー25には、マイクスピーカー装置2を装着したユーザーから見て左側のアームに配置されるスピーカー25Lと右側のアームに配置されるスピーカー25Rとが含まれる。スピーカー25L,25Rは、ユーザーが再生音を聞き取り易いように、マイクスピーカー装置2のアームの中央付近に配置されている。スピーカー25L,25Rは、マイクスピーカー装置2に内蔵されたスピーカー用基板(不図示)に接続されている。
前記マイク用基板は、音声データを音声処理装置1に送信するためのトランスミッター基板であり、前記通信部に含まれる。また、前記スピーカー用基板は、音声処理装置1から音声データを受信するためのレシーバー基板であり、前記通信部に含まれる。
前記通信部は、マイクスピーカー装置2を無線で音声処理装置1との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、前記通信部は、例えばBluetooth方式(Bluetooth;登録商標)によりマイクスピーカー装置2と接続して通信を行う。例えば、ユーザーが電源22をオン状態にした後に接続ボタン23を押下すると、前記通信部は、ペアリング処理を実行してマイクスピーカー装置2を音声処理装置1に接続する。なお、マイクスピーカー装置2と音声処理装置1との間に送信機が配置され、当該送信機がマイクスピーカー装置2とペアリング(Bluetooth接続)し、当該送信機と音声処理装置1とがインターネットを介して接続されてもよい。
[音声処理装置1]
図1に示すように、音声処理装置1は、制御部11、記憶部12、操作表示部13、通信部14などを備える情報処理装置(例えばパーソナルコンピュータ)である。なお、音声処理装置1は、1台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、音声処理装置1で実行される各種の処理は、一又は複数のプロセッサーによって分散して実行されてもよい。
図1に示すように、音声処理装置1は、制御部11、記憶部12、操作表示部13、通信部14などを備える情報処理装置(例えばパーソナルコンピュータ)である。なお、音声処理装置1は、1台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、音声処理装置1で実行される各種の処理は、一又は複数のプロセッサーによって分散して実行されてもよい。
通信部14は、音声処理装置1を有線又は無線で通信網N2に接続し、通信網N2を介してマイクスピーカー装置2、ディスプレイDP1,DP2などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。例えば、通信部14は、Bluetooth方式によるペアリング処理を実行して、マイクスピーカー装置2と接続する。また、通信部14は、オンライン会議を行う場合に、通信網N1(例えばインターネット)に接続して複数拠点(会議室R1,R2)間のデータ通信を行う。
操作表示部13は、各種の情報を表示する液晶ディスプレイ又は有機ELディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。
記憶部12は、各種の情報を記憶するHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶部である。具体的には、記憶部12には、マイクスピーカー装置2の設定情報D2などのデータが記憶される。
図5には、設定情報D2の一例を示している。図5に示すように、設定情報D2には、「機器ID」、「音量」、「マイクゲイン」などの情報が含まれる。前記機器IDは、マイクスピーカー装置2の識別情報であり、例えば機器番号が登録される。ここでは、「MS001」~「MS008」のそれぞれは、マイクスピーカー装置2A~2Hのそれぞれに対応する。前記音量は、各マイクスピーカー装置2のスピーカー25の再生音量であり、前記マイクゲインは、各マイクスピーカー装置2のマイク24のゲインである。なお、音声処理装置1aがマイクスピーカー装置2A~2Dの設定情報D2を記憶及び管理し、音声処理装置1bがマイクスピーカー装置2E~2Hの設定情報D2を記憶及び管理してもよい。
なお、ユーザーは、例えばディスプレイDP1,DP2に表示される設定画面(不図示)を操作(タッチ操作)して、音量及びマイクゲインの調整などを行うことができる。制御部11は、ユーザー操作に応じて設定情報D2を記憶する。また、制御部11は、ユーザー操作又は初期設定に基づいて、予め音量及びマイクゲインを設定する。また、詳細は後述(構成例1~7参照)するが、制御部11は、予め設定された音量及びマイクゲインなどの設定情報を、複数のマイクスピーカー装置2の互いの距離に基づいて調整(変更)することが可能である。
また、記憶部12には、制御部11に後述の音声調整処理(図6C、図7C、図8、及び図9C参照)を実行させるための音声調整プログラムなどの制御プログラムが記憶されている。例えば、前記音声調整プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶されてもよい。
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の演算処理を実行させるためのBIOS及びOSなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記RAMは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。
具体的には、制御部11は、図1に示すように、設定処理部111、音声取得部112、音声送信部113、推定処理部114、調整処理部115などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、一部又は全部の前記処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記処理部として機能させるためのプログラムであってもよい。
設定処理部111は、マイクスピーカー装置2に関する設定を行う。具体的には、設定処理部111は、マイクスピーカー装置2が音声処理装置1に接続(ペアリング)されると、マイクスピーカー装置2の識別情報(例えば機器番号)を取得して設定情報D2の「機器ID」に登録する。また、設定処理部111は、ユーザーの操作に応じて、マイクスピーカー装置2のスピーカー25の音量及びマイク24のマイクゲインの情報を取得すると設定情報D2の「音量」及び「マイクゲイン」に登録する(図5参照)。
音声取得部112は、マイクスピーカー装置2のマイク24が集音した発話者の発話音声の音声データをマイクスピーカー装置2から取得する。例えば、オンライン会議が開始されてユーザーAが発話すると、マイクスピーカー装置2Aのマイク24がユーザーAの発話音声を集音し、マイクスピーカー装置2Aが当該発話音声の音声データを音声処理装置1aに送信する。音声処理装置1aの音声取得部112は、マイクスピーカー装置2AからユーザーAの発話音声の音声データを取得する。音声取得部112は、各マイクスピーカー装置2から音声データを取得する。
音声送信部113は、音声取得部112が取得した音声データを各マイクスピーカー装置2に送信する。例えば、音声処理装置1aの音声取得部112がユーザーAの発話音声の音声データをマイクスピーカー装置2Aから取得すると、音声処理装置1aの音声送信部113は、前記音声データは会議サーバー3に送信する。
音声取得部112及び音声送信部113による音声データの送受信処理により、オンライン会議が実現される。
ここで、制御部11は、前記オンライン会議における音声品質を向上させるための音声調整処理を実行する。以下、音声調整処理の構成例(構成例1~7)について説明する。
[構成例1]
推定処理部114は、複数のマイクスピーカー装置2の互いの距離を推定する。例えば図6Aに示すように、特定音声(発話音声、テスト音声など)がマイクスピーカー装置2Aのスピーカー25から再生された場合に、当該特定音声は、マイクスピーカー装置2Aのマイク24と、マイクスピーカー装置2Bのマイク24と、マイクスピーカー装置2Cのマイク24と、マイクスピーカー装置2Dのマイク24とにそれぞれ入力(集音)される。音声取得部112は、マイクスピーカー装置2A~2Dのそれぞれから前記特定音声の音声データを取得する。
推定処理部114は、複数のマイクスピーカー装置2の互いの距離を推定する。例えば図6Aに示すように、特定音声(発話音声、テスト音声など)がマイクスピーカー装置2Aのスピーカー25から再生された場合に、当該特定音声は、マイクスピーカー装置2Aのマイク24と、マイクスピーカー装置2Bのマイク24と、マイクスピーカー装置2Cのマイク24と、マイクスピーカー装置2Dのマイク24とにそれぞれ入力(集音)される。音声取得部112は、マイクスピーカー装置2A~2Dのそれぞれから前記特定音声の音声データを取得する。
ここで、音声取得部112がマイクスピーカー装置2Aから前記音声データを取得した時刻t1を基準とすると、音声取得部112は、マイクスピーカー装置2Aから距離L1だけ離れたマイクスピーカー装置2Bから時刻t2に前記音声データを取得し、続いてマイクスピーカー装置2Aから距離L2(但し、L1<L2)だけ離れたマイクスピーカー装置2Cから時刻t3に前記音声データを取得し、続いてマイクスピーカー装置2Aから距離L3(但し、L1<L2<L3)だけ離れたマイクスピーカー装置2Dから時刻t4に前記音声データを取得する(図6B参照)。このように、音声取得部112は、複数のマイクスピーカー装置2のそれぞれに入力される前記特定音声の音声データを距離に応じた順に取得する。
なお、図6Bに示すように、音声取得部112が取得する各音声データの大きさ(音量)は距離に応じた大きさとなる。但し、図6Bに示す信号波形は、各マイクスピーカー装置2のマイクゲインが同一値である場合を示している。各マイクスピーカー装置2のマイクゲインは、前記特定音声を再生する際に同一値に設定されてもよい。また前記各音声データの大きさを、各マイクスピーカー装置2のマイクゲインに応じて正規化してもよい。
推定処理部114は、例えば、音声取得部112がマイクスピーカー装置2Aから前記音声データを取得した時点(時刻t1)と、音声取得部112がマイクスピーカー装置2Bから前記音声データを取得した時点(時刻t2)との時間差(t2-t1)に基づいて、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1を推定する。同様にして、推定処理部114は、マイクスピーカー装置2Aとマイクスピーカー装置2Cとの距離L2、マイクスピーカー装置2Aとマイクスピーカー装置2Dとの距離L3を推定する。
調整処理部115は、推定処理部114により推定される前記距離に基づいて、マイクスピーカー装置2のマイク24及びスピーカー25の少なくともいずれかに関する設定情報(例えばスピーカー25の音量)を調整する。なお、本発明の前記設定情報には、スピーカー25の音量、マイク24のマイクゲイン、スピーカー25の指向性、マイク24及びスピーカー25の動作状態(ON状態、OFF状態)の少なくともいずれかの情報が含まれる。
例えば、調整処理部115は、推定処理部114により推定されるマイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が閾値(例えば2m)以下の場合に、マイクスピーカー装置2Aのスピーカー25の音量とマイクスピーカー装置2Bのスピーカー25の音量とのうち少なくともいずれかを、予め設定された設定音量(図5参照)から低下させる。例えば、調整処理部115は、マイクスピーカー装置2Aのスピーカー25の音量を、マイクスピーカー装置2Aのスピーカー25から再生される音声がマイクスピーカー装置2Bのマイク24に入力されない程度の大きさに低下させる。同様に、調整処理部115は、マイクスピーカー装置2Bのスピーカー25の音量を、マイクスピーカー装置2Bのスピーカー25から再生される音声がマイクスピーカー装置2Aのマイク24に入力されない程度の大きさに低下させる。また例えば、調整処理部115は、マイクスピーカー装置2Aのスピーカー25の音量、又は、マイクスピーカー装置2Bのスピーカー25の音量を、前記設定音量から低下させてもよい。
他の実施形態として、調整処理部115は、マイクスピーカー装置2Aのスピーカー25の音量とマイクスピーカー装置2Bのスピーカー25の音量とを、予め設定された設定音量から段階的に低下させてもよい。
また他の実施形態として、調整処理部115が前記音量を下げた後に、ユーザーが手動により音量を上げた場合には、調整処理部115は再度の調整処理を行わず、ユーザーの操作に応じた音量に設定する。
また他の実施形態として、調整処理部115は、マイクスピーカー装置2A~2Dの全てが所定範囲内に位置する場合(距離L1,L2,L3がいずれも閾値以内の場合)に、マイクスピーカー装置2A~2Dのそれぞれのスピーカー25の音量を大幅に下げてもよい。
[構成例2]
上述の構成例1では、調整処理部115は、マイクスピーカー装置2のスピーカー25の音量を調整しているが、構成例2では、調整処理部115は、マイクスピーカー装置2のマイク24のマイクゲインを調整する。
上述の構成例1では、調整処理部115は、マイクスピーカー装置2のスピーカー25の音量を調整しているが、構成例2では、調整処理部115は、マイクスピーカー装置2のマイク24のマイクゲインを調整する。
例えば、調整処理部115は、推定処理部114により推定されるマイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が閾値(例えば2m)以下の場合に、マイクスピーカー装置2Aのマイク24のマイクゲインとマイクスピーカー装置2Bのマイク24のマイクゲインとのうち少なくともいずれかを、予め設定された設定ゲイン(図5参照)から低下させる。例えば、調整処理部115は、マイクスピーカー装置2Bのマイク24のマイクゲインを、マイクスピーカー装置2Aのスピーカー25から再生される音声がマイクスピーカー装置2Bのマイク24に集音されない程度の大きさに低下させる。同様に、調整処理部115は、マイクスピーカー装置2Aのマイク24のマイクゲインを、マイクスピーカー装置2Bのスピーカー25から再生される音声がマイクスピーカー装置2Aのマイク24に集音されない程度の大きさに低下させる。また例えば、調整処理部115は、マイクスピーカー装置2Bのマイク24のマイクゲイン、又は、マイクスピーカー装置2Aのマイク24のマイクゲインを、前記設定ゲインから低下させてもよい。
他の実施形態として、調整処理部115は、マイクスピーカー装置2Aのマイク24のマイクゲインとマイクスピーカー装置2Bのマイク24のマイクゲインとを、予め設定された設定ゲインから段階的に低下させてもよい。
また他の実施形態として、調整処理部115が前記マイクゲインを下げた後に、ユーザーが手動によりマイクゲインを上げた場合には、調整処理部115は再度の調整処理を行わず、ユーザーの操作に応じたマイクゲインに設定する。
また他の実施形態として、調整処理部115は、マイクスピーカー装置2A~2Dの全てが所定範囲内に位置する場合(距離L1,L2,L3がいずれも閾値以内の場合)に、マイクスピーカー装置2A~2Dのそれぞれのマイク24のマイクゲインを大幅に下げてもよい。
[構成例1,2の音声調整処理]
以下、図6Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。
以下、図6Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。
なお、本発明は、前記音声調整処理に含まれる一又は複数のステップを実行する音声調整方法(本発明の音声処理方法)の発明として捉えることができる。また、ここで説明する前記音声調整処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声調整処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11が前記音声調整処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、1又は複数のプロセッサーが前記音声調整処理における各ステップを分散して実行してもよい。後述の構成例3~7に対応する音声調整処理においても同様である。
ここでは、図6A及び図6Bに示す例に挙げて説明する。先ず、ステップS11において、制御部11は、マイクスピーカー装置2A~2Dから前記特定音声の音声データを取得する(図6A参照)。
次にステップS12において、制御部11は、マイクスピーカー装置2Aと他のマイクスピーカー装置2B~2Dのそれぞれとの距離L1~L3を推定する。例えば、制御部11は、マイクスピーカー装置2Aから前記音声データを取得した時点(時刻t1)と、マイクスピーカー装置2Bから前記音声データを取得した時点(時刻t2)との時間差(t2-t1)に基づいて、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1を推定する。
次にステップS13において、制御部11は、ステップS13において推定した距離が閾値(例えば2m)以下であるか否かを判定する。前記距離が前記閾値以下の場合(S13:Yes)、制御部11は、処理をステップS14に移行させる。
ステップS14において、制御部11は、ステップS13において推定した距離に基づいて、マイクスピーカー装置2のマイク24及びスピーカー25の少なくともいずれかに関する設定情報(音量、マイクゲイン)を調整する。例えば、制御部11は、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が前記閾値以下の場合に、マイクスピーカー装置2Aのスピーカー25の音量とマイクスピーカー装置2Bのスピーカー25の音量とを、予め設定された設定音量から低下させる(構成例1)。
また、例えば、制御部11は、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が前記閾値以下の場合に、マイクスピーカー装置2Aのマイク24のマイクゲインとマイクスピーカー装置2Bのマイク24のマイクゲインとを、予め設定された設定ゲインから低下させる(構成例2)。
制御部11は、上述の音声調整処理を繰り返し実行してもよい。例えば、制御部11は、前記距離L1が変化した場合又は所定の時間が経過した場合に前記音声調整処理を実行する。これにより、例えば、会議中にユーザーがマイクスピーカー装置2を装着して移動した場合であっても、マイクスピーカー装置2の音量及びマイクゲインを適切な設定値に調整することができる。後述の構成例についても同様である。
[構成例3]
構成例3では、音声取得部112は、第1マイクスピーカー装置2のユーザーが発話した場合に、第1マイクスピーカー装置2のマイク24に入力される発話音声の第1音声データを第1マイクスピーカー装置2から取得し、かつ第2マイクスピーカー装置2のマイク24に入力される前記発話音声の第2音声データを第2マイクスピーカー装置2から取得する。
構成例3では、音声取得部112は、第1マイクスピーカー装置2のユーザーが発話した場合に、第1マイクスピーカー装置2のマイク24に入力される発話音声の第1音声データを第1マイクスピーカー装置2から取得し、かつ第2マイクスピーカー装置2のマイク24に入力される前記発話音声の第2音声データを第2マイクスピーカー装置2から取得する。
また、推定処理部114は、第1マイクスピーカー装置2から音声データを取得する時刻と第2マイクスピーカー装置2から音声データを取得する時刻との時間差に基づいて第1マイクスピーカー装置2と第2マイクスピーカー装置2との距離を推定し、さらに、当該距離と、第1マイクスピーカー装置2及び第2マイクスピーカー装置2のそれぞれにおける前記音声データの入力時間とに基づいてユーザーの発話状態を推定する。
また、調整処理部115は、前記距離と前記ユーザーの発話状態とに基づいて、第1マイクスピーカー装置2のマイク24及び第2マイクスピーカー装置2のマイク24の少なくともいずれかのマイクゲインを、予め設定された設定ゲインから変更させる。
例えば図7A及び図7Bに示す例において、推定処理部114は、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1、マイクスピーカー装置2Aとマイクスピーカー装置2Cとの距離L2、マイクスピーカー装置2Aとマイクスピーカー装置2Dとの距離L3を推定し、推定した距離L1~L3がいずれも閾値以上であって、ユーザーAの前記特定音声の入力時間(又は連続発話時間)が所定時間以上である場合に、ユーザーAを会議の発表者(又は司会者)であると推定する。
調整処理部115は、推定処理部114によりユーザーAが会議の発表者であると推定された場合に、マイクスピーカー装置2B~2Dのそれぞれのマイク24のマイクゲインを設定ゲインから低下させる。また、調整処理部115は、さらに、マイクスピーカー装置2Aのマイク24のマイクゲインを設定ゲインから上昇させてもよい。これにより、発表者であるユーザーAの発話音声の品質を向上させることができる。
[構成例3の音声調整処理]
以下、図7Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図7A及び図7Bに示す例に挙げて説明する。
以下、図7Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図7A及び図7Bに示す例に挙げて説明する。
先ず、ステップS21において、制御部11は、マイクスピーカー装置2A~2Dから前記特定音声の音声データを取得する(図7A参照)。
次にステップS22において、制御部11は、マイクスピーカー装置2Aと他のマイクスピーカー装置2B~2Dのそれぞれとの距離L1~L3を推定する。例えば、制御部11は、マイクスピーカー装置2Aから前記音声データを取得した時点(時刻t1)と、マイクスピーカー装置2Bから前記音声データを取得した時点(時刻t2)との時間差(t2-t1)に基づいて、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1を推定する。
次にステップS23において、制御部11は、前記距離L1~L3と、マイクスピーカー装置2Aにおける前記音声データの入力時間とに基づいてユーザーAの発話状態を推定する。
次にステップS24において、制御部11は、ユーザーAが会議の発表者であるか否かを判定する。ユーザーAが発表者であると推定された場合(S24:Yes)、制御部11は、処理をステップS25に移行させる。例えば、制御部11は、推定した距離L1~L3がいずれも閾値以上であって、ユーザーAの前記特定音声の入力時間が所定時間以上である場合に、ユーザーAを会議の発表者であると推定する。
ステップS25において、制御部11は、マイクスピーカー装置2B~2Dのそれぞれのマイク24のマイクゲインを設定ゲインから低下させる。また、制御部11は、さらに、マイクスピーカー装置2Aのマイク24のマイクゲインを設定ゲインから上昇させてもよい。
[構成例4]
構成例4では、音声取得部112は、第1マイクスピーカー装置2のマイク24に入力される特定音声の第1音声データを第1マイクスピーカー装置2から取得し、第2マイクスピーカー装置2のマイク24に入力される前記特定音声の第2音声データを第2マイクスピーカー装置2から取得し、かつ、第3マイクスピーカー装置2のマイク24に入力される前記特定音声の第3音声データを第3マイクスピーカー装置2から取得する。
構成例4では、音声取得部112は、第1マイクスピーカー装置2のマイク24に入力される特定音声の第1音声データを第1マイクスピーカー装置2から取得し、第2マイクスピーカー装置2のマイク24に入力される前記特定音声の第2音声データを第2マイクスピーカー装置2から取得し、かつ、第3マイクスピーカー装置2のマイク24に入力される前記特定音声の第3音声データを第3マイクスピーカー装置2から取得する。
また、推定処理部114は、前記第1音声データ及び前記第2音声データの時間差と、前記第1音声データ及び前記第3音声データの時間差とに基づいて、第1マイクスピーカー装置2及び第2マイクスピーカー装置2の第1距離と、第1マイクスピーカー装置2及び第3マイクスピーカー装置2の第2距離とを推定する。
また、調整処理部115は、前記第1距離及び前記第2距離のそれぞれが閾値以上の場合に、第1マイクスピーカー装置2のマイク24及びスピーカー25をOFF状態(スリープ状態、ミュート状態など)に変更する。
例えば図7A及び図7Bに示す例において、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1、マイクスピーカー装置2Aとマイクスピーカー装置2Cとの距離L2、マイクスピーカー装置2Aとマイクスピーカー装置2Dとの距離L3を推定し、推定した距離L1~L3がいずれも閾値(例えば8m)以上である場合に、調整処理部115は、マイクスピーカー装置2Aのマイク24及びスピーカー25をOFF状態に変更する。
これにより、例えば、会議中にユーザーAがマイクスピーカー装置2Aを装着したまま会議室R1から退室した場合に、ユーザーAの発話音声の集音と、ユーザーAに対する音声の再生を停止することができる。なお、調整処理部115は、推定した距離L1~L3がいずれも閾値以上から閾値未満に変化した場合に、マイクスピーカー装置2Aのマイク24及びスピーカー25をOFF状態からON状態に復帰させてもよい。
他の実施形態として、調整処理部115は、マイクスピーカー装置2Aのマイク24をOFF状態に変更し、スピーカー25の音量を低下させてもよい。
[構成例4の音声調整処理]
以下、図8を参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図7A及び図7Bに示す例に挙げて説明する。
以下、図8を参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図7A及び図7Bに示す例に挙げて説明する。
先ず、ステップS31において、制御部11は、マイクスピーカー装置2A~2Dから前記特定音声の音声データを取得する(図7A参照)。
次にステップS32において、制御部11は、マイクスピーカー装置2Aと他のマイクスピーカー装置2B~2Dのそれぞれとの距離L1~L3を推定する。例えば、制御部11は、マイクスピーカー装置2Aから前記音声データを取得した時点(時刻t1)と、マイクスピーカー装置2Bから前記音声データを取得した時点(時刻t2)との時間差(t2-t1)に基づいて、マイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1を推定する。
次にステップS33において、制御部11は、ステップS32において推定した距離が閾値以上であるか否かを判定する。前記距離が前記閾値以上の場合(S33:Yes)、制御部11は、処理をステップS34に移行させる。
ステップS34において、制御部11は、マイクスピーカー装置2のマイク24及びスピーカー25をOFF状態に変更する。
[構成例5]
構成例5では、同一拠点(例えば会議室R1)にマイク及びスピーカーを備える卓上型の音響機器4(本発明の卓上型機器の一例)が配置される。例えば会議室R1において、マイクスピーカー装置2を装着しないユーザーAが音響機器4に向かって発話し、ユーザーB~Dはそれぞれマイクスピーカー装置2B~2Dを到着して会議に参加する。
構成例5では、同一拠点(例えば会議室R1)にマイク及びスピーカーを備える卓上型の音響機器4(本発明の卓上型機器の一例)が配置される。例えば会議室R1において、マイクスピーカー装置2を装着しないユーザーAが音響機器4に向かって発話し、ユーザーB~Dはそれぞれマイクスピーカー装置2B~2Dを到着して会議に参加する。
音声取得部112は、マイクスピーカー装置2を携帯しないユーザーAが発話した場合に、音響機器4のマイクに入力される発話音声の第1音声データを音響機器4から取得し、かつマイクスピーカー装置2のマイク24に入力される前記発話音声の第2音声データをマイクスピーカー装置2から取得する。
推定処理部114は、音響機器4から音声データを取得する時刻とマイクスピーカー装置2から音声データを取得する時刻との時間差に基づいて、音響機器4とマイクスピーカー装置2との距離を推定する。
調整処理部115は、前記距離が閾値(例えば2m)以下の場合に、マイクスピーカー装置2のマイク24のマイクゲインを、予め設定された設定ゲインから低下させる。
例えば図9A及び図9Bに示す例において、推定処理部114は、音響機器4とマイクスピーカー装置2Aとの距離L1を推定し、推定した距離L1が閾値以下である場合に、調整処理部115は、マイクスピーカー装置2Aのマイク24のマイクゲインを設定ゲインから低下させる。調整処理部115は、マイクスピーカー装置2B~2Dのそれぞれについても同様の処理を実行する。
[構成例3の音声調整処理]
以下、図9Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図9A及び図9Bに示す例に挙げて説明する。
以下、図9Cを参照しつつ、音声処理装置1の制御部11によって実行される音声調整処理の手順の一例について説明する。ここでは、図9A及び図9Bに示す例に挙げて説明する。
先ず、ステップS41において、制御部11は、音響機器4、マイクスピーカー装置2A~2DのそれぞれからユーザーAの発話音声の音声データを取得する(図9A参照)。
次にステップS42において、制御部11は、音響機器4とマイクスピーカー装置2A~2Dのそれぞれとの距離L1~L4を推定する。例えば、制御部11は、音響機器4から前記音声データを取得した時点(時刻t1)と、マイクスピーカー装置2Aから前記音声データを取得した時点(時刻t2)との時間差(t2-t1)に基づいて、音響機器4とマイクスピーカー装置2Aとの距離L1を推定する。
次にステップS43において、制御部11は、前記距離L1~L4が閾値(例えば2m)以下であるか否かを判定する。前記距離が前記閾値以下の場合(S43:Yes)、制御部11は、処理をステップS44に移行させる。
ステップS44において、制御部11は、ステップS43において推定した距離に基づいて、マイクスピーカー装置2のマイク24のマイクゲインを、予め設定された設定ゲインから低下させる。
このように、マイクスピーカー装置2を装着しないユーザーAが発話し、発話音声を音響機器4が集音する場合、他のユーザーが装着するマイクスピーカー装置2をミュート状態にする。これにより、各マイクスピーカー装置2が前記発話音声を集音しないためユーザーAの発話音声の品質を向上させることができる。なお、制御部11は、音響機器4から取得した音声データに対してエコーキャンセル処理を実行してもよい。
[構成例6]
構成例6では、図6Aに示すように同一拠点(例えば会議室R1)にマイクスピーカー装置2A~2Dが配置される。
構成例6では、図6Aに示すように同一拠点(例えば会議室R1)にマイクスピーカー装置2A~2Dが配置される。
音声取得部112は、第1マイクスピーカー装置2のスピーカー25から特定音声が再生された場合に、第1マイクスピーカー装置2のマイク24に入力される前記特定音声の第1音声データを第1マイクスピーカー装置2から取得し、かつ第2マイクスピーカー装置2のマイク24に入力される前記特定音声の第2音声データを第2マイクスピーカー装置2から取得する。
推定処理部114は、第1音声データ及び第2音声データの時間差に基づいて、第1マイクスピーカー装置2と第2マイクスピーカー装置2との距離を推定する。
調整処理部115は、前記距離が閾値以下の場合に、第1マイクスピーカー装置2のスピーカー25の指向性と第2マイクスピーカー装置2のスピーカー25の指向性とのうち少なくともいずれかを、予め設定された指向性から狭める。
例えば、調整処理部115は、推定処理部114により推定されるマイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が閾値(例えば2m)以下の場合に、マイクスピーカー装置2Aのマイク24の指向性とマイクスピーカー装置2Bのマイク24の指向性とを、予め設定された指向性から狭める。これにより、例えばマイクスピーカー装置2Aから再生される音声が、マイクスピーカー装置2Bのユーザーの耳に入り難くすることでき、またマイクスピーカー装置2のマイク24に集音され難くすることができる。また例えば、調整処理部115は、マイクスピーカー装置2Aのマイク24の指向性、又は、マイクスピーカー装置2Bのマイク24の指向性を、予め設定された指向性から狭めてもよい。
[構成例7]
構成例7では、図6Aに示すように同一拠点(例えば会議室R1)にマイクスピーカー装置2A~2Dが配置される。また、マイクスピーカー装置2A~2Dのそれぞれは、複数のマイク24を備える。例えば図10に示すように、マイクスピーカー装置2は、右用マイク24Rと左用マイク24Lとを備える。
構成例7では、図6Aに示すように同一拠点(例えば会議室R1)にマイクスピーカー装置2A~2Dが配置される。また、マイクスピーカー装置2A~2Dのそれぞれは、複数のマイク24を備える。例えば図10に示すように、マイクスピーカー装置2は、右用マイク24Rと左用マイク24Lとを備える。
音声取得部112は、第1マイクスピーカー装置2のスピーカー25から特定音声が再生された場合に、第1マイクスピーカー装置2のマイク24に入力される前記特定音声の第1音声データを第1マイクスピーカー装置2から取得し、かつ第2マイクスピーカー装置2のマイク24に入力される前記特定音声の第2音声データを第2マイクスピーカー装置2から取得する。
推定処理部114は、第1音声データ及び第2音声データの時間差に基づいて、第1マイクスピーカー装置2と第2マイクスピーカー装置2との距離を推定する。
調整処理部115は、前記距離が閾値以下の場合に、第1マイクスピーカー装置2の複数のスピーカー25のうち第2マイクスピーカー装置2に隣接するスピーカー25の音量と、第2マイクスピーカー装置2の複数のスピーカー25のうち第1マイクスピーカー装置2に隣接するスピーカー25の音量とを、予め設定された設定音量から低下させる。
例えば図10に示す例において、調整処理部115は、推定処理部114により推定されるマイクスピーカー装置2Aとマイクスピーカー装置2Bとの距離L1が閾値(例えば2m)以下の場合に、マイクスピーカー装置2Aのスピーカー25Lの音量と、マイクスピーカー装置2Bのスピーカー25Rの音量とを、予め設定された設定音量から低下させる。このように、調整処理部115は、複数のスピーカー25のうち互いに近接するスピーカー25の音量を低下させる。これにより、例えばマイクスピーカー装置2Aのスピーカー25Lから再生される音声を、マイクスピーカー装置2Bの右用マイク24Rに集音され難くすることができる。
以上の各構成例によれば、同一拠点において複数のマイクスピーカー装置2を利用して会議を行う場合に、マイクスピーカー装置2を装着したユーザーが発話した発話音声が当該ユーザーの近くにいるユーザーが装着するマイクスピーカー装置2のマイク24に入力され難くすることができる。よって、マイクスピーカー装置2に入力される音声の品質を向上させることができる。また、音声処理装置1は、取得する音声データに基づいて議事録を作成する機能を有する場合に、音声品質の高い議事録を作成することができる。
なお、本発明の他の実施形態として、会議サーバー3が音声処理装置1の機能を備えてもよい。すなわち、会議サーバー3は、マイクスピーカー装置2から音声データを取得し、取得した前記音声データを他のマイクスピーカー装置2に送信する。
また、本発明の音声処理システムは、音声処理装置1単体で構成されてもよいし、会議サーバー3単体で構成されてもよいし、音声処理装置1及び会議サーバー3の組み合わせにより構成されてもよい。
1 :音声処理装置
2 :マイクスピーカー装置
3 :会議サーバー
11 :制御部
12 :記憶部
13 :操作表示部
14 :通信部
100 :会議システム
111 :設定処理部
112 :音声取得部
113 :音声送信部
114 :推定処理部
115 :調整処理部
2 :マイクスピーカー装置
3 :会議サーバー
11 :制御部
12 :記憶部
13 :操作表示部
14 :通信部
100 :会議システム
111 :設定処理部
112 :音声取得部
113 :音声送信部
114 :推定処理部
115 :調整処理部
Claims (13)
- ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理システムであって、
前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得部と、
前記音声取得部が前記第1音声データを取得した時点と前記音声取得部が前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、
前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、
を備える音声処理システム。 - 前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第1マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、かつ第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第1マイクスピーカー装置と前記第2マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第1マイクスピーカー装置のスピーカーの音量と前記第2マイクスピーカー装置のスピーカーの音量とのうち少なくともいずれかを、予め設定された設定音量から低下させる、
請求項1に記載の音声処理システム。 - 前記音響機器は前記マイクスピーカー装置であって、
前記音声取得部は、第1マイクスピーカー装置のユーザーが前記特定音声を発話した場合に、前記第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、かつ第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第1マイクスピーカー装置と前記第2マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第1マイクスピーカー装置のマイクのゲインと前記第2マイクスピーカー装置のマイクのゲインとのうち少なくともいずれかを、予め設定された設定ゲインから低下させる、
請求項1又は請求項2に記載の音声処理システム。 - 前記音響機器は前記マイクスピーカー装置であって、
前記音声取得部は、第1マイクスピーカー装置のユーザーが前記特定音声を発話した場合に、前記第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、かつ第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて前記第1マイクスピーカー装置と前記第2マイクスピーカー装置との距離を推定し、さらに、当該距離と、前記第1マイクスピーカー装置及び前記第2マイクスピーカー装置のそれぞれにおける前記特定音声の入力時間とに基づいて前記ユーザーの発話状態を推定し、
前記調整処理部は、前記距離と前記ユーザーの発話状態とに基づいて、前記第1マイクスピーカー装置のマイク及び前記第2マイクスピーカー装置のマイクの少なくともいずれかのゲインを、予め設定された設定ゲインから変更させる、
請求項1に記載の音声処理システム。 - 前記推定処理部は、前記距離が閾値以上であって、かつ前記ユーザーの前記特定音声の入力時間が所定時間以上である場合に、前記ユーザーを会議の発表者であると推定し、
前記調整処理部は、前記推定処理部により前記ユーザーが会議の発表者であると推定された場合に、前記第2マイクスピーカー装置のマイクのゲインを前記設定ゲインから低下させる、
請求項4に記載の音声処理システム。 - 前記調整処理部は、さらに、前記第1マイクスピーカー装置のマイクのゲインを前記設定ゲインから上昇させる、
請求項5に記載の音声処理システム。 - 前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、かつ、第3マイクスピーカー装置のマイクに入力される前記特定音声の第3音声データを前記第3マイクスピーカー装置から取得し、
前記推定処理部は、前記第1音声データ及び前記第2音声データの前記時間差と、前記第1音声データ及び前記第3音声データの前記時間差とに基づいて、前記第1マイクスピーカー装置及び前記第2マイクスピーカー装置の第1距離と、前記第1マイクスピーカー装置及び前記第3マイクスピーカー装置の第2距離とを推定し、
前記調整処理部は、前記第1距離及び前記第2距離のそれぞれが閾値以上の場合に、前記第1マイクスピーカー装置のマイク及びスピーカーをOFF状態に変更する、
請求項1に記載の音声処理システム。 - 前記音響機器はマイク及びスピーカーを備える卓上型機器であって、
前記音声取得部は、前記マイクスピーカー装置を携帯しないユーザーが前記特定音声を発話した場合に、前記卓上型機器のマイクに入力される前記特定音声の前記第1音声データを前記卓上型機器から取得し、かつ前記マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記卓上型機器と前記マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記マイクスピーカー装置のマイクのゲインを、予め設定された設定ゲインから低下させる、
請求項1に記載の音声処理システム。 - 前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第1マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、かつ第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第1マイクスピーカー装置と前記第2マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第1マイクスピーカー装置のスピーカーの指向性と前記第2マイクスピーカー装置のスピーカーの指向性とのうち少なくともいずれかを、予め設定された指向性から狭める、
請求項1に記載の音声処理システム。 - 前記音響機器は、前記マイクスピーカー装置であり、
第1マイクスピーカー装置及び第2マイクスピーカー装置のそれぞれは、複数のマイクと複数のスピーカーとを備えており、
前記音声取得部は、前記第1マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第1マイクスピーカー装置のマイクに入力される前記特定音声の前記第1音声データを前記第1マイクスピーカー装置から取得し、かつ第2マイクスピーカー装置のマイクに入力される前記特定音声の前記第2音声データを前記第2マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第1マイクスピーカー装置と前記第2マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第1マイクスピーカー装置の複数のスピーカーのうち前記第2マイクスピーカー装置に隣接するスピーカーの音量と、前記第2マイクスピーカー装置の複数のスピーカーのうち前記第1マイクスピーカー装置に隣接するスピーカーの音量とを、予め設定された設定音量から低下させる、
請求項1に記載の音声処理システム。 - 前記マイクスピーカー装置は、ネックバンド型の形状を有し、ユーザーの首に装着可能である、
請求項1から請求項10のいずれか1項に記載の音声処理システム。 - ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理方法であって、
一又は複数のプロセッサーが、
前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得ステップと、
前記音声取得ステップにおいて前記第1音声データを取得した時点と前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、
前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、
を実行する音声処理方法。 - ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、
前記音響機器に入力される特定音声の第1音声データと、前記マイクスピーカー装置に入力される前記特定音声の第2音声データとを取得する音声取得ステップと、
前記音声取得ステップにおいて前記第1音声データを取得した時点と前記第2音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、
前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、
を一又は複数のプロセッサーに実行させるための音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021184570A JP2023072187A (ja) | 2021-11-12 | 2021-11-12 | 音声処理システム、音声処理方法、及び音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021184570A JP2023072187A (ja) | 2021-11-12 | 2021-11-12 | 音声処理システム、音声処理方法、及び音声処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023072187A true JP2023072187A (ja) | 2023-05-24 |
Family
ID=86424492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021184570A Pending JP2023072187A (ja) | 2021-11-12 | 2021-11-12 | 音声処理システム、音声処理方法、及び音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023072187A (ja) |
-
2021
- 2021-11-12 JP JP2021184570A patent/JP2023072187A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111447539B (zh) | 一种用于听力耳机的验配方法和装置 | |
US11929088B2 (en) | Input/output mode control for audio processing | |
US20180014117A1 (en) | Wearable headset with self-contained vocal feedback and vocal command | |
US20170280225A1 (en) | Remotely Controlling a Hearing Device | |
US9613028B2 (en) | Remotely updating a hearing and profile | |
US7931537B2 (en) | Voice input in a multimedia console environment | |
US20150281853A1 (en) | Systems and methods for enhancing targeted audibility | |
US20140050326A1 (en) | Multi-Channel Recording | |
US10354651B1 (en) | Head-mounted device control based on wearer information and user inputs | |
CN109429132A (zh) | 耳机系统 | |
CN108769884B (zh) | 双耳电平和/或增益估计器及包括双耳电平和/或增益估计器的听力系统 | |
US9847767B2 (en) | Electronic device capable of adjusting an equalizer according to physiological condition of hearing and adjustment method thereof | |
US10719292B2 (en) | Sound enhancement adapter | |
TWM526238U (zh) | 可依據使用者年齡調整等化器設定之電子裝置及聲音播放裝置 | |
US20200344545A1 (en) | Audio signal adjustment | |
JP2022138245A (ja) | 音声処理システム及び音声処理方法 | |
JP2023072187A (ja) | 音声処理システム、音声処理方法、及び音声処理プログラム | |
EP3416403B1 (en) | Smart headphone device personalization system with directional conversation function and method for using same | |
WO2018198790A1 (ja) | コミュニケーション装置、コミュニケーション方法、プログラム、およびテレプレゼンスシステム | |
JP2023097781A (ja) | 音声処理システム及び音声処理方法 | |
JP2024008112A (ja) | 音声処理システム、音声処理方法、及び音声処理プログラム | |
JP2023145911A (ja) | 音声処理システム、音声処理方法、及び音声処理プログラム | |
JP2024142515A (ja) | 音声処理システム及び音声処理方法 | |
US20240348221A1 (en) | Personal stage monitoring system with personal mixing | |
JP2019537071A (ja) | 分散したマイクロホンからの音声の処理 |