JP2024521837A

JP2024521837A - 音声を処理するための音声処理装置、音声処理システムおよび音声処理方法

Info

Publication number: JP2024521837A
Application number: JP2023573293A
Authority: JP
Inventors: キム，ジュンミン
Original assignee: Amosense Co Ltd
Current assignee: Amosense Co Ltd
Priority date: 2021-05-27
Filing date: 2022-05-20
Publication date: 2024-06-04
Also published as: WO2022250387A1; US20240257824A1; CN117678241A; KR20220160173A; KR102575293B1

Abstract

【課題】複数の話し手の音声に関連する分離音声信号を生成し処理するための音声処理装置を提供する。【解決手段】本発明による音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されるマイクと、データを送受信するように構成される通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。【選択図】図１

Description

本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関する。

マイク（ｍｉｃｒｏｐｈｏｎｅ）は、音声を電気的な信号である音声信号に変換する装置である。会議室や教室のように複数の話し手（ｓｐｅａｋｅｒ）が位置する空間内にマイクが配置される場合、マイクは、複数の話し手から出た音声を全て受信し、複数の話し手の音声に関連する音声信号を生成する。

一方、複数の話し手が同時に発話する場合、複数の話し手の音声が全て混合される可能性がある。このとき、複数の話し手の音声の中で特定の話し手の音声を示す音声信号を分離することが必要となる。

本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、話し手の音声に応答して、話し手のそれぞれの音声に関連する分離音声信号を生成することができる音声処理装置、および音声処理方法を提供することにある。

また、本発明の目的は、話し手のそれぞれの音声に関連する分離音声信号を用いて、話し手のそれぞれの音声を話し手のそれぞれに対して設定された出力モードによって出力することができる音声処理装置、音声処理システムおよび音声処理方法を提供することにある。

上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、データを送受信するように構成された通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。

上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理方法は、複数の話し手の音声に応答して音声信号を生成するステップと、音声信号を音声のそれぞれの音源位置に基づいて音源分離するステップと、音声のそれぞれに関連する分離音声信号を生成するステップと、音声のそれぞれの音源位置に対する出力モードを決定するステップと、分離音声信号を用いて、決定された出力モードによって複数の話し手のそれぞれの音声を出力するステップと、を含む。

本発明によれば、音声の音源位置に基づいて特定の音源位置からの音声に関連する分離音声信号を生成することができるので、周辺騷音の影響を最小化した音声信号を生成することができるという効果がある。

また、本発明によれば、複数の話し手のそれぞれの音声を音源位置によって分離し、話し手のそれぞれに対して設定された出力モードによって出力することができ、ユーザーは、一部の話し手の音声のみを聞くか（聴覚的）または観覧（視覚的）することができ、これによって、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。

本発明の実施例による音声処理システムを示す。本発明の実施例による音声処理装置を示す。本発明の実施例によるユーザー端末を示す。本発明の実施例によるモバイル端末機の動作を説明するための図である。本発明の実施例によるモバイル端末機の動作を説明するための図である。本発明の実施例によるモバイル端末機の動作を説明するための図である。本発明の実施例による音声分離方法を示すフローチャートである。本発明の実施例による音声処理システムを説明するための図である。本発明の実施例による音声処理システムを説明するための図である。本発明の実施例による出力モードを説明するための図である。本発明の実施例による出力モードを説明するための図である。

以下、図面を参照して、本発明の実施例を説明する。

図１は、本発明の実施例による音声処理システムを示す。図１を参照すると、音声処理システム１０は、話し手ＳＰＫ１～ＳＰＫ４の音声に対応する音声信号を生成し、生成された音声信号を出力する音声処理装置１００および音声処理装置１００から出力された音声信号を受信するユーザー端末機２００を含む。

話し手ＳＰＫ１～ＳＰＫ４は、空間（例えば、会議室、車両、講義室など）に位置して音声を発話（ｐｒｏｎｏｕｎｃｅ）する。実施例によって、第１話し手ＳＰＫ１は、第１位置Ｐ１で音声を発話し、第２話し手ＳＰＫ２は、第２位置Ｐ２で音声を発話し、第３話し手ＳＰＫ３は、第３位置Ｐ３で音声を発話し、第４話し手ＳＰＫ４は、第４位置Ｐ４で音声を発話する。

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声を処理する装置であって、音声を電気的な信号に変換するマイクロホン（ｍｉｃｒｏｐｈｏｎｅ）を含む。

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に応答して、話し手ＳＰＫ１～ＳＰＫ４の音声に関連する音声信号を生成する。音声信号は、特定の時間の間発話された音声に関連する信号であって、複数の話し手の音声を示す信号である。

実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に関連する音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれの音源位置を判断し、音源位置に基づいて音源分離を行うことによって、音声信号から話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を抽出（または生成）する。

音声処理装置１００は、分離音声信号および音源位置を示す音源位置情報を保存する。

すなわち、音声処理装置１００は、音声信号に対応する音声の音源位置に基づいて、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４の音声に関連する分離音声信号を生成する。例えば、音声処理装置１００は、音声信号に基づいて、第１位置Ｐ１で発話した第１話し手ＳＰＫ１の音声に関連する第１分離音声信号を生成する。このとき、第１分離音声信号は、話し手ＳＰＫ１～ＳＰＫ４の音声のうち、第１話し手ＳＰＫ１の音声と最も高い関連度を有する音声信号である。言い換えると、第１分離音声信号に含まれた音声成分の中で、第１話し手ＳＰＫ１の音声成分の比重が最も高いものである。

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号をユーザー端末機２００に伝送する。実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号および当該の音源位置を示す音源位置情報をともにユーザー端末機２００に伝送する。

また、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対する翻訳を提供することができる。例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声を翻訳するための起点言語（ｓｏｕｒｃｅｌａｎｇｕａｇｅ；翻訳対象言語）と目標言語（ｔａｒｇｅｔｌａｎｇｕａｇｅ；翻訳後言語）を決定し、分離音声信号を用いて話し手のそれぞれの言語に対する翻訳を提供する。

実施例によって、音声処理装置１００は、音声のそれぞれに対する翻訳結果を出力する。翻訳結果は、目標言語で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連するテキストデータまたは音声信号である。

ユーザー端末２００は、通信機能および演算処理機能を有する電子装置である。例えば、ユーザー端末２００は、スマートホン（ｓｍａｒｔｐｈｏｎｅ）、ノート・パソコン（ｌａｐｔｏｐ）、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｃｅ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、スマートウォッチ（ｓｍａｒｔｗａｔｃｈ）、タブレットコンピュータ（ｔａｂｌｅｔｃｏｍｐｕｔｅｒ）、ＴＶ（ｔｅｌｅｖｉｓｉｏｎ）などであってもよいが、本発明の実施例はこれに限定されるものではない。

ユーザー端末２００は、音声処理装置１００から話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号を受信し、受信した分離音声信号を出力する。例えば、ユーザー端末２００は、分離音声信号を聴覚的に出力するか（すなわち、音）または視覚的に出力することができる（すなわち、字幕）。

図２は、本発明の実施例による音声処理装置を示す。図２を参照すると、音声処理装置１００は、マイク１１０、通信装置１２０、プロセッサ１３０、メモリー１４０、およびディスプレイ１５０を含み得る。実施例によって、音声処理装置１００は、スピーカー１６０をさらに含んでもよい。

マイク１１０は、発生した音声に応答して音声信号を生成する。実施例によって、マイク１１０は、音声による空気の振動を検出し、検出結果によって振動に対応した電気的な信号である音声信号を生成する。

実施例によって、マイク１１０は、複数であってもよく、複数のマイク１１０のそれぞれは音声に応答して音声信号を生成する。このとき、複数のマイク１１０のそれぞれが配置された位置は互いに異なり得るので、マイク１１０のそれぞれから生成された音声信号は互いに位相差（または、時間遅延）を有する。

通信装置１２０は、無線通信方式によって外部装置とデータをやり取りする。実施例によって、通信装置１２０は、多様な周波数の電波を用いて、外部装置とデータをやり取りする。例えば、通信装置１２０は、近距離無線通信、中距離無線通信、および長距離無線通信の少なくとも一つの無線通信方式によって、外部装置とデータをやり取りする。

プロセッサ１３０は、音声処理装置１００の全般的な動作を制御する。実施例によって、プロセッサ１３０は、演算処理機能を有するプロセッサを含んでもよい。例えば、プロセッサ１３０は、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＭＣＵ（ｍｉｃｒｏｃｏｎｔｒｏｌｌｅｒｕｎｉｔ）、ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＤＳＰ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、ＡＤＣコンバータ（ａｎａｌｏｇｔｏｄｉｇｉｔａｌｃｏｎｖｅｒｔｅｒ）、またはＤＡＣコンバータ（ｄｉｇｉｔａｌｔｏａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）を含んでもよいが、これに限定されるものではない。

プロセッサ１３０は、マイク１１０によって生成された音声信号を処理する。例えば、プロセッサ１３０は、マイク１１０によって生成されたアナログタイプの音声信号をデジタルタイプの音声信号に変換し、変換されたデジタルタイプの音声信号を処理する。この場合、信号のタイプ（アナログまたはデジタル）が変わるので、本発明の実施例に対する説明において、デジタルタイプの音声信号とアナログタイプの音声信号とを混用して説明するようにする。

実施例によって、プロセッサ１３０は、マイク１１０によって生成された音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を抽出（または生成）する。実施例によって、プロセッサ１３０は、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４の音声に関連する分離音声信号を生成する。

プロセッサ１３０は、音声信号間の時間遅延（または、位相遅延）を用いて、音声の音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を決定する。例えば、プロセッサ１３０は、音声処理装置１００に対する音源（すなわち、話し手ＳＰＫ１～ＳＰＫ４）の相対的な位置を決定する。

プロセッサ１３０は、決定された音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を生成する。例えば、プロセッサ１３０は、音声の音源位置に基づいて、第１話し手ＳＰＫ１の音声に関連する第１分離音声信号を生成する。

実施例によって、プロセッサ１３０は、決定された音源位置を示す音源位置情報を分離音声信号とマッチングさせて保存する。例えば、プロセッサ１３０は、第１話し手ＳＰＫ１の音声に関連する第１分離音声信号および第１話し手ＳＰＫ１の音声の音源位置を示す第１音源位置情報をマッチングさせてメモリー１４０に保存する。

本明細書で説明されるプロセッサ１３０または音声処理装置１００の動作は、コンピュータ装置によって実行可能なプログラムの形態で具現することができる。例えば、プロセッサ１３０は、メモリー１４０に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。

メモリー１４０は、音声処理装置１００の動作に必要なデータを保存する。例えば、メモリー１４０は、不揮発性メモリーおよび揮発性メモリーの少なくとも一つを含む。

実施例によって、メモリー１４０は、空間上の各位置Ｐ１～Ｐ４に対応した識別子を保存する。識別子は位置Ｐ１～Ｐ４を区別するためのデータである。位置Ｐ１～Ｐ４のそれぞれには、話し手ＳＰＫ１～ＳＰＫ４のそれぞれが位置するので、位置Ｐ１～Ｐ４に対応した識別子を用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれを区別することができる。例えば、第１位置Ｐ１を示す第１識別子は、すなわち、第１話し手ＳＰＫ１を示す。

識別子は、音声処理装置１００の入力装置（例えば、タッチパッド）を通じて入力されてもよい。

実施例によって、メモリー１４０は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置に関連する音源位置情報および話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を保存する。

図３は、本発明の実施例によるユーザー端末を示す。図３を参照すると、ユーザー端末２００は、入力部２１０、制御部２２０、保存部２３０、および出力部２４０を含む。

入力部２１０は、ユーザー端末２００のユーザーの操作に応答して入力信号を生成する。実施例によって、入力部２１０は、ユーザーのユーザー端末２００に対する操作に基づいて、電気的な信号である入力信号を生成する。例えば、入力部２１０は、キーボード、タッチパネル、またはタッチディスプレイであってもよいが、これに限定されるものではない。

制御部２２０は、ユーザー端末２００の全般的な動作を制御する。実施例によって、制御部２２０は、演算処理機能を有するプロセッサを含む。例えば、制御部２２０は、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＭＣＵ（ｍｉｃｒｏｃｏｎｔｒｏｌｌｅｒｕｎｉｔ）、ＡＰ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）であってもよいが、これに限定されるものではない。

制御部２２０は、音声処理装置１００から伝送された分離音声信号が出力されるように、ユーザー端末２００を制御する。実施例によって、制御部２２０は、保存部２３０に保存されたプログラム（または、アプリケーション）を実行し、実行結果によって、音声処理装置１００から伝送された分離音声信号が出力部２４０を通じて出力されるように、ユーザー端末２００を制御する。

実施例によって、制御部２２０は、保存部２３０に保存されたプログラムの実行によってユーザー端末２００が特定の動作を行うようにユーザー端末２００を制御する。すなわち、本明細書で説明されるユーザー端末２００の動作は、制御部２２０が保存されたプログラムを実行することによって引き起される動作として理解することができる。

保存部２３０は、ユーザー端末２００の動作に必要なデータを保存する。実施例によって、保存部２３０は、不揮発性メモリーまたは揮発性メモリーであってもよいが、これに限定されるものではない。

出力部２４０は、ユーザー端末２００に保存されたデータを出力する。実施例によって、出力部２４０は、制御部２２０の制御によって、ユーザー端末２００に保存されたデータを聴覚的または視覚的に出力する。例えば、出力部２４０は、スピーカーまたはディスプレイ装置であってもよいが、本発明の実施例はこれに限定されるものではない。

図４～図６は、本発明の実施例によるモバイル端末機の動作を説明するための図である。図４～図６を参照すると、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４のそれぞれが発話する。

本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声から各話し手ＳＰＫ１～ＳＰＫ４の音声に関連する分離音声信号を生成し、分離音声信号と話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置を示す位置情報とを保存する。

実施例によって、音声処理装置１００は、音声信号間の時間遅延（または、位相遅延）を用いて、音声の音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を決定する。例えば、音声処理装置１００は、音声処理装置１００に対する音源（すなわち、話し手ＳＰＫ１～ＳＰＫ４）の相対的な位置を決定する。

音声処理装置１００は、決定された音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を生成する。

図４に示すように、第１話し手ＳＰＫ１が音声「ＡＡＡ」を発話する。音声「ＡＡＡ」が発話されると、音声処理装置１００は、音声「ＡＡＡ」に応答して、音声「ＡＡＡ」に関連する音声信号を生成する。実施例によって、音声「ＡＡＡ」に関連する音声信号には、音声「ＡＡＡ」以外の騷音に関連する成分も含まれる。

実施例によって、音声処理装置１００は生成された音声信号を用いて、第１話し手ＳＰＫ１の音声「ＡＡＡ」に関連する分離音声信号を生成する。このとき、音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」に関連する第１分離音声信号と第１話し手ＳＰＫ１の位置である第１位置Ｐ１を示す第１音源位置情報とをメモリー１４０に保存する。例えば、図４に示すように、第１分離音声信号と第１音源位置情報とは互いにマッチングされて保存される。

図５に示すように、第２話し手ＳＰＫ２が音声「ＢＢＢ」を発話する。音声「ＢＢＢ」が発話されると、音声処理装置１００は、音声「ＢＢＢ」に応答して、音声「ＢＢＢ」に関連する音声信号を生成する。

実施例によって、音声処理装置１００は生成された音声信号を用いて、第２話し手ＳＰＫ２の音声「ＢＢＢ」に関連する第２分離音声信号を生成する。このとき、音声処理装置１００は、第２話し手ＳＰＫ２の音声「ＢＢＢ」に関連する第２分離音声信号と第２話し手ＳＰＫ２の位置である第２位置Ｐ２を示す第２音源位置情報とをメモリー１４０に保存する。例えば、図５に示すように、第２分離音声信号と第２音源位置情報とは互いにマッチングされて保存される。

図６に示すように、第３話し手ＳＰＫ３が音声「ＣＣＣ」を発話し、第４話し手ＳＰＫ４が音声「ＤＤＤ」を発話する。音声処理装置１００は、音声「ＣＣＣ」および音声「ＤＤＤ」に応答して、音声「ＣＣＣ」および音声「ＤＤＤ」に関連する音声信号を生成する。すなわち、音声信号は、音声「ＣＣＣ」および音声「ＤＤＤ」に関連する成分を含む音声信号である。

実施例によって、音声処理装置１００は生成された音声信号を用いて、第３話し手ＳＰＫ３の音声「ＣＣＣ」に関連する第３分離音声信号および第４話し手ＳＰＫ４の音声「ＤＤＤ」に関連する第４分離音声信号を生成する。

このとき、音声処理装置１００は、第３話し手ＳＰＫ３の音声「ＣＣＣ」に関連する第３分離音声信号と第３話し手ＳＰＫ３の位置である第３位置Ｐ３を示す第３位置情報とをメモリー１４０に保存する。また、音声処理装置１００は、第４話し手ＳＰＫ４の音声「ＤＤＤ」に関連する第４分離音声信号と第４話し手ＳＰＫ４の位置である第４位置Ｐ４を示す第４位置情報とをメモリー１４０に保存する。

例えば、図６に示すように、第３分離音声信号と第３音源位置情報とは互いにマッチングされて保存され、第４分離音声信号と第４音源位置情報とは互いにマッチングされて保存される。

すなわち、本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声から各話し手ＳＰＫ１～ＳＰＫ４の音声に関連する分離音声信号を生成し、分離音声信号と話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置を示す位置情報とを保存する。

図７は、本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。図７を参照して説明されるモバイル端末機の動作方法は、非一時的な保存媒体に保存され、コンピュータ装置によって実行可能なアプリケーション（例えば、音声分離アプリケーション）として具現される。例えば、プロセッサ１３０は、メモリー１４０に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の作動を指示する命令語に対応する作動を行う。

図７を参照すると、音声処理装置１００は、音声に応答して、音声信号を生成する（Ｓ１１０）。実施例によって、音声処理装置１００は、空間で感知される音声を電気的な信号である音声信号に変換する。

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に関連する音声信号を用いて、音声のそれぞれに対する音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を判断する（Ｓ１２０）。実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに対する音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を示す音源位置情報を生成する。

音声処理装置１００は、音声のそれぞれに対する音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号を生成する（Ｓ１３０）。実施例によって、音声処理装置１００は生成された音声信号を、音声のそれぞれに対する音源位置に基づいて分離することによって、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号を生成する。例えば、音声処理装置１００は、音声信号に含まれた成分を音源位置に基づいて分離することによって、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに関連する分離音声信号を生成する。

音声処理装置１００は、音源の位置を示す音源位置情報と分離音声信号とを保存する（Ｓ１４０）。実施例によって、音声処理装置１００は、音源の位置を示す音源位置情報と、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号とをマッチングさせて保存する。例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号に該当するデータと音源位置情報とをマッチングさせて保存する。

実施例によって、本発明の実施例による音声処理装置１００（または、プロセッサ１３０）は、メモリー１４０に保存されたアプリケーション（例えば、音声分離アプリケーション）を実行することによって、話し手ＳＰＫ１～ＳＰＫ４の音声に関連する音声信号から話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を生成（または、分離）する。

図８および図９は、本発明の実施例による音声処理システムを説明するための図である。図８および図９を参照すると、第１話し手ＳＰＫ１は、「こんにちは」を発話し、第２話し手ＳＰＫ２は、「はじめまして」を発話し、第４話し手ＳＰＫ４は、「ようこそ」を発話する。

図４～図７を参照して説明したように、音声処理装置１００は、話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４の音声（「こんにちは」、「はじめまして」、および「ようこそ」）のそれぞれに関連する分離音声信号と話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４の位置を示す音源位置情報とを互いにマッチングさせてメモリー１４０に保存する。すなわち、音声処理装置１００は、話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４から発話された音声を分離し、それぞれに関連する分離音声信号を生成する。

図９を参照すると、ユーザー端末２００は、音声処理装置１００から話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４のそれぞれの音声に関連する分離音声信号を受信し、受信した分離音声信号を視覚的または聴覚的に出力する。

本発明の実施例による音声処理システムによると、ユーザー端末２００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれに対する（または、音源位置Ｐ１～Ｐ４のそれぞれに対する）出力モードを設定し、設定された出力モードによって話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声を出力する。実施例によって、ユーザー端末２００は、話し手ＳＰＫ１～ＳＰＫ４のうち、第１話し手の音声は第１モードによって出力し、第２話し手の音声は第１モードとは異なる第２モードで出力する。例えば、ユーザー端末２００は、第１話し手の音声は第１モードによって聴覚的に出力し、第２話し手の音声は第２モードによって視覚的に出力する。

図９に示すように、ユーザー端末２００は、音声処理装置１００から話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４の音声（「こんにちは」、「はじめまして」、および「ようこそ」）のそれぞれに関連する分離音声信号を受信する。

ユーザー端末２００は、話し手ＳＰＫ１、ＳＰＫ３、およびＳＰＫ４のそれぞれに対して設定された出力モードによって、第１話し手ＳＰＫ１の音声「こんにちは」は、ユーザー端末２００の表示装置（例えば、ディスプレイ）を通じて字幕で（すなわち、視覚的に）出力し、第３話し手ＳＰＫ３の音声「はじめまして」と第４話し手ＳＰＫ４の音声「ようこそ」とは、ユーザー端末２００のスピーカーを通じて音で（すなわち、聴覚的に）出力する。したがって、ユーザーは、特定の話し手の音声を所望のモードによって確認することができる。

一方、必要な場合、ユーザー端末２００は、受信した音声信号の形式を出力モードに適した形式に変換することができる。例えば、音声を視覚的に出力する場合、受信した音声信号をテキストデータに変換する（ＳｐｅｅｃｈｔｏＴｅｘｔ）。

図１０は、本発明の実施例による出力モードを説明するための図である。図１０を参照すると、ユーザー端末２００は、話し手ＳＰＫ１～ＳＰＫ４（または、音源位置Ｐ１～Ｐ４）のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、ユーザー端末２００は、出力モード情報を含むテーブル２３１を保存する。実施例によって、テーブル２３１は、ユーザー端末２００のユーザーから入力された入力信号によって生成されて保存部２３０に保存されるが、本発明の実施例はこれに限定されるものではない。

ユーザー端末２００は、保存部２３０に保存されたテーブル２３１を参照して、話し手ＳＰＫ１～ＳＰＫ４のそれぞれに対する出力モードを決定し、音声処理装置１００から受信した分離音声信号を用いて決定された出力モードによって話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声を出力する。

実施例によって、ユーザー端末２００は、音声処理装置１００から分離音声信号を受信し、分離音声信号と対応する音源位置を決定し、決定された音源位置を用いてテーブル２３１から分離音声信号のそれぞれに対応する出力モードを決定し、決定された出力モードによって話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声を出力する。

例えば、図１０に示すように、ユーザー端末２００は、第１位置Ｐ１の第１話し手ＳＰＫ１の音声は、第１モードＭ１によって視覚的に出力し、位置Ｐ２、Ｐ３、およびＰ４の話し手ＳＰＫ２、ＳＰＫ３、およびＳＰＫ４の音声は、第２モードＭ２によって聴覚的に出力する。

一方、本明細書では、音声の出力モードが視覚的または聴覚的方式のいずれか一つであるものと説明したが、本発明の実施例はこれに限定されるものではなく、本発明の実施例による出力モードは互いに異なる方式の多様なモードをいずれも含んでもよい。また、音声を出力しないことも一つの出力モードとして理解されなければならない。

図１１は、本発明の実施例による出力モードを説明するための図である。図１１を参照すると、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４（または、音源位置Ｐ１～Ｐ４）のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、音声処理装置１００は、出力モード情報を含むテーブル１４１を保存する。実施例によって、テーブル１４１は、音声処理装置１００のユーザーから入力された入力信号によって生成され、メモリー１４０に保存されるが、本発明の実施例はこれに限定されるものではない。

実施例によって、音声処理装置１００は、複数のユーザー端末のそれぞれに対して、各音源位置（または、各話し手）別に出力モードを示す出力モード情報を保存する。例えば、図１１に示すように、端末１に対する出力モード情報および端末２に対する出力モード情報を別個に保存する。

音声処理装置１００は、メモリー１４０に保存されたテーブル１４１を参照して、話し手ＳＰＫ１～ＳＰＫ４のそれぞれに対する出力モードを決定し、決定された出力モードによって分離音声信号をユーザー端末２００に伝送する。実施例によって、音声処理装置１００は、決定された出力モードに対応する形式の分離音声信号をユーザー端末２００に伝送する。一方、出力モードが「未出力」である場合、音声処理装置１００は、当該の分離音声信号を伝送しない。

実施例によって、音声処理装置１００は、保存された分離音声信号を決定された出力モードに対応する形式に変換し、変換された形式を有する分離音声信号をユーザー端末２００に伝送する。例えば、音声処理装置１００は、端末１の第１話し手ＳＰＫ１に対する分離音声信号をテキストデータ形式に変換して伝送し、端末１の第２話し手ＳＰＫ２に対する分離音声信号は、音声信号形式に変換して伝送するが、これに限定されるものではない。

本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に関連する音声信号を生成し、音声信号を処理することによって、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を生成する。

本発明の実施例によると、ユーザー端末２００は、音声処理装置１００から伝送された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に関連する分離音声信号を、話し手ＳＰＫ１～ＳＰＫ４のそれぞれに対して設定された出力モードによって出力する。これによって、ユーザーは、一部の話し手の音声のみを聞くか（聴覚的）または観覧（視覚的）することができ、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。

以上のように、本発明が限定された実施例と図面によって説明されているが、当該技術分野における通常の知識を有した者であれば、上記の記載から多様な修正および変形が可能である。例えば、説明された技術が説明された方法と異なる手順で実行されるか、および／または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合または組み合わされるか、他の構成要素または均等物によって代替されるか、置換されても適切な結果が達成できる。

したがって、他の具現、他の実施例およびこれらと均等なものなども本発明の技術範囲に属する。

本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関するものである。

１００音声処理装置
１１０マイク
１２０通信装置
１３０プロセッサ
１４０メモリー
２００ユーザー端末機（ユーザー端末）
２１０入力部
２２０制御部
２３０保存部
２４０出力部

Claims

複数の話し手の音声を処理するための音声処理装置において、
前記複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、
データを送受信するように構成された通信回路と、
メモリーと、
プロセッサと、を含み、
前記プロセッサは、前記メモリーに保存された命令語に基づいて、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離し、
音源分離によって、前記音声のそれぞれに関連する分離音声信号を生成し、
前記音声のそれぞれの音源位置に対応する出力モードを決定し、
前記通信回路を用いて、前記決定された出力モードによって前記分離音声信号を出力することを特徴とする音声処理装置。
前記マイクは、
アレイを成すように配置された複数のマイクを含むことを特徴とする請求項１に記載の音声処理装置。
前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断し、
前記判断された音源位置に基づいて、前記分離音声信号を生成することを特徴とする請求項２に記載の音声処理装置。
前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成し、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存することを特徴とする請求項３に記載の音声処理装置。
前記メモリーは、前記音声のそれぞれの音源位置に対応した出力モードを示す出力モード情報を保存し、
前記プロセッサは前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対応する出力モードを決定することを特徴とする請求項１に記載の音声処理装置。
前記プロセッサは、
前記音源分離によって生成された第１分離音声信号を前記出力モードに対応する形式に変換することによって第２分離音声信号を生成し、
前記通信回路を用いて、前記第２分離音声信号を出力することを特徴とする請求項１に記載の音声処理装置。
前記プロセッサは、
前記出力モードによって、前記第１分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換することを特徴とする請求項６に記載の音声処理装置。
複数の話し手の音声を処理するための音声処理方法において、
前記複数の話し手の音声に応答して音声信号を生成するステップと、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離するステップと、
前記音声のそれぞれに関連する分離音声信号を生成するステップと、
前記音声のそれぞれの音源位置に対する出力モードを決定するステップと、
前記決定された出力モードによって前記分離音声信号を出力するステップと、を含むことを特徴とする音声処理方法。
前記音声信号を生成するステップは、
アレイを成すように配置された複数のマイクを用いて音声信号を生成するステップを含むことを特徴とする請求項８に記載の音声処理方法。
前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断するステップと、
前記判断された音源位置に基づいて、前記分離音声信号を生成するステップと、を含むことを特徴とする請求項９に記載の音声処理方法。
前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成するステップと、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存するステップと、をさらに含むことを特徴とする請求項１０に記載の音声処理方法。
出力モードを決定するステップは、
前記音声のそれぞれの音源位置に対する出力モードを示す出力モード情報を保存するステップと、
前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対する出力モードを決定するステップと、を含むことを特徴とする請求項８に記載の音声処理方法。
前記決定された出力モードによって前記分離音声信号を出力するステップは、
前記音源分離によって生成された第１分離音声信号を前記出力モードに対応する形式に変換することによって第２分離音声信号を生成するステップと、
通信回路を用いて、前記第２分離音声信号を出力するステップと、を含むことを特徴とする請求項８に記載の音声処理方法。
前記第２分離音声信号を生成するステップは、
前記出力モードによって、前記第１分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換するステップを含むことを特徴とする請求項１３に記載の音声処理方法。