JP2024521837A - 音声を処理するための音声処理装置、音声処理システムおよび音声処理方法 - Google Patents
音声を処理するための音声処理装置、音声処理システムおよび音声処理方法 Download PDFInfo
- Publication number
- JP2024521837A JP2024521837A JP2023573293A JP2023573293A JP2024521837A JP 2024521837 A JP2024521837 A JP 2024521837A JP 2023573293 A JP2023573293 A JP 2023573293A JP 2023573293 A JP2023573293 A JP 2023573293A JP 2024521837 A JP2024521837 A JP 2024521837A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output mode
- separated
- audio
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 108
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000005236 sound signal Effects 0.000 claims abstract description 67
- 238000004891 communication Methods 0.000 claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000000926 separation method Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 12
- 101100355601 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD53 gene Proteins 0.000 description 73
- 101150087667 spk1 gene Proteins 0.000 description 73
- 238000010586 diagram Methods 0.000 description 11
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000014616 translation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/24—Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges
- H04R1/245—Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges of microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/24—Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】複数の話し手の音声に関連する分離音声信号を生成し処理するための音声処理装置を提供する。【解決手段】本発明による音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されるマイクと、データを送受信するように構成される通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。【選択図】図1
Description
本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関する。
マイク(microphone)は、音声を電気的な信号である音声信号に変換する装置である。会議室や教室のように複数の話し手(speaker)が位置する空間内にマイクが配置される場合、マイクは、複数の話し手から出た音声を全て受信し、複数の話し手の音声に関連する音声信号を生成する。
一方、複数の話し手が同時に発話する場合、複数の話し手の音声が全て混合される可能性がある。このとき、複数の話し手の音声の中で特定の話し手の音声を示す音声信号を分離することが必要となる。
本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、話し手の音声に応答して、話し手のそれぞれの音声に関連する分離音声信号を生成することができる音声処理装置、および音声処理方法を提供することにある。
また、本発明の目的は、話し手のそれぞれの音声に関連する分離音声信号を用いて、話し手のそれぞれの音声を話し手のそれぞれに対して設定された出力モードによって出力することができる音声処理装置、音声処理システムおよび音声処理方法を提供することにある。
上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、データを送受信するように構成された通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。
上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理方法は、複数の話し手の音声に応答して音声信号を生成するステップと、音声信号を音声のそれぞれの音源位置に基づいて音源分離するステップと、音声のそれぞれに関連する分離音声信号を生成するステップと、音声のそれぞれの音源位置に対する出力モードを決定するステップと、分離音声信号を用いて、決定された出力モードによって複数の話し手のそれぞれの音声を出力するステップと、を含む。
本発明によれば、音声の音源位置に基づいて特定の音源位置からの音声に関連する分離音声信号を生成することができるので、周辺騷音の影響を最小化した音声信号を生成することができるという効果がある。
また、本発明によれば、複数の話し手のそれぞれの音声を音源位置によって分離し、話し手のそれぞれに対して設定された出力モードによって出力することができ、ユーザーは、一部の話し手の音声のみを聞くか(聴覚的)または観覧(視覚的)することができ、これによって、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。
以下、図面を参照して、本発明の実施例を説明する。
図1は、本発明の実施例による音声処理システムを示す。図1を参照すると、音声処理システム10は、話し手SPK1~SPK4の音声に対応する音声信号を生成し、生成された音声信号を出力する音声処理装置100および音声処理装置100から出力された音声信号を受信するユーザー端末機200を含む。
話し手SPK1~SPK4は、空間(例えば、会議室、車両、講義室など)に位置して音声を発話(pronounce)する。実施例によって、第1話し手SPK1は、第1位置P1で音声を発話し、第2話し手SPK2は、第2位置P2で音声を発話し、第3話し手SPK3は、第3位置P3で音声を発話し、第4話し手SPK4は、第4位置P4で音声を発話する。
音声処理装置100は、話し手SPK1~SPK4の音声を処理する装置であって、音声を電気的な信号に変換するマイクロホン(microphone)を含む。
音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に応答して、話し手SPK1~SPK4の音声に関連する音声信号を生成する。音声信号は、特定の時間の間発話された音声に関連する信号であって、複数の話し手の音声を示す信号である。
実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を用いて、話し手SPK1~SPK4の音声のそれぞれの音源位置を判断し、音源位置に基づいて音源分離を行うことによって、音声信号から話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を抽出(または生成)する。
音声処理装置100は、分離音声信号および音源位置を示す音源位置情報を保存する。
すなわち、音声処理装置100は、音声信号に対応する音声の音源位置に基づいて、各位置P1~P4に位置した話し手SPK1~SPK4の音声に関連する分離音声信号を生成する。例えば、音声処理装置100は、音声信号に基づいて、第1位置P1で発話した第1話し手SPK1の音声に関連する第1分離音声信号を生成する。このとき、第1分離音声信号は、話し手SPK1~SPK4の音声のうち、第1話し手SPK1の音声と最も高い関連度を有する音声信号である。言い換えると、第1分離音声信号に含まれた音声成分の中で、第1話し手SPK1の音声成分の比重が最も高いものである。
音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号をユーザー端末機200に伝送する。実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号および当該の音源位置を示す音源位置情報をともにユーザー端末機200に伝送する。
また、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に対する翻訳を提供することができる。例えば、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声を翻訳するための起点言語(source language;翻訳対象言語)と目標言語(target language;翻訳後言語)を決定し、分離音声信号を用いて話し手のそれぞれの言語に対する翻訳を提供する。
実施例によって、音声処理装置100は、音声のそれぞれに対する翻訳結果を出力する。翻訳結果は、目標言語で表現された話し手SPK1~SPK4のそれぞれの音声に関連するテキストデータまたは音声信号である。
ユーザー端末200は、通信機能および演算処理機能を有する電子装置である。例えば、ユーザー端末200は、スマートホン(smartphone)、ノート・パソコン(laptop)、PDA(personal digital assistance)、ウェアラブルデバイス(wearable device)、スマートウォッチ(smart watch)、タブレットコンピュータ(tablet computer)、TV(television)などであってもよいが、本発明の実施例はこれに限定されるものではない。
ユーザー端末200は、音声処理装置100から話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を受信し、受信した分離音声信号を出力する。例えば、ユーザー端末200は、分離音声信号を聴覚的に出力するか(すなわち、音)または視覚的に出力することができる(すなわち、字幕)。
図2は、本発明の実施例による音声処理装置を示す。図2を参照すると、音声処理装置100は、マイク110、通信装置120、プロセッサ130、メモリー140、およびディスプレイ150を含み得る。実施例によって、音声処理装置100は、スピーカー160をさらに含んでもよい。
マイク110は、発生した音声に応答して音声信号を生成する。実施例によって、マイク110は、音声による空気の振動を検出し、検出結果によって振動に対応した電気的な信号である音声信号を生成する。
実施例によって、マイク110は、複数であってもよく、複数のマイク110のそれぞれは音声に応答して音声信号を生成する。このとき、複数のマイク110のそれぞれが配置された位置は互いに異なり得るので、マイク110のそれぞれから生成された音声信号は互いに位相差(または、時間遅延)を有する。
通信装置120は、無線通信方式によって外部装置とデータをやり取りする。実施例によって、通信装置120は、多様な周波数の電波を用いて、外部装置とデータをやり取りする。例えば、通信装置120は、近距離無線通信、中距離無線通信、および長距離無線通信の少なくとも一つの無線通信方式によって、外部装置とデータをやり取りする。
プロセッサ130は、音声処理装置100の全般的な動作を制御する。実施例によって、プロセッサ130は、演算処理機能を有するプロセッサを含んでもよい。例えば、プロセッサ130は、CPU(central processing unit)、MCU(micro controller unit)、GPU(graphics processing unit)、DSP(digital signal processor)、ADCコンバータ(analog to digital converter)、またはDACコンバータ(digital to analog converter)を含んでもよいが、これに限定されるものではない。
プロセッサ130は、マイク110によって生成された音声信号を処理する。例えば、プロセッサ130は、マイク110によって生成されたアナログタイプの音声信号をデジタルタイプの音声信号に変換し、変換されたデジタルタイプの音声信号を処理する。この場合、信号のタイプ(アナログまたはデジタル)が変わるので、本発明の実施例に対する説明において、デジタルタイプの音声信号とアナログタイプの音声信号とを混用して説明するようにする。
実施例によって、プロセッサ130は、マイク110によって生成された音声信号を用いて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を抽出(または生成)する。実施例によって、プロセッサ130は、各位置P1~P4に位置した話し手SPK1~SPK4の音声に関連する分離音声信号を生成する。
プロセッサ130は、音声信号間の時間遅延(または、位相遅延)を用いて、音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定する。例えば、プロセッサ130は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定する。
プロセッサ130は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。例えば、プロセッサ130は、音声の音源位置に基づいて、第1話し手SPK1の音声に関連する第1分離音声信号を生成する。
実施例によって、プロセッサ130は、決定された音源位置を示す音源位置情報を分離音声信号とマッチングさせて保存する。例えば、プロセッサ130は、第1話し手SPK1の音声に関連する第1分離音声信号および第1話し手SPK1の音声の音源位置を示す第1音源位置情報をマッチングさせてメモリー140に保存する。
本明細書で説明されるプロセッサ130または音声処理装置100の動作は、コンピュータ装置によって実行可能なプログラムの形態で具現することができる。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。
メモリー140は、音声処理装置100の動作に必要なデータを保存する。例えば、メモリー140は、不揮発性メモリーおよび揮発性メモリーの少なくとも一つを含む。
実施例によって、メモリー140は、空間上の各位置P1~P4に対応した識別子を保存する。識別子は位置P1~P4を区別するためのデータである。位置P1~P4のそれぞれには、話し手SPK1~SPK4のそれぞれが位置するので、位置P1~P4に対応した識別子を用いて話し手SPK1~SPK4のそれぞれを区別することができる。例えば、第1位置P1を示す第1識別子は、すなわち、第1話し手SPK1を示す。
識別子は、音声処理装置100の入力装置(例えば、タッチパッド)を通じて入力されてもよい。
実施例によって、メモリー140は、話し手SPK1~SPK4のそれぞれの位置に関連する音源位置情報および話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を保存する。
図3は、本発明の実施例によるユーザー端末を示す。図3を参照すると、ユーザー端末200は、入力部210、制御部220、保存部230、および出力部240を含む。
入力部210は、ユーザー端末200のユーザーの操作に応答して入力信号を生成する。実施例によって、入力部210は、ユーザーのユーザー端末200に対する操作に基づいて、電気的な信号である入力信号を生成する。例えば、入力部210は、キーボード、タッチパネル、またはタッチディスプレイであってもよいが、これに限定されるものではない。
制御部220は、ユーザー端末200の全般的な動作を制御する。実施例によって、制御部220は、演算処理機能を有するプロセッサを含む。例えば、制御部220は、CPU(central processing unit)、MCU(micro controller unit)、AP(application processor)であってもよいが、これに限定されるものではない。
制御部220は、音声処理装置100から伝送された分離音声信号が出力されるように、ユーザー端末200を制御する。実施例によって、制御部220は、保存部230に保存されたプログラム(または、アプリケーション)を実行し、実行結果によって、音声処理装置100から伝送された分離音声信号が出力部240を通じて出力されるように、ユーザー端末200を制御する。
実施例によって、制御部220は、保存部230に保存されたプログラムの実行によってユーザー端末200が特定の動作を行うようにユーザー端末200を制御する。すなわち、本明細書で説明されるユーザー端末200の動作は、制御部220が保存されたプログラムを実行することによって引き起される動作として理解することができる。
保存部230は、ユーザー端末200の動作に必要なデータを保存する。実施例によって、保存部230は、不揮発性メモリーまたは揮発性メモリーであってもよいが、これに限定されるものではない。
出力部240は、ユーザー端末200に保存されたデータを出力する。実施例によって、出力部240は、制御部220の制御によって、ユーザー端末200に保存されたデータを聴覚的または視覚的に出力する。例えば、出力部240は、スピーカーまたはディスプレイ装置であってもよいが、本発明の実施例はこれに限定されるものではない。
図4~図6は、本発明の実施例によるモバイル端末機の動作を説明するための図である。図4~図6を参照すると、各位置P1~P4に位置した話し手SPK1~SPK4のそれぞれが発話する。
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に関連する分離音声信号を生成し、分離音声信号と話し手SPK1~SPK4のそれぞれの位置を示す位置情報とを保存する。
実施例によって、音声処理装置100は、音声信号間の時間遅延(または、位相遅延)を用いて、音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定する。例えば、音声処理装置100は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定する。
音声処理装置100は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。
図4に示すように、第1話し手SPK1が音声「AAA」を発話する。音声「AAA」が発話されると、音声処理装置100は、音声「AAA」に応答して、音声「AAA」に関連する音声信号を生成する。実施例によって、音声「AAA」に関連する音声信号には、音声「AAA」以外の騷音に関連する成分も含まれる。
実施例によって、音声処理装置100は生成された音声信号を用いて、第1話し手SPK1の音声「AAA」に関連する分離音声信号を生成する。このとき、音声処理装置100は、第1話し手SPK1の音声「AAA」に関連する第1分離音声信号と第1話し手SPK1の位置である第1位置P1を示す第1音源位置情報とをメモリー140に保存する。例えば、図4に示すように、第1分離音声信号と第1音源位置情報とは互いにマッチングされて保存される。
図5に示すように、第2話し手SPK2が音声「BBB」を発話する。音声「BBB」が発話されると、音声処理装置100は、音声「BBB」に応答して、音声「BBB」に関連する音声信号を生成する。
実施例によって、音声処理装置100は生成された音声信号を用いて、第2話し手SPK2の音声「BBB」に関連する第2分離音声信号を生成する。このとき、音声処理装置100は、第2話し手SPK2の音声「BBB」に関連する第2分離音声信号と第2話し手SPK2の位置である第2位置P2を示す第2音源位置情報とをメモリー140に保存する。例えば、図5に示すように、第2分離音声信号と第2音源位置情報とは互いにマッチングされて保存される。
図6に示すように、第3話し手SPK3が音声「CCC」を発話し、第4話し手SPK4が音声「DDD」を発話する。音声処理装置100は、音声「CCC」および音声「DDD」に応答して、音声「CCC」および音声「DDD」に関連する音声信号を生成する。すなわち、音声信号は、音声「CCC」および音声「DDD」に関連する成分を含む音声信号である。
実施例によって、音声処理装置100は生成された音声信号を用いて、第3話し手SPK3の音声「CCC」に関連する第3分離音声信号および第4話し手SPK4の音声「DDD」に関連する第4分離音声信号を生成する。
このとき、音声処理装置100は、第3話し手SPK3の音声「CCC」に関連する第3分離音声信号と第3話し手SPK3の位置である第3位置P3を示す第3位置情報とをメモリー140に保存する。また、音声処理装置100は、第4話し手SPK4の音声「DDD」に関連する第4分離音声信号と第4話し手SPK4の位置である第4位置P4を示す第4位置情報とをメモリー140に保存する。
例えば、図6に示すように、第3分離音声信号と第3音源位置情報とは互いにマッチングされて保存され、第4分離音声信号と第4音源位置情報とは互いにマッチングされて保存される。
すなわち、本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に関連する分離音声信号を生成し、分離音声信号と話し手SPK1~SPK4のそれぞれの位置を示す位置情報とを保存する。
図7は、本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。図7を参照して説明されるモバイル端末機の動作方法は、非一時的な保存媒体に保存され、コンピュータ装置によって実行可能なアプリケーション(例えば、音声分離アプリケーション)として具現される。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の作動を指示する命令語に対応する作動を行う。
図7を参照すると、音声処理装置100は、音声に応答して、音声信号を生成する(S110)。実施例によって、音声処理装置100は、空間で感知される音声を電気的な信号である音声信号に変換する。
音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を用いて、音声のそれぞれに対する音源位置(すなわち、話し手SPK1~SPK4の位置)を判断する(S120)。実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに対する音源位置(すなわち、話し手SPK1~SPK4の位置)を示す音源位置情報を生成する。
音声処理装置100は、音声のそれぞれに対する音源位置に基づいて、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する(S130)。実施例によって、音声処理装置100は生成された音声信号を、音声のそれぞれに対する音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する。例えば、音声処理装置100は、音声信号に含まれた成分を音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する。
音声処理装置100は、音源の位置を示す音源位置情報と分離音声信号とを保存する(S140)。実施例によって、音声処理装置100は、音源の位置を示す音源位置情報と、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号とをマッチングさせて保存する。例えば、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号に該当するデータと音源位置情報とをマッチングさせて保存する。
実施例によって、本発明の実施例による音声処理装置100(または、プロセッサ130)は、メモリー140に保存されたアプリケーション(例えば、音声分離アプリケーション)を実行することによって、話し手SPK1~SPK4の音声に関連する音声信号から話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成(または、分離)する。
図8および図9は、本発明の実施例による音声処理システムを説明するための図である。図8および図9を参照すると、第1話し手SPK1は、「こんにちは」を発話し、第2話し手SPK2は、「はじめまして」を発話し、第4話し手SPK4は、「ようこそ」を発話する。
図4~図7を参照して説明したように、音声処理装置100は、話し手SPK1、SPK3、およびSPK4の音声(「こんにちは」、「はじめまして」、および「ようこそ」)のそれぞれに関連する分離音声信号と話し手SPK1、SPK3、およびSPK4の位置を示す音源位置情報とを互いにマッチングさせてメモリー140に保存する。すなわち、音声処理装置100は、話し手SPK1、SPK3、およびSPK4から発話された音声を分離し、それぞれに関連する分離音声信号を生成する。
図9を参照すると、ユーザー端末200は、音声処理装置100から話し手SPK1、SPK3、およびSPK4のそれぞれの音声に関連する分離音声信号を受信し、受信した分離音声信号を視覚的または聴覚的に出力する。
本発明の実施例による音声処理システムによると、ユーザー端末200は、話し手SPK1~SPK4のそれぞれに対する(または、音源位置P1~P4のそれぞれに対する)出力モードを設定し、設定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。実施例によって、ユーザー端末200は、話し手SPK1~SPK4のうち、第1話し手の音声は第1モードによって出力し、第2話し手の音声は第1モードとは異なる第2モードで出力する。例えば、ユーザー端末200は、第1話し手の音声は第1モードによって聴覚的に出力し、第2話し手の音声は第2モードによって視覚的に出力する。
図9に示すように、ユーザー端末200は、音声処理装置100から話し手SPK1、SPK3、およびSPK4の音声(「こんにちは」、「はじめまして」、および「ようこそ」)のそれぞれに関連する分離音声信号を受信する。
ユーザー端末200は、話し手SPK1、SPK3、およびSPK4のそれぞれに対して設定された出力モードによって、第1話し手SPK1の音声「こんにちは」は、ユーザー端末200の表示装置(例えば、ディスプレイ)を通じて字幕で(すなわち、視覚的に)出力し、第3話し手SPK3の音声「はじめまして」と第4話し手SPK4の音声「ようこそ」とは、ユーザー端末200のスピーカーを通じて音で(すなわち、聴覚的に)出力する。したがって、ユーザーは、特定の話し手の音声を所望のモードによって確認することができる。
一方、必要な場合、ユーザー端末200は、受信した音声信号の形式を出力モードに適した形式に変換することができる。例えば、音声を視覚的に出力する場合、受信した音声信号をテキストデータに変換する(Speech to Text)。
図10は、本発明の実施例による出力モードを説明するための図である。図10を参照すると、ユーザー端末200は、話し手SPK1~SPK4(または、音源位置P1~P4)のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、ユーザー端末200は、出力モード情報を含むテーブル231を保存する。実施例によって、テーブル231は、ユーザー端末200のユーザーから入力された入力信号によって生成されて保存部230に保存されるが、本発明の実施例はこれに限定されるものではない。
ユーザー端末200は、保存部230に保存されたテーブル231を参照して、話し手SPK1~SPK4のそれぞれに対する出力モードを決定し、音声処理装置100から受信した分離音声信号を用いて決定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。
実施例によって、ユーザー端末200は、音声処理装置100から分離音声信号を受信し、分離音声信号と対応する音源位置を決定し、決定された音源位置を用いてテーブル231から分離音声信号のそれぞれに対応する出力モードを決定し、決定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。
例えば、図10に示すように、ユーザー端末200は、第1位置P1の第1話し手SPK1の音声は、第1モードM1によって視覚的に出力し、位置P2、P3、およびP4の話し手SPK2、SPK3、およびSPK4の音声は、第2モードM2によって聴覚的に出力する。
一方、本明細書では、音声の出力モードが視覚的または聴覚的方式のいずれか一つであるものと説明したが、本発明の実施例はこれに限定されるものではなく、本発明の実施例による出力モードは互いに異なる方式の多様なモードをいずれも含んでもよい。また、音声を出力しないことも一つの出力モードとして理解されなければならない。
図11は、本発明の実施例による出力モードを説明するための図である。図11を参照すると、音声処理装置100は、話し手SPK1~SPK4(または、音源位置P1~P4)のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、音声処理装置100は、出力モード情報を含むテーブル141を保存する。実施例によって、テーブル141は、音声処理装置100のユーザーから入力された入力信号によって生成され、メモリー140に保存されるが、本発明の実施例はこれに限定されるものではない。
実施例によって、音声処理装置100は、複数のユーザー端末のそれぞれに対して、各音源位置(または、各話し手)別に出力モードを示す出力モード情報を保存する。例えば、図11に示すように、端末1に対する出力モード情報および端末2に対する出力モード情報を別個に保存する。
音声処理装置100は、メモリー140に保存されたテーブル141を参照して、話し手SPK1~SPK4のそれぞれに対する出力モードを決定し、決定された出力モードによって分離音声信号をユーザー端末200に伝送する。実施例によって、音声処理装置100は、決定された出力モードに対応する形式の分離音声信号をユーザー端末200に伝送する。一方、出力モードが「未出力」である場合、音声処理装置100は、当該の分離音声信号を伝送しない。
実施例によって、音声処理装置100は、保存された分離音声信号を決定された出力モードに対応する形式に変換し、変換された形式を有する分離音声信号をユーザー端末200に伝送する。例えば、音声処理装置100は、端末1の第1話し手SPK1に対する分離音声信号をテキストデータ形式に変換して伝送し、端末1の第2話し手SPK2に対する分離音声信号は、音声信号形式に変換して伝送するが、これに限定されるものではない。
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を生成し、音声信号を処理することによって、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。
本発明の実施例によると、ユーザー端末200は、音声処理装置100から伝送された話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を、話し手SPK1~SPK4のそれぞれに対して設定された出力モードによって出力する。これによって、ユーザーは、一部の話し手の音声のみを聞くか(聴覚的)または観覧(視覚的)することができ、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。
以上のように、本発明が限定された実施例と図面によって説明されているが、当該技術分野における通常の知識を有した者であれば、上記の記載から多様な修正および変形が可能である。例えば、説明された技術が説明された方法と異なる手順で実行されるか、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合または組み合わされるか、他の構成要素または均等物によって代替されるか、置換されても適切な結果が達成できる。
したがって、他の具現、他の実施例およびこれらと均等なものなども本発明の技術範囲に属する。
本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関するものである。
100 音声処理装置
110 マイク
120 通信装置
130 プロセッサ
140 メモリー
200 ユーザー端末機(ユーザー端末)
210 入力部
220 制御部
230 保存部
240 出力部
110 マイク
120 通信装置
130 プロセッサ
140 メモリー
200 ユーザー端末機(ユーザー端末)
210 入力部
220 制御部
230 保存部
240 出力部
Claims (14)
- 複数の話し手の音声を処理するための音声処理装置において、
前記複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、
データを送受信するように構成された通信回路と、
メモリーと、
プロセッサと、を含み、
前記プロセッサは、前記メモリーに保存された命令語に基づいて、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離し、
音源分離によって、前記音声のそれぞれに関連する分離音声信号を生成し、
前記音声のそれぞれの音源位置に対応する出力モードを決定し、
前記通信回路を用いて、前記決定された出力モードによって前記分離音声信号を出力することを特徴とする音声処理装置。 - 前記マイクは、
アレイを成すように配置された複数のマイクを含むことを特徴とする請求項1に記載の音声処理装置。 - 前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断し、
前記判断された音源位置に基づいて、前記分離音声信号を生成することを特徴とする請求項2に記載の音声処理装置。 - 前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成し、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存することを特徴とする請求項3に記載の音声処理装置。 - 前記メモリーは、前記音声のそれぞれの音源位置に対応した出力モードを示す出力モード情報を保存し、
前記プロセッサは前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対応する出力モードを決定することを特徴とする請求項1に記載の音声処理装置。 - 前記プロセッサは、
前記音源分離によって生成された第1分離音声信号を前記出力モードに対応する形式に変換することによって第2分離音声信号を生成し、
前記通信回路を用いて、前記第2分離音声信号を出力することを特徴とする請求項1に記載の音声処理装置。 - 前記プロセッサは、
前記出力モードによって、前記第1分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換することを特徴とする請求項6に記載の音声処理装置。 - 複数の話し手の音声を処理するための音声処理方法において、
前記複数の話し手の音声に応答して音声信号を生成するステップと、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離するステップと、
前記音声のそれぞれに関連する分離音声信号を生成するステップと、
前記音声のそれぞれの音源位置に対する出力モードを決定するステップと、
前記決定された出力モードによって前記分離音声信号を出力するステップと、を含むことを特徴とする音声処理方法。 - 前記音声信号を生成するステップは、
アレイを成すように配置された複数のマイクを用いて音声信号を生成するステップを含むことを特徴とする請求項8に記載の音声処理方法。 - 前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断するステップと、
前記判断された音源位置に基づいて、前記分離音声信号を生成するステップと、を含むことを特徴とする請求項9に記載の音声処理方法。 - 前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成するステップと、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存するステップと、をさらに含むことを特徴とする請求項10に記載の音声処理方法。 - 出力モードを決定するステップは、
前記音声のそれぞれの音源位置に対する出力モードを示す出力モード情報を保存するステップと、
前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対する出力モードを決定するステップと、を含むことを特徴とする請求項8に記載の音声処理方法。 - 前記決定された出力モードによって前記分離音声信号を出力するステップは、
前記音源分離によって生成された第1分離音声信号を前記出力モードに対応する形式に変換することによって第2分離音声信号を生成するステップと、
通信回路を用いて、前記第2分離音声信号を出力するステップと、を含むことを特徴とする請求項8に記載の音声処理方法。 - 前記第2分離音声信号を生成するステップは、
前記出力モードによって、前記第1分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換するステップを含むことを特徴とする請求項13に記載の音声処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210067977A KR102575293B1 (ko) | 2021-05-27 | 2021-05-27 | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 |
KR10-2021-0067977 | 2021-05-27 | ||
PCT/KR2022/007250 WO2022250387A1 (ko) | 2021-05-27 | 2022-05-20 | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024521837A true JP2024521837A (ja) | 2024-06-04 |
Family
ID=84229021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023573293A Pending JP2024521837A (ja) | 2021-05-27 | 2022-05-20 | 音声を処理するための音声処理装置、音声処理システムおよび音声処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240257824A1 (ja) |
JP (1) | JP2024521837A (ja) |
KR (1) | KR102575293B1 (ja) |
CN (1) | CN117678241A (ja) |
WO (1) | WO2022250387A1 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109779A (ja) * | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | 音声処理装置 |
JP5289128B2 (ja) * | 2009-03-25 | 2013-09-11 | 株式会社東芝 | 信号処理方法、装置及びプログラム |
JP5534413B2 (ja) * | 2010-02-12 | 2014-07-02 | Necカシオモバイルコミュニケーションズ株式会社 | 情報処理装置及びプログラム |
JP2014200064A (ja) * | 2014-01-31 | 2014-10-23 | 株式会社Jvcケンウッド | 放送システムの音声出力制御装置及び音声出力制御方法 |
KR101508092B1 (ko) * | 2014-03-13 | 2015-04-07 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | 화상 회의를 지원하는 방법 및 시스템 |
KR102545764B1 (ko) | 2016-04-01 | 2023-06-20 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
KR102407872B1 (ko) * | 2018-09-28 | 2022-06-10 | (주)스마트레이더시스템 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
US11457309B2 (en) * | 2019-02-27 | 2022-09-27 | Crestron Electronics, Inc. | Millimeter wave sensor used to optimize performance of a beamforming microphone array |
-
2021
- 2021-05-27 KR KR1020210067977A patent/KR102575293B1/ko active IP Right Grant
-
2022
- 2022-05-20 WO PCT/KR2022/007250 patent/WO2022250387A1/ko active Application Filing
- 2022-05-20 US US18/564,596 patent/US20240257824A1/en active Pending
- 2022-05-20 JP JP2023573293A patent/JP2024521837A/ja active Pending
- 2022-05-20 CN CN202280050877.4A patent/CN117678241A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022250387A1 (ko) | 2022-12-01 |
US20240257824A1 (en) | 2024-08-01 |
CN117678241A (zh) | 2024-03-08 |
KR20220160173A (ko) | 2022-12-06 |
KR102575293B1 (ko) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10079017B1 (en) | Speech-responsive portable speaker | |
US9864745B2 (en) | Universal language translator | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
CN112236817B (zh) | 低延迟邻近群组翻译 | |
US9293134B1 (en) | Source-specific speech interactions | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
EP3514696A1 (en) | Speech presentation method, speech presentation program, speech presentation system, and terminal device | |
JP2015060332A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
JP2019090942A (ja) | 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム | |
JP2020113150A (ja) | 音声翻訳対話システム | |
JP2024521837A (ja) | 音声を処理するための音声処理装置、音声処理システムおよび音声処理方法 | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP2018018053A (ja) | 端末装置、翻訳方法、及び、翻訳プログラム | |
KR20220022674A (ko) | 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법 | |
US20220101829A1 (en) | Neural network speech recognition system | |
KR20220042009A (ko) | 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
EP3678018A1 (en) | Information-providing method and information providing apparatus | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2024526924A (ja) | 話し手の音声を処理するための装置および方法 | |
US20230377594A1 (en) | Mobile terminal capable of processing voice and operation method therefor | |
KR20220042509A (ko) | 음성 처리 장치 및 이의 작동 방법 | |
KR20220043279A (ko) | 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241015 |