JP2022059767A - 音響処理方法および音響処理システム - Google Patents
音響処理方法および音響処理システム Download PDFInfo
- Publication number
- JP2022059767A JP2022059767A JP2020167568A JP2020167568A JP2022059767A JP 2022059767 A JP2022059767 A JP 2022059767A JP 2020167568 A JP2020167568 A JP 2020167568A JP 2020167568 A JP2020167568 A JP 2020167568A JP 2022059767 A JP2022059767 A JP 2022059767A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- processing
- far
- signal
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 374
- 238000000034 method Methods 0.000 title claims description 62
- 238000004891 communication Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims description 50
- 230000001629 suppression Effects 0.000 claims description 41
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 238000003672 processing method Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 15
- 238000001228 spectrum Methods 0.000 description 35
- 238000004458 analytical method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 16
- 230000008859 change Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 230000003292 diminished effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/003—Digital PA systems using, e.g. LAN or internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
【課題】遠端装置から受信される遠端音の放音と近端の利用者が発音する近端音の収音とが並列に実行される環境において、収音信号に対する音響処理に適用される処理パラメータを適切に制御する。【解決手段】放音処理システム100aは、遠端の利用者が発音する遠端音を表す音響信号Xを遠端装置から受信し、音響信号Xが表す遠端音を放音装置15により放音する。音響処理部30は、近端の利用者Uaが発音する近端音を含む音響の収音により収音装置14が生成する収音信号Raに対し、処理パラメータを適用した音響処理を実行することで音響信号Yを生成する。通信制御部20は、音響信号Yを遠端装置に送信する。更新処理部40は、音響信号Xまたは収音信号Raに応じて処理パラメータを更新する。動作制御部60は、近端音および前記遠端音の少なくとも一方が演奏音を含む場合における処理パラメータの更新速度と、演奏音を含まない場合における処理パラメータの更新速度とが相違するように、処理パラメータの更新を制御する。【選択図】図3
Description
本開示は、音響信号を処理する技術に関する。
放音装置と収音装置とを具備する複数の通信装置が通信網を介して相互に通信する環境においては、放音装置から収音装置に伝播する帰還音に起因したエコーが問題となる。例えば特許文献1には、帰還音を近似する疑似エコー信号を適応フィルタにより生成し、収音装置が生成する収音信号から疑似エコー信号を減算するエコー低減装置が開示されている。特許文献1の技術においては、遠端側の利用者が発話している場合に適応フィルタの複数の係数が更新され、遠端側の利用者が発話していない場合には係数の更新が停止される。
ところで、通信装置を利用することで複数の利用者が遠隔地で音楽を演奏する場合がある。例えば、楽器の演奏者を遠隔地の指導者が指導する遠隔音楽教習、または、複数の演奏者が遠隔地で共通の楽曲を演奏する遠隔合奏が想定される。しかし、各利用者が演奏している期間内に係数の更新により適応フィルタの周波数応答が変動すると、利用者が意図した演奏表現が減殺される可能性がある。なお、以上の説明では適応フィルタの係数の更新に着目したが、収音装置による収音信号に対する他種の音響処理においても同様の問題が想定される。以上の事情を考慮して、本開示の目的のひとつは、遠端装置から受信される遠端音の放音と近端の利用者が発音する近端音の収音とが並列に実行される環境において、収音信号に対する音響処理に適用される処理パラメータを適切に制御することにある。
以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音し、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、前記第2音響信号を前記遠端装置に送信し、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する。
本開示の他の態様に係る音響処理方法は、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音し、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、前記第2音響信号を前記遠端装置に送信し、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する。
本開示のひとつの態様に係る音響処理システムは、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、前記第2音響信号を前記遠端装置に送信する通信制御部と、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部とを具備する。
本開示の他の態様に係る音響処理システムは、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、前記第2音響信号を前記遠端装置に送信する通信制御部と、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部とを具備する。
A:第1実施形態
図1は、第1実施形態に係る通信システム1の構成を例示するブロック図である。通信システム1は、例えば音楽の教習に利用されるコンピュータシステムであり、音響処理システム100aと音響処理システム100bとを具備する。音響処理システム100aおよび音響処理システム100bの各々は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末により実現される。なお、遠隔地間における音響の授受に利用される遠隔会議装置(いわゆるスピーカフォン)も音響処理システム100aまたは音響処理システム100bとして利用される。音響処理システム100aと音響処理システム100bとは、例えばインターネット等の通信網200を介して相互に通信する。なお、音響処理システム100aと音響処理システム100bとの間の通信の方式は任意である。例えば、音響処理システム100aと音響処理システム100bとの間に確立される通信経路の一部は無線区間でもよい。
図1は、第1実施形態に係る通信システム1の構成を例示するブロック図である。通信システム1は、例えば音楽の教習に利用されるコンピュータシステムであり、音響処理システム100aと音響処理システム100bとを具備する。音響処理システム100aおよび音響処理システム100bの各々は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末により実現される。なお、遠隔地間における音響の授受に利用される遠隔会議装置(いわゆるスピーカフォン)も音響処理システム100aまたは音響処理システム100bとして利用される。音響処理システム100aと音響処理システム100bとは、例えばインターネット等の通信網200を介して相互に通信する。なお、音響処理システム100aと音響処理システム100bとの間の通信の方式は任意である。例えば、音響処理システム100aと音響処理システム100bとの間に確立される通信経路の一部は無線区間でもよい。
利用者Uaは音響処理システム100aを利用し、利用者Ubは音響処理システム100bを利用する。利用者Uaは楽器300aを演奏し、利用者Ubは楽器300bを演奏する。利用者Uaは、例えば、利用者Ubに楽器300bの演奏を指導する指導者である。利用者Ubは、例えば、利用者Uaにより指導される被指導者である。音響処理システム100aおよび楽器300aは、利用者Uaが所在する音響空間(例えば音楽教室)に設置され、音響処理システム100bおよび楽器300bは、利用者Ubが所在する音響空間(例えば利用者Ubの自宅)に設置される。楽器300aおよび楽器300bは、演奏により発音する自然楽器である。例えば鍵盤楽器、弦楽器または管楽器等の種々の自然楽器が、楽器300aまたは楽器300bとして利用される。なお、利用者Ubが指導者であり、利用者Uaが被指導者である場合も想定される。
利用者Uaは、楽器300aの演奏と利用者Ubに対する発話とを実行する。例えば、利用者Uaは、利用者Ubが参照する模範として楽器300aを演奏し、かつ、利用者Ubを指導するための音声を発話する。なお、以下の説明においては、利用者Uaによる発話と楽器300aの演奏とが時間軸上の相異なる期間に実行される場合を便宜的に想定する。他方、利用者Ubは、楽器300bの演奏と利用者Uaに対する発話とを実行する。例えば、利用者Ubは、楽器300bを練習のために演奏し、かつ、利用者Uaに対する質問等のための音声を発話する。以下の説明においては、利用者Ubによる発話と楽器300bの演奏とが時間軸上の相異なる期間に実行される場合を便宜的に想定する。
音響処理システム100bは、音響処理システム100aに音響信号Xを送信する。音響信号Xは、音響処理システム100bの周囲の音響を表す信号である。具体的には、音響信号Xは、利用者Ubによる演奏で楽器300bから発音される演奏音、または、利用者Ubにより発音される発話音を表す。また、音響処理システム100aは、音響処理システム100bに音響信号Yを送信する。音響信号Yは、音響処理システム100aの周囲の音響を表す信号である。具体的には、音響信号Yは、利用者Uaによる演奏で楽器300aから発音される演奏音、または、利用者Uaにより発音される発話音を表す。
演奏音は、楽器300aまたは楽器300bから発音される楽器音のほか、利用者Uaまたは利用者Ubの歌唱により発音される歌唱音を含む。すなわち、演奏音は、音楽を表現する音響(音楽音)として包括的に表現される。また、「演奏」には、楽器300aまたは楽器300bを発音させる操作のほか、利用者Uaまたは利用者Ubによる歌唱も包含される。他方、発話音は、言語を表現する音声(言語音)である。
音響処理システム100aは、音響信号Xが表す音響を利用者Uaに対して放音する。利用者Uaは、利用者Ubによる楽器300bの演奏音または利用者Ubによる発話音を聴取しながら、楽器300aの演奏または利用者Ubに対する発話を実行する。また、音響処理システム100bは、音響信号Yが表す音響を利用者Ubに対して放音する。利用者Ubは、利用者Uaによる楽器300aの演奏音または利用者Uaによる発話音を聴取しながら、楽器300bの演奏または利用者Ubに対する発話を実行する。
図2は、音響処理システム100aの具体的な構成を例示するブロック図である。なお、音響処理システム100bの構成は音響処理システム100aの構成と同様であるため、音響処理システム100bについては詳細な説明を省略する。音響処理システム100aに着目したときの音響処理システム100bは、「遠端装置」の一例である。
音響処理システム100aは、制御装置11と記憶装置12と通信装置13と収音装置14と放音装置15とを具備する。なお、音響処理システム100aは、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。
制御装置11は、音響処理システム100aの各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、音響処理システム100aに対して着脱される可搬型の記録媒体、または制御装置11が通信網200を介したアクセス可能な記録媒体(例えばクラウドストレージ)を、記憶装置12として利用してもよい。
通信装置13は、音響処理システム100bとの間で通信網200を介して通信する。具体的には、通信装置13は、音響処理システム100bから送信された音響信号Xを受信する。また、通信装置13は、音響信号Yを音響処理システム100bに送信する。音響信号Xは「第1音響信号」の一例であり、音響信号Yは「第2音響信号」の一例である。
放音装置15は、通信装置13が音響処理システム100bから受信した音響信号Xが表す音響(以下「遠端音」という)を放音するスピーカである。すなわち、楽器300bの演奏音または利用者Ubの発話音が遠端音として放音装置15から放音される。なお、音響信号Xをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。また、音響処理システム100aとは別体で構成された放音装置15が、音響処理システム100aに有線または無線で接続されてもよい。
収音装置14は、周囲の音響を収音することで収音信号Raを生成するマイクロホンである。なお、音響処理システム100aとは別体で構成された収音装置14が、音響処理システム100aに有線または無線で接続されてもよい。
具体的には、収音装置14は、近端の利用者Uaが発音する音響(以下「近端音」という)を収音する。近端音は、楽器300aの演奏音または利用者Uaの発話音である。近端音は、音響処理システム100aから音響処理システム100bに伝達される目的となる音響(目的音)とも換言される。第1実施形態においては、放音装置15による遠端音の放音と収音装置14による近端音の収音とが並列に実行される。
近端音以外の音響も収音装置14には到達する。例えば、放音装置15からの帰還音が収音装置14に到達する。帰還音は、放音装置15による放音後に音響空間の壁面で反射された音響、または放音装置15から収音装置14に直接的に到来する音響である。また、音響空間内に存在する雑音も収音装置14に到達する。雑音は、例えば空調設備の動作音等の定常的な環境雑音である。以上の説明から理解される通り、収音信号Raは、近端音の音響成分を優勢に含むが、近端音以外の音響成分も含む場合がある。
図3は、音響処理システム100aの機能的な構成を例示するブロック図である。音響処理システム100aの制御装置11は、記憶装置12に記憶されたプログラムを実行することで、複数の機能(通信制御部20,再生処理部25,音響処理部30,更新処理部40,判定処理部50および動作制御部60)を実現する。
通信制御部20は、音響処理システム100bから送信された音響信号Xを通信装置13により受信する。再生処理部25は、通信制御部20が受信した音響信号Xに対して例えばイコライジング等の信号処理を実行する。再生処理部25による処理後の音響信号Xが放音装置15に供給される。音響信号Xが放音装置15に供給されることで、利用者Ubの発話音または楽器300bの演奏音が遠端音として放音される。
音響処理部30は、収音装置14が生成する収音信号Raに対して音響処理を実行することで音響信号Yを生成する。通信制御部20は、音響処理部30が生成する音響信号Yを通信装置13から音響処理システム100b(遠端装置)に送信する。第1実施形態の音響処理部30は、エコー抑圧部31と雑音抑圧部32と音量調整部33とを具備する。
エコー抑圧部31は、収音信号Raに対してエコー抑圧処理を実行することで収音信号Rbを生成する。エコー抑圧処理は、収音信号Raに含まれる帰還音(すなわちエコー)を抑圧する信号処理(AEC:Adaptive Echo Canceller)である。すなわち、収音信号Raに含まれる近端音が強調された収音信号Rbが生成される。
図4は、エコー抑圧部31の具体的な構成を例示するブロック図である。第1実施形態のエコー抑圧部31は、適応フィルタ311と減算処理部312とを具備する。適応フィルタ311は、音響信号Xから疑似エコー信号Eを生成する。疑似エコー信号Eは、放音装置15から収音装置14に到達する帰還音を近似する音響信号である。減算処理部312は、収音信号Raから疑似エコー信号Eを減算することで収音信号Rbを生成する。以上の説明から理解される通り、エコー抑圧部31が実行するエコー抑圧処理は、音響信号Xから疑似エコー信号Eを生成する適応フィルタ処理と、収音信号Raから疑似エコー信号Eを減算する減算処理とを含む。
第1実施形態の適応フィルタ311は、複数(N個)の調整部315_1~315_Nと1個の加算部316とを具備するFIR(Finite Impulse Response)フィルタである。第n番目(n=1~N)の調整部315_nには、(n-1)個の遅延部317により遅延された音響信号Xが供給される。調整部315_nは、音響信号Xの音量を係数Cnに応じて調整する。具体的には、調整部315_nは、音響信号Xに係数Cnを乗算する乗算器である。加算部316は、N個の調整部315_1~315_Nによる調整後のN系統の音響信号Xを加算することで疑似エコー信号Eを生成する。N個の係数C1~CNは、疑似エコー信号Eが帰還音に近似するように収音信号Rbに応じて制御される。なお、適応フィルタ311の具体的な構成は図4の例示に限定されない。N個の係数C1~CNに応じて応答特性が変化する適応フィルタ処理を実行可能な構成であれば、公知の任意の構成が適応フィルタ311に採用される。
図3の雑音抑圧部32は、収音信号Rbに対して雑音抑圧処理を実行することで収音信号Rcを生成する。雑音抑圧処理は、収音信号Rbに含まれる雑音成分を抑圧する信号処理である。収音信号Rbに含まれる雑音成分は、例えば空調設備の動作音等の定常的な環境雑音である。雑音抑圧処理は、例えば、収音信号Rbの周波数スペクトルから雑音成分の周波数スペクトル(以下「雑音スペクトル」という)Qを周波数領域において減算するスペクトル減算(SS:Spectral Subtraction)である。具体的には、雑音抑圧処理は、収音信号Rbの周波数スペクトルを算定する周波数解析と、当該周波数スペクトルから雑音スペクトルQを減算する減算処理と、減算後の周波数スペクトルを時間領域の収音信号Rcに変換する波形合成とを含む。雑音スペクトルQは、収音信号Rbに含まれる雑音成分を表すパラメータである。
図3の音量調整部33は、収音信号Rcに対して音量調整処理を実行することで音響信号Yを生成する。音響調整処理は、収音信号Rcの音量に応じたゲインGにより当該収音信号Rcを増幅する信号処理(AGC:Auto Gain Control)である。
以上の説明から理解される通り、第1実施形態の音響処理部30が実行する音響処理は、エコー抑圧処理と雑音抑圧処理と音量調整処理とを含む。音響処理には処理パラメータが適用される。第1実施形態の処理パラメータは、エコー抑圧処理に適用されるN個の係数C1~CNと、雑音抑圧処理に適用される雑音スペクトルQと、音量調整処理に適用されるゲインGとを含む。なお、音響処理に含まれる各処理の順序は以上の例示に限定されない。例えば、雑音抑圧処理および音量調整処理の順番は逆転されてもよい。
更新処理部40は、音響処理部30が音響処理に適用する処理パラメータを音響信号Xまたは収音信号R(Ra~Rc)に応じて更新する。更新処理部40による処理パラメータの更新は、所定の周期で反復される。第1実施形態の更新処理部40は、設定部41と設定部42と設定部43とを具備する。
設定部41は、エコー抑圧処理に適用されるN個の係数C1~CNを更新する。具体的には、設定部41は、疑似エコー信号Eが帰還音に近似するように、音響信号Xと収音信号Raと収音信号Rbとに応じてN個の係数C1~CNの各々を反復的に更新する。
設定部42は、雑音抑圧処理に適用される雑音スペクトルQを収音信号Rbに応じて反復的に更新する。具体的には、設定部42は、近端音および遠端音の双方が無音である期間内における収音信号Rbの周波数スペクトルを雑音スペクトルQとして推定する。なお、設定部42は、収音信号Raに応じて雑音スペクトルQを更新してもよい。
設定部43は、音量調整処理に適用されるゲインGを収音信号Rcの音量に応じて反復的に更新する。具体的には、設定部43は、収音信号Rcの音量が大きいほどゲインGを小さい数値に設定する。なお、設定部43は、収音信号Raまたは収音信号Rbの音量に応じてゲインGを更新してもよい。
図3の判定処理部50は、利用者Uaおよび利用者Ubによる発音の状況を解析する。具体的には、判定処理部50は、音響信号Xが表す遠端音と収音信号R(Ra,RbまたはRc)が表す近端音との各々について、(1)無音である状態と、(2)演奏音を含む状態と、(3)発話音を含む状態と、の何れに該当するかを判定する。近端音が無音である状態とは、近端音の音量が所定の閾値を下回る状態である。近端音が演奏音を含む状態とは、近端音が演奏音のみを含み発話音を含まない状態、または、近端音が演奏音および発話音の双方を含むけれども演奏音の音量が発話音の音量を上回る状態である。同様に、近端音が発話音を含む状態とは、近端音が発話音を含み演奏音を含まない状態、または、近端音が演奏音および発話音の双方を含むけれども発話音の音量が演奏音の音量を上回る状態である。以上の説明では近端音の状態に着目したが、遠端音の状態についても同様に定義される。また、遠端音または近端音において演奏音の音量と発話音の音量とが同等である場合、判定処理部50は、遠端音または近端音が演奏音を含むと判定する。
判定処理部50は、音響信号Xを解析することで遠端音の種類(無音/演奏音/発話音)を判定する。また、判定処理部50は、収音信号Rを解析することで近端音の種類(無音/演奏音/発話音)を判定する。近端音に関する判定には、収音信号Raと収音信号Rbと収音信号Rcとの何れかが利用される。
図5は、判定処理部50の動作(以下「判定処理」という)Saの具体的な手順を例示するフローチャートである。判定処理部50による判定処理Saは、例えば所定の周期で反復される。なお、以下の説明においては、収音信号Rが表す近端音に関する判定処理Saを便宜的に例示するが、音響信号Xが表す遠端音についても同様に判定処理Saが実行される。
判定処理Saが開始されると、判定処理部50は、収音信号Rが表す近端音の音量を算定し(Sa1)、近端音の音量が所定の閾値を上回るか否かを判定する(Sa2)。近端音の音量が閾値を下回る場合(Sa2:NO)、判定処理部50は、近端音の判定データを、無音を表す数値に設定する(Sa3)。判定データは、判定処理部50による判定の結果を表すデータであり、近端音および遠端音の各々について記憶装置12に記憶される
無音の判定に適用される閾値は、例えば、空調設備の動作音等の定常的な雑音の音量を上回り、かつ、有意な演奏音または発話音の音量を下回るように実験的または統計的に設定される。以上の説明から理解される通り、近端音または遠端音が無音である状態とは、雑音すら存在しない完全に無音の状態のほか、雑音が存在する状態も包含する。
他方、近端音の音量が閾値を上回る場合(Sa2:YES)、判定処理部50は、近端音が演奏音を含むか否かを判定する(Sa4)。近端音が演奏音を含むと判定した場合(Sa4:YES)、判定処理部50は、近端音の判定データを、演奏音を表す数値に設定する(Sa5)。他方、近端音が演奏音を含まないと判定した場合(Sa4:NO)、判定処理部50は、近端音の判定データを、発話音を表す数値に設定する(Sa6)。すなわち、近端音の音量が閾値を上回り、かつ、近端音が演奏音を含まない場合、当該近端音は発話音を含むと判定される。
図5に例示した判定処理Saが、音響信号Xが表す遠端音についても同様に実行される。例えば、遠端音の音量が閾値を下回る場合(Sa2:NO)、遠端音の判定データは無音を表す数値に設定される(Sa3)。遠端音が演奏音を含む場合(Sa4:YES)、遠端音の判定データは演奏音を表す数値に設定される(Sa5)。また、遠端音が演奏音を含まない場合(Sa4:NO)、遠端音の判定データは発話音を表す数値に設定される(Sa6)。
近端音が演奏音および発話音の何れを含むかを判定処理部50が判定する処理には、図6に例示される推定モデル51が利用される。推定モデル51は、入力データD1から出力データD2を生成する統計的推定モデルである。具体的には、推定モデル51は、入力データD1と出力データD2との関係を学習した深層ニューラルネットワークである。例えば畳込ニューラルネットワーク(CNN:Convolutional Neural Network)または再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)等の任意の形式の深層ニューラルネットワークが推定モデル51として利用される。
入力データD1は、音響信号Xまたは収音信号Rに応じたデータである。具体的には、音響信号Xが表す遠端音または収音信号Rが表す近端音の音響特性に関する特徴量が、入力データD1として推定モデル51に供給される。遠端音または近端音の特徴量は、例えば音色の特徴を表すMFCC(Mel-Frequency Cepstrum Coefficients)である。ただし、音響信号Xまたは収音信号Rから算定される周波数スペクトルを入力データD1として推定モデル51に供給してもよい。また、音響信号Xまたは収音信号Rを構成するサンプルの時系列を入力データD1として推定モデル51に供給してもよい。出力データD2は、演奏音および発話音の何れかを指定するデータである。なお、近端音が演奏音に該当する確率と発話音に該当する確率とを表す出力データD2を推定モデル51が出力してもよい。
推定モデル51は、入力データD1の入力に対して出力データD2を出力する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えば加重値およびバイアス)との組合せで実現される。推定モデル51を規定する複数の変数は、複数の訓練データを利用した教師あり機械学習により設定される。複数の訓練データの各々は、既知の入力データD1と既知の出力データD2との組合せで構成される。推定モデル51の機械学習においては、各訓練データの入力データD1を暫定的な推定モデル51に入力したときの出力データD2と当該訓練データの出力データD2との誤差が低減されるように、推定モデル51の複数の変数が反復的に更新される。したがって、推定モデル51は、複数の訓練データにおける入力データD1と出力データD2との間に潜在する傾向のもとで、未知の入力データD1に対して統計的に妥当な出力データD2を出力する。
判定処理部50は、音響信号Xに応じた入力データD1を推定モデル51に供給することで、音響信号Xが表す遠端音が演奏音および発話音の何れに該当するかを表す出力データD2を生成する。また、判定処理部50は、収音信号Rに応じた入力データD1を推定モデル51に供給することで、収音信号Rが表す近端音が演奏音および発話音の何れに該当するかを表す出力データD2を生成する。
なお、近端音および遠端音の各々について演奏音および発話音の何れを含むかを判定するための方法は以上の例示に限定されない。例えば、演奏音の特徴量と発話音の特徴量との各々に対して収音信号Rの特徴量を照合し、演奏音および発話音のうち特徴量が近端音に類似するほうが当該近端音に含まれる、と判定処理部50が判定してもよい。同様に、演奏音の特徴量と発話音の特徴量との各々に対して音響信号Xの特徴量を照合し、演奏音および発話音のうち特徴量が遠端音に類似するほうが当該遠端音に含まれる、と判定処理部50が判定してもよい。また、推定モデル51を利用する構成において、推定モデル51は深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計的推定モデルを、推定モデル51として利用してもよい。
図3の動作制御部60は、更新処理部40による処理パラメータの更新を制御する。具体的には、動作制御部60は、判定処理部50による判定の結果に応じて更新処理部40の動作を制御する。第1実施形態の動作制御部60は、更新処理部40の各要素(設定部41,設定部42および設定部43)が処理パラメータを反復的に更新する動作の継続/停止を、判定処理部50による判定の結果に応じて制御する。動作制御部60は、近端音および遠端音の各々について記憶装置12に記憶された判定データを参照することで、判定処理部50による判定の結果を認識する。
図7は、第1実施形態における動作制御部60の動作の説明図である。具体的には、判定処理部50による判定の結果と更新処理部40による更新の実行/停止との関係が図7には例示されている。
近端音および遠端音の双方が無音である状態A1において、動作制御部60は、雑音スペクトルQの更新を設定部42に実行させる。また、状態A1において、動作制御部60は、設定部41による各係数Cnの更新と、設定部43によるゲインGの更新とを停止させる。状態A1における収音信号Raは、例えば空調設備の動作音等の定常的な環境雑音を優勢に含む。したがって、状態A1において雑音スペクトルQが更新されることで、実際の雑音を高精度に表す雑音スペクトルQを生成できる。
近端音が無音であり遠端音が発話音を含む状態A2において、動作制御部60は、各係数Cnの更新を設定部41に実行させる。また、状態A2において、動作制御部60は、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる。以上の処理により、帰還音に高精度に近似する疑似エコー信号Eが生成される。
近端音が発話音を含み遠端音が無音である状態A4において、動作制御部60は、ゲインGの更新を設定部43に実行させる。また、状態A4において、動作制御部60は、設定部41による各係数Cnの更新と、設定部42による雑音スペクトルQの更新とを停止させる。以上の処理により、近端の利用者Uaによる発話音の音量が適切に調整される数値にゲインGが更新される。
近端音および遠端音の一方または双方が演奏音を含む状態(状態A3,A6-A9)、および、近端音および遠端音の双方が発話音を含む状態A5において、動作制御部60は、設定部41による各係数Cnの更新と、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる。すなわち、全部の処理パラメータの更新が停止される。処理パラメータの更新が停止された状態では、直前(すなわち停止前の最後)の更新後の数値に維持された処理パラメータを適用した音響処理が実行される。
図8は、動作制御部60が更新処理部40を制御する動作(以下「制御処理」という)Sbの具体的な手順を例示するフローチャートである。例えば所定の周期で発生する割込を契機として制御処理Sbが開始される。
制御処理Sbが開始されると、動作制御部60は、近端音および遠端音の双方が無音である状態A1に該当するか否かを判定する(Sb11)。状態A1に該当する場合(Sb11:YES)、動作制御部60は、雑音スペクトルQの更新を設定部42に実行させ、設定部41による各係数Cnの更新と、設定部43によるゲインGの更新とを停止させる(Sb12)。
状態A1に該当しない場合(Sb11:NO)、動作制御部60は、近端音が無音であり遠端音が発話音を含む状態A2に該当するか否かを判定する(Sb13)。状態A2に該当する場合(Sb13:YES)、動作制御部60は、各係数Cnの更新を設定部41に実行させ、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる(Sb14)。
状態A2に該当しない場合(Sb13:NO)、動作制御部60は、近端音が発話音を含み遠端音が無音である状態A4に該当するか否かを判定する(Sb15)。状態A4に該当する場合(Sb15:YES)、動作制御部60は、ゲインGの更新を設定部43に実行させ、設定部41による各係数Cnの更新と、設定部42による雑音スペクトルQの更新とを停止させる(Sb16)。
状態A4に該当しない場合には、近端音および遠端音の一方または双方が演奏音を含む状態(状態A3,A6-A9)、または、近端音および遠端音の双方が発話音を含む状態A5であることを意味する。状態A4に該当しない場合(Sb15:NO)、動作制御部60は、設定部41による各係数Cnの更新と、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる(Sb17)。すなわち、近端音および遠端音の少なくとも一方が演奏音を含む場合には、更新処理部40による処理パラメータの更新が停止される。
以上の通り、第1実施形態においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、収音信号R(Ra,Rb,Rc)に対して不適切な音響処理が実行される可能性を低減できる。第1実施形態の効果について以下に詳述する。
近端音が演奏音を含む状態(状態A7-A9)において処理パラメータが変動すると、演奏音の音響特性が変動し、利用者Uaが意図的に演奏音に付与した演奏表現(例えば抑揚)が音響処理により減殺される可能性がある。以上の事情を考慮して、第1実施形態においては、近端音が演奏音を含む状態(状態A7-A9)においては処理パラメータの更新を停止させる。以上の構成によれば、利用者Uaが意図した演奏表現が音響処理により減殺される可能性を低減できる。すなわち、利用者Uaが意図した演奏表現を利用者Ubに正確に伝達できる。
他方、遠端音のみが演奏音を含む状態(近端音は演奏音を含まない状態)では、処理パラメータが変動しても、近端音について演奏表現が減殺されるという前述の問題は発生しない。しかし、以下の理由により、第1実施形態においては、遠端音のみが演奏音を含む場合にも、処理パラメータの更新を停止させる。
適応フィルタ311の各係数Cnは、音響信号Xと収音信号Raとが相互に相関しないことを前提として更新される。したがって、音響信号Xと収音信号Raとが相関する場合には、疑似エコー信号Eが高精度に推定されるように各Cnを適切に更新することは困難である。他方、近端音および遠端音の双方が演奏音を含む場合、利用者Uaと利用者Ubとが共通の楽曲を並列に演奏(すなわち合奏)している可能性が高い。例えば、1個の楽曲を構成する相異なる演奏パートを利用者Uaと利用者Ubとが演奏する状況、または、1個の楽曲の共通の演奏パートを利用者Uaと利用者Ubとが演奏する状況が想定される。利用者Uaと利用者Ubとが共通の楽曲を演奏している場合には、遠端音(利用者Ubによる楽器300bの演奏音)と近端音(利用者Uaによる楽器300aの演奏音)とが音楽的に相互に調和するから、音響信号Xと収音信号Raとは相互に相関する。以上の観点から、近端音および遠端音の双方が演奏音を含む状態(状態A9)では、処理パラメータ(特に各係数Cn)の更新を停止すべきである。
また、遠端音が演奏音に含まれる状態では、当該演奏音が放音装置15から収音装置14に帰還することで、収音信号Raには遠端音の演奏音が含まれる結果となる。したがって、判定処理部50が音響信号Xおよび収音信号Rを解析する構成においては、近端音および遠端音の一方または双方に演奏音が含まれることは高精度に判定できるものの、近端音および遠端音の一方が演奏音を含み他方が演奏音を含まない状態(状態A3,A6-A8)を高精度に判定することは困難である。すなわち、近端音および遠端音の何れに演奏音が含まれるのかを高精度に特定すること(状態A3および状態A6-A8を状態A9と区別すること)は、実際には困難である。以上の事情を考慮して、第1実施形態においては、近端音および遠端音の双方が演奏音を含む場合(状態A9)に加えて、近端音および遠端音の一方のみが演奏音を含む場合(状態A3,A6-A8)にも、処理パラメータの更新を停止する。以上の構成によれば、近端音と遠端音との相関に起因して処理パラメータが不適切な数値に更新される可能性が低減される。
B:第2実施形態
第2実施形態について説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態について説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図9は、第2実施形態における音響処理システム100aの機能的な構成を例示するブロック図である。第2実施形態の収音装置14は、複数(M個)の収音部14_1~14_Mを含むマイクロホンアレイである。M個の収音部14_1~14_Mは、相互に間隔をあけて直線状または行列状に配列される。第m番目(m=1~M)の収音部14_mは、周囲の音響を収音することで収音信号Ra_mを生成するマイクロホンである。具体的には、各収音部14_mは、楽器300aの演奏音または利用者Uaの発話音を近端音として収音する。
第2実施形態の音響処理部30においては、第1実施形態のエコー抑圧部31がビーム形成部34に置換される。音響処理部30のうち雑音抑圧部32および音量調整部33の構成および動作は第1実施形態と同様である。また、第2実施形態の更新処理部40においては、第1実施形態の設定部41が設定部44に置換される。更新処理部40のうち設定部42および設定部43の構成および動作は第1実施形態と同様である。
図9のビーム形成部34は、相異なる収音部14_mが生成するM系統の収音信号Ra_1~Qa_Mに対してビーム形成処理を実行することで収音信号Rbを生成する。ビーム形成処理は、複数の係数Wを適用したフィルタ処理である。
具体的には、ビーム形成処理は、近端音が到来する方向に指向する収音ビームを形成する信号処理を含む。収音ビームは、収音感度が高い局所的な範囲である。すなわち、ビーム形成部34は、楽器300aまたは利用者Uaの方向に収音ビームを指向させることで、楽器300aの演奏音または利用者Uaによる発話音が強調された収音信号Rbを生成する。また、第2実施形態のビーム形成処理は、遠端音が到来する方向に収音死角を形成する信号処理を含む。収音死角は、収音感度が低い局所的な範囲である。具体的には、第2実施形態のビーム形成部34は、放音装置15の方向に収音死角を指向させることで、放音装置15から収音装置14に到達する帰還音が抑圧された収音信号Rbを生成する。
更新処理部40の設定部44は、ビーム形成処理に適用される複数の係数Wを更新する。具体的には、近端音が到来する方向に収音ビームが指向し、遠端音が到来する方向に収音死角が指向するように、設定部44は複数の係数Wを反復的に更新する。ビーム形成処理に適用される複数の係数Wは、音響信号Xと収音信号Raとが相互に相関しないことを前提として更新される。
図10は、設定部44の具体的な構成を例示するブロック図である。設定部44は、第1解析部441と第2解析部442と係数設定部443とを具備する。第1解析部441は、遠端音を表す音響信号Xと近端音を表すM系統の収音信号Ra_1~Qa_Mとを解析することで、当該遠端音が到来する方向θ1(すなわち遠端音の発音源である放音装置15の方向)を推定する。第2解析部442は、近端音を表すM系統の収音信号Ra_1~Qa_Mを解析することで、当該近端音が到来する方向θ2を推定する。方向θ1および方向θ2の推定は反復される。すなわち、第1解析部441は方向θ1を反復的に更新し、第2解析部442は方向θ2を反復的に更新する。係数設定部443は、第1解析部441が推定した方向θ1と第2解析部442が推定した方向θ2とに応じて複数の係数Wを設定する。すなわち、係数設定部443は、遠端音の方向θ1に収音死角が形成され、かつ、近端音の方向θ2に収音ビームが形成されるように、複数の係数Wを設定する。
図11は、第2実施形態における動作制御部60の動作の説明図である。具体的には、判定処理部50による判定の結果と更新処理部40による更新の実行/停止との関係が図11には例示されている。
近端音および遠端音の双方が無音である状態B1において、動作制御部60は、第1実施形態と同様に、雑音スペクトルQの更新を設定部42に実行させる。また、状態B1において、動作制御部60は、設定部44による各係数Wの更新と、設定部43によるゲインGの更新とを停止させる。したがって、例えば空調設備の動作音等の定常的な環境雑音を表す雑音スペクトルQが高精度に推定される。
近端音が無音であり遠端音が発話音を含む状態B2において、動作制御部60は、遠端音が到来する方向θ1の更新を第1解析部441に実行させる。また、状態B2において、動作制御部60は、第2解析部442による方向θ2の更新と、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる。以上の動作により、遠端音が到来する方向θ1が高精度に推定される。方向θ1の更新に連動して複数の係数Wも更新される。
近端音が発話音を含み遠端音が無音である状態B4において、動作制御部60は、第2解析部442による方向θ2の更新と、設定部43によるゲインGの更新とを実行させる。また、状態B4において、動作制御部60は、設定部42による雑音スペクトルQの更新を停止させる。以上の動作により、近端音が到来する方向θ2が高精度に推定される。方向θ2の更新に連動して複数の係数Wも更新される。また、近端の利用者Uaによる発話音の音量を適切に調整可能な数値にゲインGが更新される。
近端音および遠端音の一方または双方が演奏音を含む状態(状態B3,B6-B9)、および、近端音および遠端音の双方が発話音を含む状態B5において、動作制御部60は、第1解析部441による方向θ1の更新と、第2解析部442による方向θ2の更新とを停止させる。すなわち、設定部44による複数の係数Wの更新が停止される。また、以上の状態(状態B3,B5-B9)において、動作制御部60は、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる。すなわち、全部の処理パラメータの更新が停止される。処理パラメータの更新が停止された状態では、直前の更新後の数値に維持された処理パラメータを適用した音響処理が実行される。
図12は、第2実施形態における制御処理Sbの具体的な手順を例示するフローチャートである。例えば所定の周期で発生する割込を契機として制御処理Sbが開始される。
制御処理Sbが開始されると、動作制御部60は、近端音および遠端音の双方が無音である状態B1に該当するか否かを判定する(Sb21)。状態B1に該当する場合(Sb21:YES)、動作制御部60は、雑音スペクトルQの更新を設定部42に実行させ、第1解析部441による方向θ1の更新と、第2解析部442による方向θ2の更新と、設定部43によるゲインGの更新とを停止させる(Sb22)。
状態B1に該当しない場合(Sb21:NO)、動作制御部60は、近端音が無音であり遠端音が発話音を含む状態B2に該当するか否かを判定する(Sb23)。状態B2に該当する場合(Sb23:YES)、動作制御部60は、遠端音が到来する方向θ1の更新を第1解析部441に実行させ、第2解析部442による方向θ2の更新と、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる(Sb24)。第1解析部441による方向θ1の更新に連動して複数の係数Wは更新される。
状態B2に該当しない場合(Sb23:NO)、動作制御部60は、近端音が発話音を含み遠端音が無音である状態B4に該当するか否かを判定する(Sb25)。状態B4に該当する場合(Sb25:YES)、動作制御部60は、第2解析部442による方向θ2の更新と、設定部43によるゲインGの更新とを実行させ、第1解析部441による方向θ1の更新と、設定部42による雑音スペクトルQの更新を停止させる(Sb26)。第2解析部442による方向θ2の更新に連動して複数の係数Wは更新される。また、近端の利用者Uaによる発話音の音量を適切に調整可能な数値にゲインGが更新される。
状態B4に該当しない場合には、近端音および遠端音の一方または双方が演奏音を含む状態(状態B3,B6-B9)、または、近端音および遠端音の双方が発話音を含む状態B5であることを意味する。状態B4に該当しない場合(Sb25:NO)、動作制御部60は、第1解析部441による方向θ1の更新と、第2解析部442による方向θ2の更新と、設定部42による雑音スペクトルQの更新と、設定部43によるゲインGの更新とを停止させる(Sb27)。したがって、複数の係数Wの更新は停止される。すなわち、近端音および遠端音の少なくとも一方が演奏音を含む場合には、更新処理部40による処理パラメータの更新が停止される。
以上の通り、第2実施形態においても、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、第1実施形態と同様に、収音信号R(Ra,Rb,Rc)に対して不適切な音響処理が実行される可能性を低減できる。
C:第3実施形態
図13は、第3実施形態における音響処理部30の構成を例示するブロック図である。第3実施形態の音響処理部30は、第1実施形態と同様の要素(エコー抑圧部31,雑音抑圧部32および音量調整部33)に非線形処理部35を追加した構成である。
図13は、第3実施形態における音響処理部30の構成を例示するブロック図である。第3実施形態の音響処理部30は、第1実施形態と同様の要素(エコー抑圧部31,雑音抑圧部32および音量調整部33)に非線形処理部35を追加した構成である。
非線形処理部35は、エコー抑圧部31による処理後の収音信号Rb1(第1実施形態における収音信号Rb)に対して非線形処理を実行することで収音信号Rb2を生成する。非線形処理は、周波数軸上の相異なる周波数帯域に対応する複数のゲインで構成される周波数マスクを収音信号Rb1の周波数スペクトルに乗算する信号処理である。周波数マスクは、収音信号Rb1の音響特性に応じて反復的に更新される。具体的には、周波数マスクは、複数の周波数帯域のうち帰還音が残留する各周波数帯域のゲインが第1値(例えば0)に設定され、残余の各周波数帯域のゲインが第1値を上回る第2値(例えば1)に設定されたバイナリマスクである。以上の説明から理解される通り、エコー抑圧処理後に収音信号Rb1に残留する帰還音の音響成分が非線形処理により低減される。雑音抑圧部32およ音量調整部33の構成および動作は第1実施形態と同様である。なお、非線形処理と雑音抑圧処理と音量調整処理との順番は、図13の例示に限定されず任意に変更される。
また、第3実施形態の音響処理システム100aにおける制御装置11は、記憶装置12に記憶されたプログラムを実行することで、第1実施形態と同様の要素(通信制御部20,再生処理部25,音響処理部30,更新処理部40,判定処理部50および動作制御部60)に加えて遅延測定部55を実現する。遅延測定部55は、音響処理システム100aと音響処理システム100bとの間の通信遅延Lを測定する。通信遅延Lは、例えば、音響処理システム100aと音響処理システム100bの一方から送信された信号が他方に受信されるまでの所要時間である。通信遅延Lの測定には公知の技術が任意に採用される。
第4実施形態の動作制御部60は、通信遅延Lに応じて音響処理部30の動作を制御する。具体的には、動作制御部60は、応答速度Z1および応答速度Z2を通信遅延Lに応じて制御する。応答速度Z1は、適応フィルタ311に適用されるN個の係数C1~CNが音響信号Xおよび収音信号Rの変化に連動する速度の指標である。具体的には、応答速度Z1が高いほど、音響信号Xおよび収音信号Rの音響特性の変化に対して敏感に追従するようにN個の係数C1~CNが更新される。他方、応答速度Z2は、非線形処理に適用される周波数マスクが収音信号Rb1の変化に連動する速度の指標である。具体的には、応答速度Z2が高いほど、収音信号Rb1の音響特性の変化に対して敏感に追従するように周波数マスクが更新される。
通信遅延Lが充分に小さい状況では、放音装置15から収音装置14に到達する帰還音は、利用者Ubによる近端音の聴取にとって特段の問題とならない。以上の事情を考慮して、動作制御部60は、通信遅延Lが小さいほど、応答速度Z1および応答速度Z2を低下させる。すなわち、通信遅延Lが小さい状況では、N個の係数C1~CNおよび周波数マスクの経時的な変化が抑制される。具体的には、音響信号Xまたは収音信号Rb1の音響特性の変化に対する各係数Cnおよび周波数マスクの変化が抑制される。
他方、通信遅延Lが大きい状況では帰還音が顕在化する傾向がある。以上の事情を考慮して、動作制御部60は、通信遅延Lが大きいほど、応答速度Z1および応答速度Z2を上昇させる。すなわち、通信遅延Lが大きい状況では、音響信号Xまたは収音信号Rb1の音響特性の変化に対して各係数Cnおよび周波数マスクが敏感かつ迅速に変化する。
以上に説明した通り、第3実施形態においては、適応フィルタ311に適用されるN個の係数C1~CNの応答速度Z1が通信遅延Lに応じて制御される。したがって、収音装置14が収音する帰還音の低減のために適度なエコー抑圧処理を、収音信号Raに対して実行できる。また、第3実施形態においては、非線形処理に適用される周波数マスクの応答速度Z2とが通信遅延Lに応じて制御される。したがって、収音装置14が収音する帰還音の低減のために適度な非線形処理を、収音信号Rb1に対して実行できる。
なお、図13においては、エコー抑圧部31を具備する第1実施形態の構成を基礎とした形態を例示したが、ビーム形成部34を具備する第2実施形態の構成にも、第3実施形態の構成は適用される。
D:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)音響処理部30の具体的な構成は、前述の各形態において例示した構成に限定されない。例えば、前述の各形態において音響処理部30に含まれる各要素(エコー抑圧部31,雑音抑圧部32,音量調整部33,ビーム形成部34および非線形処理部35)の一部は省略されてもよい。
(2)前述の各形態においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新を停止したが、処理パラメータの更新を停止することまでは必須ではない。例えば、動作制御部60は、処理パラメータの更新の速度(以下「更新速度」という)を演奏音の有無に応じて制御してもよい。更新速度は、処理パラメータが更新される速度に関する指標であり、具体的には更新頻度と更新割合とを包含する。更新頻度は、単位時間内における処理パラメータの更新の回数を意味する。更新頻度の一例は、処理パラメータの更新の周期とも換言される。なお、前述の各形態は、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新頻度をゼロに設定する構成とも表現される。
他方、更新割合は、更新処理部40による更新毎に処理パラメータの数値が変化する度合の指標である。例えば、処理パラメータの最新の数値Pnewと過去(例えば直前)の処理パラメータPoldとを利用した下記の数式(1)の演算(すなわち指数移動平均)により、更新処理部40が更新後の処理パラメータPnextを算定する形態を想定する。記号αは、所定の係数であり、1以下の非負値(0≦α≦1)に設定される。
Pnext=(1-α)・Pold+α・Pnew (1)
係数αが大きいほど、更新後の処理パラメータPnextに対する最新の数値Pnewの影響が相対的に増加し、係数αが小さいほど、更新後の処理パラメータPnextに対する過去の処理パラメータPoldの影響が相対的に増加する。すなわち、係数αが大きいほど、音響信号Xまたは収音信号R(Ra~Rc)の変化に対して更新後の処理パラメータPnextが敏感に変化する。以上の説明から理解される通り、係数αは、処理パラメータPnextの更新割合(すなわち、音響信号Xまたは収音信号Rの変化に対する処理パラメータの変化の度合)を表す指標である。
Pnext=(1-α)・Pold+α・Pnew (1)
係数αが大きいほど、更新後の処理パラメータPnextに対する最新の数値Pnewの影響が相対的に増加し、係数αが小さいほど、更新後の処理パラメータPnextに対する過去の処理パラメータPoldの影響が相対的に増加する。すなわち、係数αが大きいほど、音響信号Xまたは収音信号R(Ra~Rc)の変化に対して更新後の処理パラメータPnextが敏感に変化する。以上の説明から理解される通り、係数αは、処理パラメータPnextの更新割合(すなわち、音響信号Xまたは収音信号Rの変化に対する処理パラメータの変化の度合)を表す指標である。
動作制御部60は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新速度と、近端音および遠端音の双方が演奏音を含まない場合における更新速度とを相違させる。具体的には、動作制御部60は、近端音および遠端音の少なくとも一方が演奏音を含む場合に、演奏音を含まない場合と比較して処理パラメータの更新速度を低下させる。例えば、動作制御部60は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新頻度を、演奏音を含まない場合における更新頻度よりも小さい数値に設定する。また、動作制御部60は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新割合(例えば係数α)を、演奏音を含まない場合における更新割合よりも小さい数値に設定する。以上の構成においても、近端音および遠端音の少なくとも一方が演奏音を含むか否かを区別せずに処理パラメータを更新する構成と比較すれば、音響処理に適用される処理パラメータを適切に制御できるという所期の効果は実現される。なお、以上の説明においては、近端音および遠端音の少なくとも一方が演奏音を含む場合の更新速度が、演奏音を含まない場合の更新速度を下回る形態を例示した。しかし、近端音および遠端音の少なくとも一方が演奏音を含む場合の更新速度が、演奏音を含まない場合の更新速度を上回る形態も想定される。
(3)第1実施形態においてはエコー抑圧部31を具備する音響処理部30を例示し、第2実施形態においてはビーム形成部34を具備する音響処理部30を例示したが、音響処理部30がエコー抑圧部31およびビーム形成部34の双方を具備する構成も想定される。例えば、M個の収音部14_1~14_Mの各々についてエコー抑圧部31が設置される。ビーム形成部34は、相異なるエコー抑圧部31が生成するM系統の収音信号Ra_1~Ra_Mから収音信号Rbを生成する。
(4)前述の各形態においては、利用者Uaの音響処理システム100aが利用者Ubの音響処理システム100bと通信する構成を例示したが、音響処理システム100aが複数の音響処理システム100bと通信する状況においても前述の各形態が同様に適用される。例えば、指導者である1人の利用者Uaが複数の利用者Ubを指導する場面が想定される。以上の場面においては、複数の利用者Ubが発音した演奏音または発話音の混合音を表す音響信号Xが音響処理システム100aの通信装置13により受信される。以上の構成においても、前述の各形態と同様に、音響信号Xの遠端音と収音信号Raの近端音との双方が演奏音を含む場合に、音響処理に適用される処理パラメータの更新が停止される。
(5)以上に例示した音響処理システム100aの機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(態様1)に係る音響処理方法は、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音し、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、前記第2音響信号を前記遠端装置に送信し、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、収音信号に対して不適切な音響処理が実行される可能性を低減できる。
「近端音」は、遠端装置に伝達される目的となる音響であり、利用者が発音する発話音または演奏音を含む。発話音は、言語を表現する音声である。発話音の典型例は、例えば他の利用者との会話音であるが、会話を構成せずに一方的に発話される音声(例えば音楽教習における指導音声)も発話音には包含される。演奏音は、音楽を表現する音響を意味する。演奏音の典型例は、例えば利用者による演奏で楽器から発音される楽器音であるが、利用者による歌唱で発音される歌唱音も、音楽的な音響という意味で演奏音の概念に包含される。すなわち、本明細における「演奏」は、楽器の演奏(狭義の演奏)のほかに楽曲の歌唱も包含する。
近端音が「演奏音を含む場合」とは、近端音が演奏音のみを含む場合(発話音を含まない場合)、および、近端音が発話音および演奏音の双方を含むが演奏音の音量が発話音の音量を上回る場合、を包含する。遠端音についても同様である。すなわち、遠端音が「演奏音を含む場合」とは、遠端音が演奏音のみを含む場合(発話音を含まない場合)、および、遠端音が発話音および演奏音の双方を含むが演奏音の音量が発話音の音量を上回る場合、を包含する。
本開示の他の態様(態様2)に係る音響処理方法は、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音し、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、前記第2音響信号を前記遠端装置に送信し、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合と演奏音を含まない場合とで処理パラメータの更新速度が相違する。したがって、収音信号に対して不適切な音響処理が実行される可能性を低減できる。
更新速度は、処理パラメータの数値が更新により変化する速度を意味する。例えば更新頻度および更新割合が、更新速度の概念に包含される。更新頻度は、単位時間内における処理パラメータの更新の回数を意味する。他方、更新割合は、処理パラメータが更新毎に変化する度合を意味する。
態様2の具体例(態様3)において、前記更新速度は、単位時間内における更新の回数である更新頻度であり、前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新頻度を、前記演奏音を含まない場合と比較して低下させる。以上の構成によれば、収音信号に対して不適切な音響処理が実行される可能性を低減できる。
態様2の具体例(態様4)において、前記更新速度は、前記処理パラメータが更新毎に変化する度合である更新割合であり、前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新割合を、前記演奏音を含まない場合と比較して低下させる。以上の構成によれば、収音信号に対して不適切な音響処理が実行される可能性を低減できる。
態様1から態様4の何れかの具体例(態様5)において、前記音響処理は、前記放音装置から前記収音装置に到達する帰還音を近似する疑似エコー信号を前記収音信号から抑圧するエコー抑圧処理を含む。以上の態様によれば、放音装置から収音装置に到達する帰還音の影響が低減された第2音響信号を遠端装置に送信できる。
態様5の具体例(態様6)において、前記エコー抑圧処理は、前記疑似エコー信号を前記第1音響信号から生成する適応フィルタ処理と、前記収音信号から前記疑似エコー信号を減算する減算処理とを含み、前記処理パラメータは、前記適応フィルタ処理に適用される複数の係数を含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、適応フィルタ処理に適用される複数の係数の更新が停止される。したがって、収音信号に含まれる帰還音を適切に抑圧できる。
態様1から態様6の何れかの具体例(態様7)において、前記音響処理は、前記近端音が到来する方向に指向する収音ビームを形成するビーム形成処理を含み、前記処理パラメータは、前記収音ビーム形成に適用される複数の係数を含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、適ビーム形成処理に適用される複数の係数の更新が停止される。したがって、収音信号に含まれる帰還音を適切に抑圧できる。
態様1から態様7の何れかの具体例(態様8)において、前記音響処理は、前記収音信号の音量に応じたゲインにより当該収音信号を増幅する音量調整処理を含み、前記処理パラメータは、前記ゲインを含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、音量調整処理に適用されるゲインの更新が停止される。したがって、収音信号の音量を適切に調整できる。
態様1から態様8の何れかの具体例(態様9)において、前記音響処理は、前記収音信号に含まれる雑音成分を抑圧する雑音抑圧処理を含み、前記処理パラメータは、前記雑音成分を表すパラメータを含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、雑音抑圧処理において収音信号から抑圧される雑音成分を表すパラメータの更新が停止される。したがって、収音信号の雑音成分を適切に抑圧できる。
本開示のひとつの態様(態様10)に係る音響処理システムは、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、前記第2音響信号を前記遠端装置に送信する通信制御部と、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部とを具備する。
本開示の他の態様(態様11)に係る音響処理システムは、第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、前記第2音響信号を前記遠端装置に送信する通信制御部と、前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部とを具備する。
1…通信システム、100a,100b…音響処理システム、200…通信網、300a,300b…楽器、11…制御装置、12…記憶装置、13…通信装置、14…収音装置、15…放音装置、20…通信制御部、25…再生処理部、30…音響処理部、31…エコー抑圧部、311…適応フィルタ、312…減算処理部、32…雑音抑圧部、33…音量調整部、34…ビーム形成部、35…非線形処理部、40…更新処理部、41~44…設定部、50…判定処理部、55…遅延測定部、60…動作制御部。
Claims (11)
- 第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、
前記第1音響信号が表す前記遠端音を放音装置により放音し、
近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、
前記第2音響信号を前記遠端装置に送信し、
前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する
コンピュータにより実現される音響処理方法。 - 第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、
前記第1音響信号が表す前記遠端音を放音装置により放音し、
近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成し、
前記第2音響信号を前記遠端装置に送信し、
前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新し、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する
コンピュータにより実現される音響処理方法。 - 前記更新速度は、単位時間内における更新の回数である更新頻度であり、
前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新頻度を、前記演奏音を含まない場合と比較して低下させる
請求項2の音響処理方法。 - 前記更新速度は、前記処理パラメータが更新毎に変化する度合である更新割合であり、
前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新割合を、前記演奏音を含まない場合と比較して低下させる
請求項2の音響処理方法。 - 前記音響処理は、前記放音装置から前記収音装置に到達する帰還音を近似する疑似エコー信号を前記収音信号から抑圧するエコー抑圧処理を含む
請求項1から請求項4の何れかの音響処理方法。 - 前記エコー抑圧処理は、
前記疑似エコー信号を前記第1音響信号から生成する適応フィルタ処理と、
前記収音信号から前記疑似エコー信号を減算する減算処理と
を含み、
前記処理パラメータは、前記適応フィルタ処理に適用される複数の係数を含む
請求項5の音響処理方法。 - 前記音響処理は、前記近端音が到来する方向に指向する収音ビームを形成するビーム形成処理を含み、
前記処理パラメータは、前記収音ビーム形成に適用される複数の係数を含む
請求項1から請求項6の何れかの音響処理方法。 - 前記音響処理は、前記収音信号の音量に応じたゲインにより当該収音信号を増幅する音量調整処理を含み、
前記処理パラメータは、前記ゲインを含む
請求項1から請求項7の何れかの音響処理方法。 - 前記音響処理は、前記収音信号に含まれる雑音成分を抑圧する雑音抑圧処理を含み、
前記処理パラメータは、前記雑音成分を表すパラメータを含む
請求項1から請求項8の何れかの音響処理方法。 - 第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、
近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、
前記第2音響信号を前記遠端装置に送信する通信制御部と、
前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部と
を具備する音響処理システム。 - 第1利用者が発音する遠端音を表す第1音響信号を遠端装置から受信し、前記第1音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、
近端の第2利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第2音響信号を生成する音響処理部と、
前記第2音響信号を前記遠端装置に送信する通信制御部と、
前記第1音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部と
を具備する音響処理システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167568A JP2022059767A (ja) | 2020-10-02 | 2020-10-02 | 音響処理方法および音響処理システム |
CN202180065554.8A CN116325793A (zh) | 2020-10-02 | 2021-09-27 | 音响处理方法及音响处理系统 |
PCT/JP2021/035273 WO2022071188A1 (ja) | 2020-10-02 | 2021-09-27 | 音響処理方法および音響処理システム |
US18/193,713 US20230262388A1 (en) | 2020-10-02 | 2023-03-31 | Sound processing method, and sound processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167568A JP2022059767A (ja) | 2020-10-02 | 2020-10-02 | 音響処理方法および音響処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022059767A true JP2022059767A (ja) | 2022-04-14 |
JP2022059767A5 JP2022059767A5 (ja) | 2023-04-12 |
Family
ID=80949153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020167568A Pending JP2022059767A (ja) | 2020-10-02 | 2020-10-02 | 音響処理方法および音響処理システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230262388A1 (ja) |
JP (1) | JP2022059767A (ja) |
CN (1) | CN116325793A (ja) |
WO (1) | WO2022071188A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4930015B2 (ja) * | 2006-11-29 | 2012-05-09 | ヤマハ株式会社 | 音響装置 |
US20080170712A1 (en) * | 2007-01-16 | 2008-07-17 | Phonic Ear Inc. | Sound amplification system |
JP5424936B2 (ja) * | 2010-02-24 | 2014-02-26 | パナソニック株式会社 | 通信端末及び通信方法 |
JP2015132695A (ja) * | 2014-01-10 | 2015-07-23 | ヤマハ株式会社 | 演奏情報伝達方法、演奏情報伝達システム |
-
2020
- 2020-10-02 JP JP2020167568A patent/JP2022059767A/ja active Pending
-
2021
- 2021-09-27 CN CN202180065554.8A patent/CN116325793A/zh active Pending
- 2021-09-27 WO PCT/JP2021/035273 patent/WO2022071188A1/ja active Application Filing
-
2023
- 2023-03-31 US US18/193,713 patent/US20230262388A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230262388A1 (en) | 2023-08-17 |
CN116325793A (zh) | 2023-06-23 |
WO2022071188A1 (ja) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348595B2 (en) | Voice interface and vocal entertainment system | |
CN106664473B (zh) | 信息处理装置、信息处理方法和程序 | |
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
US5757937A (en) | Acoustic noise suppressor | |
JP5000647B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
JP2004507141A (ja) | 音声強調システム | |
CN1545368A (zh) | 声音处理装置和方法 | |
US20160163327A1 (en) | Automatic timbre control | |
KR100758066B1 (ko) | 하울링 캔슬러를 구비한 확성 장치 | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
WO2022071188A1 (ja) | 音響処理方法および音響処理システム | |
JP6925995B2 (ja) | 信号処理装置、音声強調装置、信号処理方法およびプログラム | |
JP2009276365A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法 | |
JP4173462B2 (ja) | マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム | |
JP2021001949A (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
JP4367328B2 (ja) | ハウリングキャンセラ | |
WO2021060251A1 (ja) | 音響処理方法および音響処理システム | |
JP6721010B2 (ja) | 機械学習方法および機械学習装置 | |
JP5562451B1 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
CN112133320A (zh) | 语音处理装置及语音处理方法 | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
Eklund et al. | Noise, Device and Room Robustness Methods for Pronunciation Error Detection | |
JP2021057711A (ja) | 音響処理方法、音響処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230404 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240924 |