JP6646677B2 - 音声信号処理方法および装置 - Google Patents
音声信号処理方法および装置 Download PDFInfo
- Publication number
- JP6646677B2 JP6646677B2 JP2017544147A JP2017544147A JP6646677B2 JP 6646677 B2 JP6646677 B2 JP 6646677B2 JP 2017544147 A JP2017544147 A JP 2017544147A JP 2017544147 A JP2017544147 A JP 2017544147A JP 6646677 B2 JP6646677 B2 JP 6646677B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio
- output
- input
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 34
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000012545 processing Methods 0.000 claims description 65
- 238000000926 separation method Methods 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 description 20
- 238000005070 sampling Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000005314 correlation function Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
101 音声信号処理装置100の中央演算装置
102 音声信号処理装置100のメモリ
103 音声信号処理装置100の記憶媒体
104 音声信号処理装置100の通信制御装置
110 音声入出力デバイス1
111 音声入出力デバイス1(110)のマイク
112 音声入出力デバイス1(110)のスピーカ
120 音声入出力デバイス2
121 音声入出力デバイス2(120)のマイク
122 音声入出力デバイス2(120)のスピーカ
401 時間シフト量計算部
402 データ送受信部
403 信号分離部
404 分離性能評価部
405 サンプリングミスマッチ計算部
406 後段処理部
411 音声入出力デバイス1(110)におけるデータ送受信部
412 音声入出力デバイス1(110)におけるA/D変換部
413 音声入出力デバイス1(110)におけるD/A変換部
421 音声入出力デバイス2(120)におけるデータ送受信部
422 音声入出力デバイス2(120)におけるA/D変換部
423 音声入出力デバイス2(120)におけるD/A変換部
Claims (10)
- それぞれがマイクとスピーカを備える複数の音声入出力デバイスを含むシステムにおける音声信号処理方法であって、
前記複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を出力し、
前記異なる周波数の参照信号に応じて前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号とから、前記音声入出力デバイスごとの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離し、
前記分離したマイク入力信号である分離された音声信号を出力する
ことを特徴とする音声信号処理方法。 - 前記分離された音声信号から分離性能を評価し、
前記評価された分離性能が閾値を超えている場合、前記分離されたマイク入力信号と、前記複数の音声入出力デバイスのスピーカ出力信号から、それらの信号どうしの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、各マイク入力信号の分離を行う
ことを特徴とする請求項1記載の音声信号処理方法。 - 前記分離された音声信号から分離性能を評価し、
前記評価された分離性能が閾値以下の場合、前記複数の音声入出力デバイスに、それぞれ異なる周波数の参照信号を再度送信する
ことを特徴とする請求項1記載の音声信号処理方法。 - 前記分離性能を、前記分離された音声信号間の類似度あるいは相関係数を用いて評価する
ことを特徴とする請求項2記載の音声信号処理方法。 - 前記参照信号は、非可聴域の信号である
ことを特徴とする請求項1記載の音声信号処理方法。 - 前記複数の音声入出力デバイスのスピーカから所定間隔で非可聴域の音が出力され、
前記スピーカから非可聴域の音が出力されたときに、前記音声入出力デバイスごとの時間シフト量を算出する
ことを特徴とする請求項5記載の音声信号処理方法。 - それぞれがマイクとスピーカを含む複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を送信するとともに、前記複数の音声入出力デバイスのスピーカが出力した音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を受信するデータ送受信部と、
前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号に基づいて、前記音声入出力デバイスごとの時間シフト量を算出する時間シフト量計算部と、
前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離する信号分離部と
を備え、
前記データ送受信部は、前記分離されたマイク入力信号である分離された音声信号を前記複数の音声入出力デバイスに送信することを特徴とする音声信号処理装置。 - 前記参照信号は、非可聴域の信号である
ことを特徴とする請求項7記載の音声信号処理装置。 - 前記時間シフト量計算部は、前記スピーカ出力信号と前記マイク入力信号とに基づいて、前記音声入出力デバイスごとの時間シフト量を所定の間隔で算出する
ことを特徴とする請求項8記載の音声信号処理装置。 - マイクとスピーカを含む音声入出力デバイスを複数備えるシステムにおける音声信号処理方法であって、
前記音声入出力デバイスに含まれるマイクとスピーカは非同期であり、
前記複数のマイクは非同期であり、
前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号とに基づいて、前記マイクとスピーカの時間シフト量を計算し、
前記計算結果に基づいて、前記マイク入力信号を分離する
ことを特徴とする音声信号処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/078708 WO2017061023A1 (ja) | 2015-10-09 | 2015-10-09 | 音声信号処理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017061023A1 JPWO2017061023A1 (ja) | 2018-07-19 |
JP6646677B2 true JP6646677B2 (ja) | 2020-02-14 |
Family
ID=58488262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017544147A Active JP6646677B2 (ja) | 2015-10-09 | 2015-10-09 | 音声信号処理方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10629222B2 (ja) |
JP (1) | JP6646677B2 (ja) |
WO (1) | WO2017061023A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572721B2 (en) * | 2010-08-09 | 2020-02-25 | Nike, Inc. | Monitoring fitness using a mobile device |
CN111383655B (zh) * | 2018-12-29 | 2023-08-04 | 嘉楠明芯(北京)科技有限公司 | 一种波束形成方法、装置及计算机可读存储介质 |
US11539960B2 (en) | 2019-10-01 | 2022-12-27 | Sony Interactive Entertainment Inc. | Game application providing scene change hint for encoding at a cloud gaming server |
US10974142B1 (en) | 2019-10-01 | 2021-04-13 | Sony Interactive Entertainment Inc. | Synchronization and offset of VSYNC between cloud gaming server and client |
US11446572B2 (en) | 2019-10-01 | 2022-09-20 | Sony Interactive Entertainment Inc. | Early scan-out of server display buffer at flip-time for cloud gaming applications |
US11524230B2 (en) | 2019-10-01 | 2022-12-13 | Sony Interactive Entertainment Inc. | Encoder tuning to improve tradeoffs between latency and video quality in cloud gaming applications |
US11865434B2 (en) | 2019-10-01 | 2024-01-09 | Sony Interactive Entertainment Inc. | Reducing latency in cloud gaming applications by overlapping receive and decode of video frames and their display at the client |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3956730B2 (ja) | 2002-03-15 | 2007-08-08 | 富士ゼロックス株式会社 | 言語処理装置 |
JP2006148880A (ja) | 2004-10-20 | 2006-06-08 | Matsushita Electric Ind Co Ltd | マルチチャネル音声再生装置、およびマルチチャネル音声調整方法 |
US20060083391A1 (en) * | 2004-10-20 | 2006-04-20 | Ikuoh Nishida | Multichannel sound reproduction apparatus and multichannel sound adjustment method |
JP2010212818A (ja) | 2009-03-08 | 2010-09-24 | Univ Of Tokyo | 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 |
EP2375779A3 (en) * | 2010-03-31 | 2012-01-18 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for measuring a plurality of loudspeakers and microphone array |
JP5289517B2 (ja) | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
JP5726790B2 (ja) | 2012-03-09 | 2015-06-03 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
US9173023B2 (en) * | 2012-09-25 | 2015-10-27 | Intel Corporation | Multiple device noise reduction microphone array |
JP6253226B2 (ja) | 2012-10-29 | 2017-12-27 | 三菱電機株式会社 | 音源分離装置 |
JP6278294B2 (ja) | 2013-03-11 | 2018-02-14 | 大学共同利用機関法人情報・システム研究機構 | 音声信号処理装置及び方法 |
-
2015
- 2015-10-09 US US15/758,747 patent/US10629222B2/en active Active
- 2015-10-09 JP JP2017544147A patent/JP6646677B2/ja active Active
- 2015-10-09 WO PCT/JP2015/078708 patent/WO2017061023A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017061023A1 (ja) | 2017-04-13 |
US10629222B2 (en) | 2020-04-21 |
JPWO2017061023A1 (ja) | 2018-07-19 |
US20190035418A1 (en) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6646677B2 (ja) | 音声信号処理方法および装置 | |
US9947338B1 (en) | Echo latency estimation | |
US9672821B2 (en) | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination | |
JP6670224B2 (ja) | 音声信号処理システム | |
US10650840B1 (en) | Echo latency estimation | |
US20210243528A1 (en) | Spatial Audio Signal Filtering | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US11289109B2 (en) | Systems and methods for audio signal processing using spectral-spatial mask estimation | |
CN103546839A (zh) | 音频信号处理系统及其回音信号去除方法 | |
WO2013138122A2 (en) | Automatic realtime speech impairment correction | |
US8886527B2 (en) | Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals | |
WO2014049944A1 (ja) | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 | |
CN111402910B (zh) | 一种消除回声的方法和设备 | |
CN105869656B (zh) | 一种语音信号清晰度的确定方法及装置 | |
WO2017045512A1 (zh) | 一种语音识别的方法、装置、终端及语音识别设备 | |
US10356518B2 (en) | First recording device, second recording device, recording system, first recording method, second recording method, first computer program product, and second computer program product | |
JP5626586B2 (ja) | 遅延測定装置、遅延測定方法およびコンピュータプログラム | |
CN111083250A (zh) | 移动终端及其降噪方法 | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
CN113409756B (zh) | 语音合成方法、系统、设备及存储介质 | |
US20200380992A1 (en) | Hybrid routing for hands-free voice assistant, and related systems and methods | |
CN109378012B (zh) | 用于单通道语音设备录制音频的降噪方法及系统 | |
US11205416B2 (en) | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus | |
WO2014158451A1 (en) | Method and apparatus for providing silent speech | |
JP2007086592A (ja) | 音声出力装置および音声出力方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6646677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |