JP7279710B2 - 信号処理装置および方法、並びにプログラム - Google Patents
信号処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP7279710B2 JP7279710B2 JP2020514054A JP2020514054A JP7279710B2 JP 7279710 B2 JP7279710 B2 JP 7279710B2 JP 2020514054 A JP2020514054 A JP 2020514054A JP 2020514054 A JP2020514054 A JP 2020514054A JP 7279710 B2 JP7279710 B2 JP 7279710B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- section
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 74
- 238000000034 method Methods 0.000 title claims description 34
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims description 127
- 238000001514 detection method Methods 0.000 claims description 101
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 47
- 238000005516 engineering process Methods 0.000 description 26
- 230000001629 suppression Effects 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 17
- 230000002087 whitening effect Effects 0.000 description 16
- 230000010354 integration Effects 0.000 description 15
- 238000007476 Maximum Likelihood Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
〈本技術について〉
本技術は、直接音の方向を判別する際に、直接音と反射音を含む複数の音のうち、時間的に先行してマイクロホンに到達した音を直接音とみなすことで、直接音の方向の判別精度を向上させることができるようにしたものである。
それでは以下、音がマイクロホンに到達するタイミングおよび点音源らしさに着目した直接音と反射音の方向の判別手法について、より具体的に説明を行う。
次に、直接音/反射音判別部26のより詳細な構成例について説明する。
ここで、直接音/反射音判別部26を構成する各部についてさらに詳細に説明する。
次に、点音源らしさ算出部52の構成例について説明する。
次に、以上において説明した信号処理装置11の動作について説明する。すなわち、以下、図12のフローチャートを参照して、信号処理装置11による直接音方向判別処理について説明する。
〈信号処理装置の構成例〉
以上において説明した直接音の方向の判別結果は、例えば発話を行ったユーザに対するフィードバックなどに利用することが可能である。
〈信号処理装置の構成例〉
また、画像から人を検出し、その検出結果も用いてユーザの方向を判別するようにしてもよい。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部と
を備える信号処理装置。
(2)
前記判別部は、所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に基づいて前記判別を行う
(1)に記載の信号処理装置。
(3)
前記判別部は、前記相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
(2)に記載の信号処理装置。
(4)
前記判別部は、前記到来方向の音声の点音源らしさに基づいて前記判別を行う
(1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
前記点音源らしさは、前記音声信号の空間スペクトルの大きさまたは尖度である
(4)に記載の信号処理装置。
(6)
前記判別の結果に基づく提示を行う提示部をさらに備える
(1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
前記信号処理装置の周囲を撮像して得られた画像からの人の検出結果と、前記判別部による前記判別の結果とに基づいて発話者の方向を決定する決定部をさらに備える
(1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
信号処理装置が、
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
信号処理方法。
(9)
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含む処理をコンピュータに実行させるプログラム。
Claims (7)
- 音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部と
を備え、
前記判別部は、所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
信号処理装置。 - 前記判別部は、前記到来方向の音声の点音源らしさに基づいて前記判別を行う
請求項1に記載の信号処理装置。 - 前記点音源らしさは、前記音声信号の空間スペクトルの大きさまたは尖度である
請求項2に記載の信号処理装置。 - 前記判別の結果に基づく提示を行う提示部をさらに備える
請求項1に記載の信号処理装置。 - 前記信号処理装置の周囲を撮像して得られた画像からの人の検出結果と、前記判別部による前記判別の結果とに基づいて発話者の方向を決定する決定部をさらに備える
請求項1に記載の信号処理装置。 - 信号処理装置が、
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含み、
所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
信号処理方法。 - 音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含む処理をコンピュータに実行させ、
所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078346 | 2018-04-16 | ||
JP2018078346 | 2018-04-16 | ||
PCT/JP2019/014569 WO2019202966A1 (ja) | 2018-04-16 | 2019-04-02 | 信号処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019202966A1 JPWO2019202966A1 (ja) | 2021-04-22 |
JP7279710B2 true JP7279710B2 (ja) | 2023-05-23 |
Family
ID=68240013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020514054A Active JP7279710B2 (ja) | 2018-04-16 | 2019-04-02 | 信号処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210166721A1 (ja) |
JP (1) | JP7279710B2 (ja) |
WO (1) | WO2019202966A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003195886A (ja) | 2001-12-26 | 2003-07-09 | Sony Corp | ロボット |
JP2004004239A (ja) | 2002-05-31 | 2004-01-08 | Nec Corp | 音声認識対話装置およびプログラム |
JP2010062774A (ja) | 2008-09-02 | 2010-03-18 | Casio Hitachi Mobile Communications Co Ltd | 音声入力装置、雑音除去方法及びコンピュータプログラム |
JP2010181467A (ja) | 2009-02-03 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号強調装置とその方法と、プログラム |
WO2015029296A1 (ja) | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識方法及び音声認識装置 |
JP2018031909A (ja) | 2016-08-25 | 2018-03-01 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
-
2019
- 2019-04-02 WO PCT/JP2019/014569 patent/WO2019202966A1/ja active Application Filing
- 2019-04-02 US US17/046,744 patent/US20210166721A1/en not_active Abandoned
- 2019-04-02 JP JP2020514054A patent/JP7279710B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003195886A (ja) | 2001-12-26 | 2003-07-09 | Sony Corp | ロボット |
JP2004004239A (ja) | 2002-05-31 | 2004-01-08 | Nec Corp | 音声認識対話装置およびプログラム |
JP2010062774A (ja) | 2008-09-02 | 2010-03-18 | Casio Hitachi Mobile Communications Co Ltd | 音声入力装置、雑音除去方法及びコンピュータプログラム |
JP2010181467A (ja) | 2009-02-03 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号強調装置とその方法と、プログラム |
WO2015029296A1 (ja) | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識方法及び音声認識装置 |
JP2018031909A (ja) | 2016-08-25 | 2018-03-01 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210166721A1 (en) | 2021-06-03 |
JPWO2019202966A1 (ja) | 2021-04-22 |
WO2019202966A1 (ja) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694710B2 (en) | Multi-stream target-speech detection and channel fusion | |
JP7233035B2 (ja) | 収音装置、収音方法、及びプログラム | |
CN110268470B (zh) | 音频设备滤波器修改 | |
KR100754384B1 (ko) | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 | |
US9076450B1 (en) | Directed audio for speech recognition | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US20210035563A1 (en) | Per-epoch data augmentation for training acoustic models | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
US20130013303A1 (en) | Processing Audio Signals | |
RU2758192C2 (ru) | Звукозапись с использованием формирования диаграммы направленности | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
JP7370014B2 (ja) | 収音装置、収音方法、及びプログラム | |
US20210390952A1 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
Valin | Auditory system for a mobile robot | |
WO2023021390A1 (en) | Muting specific talkers using a beamforming microphone array | |
US20210350822A1 (en) | Active sound control | |
Brueckmann et al. | Adaptive noise reduction and voice activity detection for improved verbal human-robot interaction using binaural data | |
WO2020064089A1 (en) | Determining a room response of a desired source in a reverberant environment | |
JP7279710B2 (ja) | 信号処理装置および方法、並びにプログラム | |
CN114464184B (zh) | 语音识别的方法、设备和存储介质 | |
WO2021206679A1 (en) | Audio-visual multi-speacer speech separation | |
Lee et al. | Space-time voice activity detection | |
JP2015155982A (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
Choi et al. | Real-time audio-visual localization of user using microphone array and vision camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230424 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7279710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |