JP6637926B2 - 音声処理装置及びその制御方法 - Google Patents
音声処理装置及びその制御方法 Download PDFInfo
- Publication number
- JP6637926B2 JP6637926B2 JP2017111161A JP2017111161A JP6637926B2 JP 6637926 B2 JP6637926 B2 JP 6637926B2 JP 2017111161 A JP2017111161 A JP 2017111161A JP 2017111161 A JP2017111161 A JP 2017111161A JP 6637926 B2 JP6637926 B2 JP 6637926B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- unit
- spectrum data
- microphone
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000001228 spectrum Methods 0.000 claims description 180
- 238000001514 detection method Methods 0.000 claims description 85
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 description 93
- 230000003287 optical effect Effects 0.000 description 57
- 230000035945 sensitivity Effects 0.000 description 36
- 230000005236 sound signal Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 15
- 230000001629 suppression Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 8
- 230000010354 integration Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000003825 pressing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 229920002943 EPDM rubber Polymers 0.000 description 2
- 229910052782 aluminium Inorganic materials 0.000 description 2
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 229920001971 elastomer Polymers 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 229910001220 stainless steel Inorganic materials 0.000 description 2
- 239000010935 stainless steel Substances 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010022998 Irritability Diseases 0.000 description 1
- 230000025518 detection of mechanical stimulus involved in sensory perception of wind Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/911—Television signal processing therefor for the suppression of noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/802—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
音声処理装置であって、
駆動部と、
前記音声処理装置外からの音声を主として取得する第1のマイクと、
前記駆動部による駆動騒音を主として取得する第2のマイクと、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理手段と、
前記変換手段で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有することを特徴とする音声処理装置。
Total_Gain_R[]=NC_Gain[]+WC_Gain[]+Gain_R[]
Total_Gain_L[]=NC_Gain[]+WC_Gain[]+Gain_L[]
Main[i]+Th<Sub[i]
風雑音レベル=Σ(Main[n]−Sub[n])/(Main[n]+Sub[n])
なお、上式のΣは、n=0乃至9の合算を示している。
位相情報[n]=|V(Main[n]) ×V(Sub[n])|/(|V(Main[n]) |・|V(Sub[n])|)
ここで、右辺の"|x|"はベクトルxの絶対値(スカラー)を表し、分母の"・"はスカラーどうしの積、分子の"×"は2つのベクトルの正弦である外積を表している。
Lch生成用のステレオゲイン=1+位相情報[n]×強調係数
Rch生成用のステレオゲイン=1−位相情報[n]×強調係数
ステレオゲイン演算部2112は、上式にて算出されたLch,Rchのステレオゲイン[n]を出力する。ここで、強調係数は周波数に応じて変更されるものであり、上限を1、下限を0とするものである。
Total_Gain_L[]=NC_Gain[] + WC_Gain[] + Gain_L[]
Total_Gain_R[]=NC_Gain[] + WC_Gain[] + Gain_R[]
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、すなわち、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音がメインマイク205a側(撮像装置100を構えるユーザの右側)から発生した場合は、0<位相情報[n]≦1となる。
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、すなわち、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音がサブマイク205b側からの場合、0>位相情報[n]≧−1となる。
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音が、サブマイク205b側からは位相情報[n]≒0となる。
Lch生成用のステレオゲイン=1+位相情報[n]×強調係数
Rch生成用のステレオゲイン=1−位相情報[n]×強調係数
そして、ステレオゲイン演算部2112は、上式にて算出された各チャネルのステレオゲイン[n]を出力する。
周囲環境音レベル:メインマイク205a≧サブマイク205b
駆動騒音レベル:メインマイク205a<サブマイク205b
との関係となる。
風雑音レベル=Σ(Main[n]−Sub[n])/(Main[n]+Sub[n])
なお、上式は、低周波成分の10ポイントとしているで、nは0乃至9の範囲内である。また、実施形態では、低域周波数帯を10ポイントとしたが、この数は一例である。撮像装置の設計に応じて適宜設定することが望まれる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (13)
- 音声処理装置であって、
駆動部と、
前記音声処理装置外からの音声を主として取得する第1のマイクと、
前記駆動部による駆動騒音を主として取得する第2のマイクと、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理手段と、
前記変換手段で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有することを特徴とする音声処理装置。 - 前記生成手段は、前記第1の周波数スペクトルデータに、異なるゲインを用いることにより、前記左チャネルの周波数スペクトルデータと、前記右チャネルの周波数スペクトルデータとを生成することを特徴とする請求項1に記載の音声処理装置。
- 前記生成手段は、
前記変換手段で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、右チャネルと左チャネルそれぞれのゲインを決定するゲイン決定手段を含み、
前記第1の周波数スペクトルデータを前記ゲイン決定手段により決定された前記右チャネルのゲインにより制御して右チャネルの周波数スペクトルデータを生成し、前記第1の周波数スペクトルデータを前記ゲイン決定手段により決定された前記左チャネルのゲインにより制御して左チャネルの周波数スペクトルデータを生成することを特徴とする請求項1に記載の音声処理装置。 - 前記駆動音演算処理手段は、
前記第1の周波数スペクトルデータから前記第2の周波数スペクトルデータを減じる減算手段と、
前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータのそれぞれの時間に対する振幅変動量を検出する第1の検出手段と、
前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータとの間の位相変動量を検出する第2の検出手段とを含み、
前記減算手段による減算の結果、前記第1の検出手段により検出された前記振幅変動量、及び、前記第2の検出手段により検出された前記位相変動量に基づき、前記周波数毎の前記駆動騒音の減算量を算出することを特徴とする請求項1に記載の音声処理装置。 - 前記駆動音演算処理手段は、前記減算手段による減算の結果が、予め設定された負の閾値を下回ることを条件に前記減算量を算出することを特徴とする請求項4に記載の音声処理装置。
- 前記第1の検出手段は、周波数毎の前記振幅変動量が予め設定された閾値を超える場合に、振幅変動量を出力することを特徴とする請求項5に記載の音声処理装置。
- 前記減算手段は、周波数ポイント毎に、前記第1の周波数スペクトルデータから前記第2の周波数スペクトルデータを減算することを特徴とする請求項4に記載の音声処理装置。
- 前記第1の検出手段は、周波数ポイント毎に、前記振幅変動量を検出することを特徴とする請求項4に記載の音声処理装置。
- 前記第2の検出手段は、周波数ポイント毎に、前記位相変動量を検出することを特徴とする請求項4に記載の音声処理装置。
- 前記駆動音演算処理手段はさらに、前記第2の周波数スペクトルデータの時間に対する振幅の変動量に基づいて、前記駆動騒音の減算量を算出することを特徴とする請求項4から6のいずれか1項に記載の音声処理装置。
- 前記生成手段は、右チャネルの周波数ポイント毎のゲインと、左チャネルの周波数ポイント毎のゲインとを、それぞれ決定することを特徴とする請求項3に記載の音声処理装置。
- 音声処理装置の制御方法であって、
前記音声処理装置は、駆動部と、前記音声処理装置外からの音声を主として取得する第1のマイクと、前記駆動部による駆動騒音を主として取得する第2のマイクとを有し、
前記方法は、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換工程と、
前記変換工程で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理工程と、
前記変換工程で得た前記第1の周波数スペクトルデータと前記第2の周波数スペクトルデータ及び、前記駆動音演算処理工程で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成工程と、
前記生成工程で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換工程と
を有することを特徴とする音声処理装置の制御方法。 - 音声処理装置のプロセッサが読み込み実行するプログラムであって、
前記プロセッサを請求項1から11のいずれか1項に記載の音声処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017111161A JP6637926B2 (ja) | 2017-06-05 | 2017-06-05 | 音声処理装置及びその制御方法 |
US15/995,332 US10535363B2 (en) | 2017-06-05 | 2018-06-01 | Audio processing apparatus and control method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017111161A JP6637926B2 (ja) | 2017-06-05 | 2017-06-05 | 音声処理装置及びその制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018205547A JP2018205547A (ja) | 2018-12-27 |
JP6637926B2 true JP6637926B2 (ja) | 2020-01-29 |
Family
ID=64460058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017111161A Active JP6637926B2 (ja) | 2017-06-05 | 2017-06-05 | 音声処理装置及びその制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10535363B2 (ja) |
JP (1) | JP6637926B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920443A (zh) * | 2019-03-22 | 2019-06-21 | 网易有道信息技术(北京)有限公司 | 一种语音处理机器 |
US11581862B2 (en) * | 2021-04-30 | 2023-02-14 | That Corporation | Passive sub-audible room path learning with noise modeling |
JP2022183849A (ja) * | 2021-05-31 | 2022-12-13 | キヤノン株式会社 | 音声処理装置、制御方法、およびプログラム |
CN113257268B (zh) * | 2021-07-02 | 2021-09-17 | 成都启英泰伦科技有限公司 | 结合频率跟踪和频谱修正的降噪和单频干扰抑制方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4542396B2 (ja) * | 2004-08-27 | 2010-09-15 | オリンパス株式会社 | 録音装置 |
JP2006279185A (ja) | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
JP2011114465A (ja) | 2009-11-25 | 2011-06-09 | Nikon Corp | 音声処理装置及び電子カメラ |
JP5594133B2 (ja) * | 2010-12-28 | 2014-09-24 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
-
2017
- 2017-06-05 JP JP2017111161A patent/JP6637926B2/ja active Active
-
2018
- 2018-06-01 US US15/995,332 patent/US10535363B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018205547A (ja) | 2018-12-27 |
US10535363B2 (en) | 2020-01-14 |
US20180350385A1 (en) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637926B2 (ja) | 音声処理装置及びその制御方法 | |
JP2008263498A (ja) | 風雑音低減装置、音響信号録音装置及び撮像装置 | |
KR101739942B1 (ko) | 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치 | |
JP2012032648A (ja) | 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 | |
US20150271439A1 (en) | Signal processing device, imaging device, and program | |
US11657794B2 (en) | Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium | |
JP5529638B2 (ja) | 音声処理装置及び音声処理方法、撮像装置 | |
JP5349062B2 (ja) | 音響処理装置及びそれを備えた電子機器並びに音響処理方法 | |
JP6985821B2 (ja) | 音声処理装置及びその制御方法 | |
JP6929137B2 (ja) | 音声処理装置及びその制御方法 | |
JP6877246B2 (ja) | 音声処理装置及びその制御方法 | |
JP6886352B2 (ja) | 音声処理装置及びその制御方法 | |
JP6931296B2 (ja) | 音声処理装置及びその制御方法 | |
JP2015114444A (ja) | 音声処理装置、音声処理方法 | |
US12027176B2 (en) | Apparatus and method for reducing noise corresponding to a noise source using noise data | |
JP2010118975A (ja) | 集音装置及びノイズ抑制方法 | |
US12094483B2 (en) | Sound processing apparatus and control method | |
JP2010134260A (ja) | 電子機器及び音声処理方法 | |
JP7566552B2 (ja) | 音声処理装置、制御方法、およびプログラム | |
US11729548B2 (en) | Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones | |
JP2023030453A (ja) | 音声処理装置、制御方法、及びプログラム | |
JP2022054317A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022039940A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2016082256A (ja) | 撮像装置 | |
JP2014232267A (ja) | 信号処理装置、撮像装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180508 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180508 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191223 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6637926 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |