JP2014164039A - 録音音声の明瞭化装置 - Google Patents
録音音声の明瞭化装置 Download PDFInfo
- Publication number
- JP2014164039A JP2014164039A JP2013033558A JP2013033558A JP2014164039A JP 2014164039 A JP2014164039 A JP 2014164039A JP 2013033558 A JP2013033558 A JP 2013033558A JP 2013033558 A JP2013033558 A JP 2013033558A JP 2014164039 A JP2014164039 A JP 2014164039A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- target
- speech
- value
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 214
- 238000004458 analytical method Methods 0.000 claims abstract description 76
- 238000012937 correction Methods 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims description 99
- 238000005352 clarification Methods 0.000 claims description 12
- 238000005192 partition Methods 0.000 abstract description 21
- 238000012545 processing Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000011810 insulating material Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】 対象音声解析手段10が、対象音声信号を周波数解析し、周波数に基づく変数f、フレームτとした対象音声強度スペクトルS(f,τ)と、時間方向平均である対象音声平均値スペクトルSav(f)を算出し、参照音声解析手段20が、参照音声信号を周波数解析し、時間方向平均である参照音声平均値スペクトルHav(f)を算出し、雑音成分スペクトル作成手段30が、Sav(f)を利用して雑音成分スペクトルN(f)を作成し、変調成分スペクトル作成手段40が、Sav(f)からN(f)を減算した値でHav(f)を除して変調成分スペクトルG(f)を作成し、音声信号補正手段50が、S(f,τ)に対してN(f)を割合αだけ減算し、G(f)を割合βで乗算して、補正音声信号を得る。
【選択図】 図6
Description
<1.本発明で用いる音声の伝搬経路モデル>
まず、本発明で用いる音声の伝搬経路モデルについて説明する。図1は、間仕切りを介して取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。図1に示すように、本発明では、ソース音声信号源(会話音)C(f,τ)がA(f)なる周波数特性をもつ材質で構成された間仕切りを介して伝搬された音に、環境雑音源(マスキング音を含む)N(f)が付加されて、S(f,τ)= C(f,τ)・A(f)+N(f)なる音が漏洩されるという伝搬経路モデルを用いる。ここで、パラメータfは周波数に基づく変数、τは周波数解析における所定のサンプル数をもつフレームのフレーム番号を示し、変数の値A(f)はスカラー値で、変数の値S(f,τ), C(f,τ)およびN(f)は複素数になる。環境雑音源については、空調音のように定常的な雑音N(f)に限定し、マスキング音のように間仕切りを介さず直接伝搬する音に限定する。本発明では、間仕切りを介して録音された音声を明瞭化の対象である対象音声信号として扱う。
次に、本発明による処理の概略について説明する。図3は、本発明による処理の概略を示す図である。本発明では、間仕切りを介して取得された不明瞭な対象音声信号s(i)を明瞭化し、ソース音源信号源と推定される補正音声信号c(i)として得る。まず、録音音声である対象音声信号s(i)を周波数次元変換して対象音声強度スペクトルS(f,τ)を得る。次に、雑音成分スペクトルN(f)の複素スペクトル減算を行って、雑音除去スペクトルS(f,τ)−α・N(f)を得る。続いて、変調成分スペクトルG(f)を乗算することによって、スペクトルの複素スペクトル変調を行って、補正音声スペクトルC(f,τ)を得る。最後に、時間次元逆変換を行って補正音声信号c(i)を得る。パラメータα、βを段階的に変化させることにより、補正音声信号c(i)の補正の程度を変化させることができ、明瞭に聴取できるレベルに補正された際に設定されたパラメータα、βの値により、録音音声の明瞭度を定量的に評価することができる。
以下、本発明に係る録音音声の明瞭化装置について、具体的に説明していく。図5は、本発明の一実施形態に係る録音音声の明瞭化装置のハードウェア構成図である。録音音声の明瞭化装置は、汎用のコンピュータで実現することができ、図5に示すように、CPU(Central Processing Unit)1と、コンピュータのメインメモリであるRAM(Random Access Memory)2と、CPU1が実行するプログラムやデータを記憶するための大容量の記憶装置(例えば、ハードディスク、フラッシュメモリ等)3と、キーボード、マウス等のキー入力I/F(インターフェース)4と、外部装置(データ記憶媒体等)とボイスレコーダに装着されているSDメモリカード、メモリスティックやCDなどのリムーバブル記憶媒体を装着して録音音声を記憶装置3に転送するための可搬型記憶装置5と、表示装置(ディスプレイ)に情報を送出するための表示出力I/F(インターフェース)6と、録音音声を記憶装置3に転送するためUSBメモリ機能付きのボイスレコーダを直接装着したり、USBケーブルを介してボイスレコーダを接続するためのUSB−I/F7を備え、互いにバスを介して接続されている。また、前述のUSB−I/F7にはUSBケーブルを介して汎用コンピュータの外部に配置された音声入出力I/F8も接続され、音声を入力するマイクロフォン9aと音声を出力するスピーカ9bが前述の音声入出力I/F8にアナログのオーディオ信号ケーブルまたは光デジタル音声ケーブルを介して接続されている。図では、音声入出力I/F8は汎用コンピュータの外部に配置された事例を示しているが、音声入出力I/F8をUSB−I/F7を経由せず汎用コンピュータ内部のバスに直結させ、汎用コンピュータ内部に配置させる方法も一般的に用いられる。ただし、本実施形態のように音声計測用途で精度が要求される場合には、音声入出力I/F8が記憶装置3のハードディスクなど機械的な振動音を発する雑音の影響を受けることを防止するため、汎用コンピュータの外部に配置される方が望ましい。
次に、図5、図6に示した録音音声の明瞭化装置の処理動作について、図7のフローチャートを用いて説明する。まず、対象音声解析手段10が、対象音声信号記憶部61から対象音声信号を読み込み、読み込んだ対象音声信号に対して周波数解析を行って周波数次元への変換を行う(ステップS1)。具体的には、対象音声解析手段10は、まず、対象音声信号記憶部61に記憶された対象音声信号S(i)(iは全てのサンプルに対して付された通し番号:i=0,1,2,・・・)から、所定数Nのサンプルを1フレームとして読み込む。録音音声の明瞭化装置が処理する1フレームのサンプル数Nは、適宜設定することができる。本実施形態では、サンプリング周波数Fs=44100Hzの場合、N=4096に設定している。したがって、4096サンプルずつ、順次1フレームとして読み込んでいくことになる。
0≦t≦N−1のとき、W(t)=0.5−0.5cos(2πt/N)
Sr(f,τ)=Σt=0,…,N-1W(t)・s(t,τ)・cos(2πft/N)
Si(f,τ)=Σt=0,…,N-1W(t)・s(t,τ)・sin(2πft/N)
S(f,τ)={Sr(f,τ)2+Si(f,τ)2}1/2
Smin(f)=MINτ=0,…,Ts-1S(f,τ)
Sav(f)=Στ=0,…,Ts-1S(f,τ)/Ts
Hr(f,τ)=Σt=0,…,N-1W(t)・h(t,τ)・cos(2πft/N)
Hi(f,τ)=Σt=0,…,N-1W(t)・h(t,τ)・sin(2πft/N)
H(f,τ)={Hr(f,τ)2+Hi(f,τ)2}1/2
Hav(f)=Στ=0,…,Th-1H(f,τ)/Th
N(f)=Sav(f)
N(f)={Smin(f)+Sav(f)}/2
G(f)=Hav(f)/{Sav(f)−N(f)}
S´(f,τ)=S(f,τ)−α・N(f)
ただし、S´(f,τ)<0となった場合、S´(f,τ)=0とする。
C(f,τ)=S´(f,τ)・G(f)・β
Cr(f,τ)=Sr(f,τ)・C(f,τ)/S(f,τ)
Ci(f,τ)=Si(f,τ)・C(f,τ)/S(f,τ)
c(t,τ)=1/N・{ΣfCr(f,τ)・cos(2πft/N)−ΣfCi(f,τ)・sin(2πft/N)}+c(t+N/2,τ−1)
上記実施形態に係る録音音声の明瞭化装置により処理される音声信号、スペクトル等の波形を図8〜図14に示す。図8は、対象音声信号s(i)の波形を示しており、横軸が時間、縦軸が振幅である。図9は、参照音声信号h(i)の波形を示しており、横軸が時間、縦軸が振幅である。図10は、対象音声平均値スペクトルSav(f)、参照音声平均値スペクトルHav(f)を示しており、横軸が周波数、縦軸がエネルギーである。図11は、変調スペクトルG(f)を示しており、横軸が周波数、縦軸が変調強度である。図12は、雑音成分スペクトルN(f)を示しており、横軸が周波数、縦軸がエネルギーである。図13は、補正音声信号c(i)の波形を示しており、横軸が時間、縦軸が振幅である。図14は、対象音声平均値スペクトルSav(f)、補正音声平均値スペクトルCav(f)を示しており、横軸が周波数、縦軸がエネルギーである。なお、上記実施形態では、補正音声平均値スペクトルCav(f)は明示的には算出していないが(複素数値で算出しているため図示できない)、図14では、対象音声平均値スペクトルSav(f)との比較のために意図的に算出したものである。
2・・・RAM(Random Access Memory)
3・・・記憶装置
4・・・キー入力I/F
5・・・可搬型記憶装置
6・・・表示出力I/F
7・・・USB−I/F
8・・・音声入出力I/F
9a・・・マイクロフォン
9b・・・スピーカ
10・・・対象音声解析手段
20・・・雑音成分スペクトル作成手段
30・・・参照音声解析手段
40・・・変調成分スペクトル作成手段
50・・・音声信号補正手段
55・・・パラメータ設定手段
60・・・記憶手段
61・・・対象音声信号記憶部
62・・・参照音声信号記憶部
63・・・補正音声信号記憶部
Claims (6)
- 録音により得られ、補正対象とする対象音声信号に対して、別途録音により得られた参照音声信号を用いて、前記対象音声信号の明瞭度を向上させる装置であって、
前記対象音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、周波数に基づく変数をf、τ番目のフレームをτとした対象音声信号の強度スペクトルである対象音声強度スペクトルS(f,τ)と、前記対象音声信号の前記変数fごとに複数のフレームの平均値で構成される対象音声平均値スペクトルSav(f)を算出する対象音声解析手段と、
前記参照音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、前記参照音声信号の前記変数fごとに複数のフレームの平均値で構成される参照音声平均値スペクトルHav(f)を算出する参照音声解析手段と、
前記対象音声平均値スペクトルSav(f)を利用して、雑音成分スペクトルN(f)を作成する雑音成分スペクトル作成手段と、
前記変数fごとに、前記対象音声平均値スペクトルSav(f)から前記雑音スペクトルN(f)を減算した値によって、前記参照音声平均値スペクトルHav(f)を除した値に基づいて、変調成分スペクトルG(f)を作成する変調成分スペクトル作成手段と、
前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合β(0≦β≦1)で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、前記対象音声信号が補正された補正音声信号を作成する音声信号補正手段と、
を具備することを特徴とする録音音声の明瞭化装置。 - 請求項1において、
前記対象音声解析手段は、前記対象音声平均値スペクトルSav(f)に加えて、更に前記対象音声信号の前記変数fごとに強度が最小となるフレームで代表される最小値スペクトルSmin(f)を算出するようにし、
前記雑音成分スペクトル作成手段は、前記最小値スペクトルSmin(f)に基づく値と前記対象音声平均値スペクトルSav(f)に基づく値との対応する前記変数fごとに平均した値に基づいて、前記雑音成分スペクトルN(f)を作成するようにしていることを特徴とする録音音声の明瞭化装置。 - 請求項1において、
前記対象音声解析手段は、前記対象音声信号の中で音声が存在する部分のみに対して周波数解析を行い、
前記雑音成分スペクトル作成手段は、前記対象音声平均値スペクトルSav(f)そのものを、雑音成分スペクトルN(f)とするようにしていることを特徴とする録音音声の明瞭化装置。 - 請求項1から請求項3のいずれか一項において、
前記音声信号補正手段は、前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算する際、減算した値が負値になる場合、前記減算した値を0にするような補正を加えるようにしていることを特徴とする録音音声の明瞭化装置。 - 請求項1から請求項4のいずれか一項において、
前記雑音成分スペクトル作成手段は、前記雑音成分スペクトルN(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で定義するようにし、
前記変調成分スペクトル作成手段は、前記変調成分スペクトルG(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で定義するようにし、
前記音声信号補正手段は、前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で、前記フレームτごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合αだけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合βで乗算するようにしていることを特徴とする録音音声の明瞭化装置。 - 請求項1から請求項5のいずれか一項に記載の録音音声の明瞭化装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013033558A JP6232710B2 (ja) | 2013-02-22 | 2013-02-22 | 録音音声の明瞭化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013033558A JP6232710B2 (ja) | 2013-02-22 | 2013-02-22 | 録音音声の明瞭化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014164039A true JP2014164039A (ja) | 2014-09-08 |
JP6232710B2 JP6232710B2 (ja) | 2017-11-22 |
Family
ID=51614705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013033558A Expired - Fee Related JP6232710B2 (ja) | 2013-02-22 | 2013-02-22 | 録音音声の明瞭化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6232710B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1138999A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 |
JP2000322079A (ja) * | 1999-05-12 | 2000-11-24 | Denso Corp | 音声認識装置及び音声認識方法 |
JP2002175099A (ja) * | 2000-12-06 | 2002-06-21 | Hioki Ee Corp | 雑音抑制方法および雑音抑制装置 |
JP2007011330A (ja) * | 2005-06-28 | 2007-01-18 | Harman Becker Automotive Systems-Wavemakers Inc | スピーチ信号の適合する強化のためのシステム |
-
2013
- 2013-02-22 JP JP2013033558A patent/JP6232710B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1138999A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 |
JP2000322079A (ja) * | 1999-05-12 | 2000-11-24 | Denso Corp | 音声認識装置及び音声認識方法 |
JP2002175099A (ja) * | 2000-12-06 | 2002-06-21 | Hioki Ee Corp | 雑音抑制方法および雑音抑制装置 |
JP2007011330A (ja) * | 2005-06-28 | 2007-01-18 | Harman Becker Automotive Systems-Wavemakers Inc | スピーチ信号の適合する強化のためのシステム |
Non-Patent Citations (1)
Title |
---|
庄境誠 他: ""音声強調手法E-CMN/CSSの自動車環境内での音声認識における評価"", 電子情報通信学会論文誌, vol. 81, no. 1, JPN6017002113, 25 January 1998 (1998-01-25), pages 1 - 9, ISSN: 0003644992 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6232710B2 (ja) | 2017-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8229738B2 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
EP2539886A2 (en) | Apparatus and method for modifying an audio signal using envelope shaping | |
Alku et al. | Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
US20190172477A1 (en) | Systems and methods for removing reverberation from audio signals | |
Paliwal et al. | Role of modulation magnitude and phase spectrum towards speech intelligibility | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
CN112151055A (zh) | 音频处理方法及装置 | |
JP6232710B2 (ja) | 録音音声の明瞭化装置 | |
JP2008072600A (ja) | 音響信号処理装置、音響信号処理プログラム、音響信号処理方法 | |
Degottex et al. | A measure of phase randomness for the harmonic model in speech synthesis | |
JP2021135446A (ja) | 音響処理方法 | |
Wei et al. | Whispered Speech Enhancement Based on Improved Mel Frequency Scale and Modified Compensated Phase Spectrum | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Vanitha Lakshmi et al. | RETRACTED ARTICLE: Noise diminution and formant extraction on vowels for hearing aid users | |
US11380345B2 (en) | Real-time voice timbre style transform | |
Jokinen et al. | Phase modification for increasing the intelligibility of telephone speech in near-end noise conditions–evaluation of two methods | |
Marxer et al. | Modelling and separation of singing voice breathiness in polyphonic mixtures | |
Rahali et al. | Enhancement of noise-suppressed speech by spectral processing implemented in a digital signal processor | |
JP2019090930A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
US20240161762A1 (en) | Full-band audio signal reconstruction enabled by output from a machine learning model | |
Siddiq | Real-time morphing of impact sounds | |
Chookaszian | Music Visualization Using Source Separated Stereophonic Music |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6232710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |