JPH04184399A - 音声データ収録装置 - Google Patents

音声データ収録装置

Info

Publication number
JPH04184399A
JPH04184399A JP2313387A JP31338790A JPH04184399A JP H04184399 A JPH04184399 A JP H04184399A JP 2313387 A JP2313387 A JP 2313387A JP 31338790 A JP31338790 A JP 31338790A JP H04184399 A JPH04184399 A JP H04184399A
Authority
JP
Japan
Prior art keywords
noise
output
signal
converter
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2313387A
Other languages
English (en)
Inventor
Yoshio Nakadai
中▲もと▼ 芳夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2313387A priority Critical patent/JPH04184399A/ja
Publication of JPH04184399A publication Critical patent/JPH04184399A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、例えば騒音環境のもとで発声された音声を
認識する音声認識装置などで使用する標準パターンを得
るために用いられ、騒音下で発声された音声を収録する
音声データ収録装置に関するものである。
「従来の技術」 音声認識技術においては、さまざまな音響環境下で発声
された音声を認識することが重要視されてきている。高
騒音環境下で発声された音声に対しても、認識率を向上
させるための様々な研究が行われてきている。その理由
は、高騒音環境下で発声した音声については、Lomb
ard効果と呼ばれる音声スペクトルの変形現象が生じ
るため、音声認識装置内に記憶されている静寂な場所で
収録された音声の標準パターンとの間で特徴蓋に大きな
違いが出て、結果として著しい認識率の低下を起こすた
めである。文献り、B、Pisoni+R,H,Ber
nacki。
H,C,Nusbaus、 and M、Yachtm
an、 ”Some Acoustic−Phonet
ic  Correlations  of  5pe
ech Producedin No1se”、  P
roceedings of  ICASSP−85,
4]、10.pp。
1581−15811 (19850こよると、3.5
 kHzの低域通過フィルタを通した音圧レベル90c
lBのnILt下で発声した音声には、静寂な環境で発
声した音声と比較して、LoIIlbard効果として
次のような現像がみられることが報告されている。すな
わち、1、音声発声パワーの6dBの増加、21発声時
間長の50 a+sec以上の増加、3.音声のピッチ
周波数の若干の上昇、4.音声スペクトル包絡の傾斜の
1.5dB10ctの上昇、高域の増加、低域の減衰、
5.第1ホルマント周波数の上昇、などである。
これらの現象が、発声者に依存し、また、発声者が受聴
する雑音の種類やレベルに依存するため、定量的にその
現象を捉えることが難しい。従って、高騒音下で発声さ
れた音声を認識するために、同様の騒音下で発声された
音声を、認識装置で使用する標準パターンとして収録す
る方法が取られている。このため、騒音を発声者に受聴
させながら発声させることにより、スペクトル変形を生
した音声を収録する方法が種々検討されてきた。
従来より、騒音下で発声された音声を収録する方法とし
て広く行われているものは、発声者二二騒音をヘッドホ
ンで受聴させ、ヘッドホンをつけたまま音声を発声して
もらい、マイクロホンで収録する方法である。この方法
によるよ、へ、ドホンからl!音が漏れないと仮定すれ
ば、マイクロホンには発声者が騒音を受聴したことによ
るスペクトルの変形した音声だけが入力される。
「発明が解決しようとする課題」 しかし、この方法では以下のような点が問題になる。第
1にヘッドホンからの騒音の漏洩により、マイクロホン
に一部の騒音が人力される点である。
第2ムこへノドホンからの騒音の漏洩を防ぐため圧迫性
の強いヘッドホンを使用した場合、発声者がへ、ドホン
を装着したことで、口の開き方の変形によるLomba
rd効果とは異なる発声変形を生しることである。第3
にLo+nbard効果は発声者が騒音下で自分の音声
をどの程度の相対的なパワーで間き取ることができるか
にも効果の違いが現れるものであるが、一般に、このよ
うな実験形態ではベツドホンに発声者自身の発声した音
声がモニターされることは行われておらず、また、モニ
ターされる場合でも、発声者が実際の雑音環境で聞き取
るパワーレベルとは食い違うことが多い。従って、ヘッ
ドホンで騒音を受聴させながら発声させる方法では、L
o+nbard効果が定量的に現れた音声データを収録
することが難しくなる。
しombard効果を正確にとらえた音声を収録しよう
とする場合、その発声形態は発声者に負担を掛けない、
実際の騒音環境下に近僚した騒音環境下で収録されるこ
とが妥当である。しかしながら、高騒音環境下で発声さ
れた音声から音声成分だけを収録するためには、事後的
に雑音を除去することが必要となる。騒音が未知の信号
の場合には除去は難しくなる。
この発明の目的は、発声変形現象の雑音に対する依存性
および発声者への依存性などの定性的な調査、あるいは
、高騒音下で使用する音声認識装置などの標準パターン
音声の収録などに使用する、任意の騒音を受聴した発声
者の発声変形音声を正しく収録することができる音声デ
ータ収録装置を提供することにある。
T課題を解決するための手段。
この発明では、騒音を発生する騒音発生器と、その騒音
発生器からの騒音を音響信号として放出するスピーカー
と、そのスピーカーにより放出された騒音環境で発声さ
れた音声信号を入力する第1の信号入力器と、上記騒音
発生器の出力を人力する第2の信号入力器と、その第2
の信号入力器の信号を用いて第1の信号入力器で受信さ
れた騒音を推定する゛手段と、その推定された信号を第
1の信号入力器の出力から減算して上記音声信号成分を
取出す減算手段とを具備する。
「作 用」 騒音発生器からスピーカーを通して騒音を放出し、この
騒音を受聴する発声者に音声を発声させ、この騒音およ
び音声を第1の信号入力器により収録し、同時に第2の
信号入力器で騒音発生器の出力を収録し、その第2の信
号入力器の出力から第1の信号入力器に入力された騒音
を推定し、その推定した信号を第1の信号入力器の出力
から減算して高騒音環境下で発声された音声成分のみを
収録する。
「実施例」 第1図にこの発明の実施例を示す。
騒音発生器11は、空間内に放出する騒音信号の発生源
であり、例えば、白色雑音やBoth雑音などの雑音発
注器を使用したり、あるいは、例えば、テープレコーダ
ーで事前に収録した雑踏などの騒音を使用する。騒音発
生器11の出力は必要に応して増幅器12で騒音信号を
任意のレベルに増幅してスピーカー13へ供給する。増
幅器12に帯域通過フィルタを接続し、騒音発生器11
からの信号のうち任意の周波数帯域のみをスピーカー1
3Lこ供給してもよい、スピーカー】3は発声環境へ騒
音を音響信号として放出する。ガイダンス信号発生器1
4は、例えば、発声者に対して発話を促す音声信号をス
ピーカー13から発生するための信号源である。前記発
声環境で発声者15が発声した音声とその環境での騒音
とが第1信号入力器としてのマイクロホン16で捕捉さ
れる。A/D変換器17および18は、それぞれ、マイ
クロホン16および増幅器12の出力を入力し、そのア
ナログ波形をディジタルのデータに変換するものである
。A/D変換器17および18は同一の規格のものとし
、このときの量子化周波数は、音声および騒音の周波数
帯域よりも十分大きい値とし、また、量子化ビット数は
、騒音および音声のグイナミソクレンジよりも十分大き
いものとする。
推定手段としての適応フィルタ19は、A/D変換器1
8の出力である増幅器12の出力のディジタル波形から
、マイクロホン16の出力のディジタル波形すなわちA
/D変換器17の出力波形中の騒音を推定するものであ
る。適応フィルタ19には、例えば、FIRフィルタに
よる適応ディジタルフィルタを使用する。減算器21は
、A/D変換器17の出力波形から適応フィルタ19の
出力波形を減算するもので、その減算器21の出力はD
/A変換器22に送られると同時にスイッチ23を通し
て適応フィルタ19を負帰還制御するようにフィルタ係
数の更新に使用される。スイッチ23が開放されると、
その出力は常に0になり、適応フィルタ19のフィルタ
係数は保持される。
D/A変換器22は、ディジタル波形である減算器21
の出力をアナログの信号波形に戻すものである。出力端
子24はアナログ信号として音声を取り出す端子である
以下に動作を説明する。
まず、適応フィルタ19の学習のために、発声者工5が
発声しない状態でスピーカー13から騒音だけを発生し
、これをマイクロホン16で収録する動作を行う。スイ
ッチ23をオンとし、減算器21の出力が適応フィルタ
19に帰還されるようにする。この状態で、騒音環境に
対するフィルタ係数を学習させるために、ガイダンス信
号発生器14より、「フィルタの学習を行います。発声
をせずムこしばらくお持ち下さいフなどの音声を生成し
、スピーカー13より発生させて発声者15に指示する
。次に、騒音発生器11より騒音を生成し、増幅器12
を通してスピーカー13より発声環境へ放出する。この
とき生成する騒音は、例えば、白色雑音などの広帯域な
ランダム雑音とする。また、このときの騒音のバワーレ
ベルは増幅器12で制御できるようにする。増幅器12
の出力は、また同時に第2信号入力器としてのA/D変
換器18に入力され、ディジタルの波形として適応フィ
ルタ19へ入力される。スピーカー13の出力騒音は、
発声環境を経由して、マイクロホン16からA/D変換
器17に入力され、ディジタルの波形として出力され、
減算器21へ送られる0次に、適応フィルタ19の学習
を以下のようニ行う。A/D変換器17および18の各
出力をそれぞれχ+(tL xzD)とする。ここで、
tはA/D変換器17および18のサンプリング時刻で
ある。A/D変換器18の出力xt(t)の時刻tから
時刻t−nまでの値の線形予測和により、A/D変換器
17の出力x、(L)の推定値y+(t)が表現可能で
あると仮定すると、(1)式が成立する。
y+(t)=  Σ   a  (k)X  ! (t
−にン             (+)k=。
ここで、a  (k)は適応フィルタ19のフィルタ係
数である。また、サンプリング周期のn倍が発声環境の
残響時間よりも大きく選ばれることが推奨される。そこ
で、x+(t)の推定波形y+(t)を適応フィルタ1
9より出力し、これを減算器2IでA/D変換器17の
出力より減算することにより、x+(t)に対するy+
(t)の予測誤差eを(2)式のように求めることがで
きる。
e = X I(t )  )’ + (t )   
     (2)ここで、eがあるしきい値ethと比
較し6 < e thが成立すれば推定が完了したもの
として学習を終了するが、e≧ethとなる場合には、
eを減算器21から適応フィルタ19に帰還し、(3)
式によりフィルタ係数を更新する。
a(k) −a(k) +2ae xz(t−k)  
   (3)ここでαはフィルタ係数の収束を安定にさ
せるステップサイズ定数であり、一般にxz(t)の時
刻tから時刻t−nまでの値の2乗和の逆数より小さい
値が選ばれる。このようにして更新されたフィルタ係数
a (k)を使用して次の時刻t−”1におけるx+(
t+1)の推定が行われる。最終的にe< e thと
なるか、あるいは、フィルタ係数が安定するために十分
な時間が経過し、推定が完了するまで上式(1)、(2
)、(3)の計算が行われる。推定が完了すれば、騒音
発生器11からの騒音の発生は停止し、スイッチ23が
開放される。このとき適応フィルタ19に誤差値eとし
てOが代入されるので、フィルタ係数は以後更新されな
い、この適応フィルタ19の学習により、発声環境の音
響伝達特性も含めたスピーカー13からマイクロホン1
6までの間の音響的特性の推定が完了したことになる。
次に、騒音環境下の音声収録を行う。ガイダンス信号発
生器14より、「音声を発生して下さい」あるいは「単
語を言って下さい」なとの発話を促す音声が生成される
9次に、騒音発生器11から、対象となる任意の雑音、
例えば、有色雑音、あるいはテープレコーダーで収録し
た雑踏の雑音などを発生させ、増幅器12を通じてスピ
ーカー13により発声環境へ放出する。放出された騒音
および発声者15により騒音受聴下で発声された音声は
、マイクロホン16により受信され、A/D変換器17
を通じて減算器21に送られる。同時に、増幅器12の
出力はA/D変換器18および適応フィルタ19へ通さ
れ、その出力はマイクロホン16で受信される騒音の推
定波形として減算器21に送られ、A/D変換器17の
出力より除去される。このとき、先に述べたように適応
フィルタ19の学習が完了していれば、減算器21では
A/D変換器17の出力すなわちマイクロホン16の出
力に含まれる騒音波形が除去され、音声波形のディジタ
ルデータが出力される。この結果は、D/A変換器22
によりアナログのデータに戻され、また、出力端子24
より出力されて、アナログ音声波形となる。なお音声認
識装置などで特に元のアナログ波形に戻す必要がなけれ
ばD/A変換器22の前でディジタルの音声波形データ
として取り出すことも可能である1以上の手順により、
騒音受聴による発声変形音声を得ることができる。
また、この実施例では、騒音除去後の波形出力に対して
、短時間パワー分析などを適用することにより、音声区
間の検出も可能である。
「発明の効果」 以上述べたようにこの発明では、■発声者が、口の動き
を規定するヘッドホンやヘッドセットなどにとられれな
い自由な形態での発声が可能になる、■発声者が、騒音
環境下での自分の声を自然なレベルで受聴することがで
きるので、従来ヘッドホンで音声を受聴さ廿ていた方法
に比べて自然に近いLosbard効果を得ることがで
きる、しかも■騒音の重量しない音声が収録できる、効
果が得られる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロック図である。 特許出願人  日本電信電話株式会社

Claims (1)

    【特許請求の範囲】
  1. (1)任意の騒音を発生できる騒音発生器とその騒音発
    生器からの出力を音響信号として空間へ放出するための
    スピーカーと、 そのスピーカーが放出された騒音環境のもとで発声され
    た音声信号をその騒音と共に受信する第1信号入力器と
    、 上記騒音発生器からの出力信号を受信する第2信号入力
    器と、 その第2信号入力器で受信した信号を用いて上記第1信
    号入力器で受信される上記騒音の出力信号を推定する推
    定手段と、 その推定した信号を上記第1信号入力器の出力より減算
    して上記音声信号成分を取出す減算手段と、 を具備する音声データ収録装置。
JP2313387A 1990-11-19 1990-11-19 音声データ収録装置 Pending JPH04184399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2313387A JPH04184399A (ja) 1990-11-19 1990-11-19 音声データ収録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2313387A JPH04184399A (ja) 1990-11-19 1990-11-19 音声データ収録装置

Publications (1)

Publication Number Publication Date
JPH04184399A true JPH04184399A (ja) 1992-07-01

Family

ID=18040655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2313387A Pending JPH04184399A (ja) 1990-11-19 1990-11-19 音声データ収録装置

Country Status (1)

Country Link
JP (1) JPH04184399A (ja)

Similar Documents

Publication Publication Date Title
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
US8990092B2 (en) Voice recognition device
CN115579016B (zh) 一种声学回声消除的方法和系统
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JPH04184399A (ja) 音声データ収録装置
JPS6257040B2 (ja)
Gordy et al. On the perceptual performance limitations of echo cancellers in wideband telephony
Goswami et al. A novel approach for design of a speech enhancement system using NLMS adaptive filter and ZCR based pattern identification
JP2001249676A (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
US20230217194A1 (en) Methods for synthesis-based clear hearing under noisy conditions
Morita et al. Voice conversion model for estimation of transfer characteristic in auditory feedback
JP3097764B2 (ja) ガイダンス音声付き音声入力装置
Vijayendra et al. Word boundary detection for Gujarati speech recognition using in-ear microphone
JP2012517031A (ja) 信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法
JP2975808B2 (ja) 音声認識装置
Pichevar et al. Design and optimization of a speech recognition front-end for distant-talking control of a music playback device
Tokgoz Development and Analysis of Real-Time Acoustic Feedback Cancellation and a Clinical Testing Simulator for Hearing Studies
Jung et al. Noise Reduction after RIR removal for Speech De-reverberation and De-noising
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
JPS6367400B2 (ja)