JPH10260696A - 食道発声音明瞭化方法及びその装置 - Google Patents

食道発声音明瞭化方法及びその装置

Info

Publication number
JPH10260696A
JPH10260696A JP9353066A JP35306697A JPH10260696A JP H10260696 A JPH10260696 A JP H10260696A JP 9353066 A JP9353066 A JP 9353066A JP 35306697 A JP35306697 A JP 35306697A JP H10260696 A JPH10260696 A JP H10260696A
Authority
JP
Japan
Prior art keywords
signal
vocal
esophageal
calculating
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9353066A
Other languages
English (en)
Inventor
Japuchin Hector
ジャプチン ヘクター
Gallar Michael
ギャラー マイケル
Niidozoiirusukii Nancy
ニードゾイールスキー ナンシー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology Research Association of Medical and Welfare Apparatus
Original Assignee
Technology Research Association of Medical and Welfare Apparatus
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology Research Association of Medical and Welfare Apparatus filed Critical Technology Research Association of Medical and Welfare Apparatus
Publication of JPH10260696A publication Critical patent/JPH10260696A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

(57)【要約】 【課題】 吸気ノイズにより食道発声音の明瞭度が低下
する。 【解決手段】 発声信号11が入力され、その発声信号
が処理ブロック12でデジタル化され、デジタル化発声
信号の第1コピーが処理ブロック13で高域強調され、
12メル周波数ケプストラ係数が処理ブロック14で算
出される。吸気ノイズと発声との間の極性の違いは処理
ブロック14で振幅加算するで検出される。変化率、信
号エネルギー及び振幅加算値の3測定値が処理ブロック
16で24のメル係数に加算される。処理ブロック17
のHMM発声基準デコーダが、一連の発声トークンで発
声信号の適切な一致を見つけ、処理ブロック18では、
吸気ガルプの検出により増幅をゼロに設定し、ガルプは
伝送されず、発声の検出により増幅を1に設定して通常
の発声出力19が伝送される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して食道発声の
分野、より詳しくは食道発声の明瞭度を高揚させる食道
発声音明瞭化方法及びその装置に関する。
【0002】
【従来の技術】喉頭切開術を受けた人が発声を回復する
ための方法としてはいくつかの選択があるが、誰も完全
に満足度を保証された者はいない。一つの比較的成功し
た方法では、食道発声には話者が吸気、すなわち、食道
内に空気を吸入する必要がある。この方法はウエインバ
ーグ・ビーとドボスナ,ジェイ・エフ(Weinberg, B. &B
osna, J.F.)による文献ジェイ・スピーチ・ヒア・ディ
スオード(J.Speech HearDisord),35:25−32,
1970年「食道発声のための吸気食道呼吸と吸気方法
との類似性」に開示されており、ここでは参考例として
取り入れる。
【0003】食道発声は聞き取れる不要な吸気ノイズを
伴うことがしばしばであって、時には「吸気ガルプ」と
呼ばれる。食道発声者は通常低い音声強度を有している
ので外部増幅の何等かの構成が必要であり、これがため
に吸気ガルプの望ましくない作用は拡大される。これら
の作用のさらなる検討は、ロビンズ・ジェイ・フィッシ
ャ,エイッチ・ビー・ブロム,イー・シーとシンガー,
エム・アイ(Robbins,J.,Fisher, H.B.,Blom, E.C. and
Singer, M.I.)による文献ジェイ・スピーチ・ヒア・レ
ス(J. Speech Hear Res.) 49:202−210,19
84年「正常、食道および気管食道発声発声の比較音響
研究」に見られ、ここでは参考例として取り入れる。聞
き取れる吸気ノイズは少なくとも二つの理由で望ましく
ない。第1に、聞き手と話し手がノイズを不愉快である
と感じる。さらに、ある話者にとって吸気ノイズは話者
の音声の明瞭度を低下させる発声セグメントと聞き間違
える。
【0004】
【発明が解決しようとする課題】多くの研究が食道発声
のある種の観点を高揚するのになされてきた。これらの
技術のうちのあるものは、キー・ワイ(Qi,Y)によるジェ
イ・アコースト・ソサエティ・アメリカ(J. Acoust.So
c.Am.) 88: 1228-12351 「LPC総合体を使用する置
換気管食道発声源」およびキ−・ワイ・ワインバーグ・
ビーとビー・エヌ(Qi, Y., Weinberg, B and B.N.,) に
よるジェイ・アコースト・ソサエティ・アメリカ98:246
1-2465「女性の食道および気管食道発声」に開示されて
いる。これら両者はここでは参考例として取り入れる。
【0005】多くの研究が食道発声を改善するのになさ
れてきたが、吸気ノイズを除去する問題の成功例は報告
されていない。
【0006】本発明は、従来のこのような課題を考慮
し、吸気ノイズを排除することにより、食道発声音を明
瞭化できる食道発声音明瞭化方法及びその装置を提供す
ることを目的とするものである。
【0007】
【課題を解決するための手段】請求項1の本発明は、食
道発声を用いた結果である発声信号中の吸気ノイズを排
除する食道発声音明瞭化方法であって、発声信号中の吸
気ノイズの発生および発声信号中の無音の発生を検出す
る工程と、吸気ノイズの発声が検出された後、発声信号
を通過させる工程と、無音の発生の後、発声信号を阻止
する工程とを備えた食道発声音明瞭化方法である。
【0008】請求項7の本発明は、食道発声に関連する
吸気ノイズを排除する食道発声音明瞭化方法であって、
発声入力信号をデジタル化する工程と、デジタル化され
た発声入力信号の第1コピー信号を高域強調する工程
と、メル周波数ケプストラ係数(MFCC)の所定数及
びデジタル化された発声入力信号の高域強調された第1
コピー信号からの差分ケプストラを算出する工程と、信
号エネルギーの測定値及びデジタル化された発声入力信
号の高域強調された第1コピー信号の信号エネルギーの
変化率の測定値を算出する工程と、デジタル化された発
声入力信号の第2コピーのために振幅加算値を算出する
工程と、メル周波数ケプストラ係数と、差分ケプストラ
と、信号エネルギーの測定値及び信号エネルギーの変化
率の測定値と、観測ベクトルからの振幅加算値とを結合
する工程と、観測ベクトルに対して隠れマルコフ・モデ
ル(HMM)基準発声デコーディングを実行する工程
と、HMMに基づく発声デコーディングに基づいて吸気
ノイズ信号を決定し、その吸気ノイズ信号の持続中に増
幅器を停止させる工程とを備えた食道発声音明瞭化方法
である。
【0009】請求項18の本発明は、外部増幅器によっ
て増幅された食道発声により発生された発声信号中の吸
気ノイズを排除する食道発声音明瞭化装置であって、音
声認識技術を用いて発声信号を処理する処理手段と、吸
気ノイズの発生及び無音の発生を検出する検出手段と、
無音の発生後、外部増幅器を停止し、吸気ノイズの発生
後、外部増幅器を稼働させる切替え手段とを備えた食道
発声音明瞭化装置である。
【0010】
【発明の実施の形態】以下に、本発明をその実施の形態
を示す図面に基づいて説明する。
【0011】本発明は、食道発声に関連する望ましくな
い聴覚効果を除去する。吸気ノイズおよび無音が入力発
声信号中で検出され、この検出された吸気ノイズまたは
無音に基づいて外部増幅器が入り切りされる。入力発声
信号がデジタル化され、デジタル化信号の最初のコピー
が高域強調される。入力発声信号が高域強調された後、
所定数のメル周波数ケプストラ係数(MFCC)および
差分(微分)ケプストラムが発声信号の各ウインドウに
つき計算される。信号エネルギーの測定値および信号エ
ネルギーの変化率の測定値が算出される。デジタル化さ
れた入力発声信号の第2コピーが振幅加算を使用する
か、または、中央クリップされた信号を微分するかによ
って処理される。信号エネルギー、信号エネルギーの変
化率、メル係数、差分(微分)ケプストラおよび振幅加
算値か微分値のいずれかの測定値が結合されて観測ベク
トルが形成される。デコーディングに基づく隠れマルコ
フ・モデル(HMM)が観察ベクトルに使用されて吸気
ノイズまたは無音の発生を検出する。外部発声増幅器の
利得スイッチが、吸気ノイズの発生後に作動し、発声の
持続中この状態を維持し、無音の発生が検出されたとき
に増幅器が稼働を停止する。
【0012】本発明の正確な特徴、その目的および利点
は図1に示したように、次の説明を熟考することで用意
に理解できるであろう。
【0013】図1は、本発明にかかる一実施の形態の食
道発声音明瞭化方法を実現するための構成を示すブロッ
ク図である。
【0014】次の説明は当該技術に習熟した人々にとっ
て本発明を使用して製作できるようにしたものであり、
また、本発明を実行するために発明者によって意図され
た最良の形態の説明である。しかし、種々の変形例が当
該技術に習熟した人々にとって理解できるであろう。な
ぜなら、本発明の基本原理は無音と吸気ガルプの認識に
基づいた吸気ノイズを除去する方法を特に提供すること
を規定しているからである。
【0015】食道発声において、空気の吸気は各発声の
開始前、および各ポーズの後で発声の続く前に典型的に
生じる。音声認識技術を用いて吸気ガルプを検出するこ
とで、吸気ノイズが発生した後でのみ外部音声増幅装置
を作動させ、無音の周期の後で増幅装置を切ることがで
きる。平常発声が断続することなく伝送される。この方
法は吸気ガルプを増幅することなく音声信号の実時間増
幅となる。ここで本発明の方法を図1を参照して詳細に
説明する。
【0016】話者のアナログ発声信号11が入力され、
そのアナログ発声信号が処理ブロック12でデジタル化
される。本実施の形態では、信号が20kHzでサンプ
リングされることでデジタル化されるが、他のサンプル
率でも使用できる。
【0017】次に、デジタル化された発声信号の一つの
コピーが処理ブロック13で高域強調される。10ms
毎に256ポイントの高速フーリェ変換(FFT)算出
が発声サンプルの20−msウインドウで実行される。
発声信号が高域強調された後、最初の12メル周波数ケ
プストラ係数(MFCC)が処理ブロック14で算出さ
れる。MFCCの計算方法は当該技術において周知であ
り、次なる参照例に開示されており、ここでは参考まで
に取り入れる。すなわち、ディビス・エスおよびマーメ
ルスタイン・ピー(Davis S., and Mermelstein,P) によ
るIEEEトランズファクションズASSP28,357-
366,1980年「連続発声センテンス中の単音節語認識のた
めのパラメトリック表現の比較」、トンプソン・ジェイ
による修士論文EE部、ウエールズ大学、スワンシー、
英国、1993年6月「話者識別のための最適特徴」および
ランフ・エイッチ・シー、ビー・シジェールとジェイア
ール・グラス(Leung, H.C., B. Chigier, and J.R, Gla
ss),による Proc.ICASSP−93,ppII−68
0−II−683,1993年「音声認識のための信号
表現と分類技術の比較研究」がある。これらの12MF
CCが発声フレームのための特徴ベクトルの第1部を形
成する。
【0018】最初の12MFCCスペクトル情報が、導
関数または差分ケプストラを含むスペクトル特性の変化
率に関する付加的な情報によって補助される。最初の1
2MFCCと差分ケプストラとの結合が、発声信号の各
ウインドウから抽出された24のメル基準ケプストラ係
数となる。
【0019】時間波形分析がケプストラ分析をさらに補
助するのに使用される。特に、信号エネルギーの測定値
が9個の連続サンプルの線形回帰に基づくエネルギーの
変化率とともに算出される。発声ベクトルが吸気ノイズ
の特定する特徴に基づく二つの特定特徴点でさらに増大
される。音声発声信号が開始されると、負圧パルスが発
生する。一方、吸気ノイズが正圧パルスを開始する。発
声の初期負圧パルスと吸気ガルプの初期正圧パルスとの
差が吸気ガルプを検出するのに使用される。マイクロフ
ォン、増幅器およびアナログ・コンバータが非反転信号
を供給するのに使用される。この非反転信号は偶数の反
転増幅器を利用するか、または、反転信号を試験し必要
ならば反転増幅器を付加することによって発生される。
【0020】吸気ノイズと発声との間の極性の違いは処
理ブロック14で振幅加算(AS)することによって検
出される。振幅加算はガルプ・セグメントの始まりの強
度標識である。本実施の形態において20ms発声ウイ
ンドウ当たり一回算出される振幅加算は、話者信号のゼ
ロからの初期偏位を検出するのに使用することができ
る。デジタル化波形が、個々の話者の特定する特徴によ
り1から20ミリセカンドの範囲のインターバルで加算
される。吸気ガルプが発生する確率は、任意の閾値にわ
たる正値が加算信号に生じたときに、高くなる。この閾
値は調節することができ、これは信号を記録するのに使
用されるマイクロフォンと増幅器との組合せによって決
まる。
【0021】極性を検出する第2の測定値は中央クリッ
プ信号を微分する。低振幅周囲ノイズを除去するため
に、信号は中央でクリップされる。残りの信号が微分さ
れ第1導関数が得られ、次いで移動平均によって平滑化
される。結果としてゼロ値に近い正値が吸気ノイズの存
在を表わす傾向にあり、負値が発声の存在を表わす傾向
にある。
【0022】変化率、信号エネルギーおよび振幅加算値
の三つの測定値が処理ブロック16で24のメル係数に
加算され、完全な観測ベクトルを形成する。従って、音
響フロントエンド・プログラムが27のエントリー観測
ベクトルを生成し各発声フレームの特徴を表わす。
【0023】隠れマルコフ・モデル(HMM)発声基準
デコーダが処理ブロック17で使用され、一連の発声ト
ークンで発声信号の適切な一致が見つけられる。二つの
別の方法がこのデコーディングを実行するのに使用され
る。第1の方法において、5個の発声トークンが使用さ
れるが、これには無音、ガルプ、ノイズ1、ノイズ2お
よび発声が含まれる。第2の方法において、発声トーク
ンは言語の基本音素を表わす一連の単位に置換される。
この第2の方法は高い精度のためにより識別力がある
が、さらなる計算を必要とする。
【0024】各トークンは当該技術において周知である
隠れマルコフ・モデル(HMM)と呼ばれるデータ構造
でモデル化される。この技術は次の参照例に開示されて
おりここでは参考までに取り入れる。すなわち、バウム
・エル・イー(Baum, L.E.)による不平等性3:1−8,
1972年「マルコフ・プロセスの確率関数の統計的推
定における不平等性と関連する最大化技術」、ベイカー
・ジェイ・ケイ(Baker・J.K.)による博士論文、コンピュ
ータ・サイエンス部CMU、1975年4月「自動音声
認識の手段としての統計的モディング」である。各HM
Mは一連のノード(節)とトランジション(遷移)から
なる。各遷移に関連する事項として次のノードへ遷移す
る可能性を表わす確率と、発声発生の対応段階における
発声の1フレームに対する特徴分布を表わす確率密度関
数がある。確率密度関数(pdf)は多変量正規分布の
混合である。HMM単位中のノード数は、無音のような
シンプルモードの場合の3から、ある一定の音素のよう
に7ほどまで変化する。一つの混合当たりの正規密度数
は、6から18またはそれ以上であって、適用例で計数
時間にかかる限界によって決まる。
【0025】本実施の形態において、5個の連続混合密
度隠蔽マルコフモデル(HMM)が、手作業によって分
割され、予備分類された食道発声データの集大成の部分
集合に照準されている。HMMは一つの混合当たり8個
の正規密度で3から7の状態を包含している。照準工程
は正常話者の8kHzデータベースで二つのモデル、す
なわち、発声モデルと無音モデルを照準することによっ
て初期化される。従って、これらのHMMの分布は三つ
の他の単位を初期化するのに使用される。5個のHMM
が話者の食道発声信号のトレーニング・ハーフで再照準
され、ビーム−ウエルヒ再評価(Beam-Welch reestimati
on) を用いて総計42の記録となる。話者適用トレーニ
ング段階はセグメント毎のトレーニングの2反復と非セ
グメント(すなわち、嵌め込まれた)トレーニングの2
反復から構成される。
【0026】処理ブロック17のHMMデコーダ・プロ
グラムは、10ms進行率で同期して発声信号フレーム
をデコードする。各信号はフロントエンド・プログラム
によって発声フレームのベクトルに処理される。
【0027】有効反復工程であるヴァイテルビ・アルゴ
リズム(Viterbi algorithm) が所望の確率を推定するの
に使用される。ヴァイテルビ・アルゴリズムはフォーニ
ィ・ジー・ディ(Formey, G.D.)によるIEEEの会報、1
6、268−278,1973年「ヴァイテルビ・アル
ゴリズム」に開示されており、ここでは参照文献として
取り入れる。デコーディング(すなわち、認識)の問題
は、確率P(m|y=P(y|m)P(m)を最大にす
るHMMユニット−モデル・シーケンスmのための検索
である。ヴァイテルビ・アルゴリズムは有効近似値を提
供する。これは結合されたステート/タイムズの格子中
の最良パスを見つける動的プログラミング・アルゴリズ
ムであり、任意の格子モードのn(j) におけるパスのコ
ストは前回ノードn(j-1) におけるコストとn(j-1) か
らn(j) を得るのに要するコストの和として計数するこ
とができる。
【0028】各フレームに対してアルゴリズムは各モデ
ル・ノードを試験する。特定フレームに対してありそう
な分布を算出し、この結果に最良の到来ノード時間とそ
のノードからの遷移の確率とを乗算することによって、
考慮中のフレームのノードに至る新しい最良の経路が導
出される。より優れた到来経路が見つかれば、この経路
が考慮中のノードをスコアと置換するのに使用される。
P(m)はモデル間の遷移中に因数分解される。説明し
た最も簡単な方法において、これらの確率は一様に1で
ある。最も詳細な方法において、N−グラムの確率が発
声トークン・シーケンス確率、例えばバイグラムとトリ
グラムに基づいて使用される。
【0029】分類方法は発声フレームの前方向処理の終
了時点において、トークン最終状態として区別された最
良にスコアリングされたノードが識別される。前方向処
理中、前回ノードへの指標(ポインタ)が、最良到来遷
移と経路が各ノードで識別される毎に記憶される。これ
らのバックポインタは、これに対応する信号セグメント
だけでなくこれが指標するモデルを識別する方向に沿っ
て後方にトレースされる。モデル境界において、フレー
ム識別子はバックトラック工程中、分類データとしての
出力である。これらのフレーム識別子は、信号を発声ト
ークンに対応するセグメントにはっきり分割する。
【0030】最終的に、吸気(ガルプ)トークンが出力
として標識されたこれらのセグメントは、発声信号内で
ガルプとして分類される。食道発声は短い遅延で伝送さ
れて処理され、増幅される。吸気ガルプが検出される
と、増幅は処理ブロック18でゼロに設定され、ガルプ
は伝送されず、一方発声が検出されると処理ブロック1
8で増幅が1に設定されて通常の発声出力19で伝送さ
れる。
【0031】本実施の形態において、処理ブロック12
がデジタル化手段に、処理ブロック13がプリエンファ
シス手段に、処理ブロック14が第1計算手段及び第2
計算手段に、処理ブロック15が第3計算手段に、処理
ブロック16が結合手段に、処理ブロック17が検出手
段に、処理ブロック18が切替え手段に、それぞれ対応
している。
【0032】当該技術に習熟した人々は、これまでに説
明した実施の形態の種々の適用例および変形例が本発明
の範囲と趣旨から外れることなく構成できることが理解
できるであろう。従って、上述の特許請求の範囲内で本
発明はここに特定した説明以外も実施できることが理解
される。
【0033】
【発明の効果】以上述べたところから明らかなように本
発明は、発声信号中の吸気ノイズの発生および発声信号
中の無音の発生を検出する工程と、吸気ノイズの発声が
検出された後、発声信号を通過させる工程と、無音の発
生の後、発声信号を阻止する工程とを備えているので、
吸気ノイズを排除することにより、食道発声音を明瞭化
できるという長所を有する。
【図面の簡単な説明】
【図1】本発明にかかる一実施の形態の食道発声音明瞭
化方法を実現するための構成を示すブロック図である。
【符号の説明】
11 発声信号 12 処理ブロック(A/D変換) 13 処理ブロック(高域強調) 14 処理ブロック(MFCC,振幅,第1導関数の振
幅) 15 処理ブロック(振幅加算,中央クリップされた導
関数) 16 処理ブロック(異なる測定値の結合) 17 処理ブロック(HMM基準デコーディング) 18 処理ブロック(ゲインスイッチ,0または1) 19 発声出力

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 食道発声を用いた結果である発声信号中
    の吸気ノイズを排除する食道発声音明瞭化方法であっ
    て、 前記発声信号中の前記吸気ノイズの発生及び前記発声信
    号中の無音の発生を検出する工程と、 前記吸気ノイズの発声が検出された後、前記発声信号を
    通過させる工程と、 前記無音の発生の後、前記発声信号を阻止する工程と、 を備えたことを特徴とする食道発声音明瞭化方法。
  2. 【請求項2】 前記吸気ノイズの発生を検出するために
    用いる、前記発声信号を処理する工程が、 発声入力信号をデジタル化する工程と、 前記デジタル化された発声入力信号の第1コピー信号を
    高域強調する工程と、 メル周波数ケプストラ係数(MFCC)の所定数及び前
    記デジタル化された発声入力信号の高域強調された第1
    コピー信号からの差分ケプストラを算出する工程と、 信号エネルギーの測定値及び前記デジタル化された発声
    入力信号の高域強調された第1コピー信号の信号エネル
    ギーの変化率の測定値を算出する工程と、 前記デジタル化された発声入力信号の第2コピーのため
    に振幅加算値を算出する工程と、 前記メル周波数ケプストラ係数と、前記差分ケプストラ
    と、前記信号エネルギーの測定値及び信号エネルギーの
    変化率の測定値と、観測ベクトルからの振幅加算値とを
    結合する工程と、 を有することを特徴とする請求項1に記載の食道発声音
    明瞭化方法。
  3. 【請求項3】 前記振幅加算値の算出工程が、微分値の
    算出の工程に置換し、その算出された微分値が前記デジ
    タル化発声入力信号の第2コピーを中央クリッピング
    し、その中央クリップされた信号を微分し平滑すること
    によって算出し、さらに前記結合工程が前記振幅加算値
    の代わりに微分値を結合することを特徴とする請求項2
    に記載の食道発声音明瞭化方法。
  4. 【請求項4】 前記処理された発声信号中の吸気ノイズ
    の発生を検出する工程が、観測ベクトルに対して隠れマ
    ルコフ・モデル(HMM)基準発声デコーディングを実
    行する工程を有することを特徴とする請求項2に記載の
    食道発声音明瞭化方法。
  5. 【請求項5】 前記観測ベクトルに対してデコードする
    隠れマルコフ・モデル(HMM)基準発声デコーディン
    グを実行する工程が、無音、ガルプ、ノイズ1、ノイズ
    2および発声を含む5個のトークンを使用することを特
    徴とする請求項4に記載の食道発声音明瞭化方法。
  6. 【請求項6】 前記観測ベクトルに対して隠れマルコフ
    ・モデル(HMM)基準発声デコーディングを実行する
    工程が、話者の言語の基本音素を使用することを特徴と
    する請求項4に記載の食道発声音明瞭化方法。
  7. 【請求項7】 食道発声に関連する吸気ノイズを排除す
    る食道発声音明瞭化方法であって、 発声入力信号をデジタル化する工程と、 前記デジタル化された発声入力信号の第1コピー信号を
    高域強調する工程と、 メル周波数ケプストラ係数(MFCC)の所定数及び前
    記デジタル化された発声入力信号の高域強調された第1
    コピー信号からの差分ケプストラを算出する工程と、 信号エネルギーの測定値及び前記デジタル化された発声
    入力信号の高域強調された第1コピー信号の信号エネル
    ギーの変化率の測定値を算出する工程と、 前記デジタル化された発声入力信号の第2コピーのため
    に振幅加算値を算出する工程と、 前記メル周波数ケプストラ係数と、前記差分ケプストラ
    と、前記信号エネルギーの測定値及び信号エネルギーの
    変化率の測定値と、観測ベクトルからの振幅加算値とを
    結合する工程と、 前記観測ベクトルに対して隠れマルコフ・モデル(HM
    M)基準発声デコーディングを実行する工程と、 前記HMMに基づく発声デコーディングに基づいて吸気
    ノイズ信号を決定し、その吸気ノイズ信号の持続中に増
    幅器を停止させる工程と、 を備えたことを特徴とする食道発声音明瞭化方法。
  8. 【請求項8】 前記振幅加算値の算出工程が、微分値の
    算出の工程に置換し、その算出された微分値が前記デジ
    タル化発声入力信号の第2コピーを中央クリッピング
    し、その中央クリップされた信号を微分し平滑すること
    によって算出し、さらに前記結合工程が前記振幅加算値
    の代わりに微分値を結合することを特徴とする請求項7
    に記載の食道発声音明瞭化方法。
  9. 【請求項9】 前記発声入力信号を、20キロヘルツ
    (KHz)のサンプリングレートでサンプリングするこ
    とを特徴とする請求項7に記載の食道発声音明瞭化方
    法。
  10. 【請求項10】 前記デジタル化された発声入力信号の
    第1コピー信号を高域強調する工程が、発声サンプルの
    20ミリセカンド(ms)ウインドウに対して10ミリ
    セカンド(ms)毎に256ポイントの高速フーリェ変
    換(FFT)を算出することを特徴とする請求項9に記
    載の食道発声音明瞭化方法。
  11. 【請求項11】 前記メル周波数ケプストラ係数(MF
    CC)の所定数及び前記デジタル化された発声入力信号
    の高域強調された第1コピーからの差分ケプストラを算
    出する工程が、第1の12のメル周波数ケプストラ係数
    と12の差分ケプストラとを算出することを特徴とする
    請求項10に記載の食道発声音明瞭化方法。
  12. 【請求項12】 前記信号エネルギーの測定値及び前記
    デジタル化された発声入力信号の高域強調された第1コ
    ピー信号の信号エネルギーの変化率の測定値を算出する
    工程が、前記発声入力信号の9個の連続するサンプルの
    線形回帰を算出することを特徴とする請求項10に記載
    の食道発声音明瞭化方法。
  13. 【請求項13】 前記デジタル化された発声入力信号の
    第2コピーのために振幅加算値を算出する工程が、話者
    の特徴により、発声サンプルの20ミリセカンド(m
    s)のウインドウ当たり1ないし20ミリセカンドの範
    囲の時間インターバルにわたりデジタル化発声入力信号
    を加算することを特徴とする請求項12に記載の食道発
    声音明瞭化方法。
  14. 【請求項14】 前記結合工程が、27個のエントリ観
    測ベクトルを発生することを特徴とする請求項13に記
    載の食道発声音明瞭化方法。
  15. 【請求項15】 前記観測ベクトルに対して隠れマルコ
    フ・モデル(HMM)基準発声デコーディングを実行す
    る工程が、無音、ガルプ、ノイズ1、ノイズ2および発
    声を含む5個のトークンを使用することを特徴とする請
    求項14に記載の食道発声音明瞭化方法。
  16. 【請求項16】 前記観測ベクトルに対して隠れマルコ
    フ・モデル(HMM)基準発声デコーディグを実行する
    工程が、話者の言語の基本音素を使用することを特徴と
    する請求項14に記載の食道発声音明瞭化方法。
  17. 【請求項17】 前記吸気ノイズが発生した後、増幅器
    が作動され、無音が検出されたときに前記増幅器が停止
    されることを特徴とする請求項15に記載の食道発声音
    明瞭化方法。
  18. 【請求項18】 外部増幅器によって増幅された食道発
    声により発生された発声信号中の吸気ノイズを排除する
    食道発声音明瞭化装置であって、 音声認識技術を用いて発声信号を処理する処理手段と、 前記吸気ノイズの発生及び無音の発生を検出する検出手
    段と、 前記無音の発生後、前記外部増幅器を停止し、前記吸気
    ノイズの発生後、前記外部増幅器を稼働させる切替え手
    段と、 を備えたことを特徴とする食道発声音明瞭化装置。
  19. 【請求項19】 前記発声信号を処理する処理手段がさ
    らに、 前記発声入力信号をデジタル化するデジタル化手段と、 そのデジタル化された発声入力信号の第1コピー信号を
    高域強調するプリエンファシス手段と、 メル周波数ケプストラ係数(MFCC)の所定数及び前
    記デジタル化された発声入力信号の高域強調された第1
    コピー信号からの差分ケプストラを算出する第1計算手
    段と、 信号エネルギーの測定値及び前記デジタル化された発声
    入力信号の高域強調された第1コピー信号の信号エネル
    ギーの変化率の測定値を算出する第2計算手段と、 前記デジタル化された発声入力信号の第2コピーのため
    に振幅加算値を算出する第3計算手段と、 前記メル周波数ケプストラ係数と、差分ケプストラと、
    信号エネルギーの測定値及び信号エネルギーの変化率の
    測定値と、観測ベクトルからの振幅加算値とを結合する
    結合手段と、 を備えたことを特徴とする請求項18に記載の食道発声
    音明瞭化装置。
  20. 【請求項20】 前記第3計算手段が微分値を算出し、
    その微分値が前記デジタル化された発声入力信号の第2
    コピーを中央クリップし、その中央クリップされた信号
    を微分し平滑化することによって算出し、前記結合手段
    が前記振幅加算値の代わりに前記微分値を結合すること
    を特徴とする請求項19に記載の食道発声音明瞭化装
    置。
  21. 【請求項21】 検出手段がさらに、前記観測ベクトル
    に対してHMM基準デコーディングを実行する隠れマル
    コフ・モデル(HMM)発声デコーディング手段を有す
    ることを特徴とする請求項19に記載の食道発声音明瞭
    化装置。
JP9353066A 1996-12-24 1997-12-22 食道発声音明瞭化方法及びその装置 Pending JPH10260696A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/773,638 1996-12-24
US08/773,638 US5890111A (en) 1996-12-24 1996-12-24 Enhancement of esophageal speech by injection noise rejection

Publications (1)

Publication Number Publication Date
JPH10260696A true JPH10260696A (ja) 1998-09-29

Family

ID=25098866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9353066A Pending JPH10260696A (ja) 1996-12-24 1997-12-22 食道発声音明瞭化方法及びその装置

Country Status (2)

Country Link
US (1) US5890111A (ja)
JP (1) JPH10260696A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
ES2190342B1 (es) * 2001-06-25 2004-11-16 Universitat Pompeu Fabra Metodo para identificacion de secuencias de audio.
US7254535B2 (en) * 2004-06-30 2007-08-07 Motorola, Inc. Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US7328114B2 (en) * 2005-12-09 2008-02-05 General Electric Company Methods and systems for measuring a rate of change of frequency
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
JP5239594B2 (ja) * 2008-07-30 2013-07-17 富士通株式会社 クリップ検出装置及び方法
US20130211832A1 (en) * 2012-02-09 2013-08-15 General Motors Llc Speech signal processing responsive to low noise levels
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4308861A (en) * 1980-03-27 1982-01-05 Board Of Regents, University Of Texas Pharyngeal-esophaegeal segment pressure prosthesis
US4502150A (en) * 1981-03-30 1985-02-26 Thomas Jefferson University Artificial larynx
US4439872A (en) * 1981-10-06 1984-04-03 Henley Cohn Julian L Apparatus to assist esophageal speech
US4489440A (en) * 1983-10-14 1984-12-18 Bear Medical Systems, Inc. Pressure-compensated pneumatic speech simulator
AT379274B (de) * 1983-12-22 1985-12-10 Akg Akustische Kino Geraete Anordnung zur unterdrueckung der amplitudenspitzen am beginn von explosivlauten in einem elektroakustischen uebertragungssystem, an dessen eingang ein mikrophon angeordnet ist
US4627095A (en) * 1984-04-13 1986-12-02 Larry Thompson Artificial voice apparatus
US4736432A (en) * 1985-12-09 1988-04-05 Motorola Inc. Electronic siren audio notch filter for transmitters
US4718099A (en) * 1986-01-29 1988-01-05 Telex Communications, Inc. Automatic gain control for hearing aid
US4669643A (en) * 1986-03-20 1987-06-02 Linda E. Hymes Electronic larynx carrier
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4837832A (en) * 1987-10-20 1989-06-06 Sol Fanshel Electronic hearing aid with gain control means for eliminating low frequency noise
US4862506A (en) * 1988-02-24 1989-08-29 Noise Cancellation Technologies, Inc. Monitoring, testing and operator controlling of active noise and vibration cancellation systems
US5157653A (en) * 1990-08-03 1992-10-20 Coherent Communications Systems Corp. Residual echo elimination with proportionate noise injection
US5123922A (en) * 1990-12-21 1992-06-23 Brigham And Women's Hospital Speaking tube
US5326349A (en) * 1992-07-09 1994-07-05 Baraff David R Artificial larynx
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
FR2704111B1 (fr) * 1993-04-16 1995-05-24 Sextant Avionique Procédé de détection énergétique de signaux noyés dans du bruit.
US5359663A (en) * 1993-09-02 1994-10-25 The United States Of America As Represented By The Secretary Of The Navy Method and system for suppressing noise induced in a fluid medium by a body moving therethrough
US5706392A (en) * 1995-06-01 1998-01-06 Rutgers, The State University Of New Jersey Perceptual speech coder and method
US5684921A (en) * 1995-07-13 1997-11-04 U S West Technologies, Inc. Method and system for identifying a corrupted speech message signal

Also Published As

Publication number Publication date
US5890111A (en) 1999-03-30

Similar Documents

Publication Publication Date Title
US5791904A (en) Speech training aid
US5946654A (en) Speaker identification using unsupervised speech models
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
EP0880126B1 (en) Speech-silence discrimination based on unsupervised HMM adaptation
Macherey et al. Investigations on error minimizing training criteria for discriminative training in automatic speech recognition.
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
JPH10260696A (ja) 食道発声音明瞭化方法及びその装置
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Zalkow et al. Evaluating speech–phoneme alignment and its impact on neural text-to-speech synthesis
Weber et al. Speaker recognition on single-and multispeaker data
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
US5946649A (en) Esophageal speech injection noise detection and rejection
JP4461557B2 (ja) 音声認識方法および音声認識装置
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
Singh et al. Features and techniques for speaker recognition
Jijomon et al. An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances
JP4576612B2 (ja) 音声認識方法および音声認識装置
Javkin et al. Enhancement of esophageal speech by injection noise rejection
Lin et al. Consonant/vowel segmentation for Mandarin syllable recognition
JP2798919B2 (ja) 音声区間検出方式
JP2574557B2 (ja) 音声認識方法
Inbanila et al. Enhancement of substitution voices using F1 formant deviation analysis and DTW based template matching
Kaur et al. Speech Recognition Fundamentals and Features