JPH10260696A

JPH10260696A - 食道発声音明瞭化方法及びその装置

Info

Publication number: JPH10260696A
Application number: JP9353066A
Authority: JP
Inventors: Japuchin Hector; ジャプチンヘクター; Gallar Michael; ギャラーマイケル; Niidozoiirusukii Nancy; ニードゾイールスキーナンシー
Original assignee: Technology Research Association of Medical and Welfare Apparatus
Current assignee: Technology Research Association of Medical and Welfare Apparatus
Priority date: 1996-12-24
Filing date: 1997-12-22
Publication date: 1998-09-29
Also published as: US5890111A

Abstract

(57)【要約】【課題】吸気ノイズにより食道発声音の明瞭度が低下
する。【解決手段】発声信号１１が入力され、その発声信号
が処理ブロック１２でデジタル化され、デジタル化発声
信号の第１コピーが処理ブロック１３で高域強調され、
１２メル周波数ケプストラ係数が処理ブロック１４で算
出される。吸気ノイズと発声との間の極性の違いは処理
ブロック１４で振幅加算するで検出される。変化率、信
号エネルギー及び振幅加算値の３測定値が処理ブロック
１６で２４のメル係数に加算される。処理ブロック１７
のＨＭＭ発声基準デコーダが、一連の発声トークンで発
声信号の適切な一致を見つけ、処理ブロック１８では、
吸気ガルプの検出により増幅をゼロに設定し、ガルプは
伝送されず、発声の検出により増幅を１に設定して通常
の発声出力１９が伝送される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して食道発声の
分野、より詳しくは食道発声の明瞭度を高揚させる食道
発声音明瞭化方法及びその装置に関する。

【０００２】

【従来の技術】喉頭切開術を受けた人が発声を回復する
ための方法としてはいくつかの選択があるが、誰も完全
に満足度を保証された者はいない。一つの比較的成功し
た方法では、食道発声には話者が吸気、すなわち、食道
内に空気を吸入する必要がある。この方法はウエインバ
ーグ・ビーとドボスナ，ジェイ・エフ(Weinberg, B. &B
osna, J.F.)による文献ジェイ・スピーチ・ヒア・ディ
スオード(J.Speech HearDisord)，３５：２５−３２，
１９７０年「食道発声のための吸気食道呼吸と吸気方法
との類似性」に開示されており、ここでは参考例として
取り入れる。

【０００３】食道発声は聞き取れる不要な吸気ノイズを
伴うことがしばしばであって、時には「吸気ガルプ」と
呼ばれる。食道発声者は通常低い音声強度を有している
ので外部増幅の何等かの構成が必要であり、これがため
に吸気ガルプの望ましくない作用は拡大される。これら
の作用のさらなる検討は、ロビンズ・ジェイ・フィッシ
ャ，エイッチ・ビー・ブロム，イー・シーとシンガー，
エム・アイ(Robbins,J.,Fisher, H.B.,Blom, E.C. and
Singer, M.I.)による文献ジェイ・スピーチ・ヒア・レ
ス(J. Speech Hear Res.) ４９：２０２−２１０，１９
８４年「正常、食道および気管食道発声発声の比較音響
研究」に見られ、ここでは参考例として取り入れる。聞
き取れる吸気ノイズは少なくとも二つの理由で望ましく
ない。第１に、聞き手と話し手がノイズを不愉快である
と感じる。さらに、ある話者にとって吸気ノイズは話者
の音声の明瞭度を低下させる発声セグメントと聞き間違
える。

【０００４】

【発明が解決しようとする課題】多くの研究が食道発声
のある種の観点を高揚するのになされてきた。これらの
技術のうちのあるものは、キー・ワイ(Qi,Y)によるジェ
イ・アコースト・ソサエティ・アメリカ(J. Acoust.So
c.Am.) 88: 1228-12351 「ＬＰＣ総合体を使用する置
換気管食道発声源」およびキ−・ワイ・ワインバーグ・
ビーとビー・エヌ(Qi, Y., Weinberg, B and B.N.,) に
よるジェイ・アコースト・ソサエティ・アメリカ98:246
1-2465「女性の食道および気管食道発声」に開示されて
いる。これら両者はここでは参考例として取り入れる。

【０００５】多くの研究が食道発声を改善するのになさ
れてきたが、吸気ノイズを除去する問題の成功例は報告
されていない。

【０００６】本発明は、従来のこのような課題を考慮
し、吸気ノイズを排除することにより、食道発声音を明
瞭化できる食道発声音明瞭化方法及びその装置を提供す
ることを目的とするものである。

【０００７】

【課題を解決するための手段】請求項１の本発明は、食
道発声を用いた結果である発声信号中の吸気ノイズを排
除する食道発声音明瞭化方法であって、発声信号中の吸
気ノイズの発生および発声信号中の無音の発生を検出す
る工程と、吸気ノイズの発声が検出された後、発声信号
を通過させる工程と、無音の発生の後、発声信号を阻止
する工程とを備えた食道発声音明瞭化方法である。

【０００８】請求項７の本発明は、食道発声に関連する
吸気ノイズを排除する食道発声音明瞭化方法であって、
発声入力信号をデジタル化する工程と、デジタル化され
た発声入力信号の第１コピー信号を高域強調する工程
と、メル周波数ケプストラ係数（ＭＦＣＣ）の所定数及
びデジタル化された発声入力信号の高域強調された第１
コピー信号からの差分ケプストラを算出する工程と、信
号エネルギーの測定値及びデジタル化された発声入力信
号の高域強調された第１コピー信号の信号エネルギーの
変化率の測定値を算出する工程と、デジタル化された発
声入力信号の第２コピーのために振幅加算値を算出する
工程と、メル周波数ケプストラ係数と、差分ケプストラ
と、信号エネルギーの測定値及び信号エネルギーの変化
率の測定値と、観測ベクトルからの振幅加算値とを結合
する工程と、観測ベクトルに対して隠れマルコフ・モデ
ル（ＨＭＭ）基準発声デコーディングを実行する工程
と、ＨＭＭに基づく発声デコーディングに基づいて吸気
ノイズ信号を決定し、その吸気ノイズ信号の持続中に増
幅器を停止させる工程とを備えた食道発声音明瞭化方法
である。

【０００９】請求項１８の本発明は、外部増幅器によっ
て増幅された食道発声により発生された発声信号中の吸
気ノイズを排除する食道発声音明瞭化装置であって、音
声認識技術を用いて発声信号を処理する処理手段と、吸
気ノイズの発生及び無音の発生を検出する検出手段と、
無音の発生後、外部増幅器を停止し、吸気ノイズの発生
後、外部増幅器を稼働させる切替え手段とを備えた食道
発声音明瞭化装置である。

【００１０】

【発明の実施の形態】以下に、本発明をその実施の形態
を示す図面に基づいて説明する。

【００１１】本発明は、食道発声に関連する望ましくな
い聴覚効果を除去する。吸気ノイズおよび無音が入力発
声信号中で検出され、この検出された吸気ノイズまたは
無音に基づいて外部増幅器が入り切りされる。入力発声
信号がデジタル化され、デジタル化信号の最初のコピー
が高域強調される。入力発声信号が高域強調された後、
所定数のメル周波数ケプストラ係数（ＭＦＣＣ）および
差分（微分）ケプストラムが発声信号の各ウインドウに
つき計算される。信号エネルギーの測定値および信号エ
ネルギーの変化率の測定値が算出される。デジタル化さ
れた入力発声信号の第２コピーが振幅加算を使用する
か、または、中央クリップされた信号を微分するかによ
って処理される。信号エネルギー、信号エネルギーの変
化率、メル係数、差分（微分）ケプストラおよび振幅加
算値か微分値のいずれかの測定値が結合されて観測ベク
トルが形成される。デコーディングに基づく隠れマルコ
フ・モデル（ＨＭＭ）が観察ベクトルに使用されて吸気
ノイズまたは無音の発生を検出する。外部発声増幅器の
利得スイッチが、吸気ノイズの発生後に作動し、発声の
持続中この状態を維持し、無音の発生が検出されたとき
に増幅器が稼働を停止する。

【００１２】本発明の正確な特徴、その目的および利点
は図１に示したように、次の説明を熟考することで用意
に理解できるであろう。

【００１３】図１は、本発明にかかる一実施の形態の食
道発声音明瞭化方法を実現するための構成を示すブロッ
ク図である。

【００１４】次の説明は当該技術に習熟した人々にとっ
て本発明を使用して製作できるようにしたものであり、
また、本発明を実行するために発明者によって意図され
た最良の形態の説明である。しかし、種々の変形例が当
該技術に習熟した人々にとって理解できるであろう。な
ぜなら、本発明の基本原理は無音と吸気ガルプの認識に
基づいた吸気ノイズを除去する方法を特に提供すること
を規定しているからである。

【００１５】食道発声において、空気の吸気は各発声の
開始前、および各ポーズの後で発声の続く前に典型的に
生じる。音声認識技術を用いて吸気ガルプを検出するこ
とで、吸気ノイズが発生した後でのみ外部音声増幅装置
を作動させ、無音の周期の後で増幅装置を切ることがで
きる。平常発声が断続することなく伝送される。この方
法は吸気ガルプを増幅することなく音声信号の実時間増
幅となる。ここで本発明の方法を図１を参照して詳細に
説明する。

【００１６】話者のアナログ発声信号１１が入力され、
そのアナログ発声信号が処理ブロック１２でデジタル化
される。本実施の形態では、信号が２０ｋＨｚでサンプ
リングされることでデジタル化されるが、他のサンプル
率でも使用できる。

【００１７】次に、デジタル化された発声信号の一つの
コピーが処理ブロック１３で高域強調される。１０ｍｓ
毎に２５６ポイントの高速フーリェ変換（ＦＦＴ）算出
が発声サンプルの２０−ｍｓウインドウで実行される。
発声信号が高域強調された後、最初の１２メル周波数ケ
プストラ係数（ＭＦＣＣ）が処理ブロック１４で算出さ
れる。ＭＦＣＣの計算方法は当該技術において周知であ
り、次なる参照例に開示されており、ここでは参考まで
に取り入れる。すなわち、ディビス・エスおよびマーメ
ルスタイン・ピー(Davis S., and Mermelstein,P) によ
るＩＥＥＥトランズファクションズＡＳＳＰ２８，357-
366,1980年「連続発声センテンス中の単音節語認識のた
めのパラメトリック表現の比較」、トンプソン・ジェイ
による修士論文ＥＥ部、ウエールズ大学、スワンシー、
英国、1993年６月「話者識別のための最適特徴」および
ランフ・エイッチ・シー、ビー・シジェールとジェイア
ール・グラス(Leung, H.C., B. Chigier, and J.R, Gla
ss),による Proc.ＩＣＡＳＳＰ−９３，ｐｐＩＩ−６８
０−ＩＩ−６８３，１９９３年「音声認識のための信号
表現と分類技術の比較研究」がある。これらの１２ＭＦ
ＣＣが発声フレームのための特徴ベクトルの第１部を形
成する。

【００１８】最初の１２ＭＦＣＣスペクトル情報が、導
関数または差分ケプストラを含むスペクトル特性の変化
率に関する付加的な情報によって補助される。最初の１
２ＭＦＣＣと差分ケプストラとの結合が、発声信号の各
ウインドウから抽出された２４のメル基準ケプストラ係
数となる。

【００１９】時間波形分析がケプストラ分析をさらに補
助するのに使用される。特に、信号エネルギーの測定値
が９個の連続サンプルの線形回帰に基づくエネルギーの
変化率とともに算出される。発声ベクトルが吸気ノイズ
の特定する特徴に基づく二つの特定特徴点でさらに増大
される。音声発声信号が開始されると、負圧パルスが発
生する。一方、吸気ノイズが正圧パルスを開始する。発
声の初期負圧パルスと吸気ガルプの初期正圧パルスとの
差が吸気ガルプを検出するのに使用される。マイクロフ
ォン、増幅器およびアナログ・コンバータが非反転信号
を供給するのに使用される。この非反転信号は偶数の反
転増幅器を利用するか、または、反転信号を試験し必要
ならば反転増幅器を付加することによって発生される。

【００２０】吸気ノイズと発声との間の極性の違いは処
理ブロック１４で振幅加算（ＡＳ）することによって検
出される。振幅加算はガルプ・セグメントの始まりの強
度標識である。本実施の形態において２０ｍｓ発声ウイ
ンドウ当たり一回算出される振幅加算は、話者信号のゼ
ロからの初期偏位を検出するのに使用することができ
る。デジタル化波形が、個々の話者の特定する特徴によ
り１から２０ミリセカンドの範囲のインターバルで加算
される。吸気ガルプが発生する確率は、任意の閾値にわ
たる正値が加算信号に生じたときに、高くなる。この閾
値は調節することができ、これは信号を記録するのに使
用されるマイクロフォンと増幅器との組合せによって決
まる。

【００２１】極性を検出する第２の測定値は中央クリッ
プ信号を微分する。低振幅周囲ノイズを除去するため
に、信号は中央でクリップされる。残りの信号が微分さ
れ第１導関数が得られ、次いで移動平均によって平滑化
される。結果としてゼロ値に近い正値が吸気ノイズの存
在を表わす傾向にあり、負値が発声の存在を表わす傾向
にある。

【００２２】変化率、信号エネルギーおよび振幅加算値
の三つの測定値が処理ブロック１６で２４のメル係数に
加算され、完全な観測ベクトルを形成する。従って、音
響フロントエンド・プログラムが２７のエントリー観測
ベクトルを生成し各発声フレームの特徴を表わす。

【００２３】隠れマルコフ・モデル（ＨＭＭ）発声基準
デコーダが処理ブロック１７で使用され、一連の発声ト
ークンで発声信号の適切な一致が見つけられる。二つの
別の方法がこのデコーディングを実行するのに使用され
る。第１の方法において、５個の発声トークンが使用さ
れるが、これには無音、ガルプ、ノイズ１、ノイズ２お
よび発声が含まれる。第２の方法において、発声トーク
ンは言語の基本音素を表わす一連の単位に置換される。
この第２の方法は高い精度のためにより識別力がある
が、さらなる計算を必要とする。

【００２４】各トークンは当該技術において周知である
隠れマルコフ・モデル（ＨＭＭ）と呼ばれるデータ構造
でモデル化される。この技術は次の参照例に開示されて
おりここでは参考までに取り入れる。すなわち、バウム
・エル・イー(Baum, L.E.)による不平等性３：１−８，
１９７２年「マルコフ・プロセスの確率関数の統計的推
定における不平等性と関連する最大化技術」、ベイカー
・ジェイ・ケイ(Baker・J.K.)による博士論文、コンピュ
ータ・サイエンス部ＣＭＵ、１９７５年４月「自動音声
認識の手段としての統計的モディング」である。各ＨＭ
Ｍは一連のノード（節）とトランジション（遷移）から
なる。各遷移に関連する事項として次のノードへ遷移す
る可能性を表わす確率と、発声発生の対応段階における
発声の１フレームに対する特徴分布を表わす確率密度関
数がある。確率密度関数（ｐｄｆ）は多変量正規分布の
混合である。ＨＭＭ単位中のノード数は、無音のような
シンプルモードの場合の３から、ある一定の音素のよう
に７ほどまで変化する。一つの混合当たりの正規密度数
は、６から１８またはそれ以上であって、適用例で計数
時間にかかる限界によって決まる。

【００２５】本実施の形態において、５個の連続混合密
度隠蔽マルコフモデル（ＨＭＭ）が、手作業によって分
割され、予備分類された食道発声データの集大成の部分
集合に照準されている。ＨＭＭは一つの混合当たり８個
の正規密度で３から７の状態を包含している。照準工程
は正常話者の８ｋＨｚデータベースで二つのモデル、す
なわち、発声モデルと無音モデルを照準することによっ
て初期化される。従って、これらのＨＭＭの分布は三つ
の他の単位を初期化するのに使用される。５個のＨＭＭ
が話者の食道発声信号のトレーニング・ハーフで再照準
され、ビーム−ウエルヒ再評価(Beam-Welch reestimati
on) を用いて総計４２の記録となる。話者適用トレーニ
ング段階はセグメント毎のトレーニングの２反復と非セ
グメント（すなわち、嵌め込まれた）トレーニングの２
反復から構成される。

【００２６】処理ブロック１７のＨＭＭデコーダ・プロ
グラムは、１０ｍｓ進行率で同期して発声信号フレーム
をデコードする。各信号はフロントエンド・プログラム
によって発声フレームのベクトルに処理される。

【００２７】有効反復工程であるヴァイテルビ・アルゴ
リズム(Viterbi algorithm) が所望の確率を推定するの
に使用される。ヴァイテルビ・アルゴリズムはフォーニ
ィ・ジー・ディ(Formey, G.D.)によるIEEEの会報、１
６、２６８−２７８，１９７３年「ヴァイテルビ・アル
ゴリズム」に開示されており、ここでは参照文献として
取り入れる。デコーディング（すなわち、認識）の問題
は、確率Ｐ（ｍ｜ｙ＝Ｐ（ｙ｜ｍ）Ｐ（ｍ）を最大にす
るＨＭＭユニット−モデル・シーケンスｍのための検索
である。ヴァイテルビ・アルゴリズムは有効近似値を提
供する。これは結合されたステート／タイムズの格子中
の最良パスを見つける動的プログラミング・アルゴリズ
ムであり、任意の格子モードのｎ(j) におけるパスのコ
ストは前回ノードｎ(j-1) におけるコストとｎ(j-1) か
らｎ(j) を得るのに要するコストの和として計数するこ
とができる。

【００２８】各フレームに対してアルゴリズムは各モデ
ル・ノードを試験する。特定フレームに対してありそう
な分布を算出し、この結果に最良の到来ノード時間とそ
のノードからの遷移の確率とを乗算することによって、
考慮中のフレームのノードに至る新しい最良の経路が導
出される。より優れた到来経路が見つかれば、この経路
が考慮中のノードをスコアと置換するのに使用される。
Ｐ（ｍ）はモデル間の遷移中に因数分解される。説明し
た最も簡単な方法において、これらの確率は一様に１で
ある。最も詳細な方法において、Ｎ−グラムの確率が発
声トークン・シーケンス確率、例えばバイグラムとトリ
グラムに基づいて使用される。

【００２９】分類方法は発声フレームの前方向処理の終
了時点において、トークン最終状態として区別された最
良にスコアリングされたノードが識別される。前方向処
理中、前回ノードへの指標（ポインタ）が、最良到来遷
移と経路が各ノードで識別される毎に記憶される。これ
らのバックポインタは、これに対応する信号セグメント
だけでなくこれが指標するモデルを識別する方向に沿っ
て後方にトレースされる。モデル境界において、フレー
ム識別子はバックトラック工程中、分類データとしての
出力である。これらのフレーム識別子は、信号を発声ト
ークンに対応するセグメントにはっきり分割する。

【００３０】最終的に、吸気（ガルプ）トークンが出力
として標識されたこれらのセグメントは、発声信号内で
ガルプとして分類される。食道発声は短い遅延で伝送さ
れて処理され、増幅される。吸気ガルプが検出される
と、増幅は処理ブロック１８でゼロに設定され、ガルプ
は伝送されず、一方発声が検出されると処理ブロック１
８で増幅が１に設定されて通常の発声出力１９で伝送さ
れる。

【００３１】本実施の形態において、処理ブロック１２
がデジタル化手段に、処理ブロック１３がプリエンファ
シス手段に、処理ブロック１４が第１計算手段及び第２
計算手段に、処理ブロック１５が第３計算手段に、処理
ブロック１６が結合手段に、処理ブロック１７が検出手
段に、処理ブロック１８が切替え手段に、それぞれ対応
している。

【００３２】当該技術に習熟した人々は、これまでに説
明した実施の形態の種々の適用例および変形例が本発明
の範囲と趣旨から外れることなく構成できることが理解
できるであろう。従って、上述の特許請求の範囲内で本
発明はここに特定した説明以外も実施できることが理解
される。

【００３３】

【発明の効果】以上述べたところから明らかなように本
発明は、発声信号中の吸気ノイズの発生および発声信号
中の無音の発生を検出する工程と、吸気ノイズの発声が
検出された後、発声信号を通過させる工程と、無音の発
生の後、発声信号を阻止する工程とを備えているので、
吸気ノイズを排除することにより、食道発声音を明瞭化
できるという長所を有する。

【図面の簡単な説明】

【図１】本発明にかかる一実施の形態の食道発声音明瞭
化方法を実現するための構成を示すブロック図である。

【符号の説明】

１１発声信号１２処理ブロック（Ａ／Ｄ変換）１３処理ブロック（高域強調）１４処理ブロック（ＭＦＣＣ，振幅，第１導関数の振
幅）１５処理ブロック（振幅加算，中央クリップされた導
関数）１６処理ブロック（異なる測定値の結合）１７処理ブロック（ＨＭＭ基準デコーディング）１８処理ブロック（ゲインスイッチ，０または１）１９発声出力

Claims

【特許請求の範囲】

【請求項１】食道発声を用いた結果である発声信号中
の吸気ノイズを排除する食道発声音明瞭化方法であっ
て、前記発声信号中の前記吸気ノイズの発生及び前記発声信
号中の無音の発生を検出する工程と、前記吸気ノイズの発声が検出された後、前記発声信号を
通過させる工程と、前記無音の発生の後、前記発声信号を阻止する工程と、を備えたことを特徴とする食道発声音明瞭化方法。
【請求項２】前記吸気ノイズの発生を検出するために
用いる、前記発声信号を処理する工程が、発声入力信号をデジタル化する工程と、前記デジタル化された発声入力信号の第１コピー信号を
高域強調する工程と、メル周波数ケプストラ係数（ＭＦＣＣ）の所定数及び前
記デジタル化された発声入力信号の高域強調された第１
コピー信号からの差分ケプストラを算出する工程と、信号エネルギーの測定値及び前記デジタル化された発声
入力信号の高域強調された第１コピー信号の信号エネル
ギーの変化率の測定値を算出する工程と、前記デジタル化された発声入力信号の第２コピーのため
に振幅加算値を算出する工程と、前記メル周波数ケプストラ係数と、前記差分ケプストラ
と、前記信号エネルギーの測定値及び信号エネルギーの
変化率の測定値と、観測ベクトルからの振幅加算値とを
結合する工程と、を有することを特徴とする請求項１に記載の食道発声音
明瞭化方法。
【請求項３】前記振幅加算値の算出工程が、微分値の
算出の工程に置換し、その算出された微分値が前記デジ
タル化発声入力信号の第２コピーを中央クリッピング
し、その中央クリップされた信号を微分し平滑すること
によって算出し、さらに前記結合工程が前記振幅加算値
の代わりに微分値を結合することを特徴とする請求項２
に記載の食道発声音明瞭化方法。
【請求項４】前記処理された発声信号中の吸気ノイズ
の発生を検出する工程が、観測ベクトルに対して隠れマ
ルコフ・モデル（ＨＭＭ）基準発声デコーディングを実
行する工程を有することを特徴とする請求項２に記載の
食道発声音明瞭化方法。
【請求項５】前記観測ベクトルに対してデコードする
隠れマルコフ・モデル（ＨＭＭ）基準発声デコーディン
グを実行する工程が、無音、ガルプ、ノイズ１、ノイズ
２および発声を含む５個のトークンを使用することを特
徴とする請求項４に記載の食道発声音明瞭化方法。
【請求項６】前記観測ベクトルに対して隠れマルコフ
・モデル（ＨＭＭ）基準発声デコーディングを実行する
工程が、話者の言語の基本音素を使用することを特徴と
する請求項４に記載の食道発声音明瞭化方法。
【請求項７】食道発声に関連する吸気ノイズを排除す
る食道発声音明瞭化方法であって、発声入力信号をデジタル化する工程と、前記デジタル化された発声入力信号の第１コピー信号を
高域強調する工程と、メル周波数ケプストラ係数（ＭＦＣＣ）の所定数及び前
記デジタル化された発声入力信号の高域強調された第１
コピー信号からの差分ケプストラを算出する工程と、信号エネルギーの測定値及び前記デジタル化された発声
入力信号の高域強調された第１コピー信号の信号エネル
ギーの変化率の測定値を算出する工程と、前記デジタル化された発声入力信号の第２コピーのため
に振幅加算値を算出する工程と、前記メル周波数ケプストラ係数と、前記差分ケプストラ
と、前記信号エネルギーの測定値及び信号エネルギーの
変化率の測定値と、観測ベクトルからの振幅加算値とを
結合する工程と、前記観測ベクトルに対して隠れマルコフ・モデル（ＨＭ
Ｍ）基準発声デコーディングを実行する工程と、前記ＨＭＭに基づく発声デコーディングに基づいて吸気
ノイズ信号を決定し、その吸気ノイズ信号の持続中に増
幅器を停止させる工程と、を備えたことを特徴とする食道発声音明瞭化方法。
【請求項８】前記振幅加算値の算出工程が、微分値の
算出の工程に置換し、その算出された微分値が前記デジ
タル化発声入力信号の第２コピーを中央クリッピング
し、その中央クリップされた信号を微分し平滑すること
によって算出し、さらに前記結合工程が前記振幅加算値
の代わりに微分値を結合することを特徴とする請求項７
に記載の食道発声音明瞭化方法。
【請求項９】前記発声入力信号を、２０キロヘルツ
（ＫＨｚ）のサンプリングレートでサンプリングするこ
とを特徴とする請求項７に記載の食道発声音明瞭化方
法。
【請求項１０】前記デジタル化された発声入力信号の
第１コピー信号を高域強調する工程が、発声サンプルの
２０ミリセカンド（ｍｓ）ウインドウに対して１０ミリ
セカンド（ｍｓ）毎に２５６ポイントの高速フーリェ変
換（ＦＦＴ）を算出することを特徴とする請求項９に記
載の食道発声音明瞭化方法。
【請求項１１】前記メル周波数ケプストラ係数（ＭＦ
ＣＣ）の所定数及び前記デジタル化された発声入力信号
の高域強調された第１コピーからの差分ケプストラを算
出する工程が、第１の１２のメル周波数ケプストラ係数
と１２の差分ケプストラとを算出することを特徴とする
請求項１０に記載の食道発声音明瞭化方法。
【請求項１２】前記信号エネルギーの測定値及び前記
デジタル化された発声入力信号の高域強調された第１コ
ピー信号の信号エネルギーの変化率の測定値を算出する
工程が、前記発声入力信号の９個の連続するサンプルの
線形回帰を算出することを特徴とする請求項１０に記載
の食道発声音明瞭化方法。
【請求項１３】前記デジタル化された発声入力信号の
第２コピーのために振幅加算値を算出する工程が、話者
の特徴により、発声サンプルの２０ミリセカンド（ｍ
ｓ）のウインドウ当たり１ないし２０ミリセカンドの範
囲の時間インターバルにわたりデジタル化発声入力信号
を加算することを特徴とする請求項１２に記載の食道発
声音明瞭化方法。
【請求項１４】前記結合工程が、２７個のエントリ観
測ベクトルを発生することを特徴とする請求項１３に記
載の食道発声音明瞭化方法。
【請求項１５】前記観測ベクトルに対して隠れマルコ
フ・モデル（ＨＭＭ）基準発声デコーディングを実行す
る工程が、無音、ガルプ、ノイズ１、ノイズ２および発
声を含む５個のトークンを使用することを特徴とする請
求項１４に記載の食道発声音明瞭化方法。
【請求項１６】前記観測ベクトルに対して隠れマルコ
フ・モデル（ＨＭＭ）基準発声デコーディグを実行する
工程が、話者の言語の基本音素を使用することを特徴と
する請求項１４に記載の食道発声音明瞭化方法。
【請求項１７】前記吸気ノイズが発生した後、増幅器
が作動され、無音が検出されたときに前記増幅器が停止
されることを特徴とする請求項１５に記載の食道発声音
明瞭化方法。
【請求項１８】外部増幅器によって増幅された食道発
声により発生された発声信号中の吸気ノイズを排除する
食道発声音明瞭化装置であって、音声認識技術を用いて発声信号を処理する処理手段と、前記吸気ノイズの発生及び無音の発生を検出する検出手
段と、前記無音の発生後、前記外部増幅器を停止し、前記吸気
ノイズの発生後、前記外部増幅器を稼働させる切替え手
段と、を備えたことを特徴とする食道発声音明瞭化装置。
【請求項１９】前記発声信号を処理する処理手段がさ
らに、前記発声入力信号をデジタル化するデジタル化手段と、そのデジタル化された発声入力信号の第１コピー信号を
高域強調するプリエンファシス手段と、メル周波数ケプストラ係数（ＭＦＣＣ）の所定数及び前
記デジタル化された発声入力信号の高域強調された第１
コピー信号からの差分ケプストラを算出する第１計算手
段と、信号エネルギーの測定値及び前記デジタル化された発声
入力信号の高域強調された第１コピー信号の信号エネル
ギーの変化率の測定値を算出する第２計算手段と、前記デジタル化された発声入力信号の第２コピーのため
に振幅加算値を算出する第３計算手段と、前記メル周波数ケプストラ係数と、差分ケプストラと、
信号エネルギーの測定値及び信号エネルギーの変化率の
測定値と、観測ベクトルからの振幅加算値とを結合する
結合手段と、を備えたことを特徴とする請求項１８に記載の食道発声
音明瞭化装置。
【請求項２０】前記第３計算手段が微分値を算出し、
その微分値が前記デジタル化された発声入力信号の第２
コピーを中央クリップし、その中央クリップされた信号
を微分し平滑化することによって算出し、前記結合手段
が前記振幅加算値の代わりに前記微分値を結合すること
を特徴とする請求項１９に記載の食道発声音明瞭化装
置。
【請求項２１】検出手段がさらに、前記観測ベクトル
に対してＨＭＭ基準デコーディングを実行する隠れマル
コフ・モデル（ＨＭＭ）発声デコーディング手段を有す
ることを特徴とする請求項１９に記載の食道発声音明瞭
化装置。