JP5663099B2

JP5663099B2 - 補聴器および音声再生増強方法

Info

Publication number: JP5663099B2
Application number: JP2013542378A
Authority: JP
Inventors: メインッケ・メテ・ダール; ニールセン・アンドレーアス・ブレンク
Original assignee: ヴェーデクス・アクティーセルスカプ
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2015-02-04
Anticipated expiration: 2030-12-08
Also published as: CN103262577A; US20130195302A1; CA2818210A1; EP2649812B1; AU2010365366A1; KR101419193B1; CN103262577B; EP2649812A1; WO2012076045A1; US9191753B2; AU2010365366B2; CA2818210C; SG191006A1; KR20130067315A; DK2649812T3; JP2014500676A

Description

この出願は補聴器に関する。より詳細には，この発明は音声（会話）再生増強手段（means for enhancing speech reproduction）を有する補聴器に関する。この発明はさらに補聴器における信号処理方法に関する。

補聴器は小型の電池駆動の装置として定義され，マイクロフォン，音処理装置および音響出力トランスデューサを備えるもので，聴覚障害者によって耳の中または耳の後ろに装着されるように構成される。ユーザの聴覚損失の計測から算出される処方（prescription）にしたがって補聴器をフィッティングすることによって，上記補聴器は所定の周波数帯域（複数）を増幅してその周波数帯域における聴覚損失を補償することができる。正確かつ柔軟な増幅手段を提供するために，近年のほとんどの補聴器はデジタルタイプのものである。デジタル補聴器はマイクロフォンからの音信号を処理して上記処方にしたがって上記音響出力トランスデューサを駆動するのに適する電気信号にするデジタル信号処理装置を含む。デジタル補聴器において，再生可能な周波数範囲は，複数の周波数帯域に，対応する複数のデジタル帯域通過フィルタを用いることで好適に分割することができる。この帯域分割によって，上記補聴器はたとえば利得および圧縮に関して各周波数帯域を独立に処理することができ，音信号を処理する非常に柔軟な手段が提供される。

国際特許公開ＷＯ−Ａ１−９８／２７７８７は，補聴器の入力信号中のノイズ（雑音）レベルおよび信号レベルを決定するパーセンタイル推定器（percentile estimator）を備える補聴器を提供する。ノイズレベルは上記入力信号の10％パーセンタイル・レベルとして決定され，信号レベルは上記入力信号の90％パーセンタイル・レベルとして決定される。上記補聴器の上記信号処理装置は，上記90％パーセンタイル・レベルと上記10％パーセンタイル・レベルの差をもたらす音声の存在とレベルについての推測（an educated guess about the presence and the level of speech）を行うことができる。換言すると，90％パーセンタイルと10％パーセンタイルの差によって音声のレベルが決定される。以下，この方法をパーセンタイル差分法（the percentile difference method）と呼ぶ。この音声を検出するやり方は，規則的なノイズ内または静かな環境内では満足に動作するが，ノイズが大きく変動するたとえばカフェテリア内，パーティ中，または背景音楽のある音環境では適切に動作しないことがある。これはパーセンタイル差分法が変調ノイズ（modulated noise）に対して幾分敏感であるためである。

国際特許公開ＷＯ−Ａ１−２００４／００８８０１は，入力信号の音声明瞭度指数（speech intelligibility index）（ＳＩＩ）を算出する手段，および上記入力信号の上記ＳＩＩ値を最適化することによって音声信号を増強する手段を有する補聴器を開示している。上記補聴器の使用中に，上記ＳＩＩ値が常時解析され，上記ＳＩＩを最適値に維持するように信号処理を連続的に変更することで音声を増強しかつノイズを低減する。このシステムの精度は非常に高いが，その適応速度については，音声明瞭度指数の算出が複雑かつ難解な性質を持つために劣悪（poor）である。上記ノイズレベルが上昇しているときの上記音声明瞭度ノイズ低減システムの適応速度はほぼ1.8−２ｄＢ／ｓであり，上記ノイズレベルが下降しているときでは約17ｄＢ／ｓであり，この適応速度はたとえば変調ノイズが存在する音環境において充分でないことがある。

この発明によると，音声増強手段および帯域分割フィルタを備える補聴器が案出され，上記音声増強手段が音声検出器および選択的ゲインコントローラ（selective gain controller）を含み，上記帯域分割フィルタが入力信号を複数の周波数帯域に分割するように構成されており，上記音声検出器が，上記入力信号の複数の周波数帯域の各周波数帯域において，ノイズレベルを検出する手段，有声音信号を検出する手段および無声音信号を検出する手段を備え，上記選択的ゲインコントローラが，上記有声音信号レベルが検出されたノイズレベルよりも高い，そのような上記複数の周波数帯域のうちの周波数帯域において，上記出力信号に与えられる上記ゲインレベルを所定量だけ増加するように構成されている。

上記音声検出器において有声音および無声音をそれぞれ検出する別々の検出手段を適用することによって，より高速でより誤りのない音声検出の結果がもたらされ，上記補聴器の入力信号中に存在する音声信号をよりよく増強するために，上記入力信号のゲイン調整をより速くかつより正確に行うことができる。上記音声検出器によって非音声信号が音声と間違われることがほとんどないので，それに続く音声増強ゲイン調整を，上記処理中にアーティファクトが導入されることに悩まされることなく（without worrying about introducing artifacts into the process），かなり高速に実行することができる。

この発明は，補聴器における音声増強方法にも関する。この方法は，入力信号を供給し，上記入力信号を複数の周波数帯域に分割し，上記入力信号からエンベロープ信号を導出し，上記エンベロープ信号から少なくとも一つの検出有声音周波数を決定し，上記検出有声音周波数の数から有声音確率（voiced speech probability）を決定し，上記入力信号から無声音レベルを決定し，上記音声レベルが第１の所定量だけノイズレベルよりも高い，そのような上記複数の周波数帯域のうちの周波数帯域を識別し，上記補聴器の出力信号中のそのような周波数帯域のレベルを第２の所定量だけ増加するステップを含む。

この発明の方法によって提供される有声音成分および無声音成分の別々の検出によって，従来技術の方法によって得られるものよりも高速でかつ高い信頼度で入力信号中の音声の存在を検出することができるようになり，明瞭性を低減するアーティファクトの導入なく，音声がノイズに勝っている周波数帯域におけるレベルを増加することによる音声増強の実行が可能になる。

さらなる特徴および実施態様が従属請求項に開示されている。

有声音信号（voiced-speech signals），すなわち母音（vowel sounds）は基本周波数（fundamental frequency）および有限数の対応する高調波周波数（a finite number of corresponding harmonic frequencies）を含む。これに対し，無声音信号（unvoiced-speech signals），すなわち摩擦音，破裂音または歯擦音は広い周波数スペクトルを含み，短いバースト音とみなすことができる。音声信号の処理は補聴器において非常に重要であるので，任意の入力信号中の音声の存在または不存在を検出する手段を有することは，補聴器処理装置の動作にとって非常に有益なものとなろう。フォルマント周波数（formant frequencies）は音声における母音の違いを認識しかつ区別することに関する認知プロセスにおいて非常に重要な役割を果たし，たとえば上記補聴器が変調ノイズ中に音声を検出したときに，有声音または無声音についての情報を利用可能な補聴器は，それに応じてその信号処理を最適化してコヒーレントかつ包括的なやり方で（in a coherent and comprehensive manner）音声を伝達することができる。

この発明による補聴器は，上記音声検出器によって伝達される情報を利用するために音声増強手段を備えている。上記音声増強手段は音声が検出されるたびに特定周波数帯域のゲインを調整する。上記補聴器によって補償される聴覚損失の性質に依存して，上記音声増強手段は音声を含む周波数帯域のゲインを増加して，音声を含まない周波数帯域を犠牲にして（at the cost of）そのような周波数帯域を助長する（favor）ことができる。

コヒーレントかつアーティファクトのないやり方において音声が存在する周波数帯域のゲインを増加するために，複数の条件が各特定周波数帯域における信号によって満たされなければならない。第１に，上記音声検出器が検出された音声を有する必要があることであり（must have detected speech），かつ上記検出音声のエンベロープ・レベルが所定の最小音声エンベロープ・レベルを超えるものでなければならないことである。音声が検出され，かつ上記音声のエンベロープ・レベルが充分に大きい場合に，上記特定周波数帯域が検査され（examined），上記音声レベルが背景ノイズレベルを超えて優位（優勢）であるかが決定される。これは，ＷＯ９８／２７７８７に示されている従来技術の音声検出ストラテジーをわずかに修正された形態で利用することによって，補聴器処理装置によって実行される。

各周波数帯域に存在する入力信号から，90％パーセンタイル・レベル，スロー10％パーセンタイル・レベルおよびファスト10％パーセンタイル・レベルが導出される。上記スロー10％パーセンタイル・レベルは比較的ゆっくりと変化する。すなわち，ゲイン算出において用いられる10％パーセンタイル・レベルは，上記ファスト10％パーセンタイル・レベルから上記スロー10％パーセンタイル・レベルを減算することで算出され，以下において，これを10％パーセンタイル・レベルという。上記音声エンベロープ検出器によって音声が検出されるとき，上記90％パーセンタイル・レベルと上記10％パーセンタイル・レベルの差は音声レベルに等しく，10％パーセンタイル・レベルは無変調ノイズレベル（unmodulated noise level）に等しい。

ある瞬間に同様の音声レベルおよびノイズレベルを持つ周波数帯域は，音声を増強するためにその周波数帯域に追加ゲインが適用されると，悩ましいアーティファクト（annoying artifacts）を提示することがある。したがって，音声増強器によって上記音声レベルがノイズレベルを充分に超えて優勢となっている周波数帯域にもっぱら追加ゲインが適用されることを保証するために，周波数帯域依存のレベル差テーブル（a frequency-band-dependent level difference table）が用いられる。特定周波数帯域についての90％パーセンタイル・レベルと10％パーセンタイル・レベルの差が上記周波数帯域依存レベル差テーブルに記憶されている差よりも大きい場合に，音声増強のためにその周波数帯域に追加ゲインを適用することができる。

この発明の実施例の音声検出器形成部分のブロック図である。この発明の実施例による音声増強器を含む補聴器のブロック図である。この発明の実施例によってどのように音声検出が行われるかを示すグラフである。音声増強器を有する２つの補聴器を備えるシステムのブロック図である。

以下，図面を参照してこの発明をより詳細に説明する。

図１は，この発明に関連して用いられる音声（会話）検出器10のブロック図を示している。上記音声検出器10は，入力信号から有声音信号および無声音信号を検出しかつ弁別（区別）することができるもので，有声音検出器11，無声音検出器12，無声音弁別器26，有声音弁別器27，ＯＲゲート28，および音声周波数比較器29を備えている。上記有声音検出器11は，音声エンベロープ（包絡線）フィルタ・ブロック13，エンベロープ帯域通過フィルタ・ブロック14，周波数相関算出ブロック15，特徴（特性）周波数ルックアップ・テーブル16，音声周波数カウント・ブロック17，有声音周波数検出ブロック18，および有声音確率ブロック（voiced-speech probability block）19を備えている。上記無声音検出器12は，低レベルノイズ弁別器21，ゼロ交差検出器22，ゼロ交差カウンタ23，ゼロ交差平均カウンタ24，および比較器25を備えている。図１には双方向トランスポンダ・インターフェース30も示されている。

上記音声検出器10は，入力信号における有声音および無声音の存在および特徴（特性）を決定するように機能する。この情報を，音声増強を実行して補聴器ユーザに対する音声明瞭度を向上するために利用することができる。上記音声検出器10に与えられる信号は複数の周波数帯域からの帯域分割信号である。上記音声検出器10は，有声音および無声音をそれぞれ検出するために各周波数帯域において順に動作する。

有声音信号はほぼ75Ｈｚから約285Ｈｚの範囲に特徴（特性）エンベロープ周波数（characteristic envelope frequency）を持つ。したがって周波数帯域分割入力信号における有声音信号の存在を検出する信頼性のあるやり方は，すべての関連する周波数帯域において，個々の周波数帯域における入力信号を解析（分析）して，同じエンベロープ周波数の存在（the presence of the same envelope frequency），またはその２倍のエンベロープ周波数の存在（the presence of the double of that envelope frequency）を決定することである。これは，上記入力信号から上記エンベロープ周波数信号を分離し，上記エンベロープ信号を帯域通過フィルタリングして他の音から音声周波数を分離し，たとえば上記帯域通過フィルタリング信号の相関解析を実行することによって上記帯域通過フィルタリング信号における特徴エンベロープ周波数の存在を検出し，上記相関解析によって導出される，検出された特徴エンベロープ周波数を累積し（accumulating），上記入力信号からこのようにして導出されるこれらの要素（factors）から上記解析信号における有声音の存在の確度を算出することによって，行われる。

上記特徴エンベロープ周波数を検出するために上記周波数相関算出ブロック15によって実行される相関解析は自己相関解析であり，以下で近似される。

ここでｋは検出すべき特徴周波数であり，ｎはサンプルであり，Ｎは相関ウインドウによって用いられるサンプル数である。上記相関解析によって検出可能な最高周波数は上記システム（系）のサンプリング周波数ｆｓによって規定され，最低の検出可能周波数は上記相関ウインドウにおけるサンプル数Ｎに依存する。すなわち，次のとおりである。

上記相関解析は遅延解析（a delay analysis）であり，上記相関は遅延時間が特徴周波数に一致するたびに最大となる。上記入力信号が上記有声音検出器11の入力に与えられ，上記音声エンベロープ・フィルタ・ブロック13によって入力信号の音声エンベロープが抽出され，上記エンベロープ帯域通過フィルタ・ブロック14の入力に与えられ，そこで音声エンベロープ信号における特徴音声周波数を超えるおよび未満の周波数，すなわちほぼ50Ｈｚ未満および１ｋＨｚを超える周波数がフィルタ・アウトされる。次に上記周波数相関算出ブロック15が，上記検出されたエンベロープ周波数を上記特徴周波数ルックアップ・テーブル16に記憶されている所定のエンベロープ周波数セットと比較することによって上記帯域通過フィルタ・ブロック14からの出力信号の相関解析を実行し，その出力として相関値（a correlation measure）を生成する。

上記特徴周波数ルックアップ・テーブル16は，表１に示すセットのような，対の特徴音声エンベロープ周波数（Ｈｚ）のセットを備えている。

表１の上段は相関音声エンベロープ周波数を表し，表１の下段は対応する２倍のまたは半分の相関音声エンベロープ周波数を表している。上記相関解析において比較的少数の離散周波数のテーブルを使用するのは，テーブル・サイズ，検出速度，運用堅牢性，および充分な精度の間のバランスをとるためである。上記相関解析を実行する目的が優勢な（支配的な）話者信号の存在を検出することであるから，正確な周波数は必要でなく，上記相関解析の結果はしたがって一セットの検出周波数である。

単一の話者から発せられた純粋な有声音信号が上記入力信号に存在する場合，瞬間的に，入力信号中においてわずかに特徴エンベロープ周波数が優勢になる。上記有声音信号がノイズによって部分的にマスクされると，もはやそのようにならない。しかしながら，同じ特徴エンベロープ周波数が３つの以上の周波数帯域において見つけられれば，上記周波数相関算出ブロック15によって有声音を依然として充分な正確性をもって決定することができる。

上記周波数相関算出ブロック15が生成する出力信号は，上記音声周波数カウント・ブロック17の入力に与えられる。この入力信号は上記相関解析によって見つけられた一または複数の周波数からなる。上記音声周波数カウント・ブロック17は上記入力信号中の特徴音声エンベロープ周波数の発現をカウントする。特徴音声エンベロープ周波数が見つからなければ上記入力信号はノイズとみなされる。一の特徴音声エンベロープ周波数，たとえば100Ｈｚまたはその対応高調波すなわち200Ｈｚが３つ以上の周波数帯域において検出されると，上記信号は一の話者から発せられた有声音とみなされる。しかしながら，２以上の別々の基本周波数，たとえば100Ｈｚおよび167Ｈｚが検出された場合には，有声音はおそらくは二人以上の話者から発せられている。この状況についても上記処理によってノイズとみなされる。

上記音声周波数カウント・ブロック17によって見つけられた相関特徴エンベロープ周波数の数（the number of correlated, characteristic envelope frequencies）が上記有声音周波数検出ブロック18への入力として用いられ，そこでは異なるエンベロープ周波数対のカウントを相互に比較することによって，単一の有声音信号の優位度（degree of predominance of single voiced speech signal）が決定される。少なくとも一つの音声周波数が検出されて，そのレベルが上記入力信号のエンベロープ・レベルよりもかなり大きい場合に，上記システム（系）によって有声音が検出され，上記有声音周波数検出ブロック18は上記有声音確率ブロック19への入力信号として有声音検出値（voiced-speech detection value）を出力する。上記有声音確率ブロック19では，上記有声音周波数検出ブロック18によって決定された有声音検出値から有声音確率値（voiced speech probability value）が導出される。上記有声音確率値が上記有声音検出器11からの有声音確率レベル出力信号として用いられる。

摩擦音，歯擦音，破裂音といった無声音信号は，何らかの明確に定義された周波数を持たない非常に短いバースト音とみなすことができるが，多くの高周波成分を持つ。デジタル領域において無声音信号の存在を検出するコスト的に効果的でかつ信頼性のあるやり方は，信号値の符号が代わるたびに短いインパルスを与えるゼロ交差検出器（zero-crossing detector）を，インパルス数をカウントするカウンタ，すなわち所定の時間間隔内たとえば１／１０秒において上記入力信号中のゼロ交差発生数をカウントするカウンタと関連づけて実装して，信号がゼロラインを横切る回数と，たとえば５秒間にわたって累積されるゼロ交差の平均カウント（average count of zero crossings accumulated over a period of e.g. five seconds）を比較することである。有声音が直近たとえば最後の３秒間に発生しかつゼロ交差数が上記平均ゼロ交差カウントよりも大きい場合，無声音が上記入力信号中に存在する。

上記入力信号は，上記音声検出器10の無声音検出器12の入力にも与えられて，上記低レベルノイズ弁別器21の入力に与えられる。上記低レベルノイズ弁別器21は所定量閾値未満の信号を除いて，無声音信号として検出されるものから上記無声音検出器12が背景ノイズを除外できるようにする。入力信号が上記低レベルノイズ弁別器21の閾値を超えているとみなされるときに入力信号は上記ゼロ交差検出器22の入力に入る。

上記ゼロ交差検出器22は，上記入力信号の信号レベルが，１／２ＦＳＤ（フルスケール偏差）（full-scale deflection）として定義されるまたは処理可能な最大信号値の半分として定義されるゼロを横切るたびに検出を行い，上記入力信号が符号を変更するたびに上記ゼロ交差カウンタ23にパルス信号を出力する。上記ゼロ交差カウンタ23は有限長のタイムフレームにおいて動作し，各タイムフレームにおいて上記信号がゼロ閾値を横切った回数を累積する。各タイムフレームについてのゼロ交差数が，いくつかの連続タイムフレームのゼロ交差数のスロー平均値（slow average value）を算出するために上記ゼロ交差平均カウンタ24に与えられ，その出力信号としてこの平均値がもたらされる。上記比較器25はその２つの入力信号として上記ゼロ交差カウンタ23からの出力信号と上記ゼロ交差平均カウンタ24からの出力信号を取得し，これらの２つの入力信号を用いて上記無声音検出器12の出力信号を生成するものであり，この出力信号は，上記ゼロ交差カウンタ23からの出力信号が上記ゼロ交差平均カウンタ24からの出力信号よりも大きい場合には上記ゼロ交差カウンタ23からの出力信号に等しく，上記ゼロ交差カウンタ23からの出力信号が上記ゼロ交差平均カウンタ24からの出力信号よりも小さい場合には上記ゼロ交差平均カウンタ24からの出力信号に等しい。

上記有声音検出器11からの出力信号は，上記有声音確率レベルを伝達する直接出力と上記有声音弁別器27の入力とに分岐する。上記有声音弁別器27は，上記有声音検出器11からの有声音確率レベルが第１の所定レベルを超えている間ＨＩＧＨ論理信号を生成し，上記有声音検出器11からの音声確率レベルが上記第１の所定レベル未満である間ＬＯＷ論理信号を生成する。

上記無声音検出器12からの出力信号は，無声音レベルを伝達する直接出力と上記無声音弁別器26の第１入力とに分岐する。上記有声音弁別器11からの分離信号が上記無声音弁別器26の第２入力に与えられる。この信号は有声音が所定時間たとえば0.5秒内に検出されるたびに有効となる。上記無声音弁別器26は，上記無声音検出器12からの無声音レベルが第２の所定レベルを超えておりかつ上記所定時間内に有声音が検出された場合にＨＩＧＨ論理信号を生成し，上記無声音検出器12からの上記音声レベルが第２の所定レベル未満である間ＬＯＷ論理信号を生成する。

上記ＯＲゲート28はその２つの入力信号として上記無声音弁別器26からの論理出力信号と上記有声音弁別器27からの論理出力信号をそれぞれ取得し，上記補聴器回路の別の部分で用いられる論理音声フラグを生成する。上記ＯＲゲートによって生成される音声フラグは，上記有声音確率レベルまたは上記無声音レベルのいずれかがそれらのそれぞれの所定レベルを超える場合に論理ＨＩＧＨとなり，上記有声音確率レベルおよび上記無声音レベルの両方がそれらのそれぞれの所定レベル未満である場合に論理ＬＯＷとなる。すなわち，上記ＯＲゲート28によって生成される音声フラグは音声が入力信号中に存在する場合を示す。

有声音周波数検出ブロック18からの出力信号も２つの信号に分岐しており，上記音声周波数比較器29の第１入力および上記双方向トランスポンダ・インターフェース30の入力にそれぞれ与えられる。第１分岐の信号は上記双方向トランスポンダ・インターフェース30に与えられ，上記双方向トランスポンダ・インターフェース30によって反対側の補聴器（contralateral hearing aid）（図示略）への無線送信が準備される。上記双方向トランスポンダ・インターフェース30から，上記反対側の補聴器（図示略）の上記有声音周波数検出ブロックからの出力信号を表す対応する信号が，上記音声周波数比較器29に第１の入力信号ｆ_Ｂとしてもたらされる。上記有声音周波数検出ブロック18からの第２分岐の信号が上記音声周波数比較器29へ第２の入力信号ｆ_Ａとして与えられる。上記第２の入力信号ｆ_Ａは同側補聴器（ipse-lateral hearing aid）の上記有声音周波数検出ブロック18によって見つけられた音声周波数を表し，上記第１の入力信号ｆ_Ｂは反対側補聴器（図示略）の上記有声音周波数検出ブロックによって見つけられた音声周波数を表す。

上記音声周波数比較器29において，上記２つの音声周波数ｆ_Ａおよびｆ_Ｂのセット（the two set of speech frequencies f_A and f_B）が比較される。あらかじめ定められる許容差内で（within a preset tolerance）類似する音声周波数が検出された場合，上記音声周波数比較器29は，上記反対側および同側の補聴器の両方の上記音声検出器によって同様の音声周波数が検出されたことを示すフラグを生成する。この情報は上記有声音周波数検出ブロック18にフィードバックされて，上記有声音確率ブロック19によって導出される音声確率レベルの重付けに用いられる。上記反対側補聴器によって音声周波数が見つけられなかった場合，または反対側補聴器によって見つけられた音声周波数が上記同側補聴器によって見つけられた音声周波数と異なるとみなされる場合には，上記反対側補聴器によって見つけられた上記音声周波数は上記音声確率レベルを導出するときに考慮されない。

上記反対側補聴器によって見つけられた上記音声周波数が上記同側補聴器によって見つけられた上記音声周波数と実質的に同じである場合，有声音確率ブロック19によって導出される有声音確率レベルにプラスの影響（positive influence）が与えられる。これは，同側補聴器と構造的に同一とみなされる反対側補聴器にもあてはまり，上記反対側補聴器でも上記有声音確率レベルが増加する。上記音声確率レベルの増加の全体結果として，補聴器ユーザの正面にいる単一の話者から発せられる音声信号によって両方の補聴器が同じ音声周波数を検出し，それらの音声検出が本質的に同期する。

図２のブロック図は，この発明による音声増強器を有する補聴器60の一実施態様を示している。上記補聴器60は電子回路入力段２の入力に接続された，マイクロフォン１の形態の入力源を備えている。上記電子回路入力段２の出力は帯域分割フィルタ（band-split filter）３の入力とトランジェント検出ブロック（transient detection block）４の入力とに分岐しており，上記帯域分割フィルタ３の出力は２つの出力に分岐しており，その一つが音声検出器10に，他の一つが多帯域増幅器（multi-band amplifier）５に接続されている。上記音声検出器10が双方向通信リンク・ブロック（bidirectional communications link block）48に接続されており，上記双方向通信リンク・ブロック48はアンテナ50を有する補聴器無線トランスポンダ（hearing aid wireless transponder）49に接続されている。上記音声検出器10からの３つの出力線が音声増強ゲイン算出ブロック40の入力に接続され，上記音声増強ゲイン算出ブロック40の複数の出力が上記多帯域増幅器５の入力に接続されている。上記多帯域増幅器５の出力は出力段６の入力に接続され，上記出力段６の出力は音響出力トランスデューサ７の入力に接続されている。

上記トランジェント検出ブロック４の出力は，トランジェント検出信号またはフラグＴを伝達する上記音声増強ゲイン算出ブロック40の入力に接続されている。スロー10％パーセンタイル検出ブロック（slow 10% percentile detection block）41，第１の差分ノード42，ファスト10％パーセンタイル検出ブロック（fast 10% percentile detection block）43，第２の差分ノード44，90％パーセンタイル検出ブロック45，最小信号対ノイズ差テーブル・ブロック（minimal signal-to-noise difference table block）46，およびゲイン補正テーブル・ブロック47が，上記音声増強ゲイン算出ブロック40の別々の入力に接続されている。上記スロー10％パーセンタイル検出ブロック41，上記ファスト10％パーセンタイル検出ブロック43，および上記90％パーセンタイル検出ブロック45は，すべて図３に図示しない手段によって上記入力信号からそれらの出力信号を導出する。

上記音声検出器10は上記入力信号中の有声音信号および無声音信号の存在を検出するタスクを実行する。高速かつ信頼性のあるやり方で音声を検出するために，有声音信号および無声音信号のそれぞれの検出が上記音声検出器10によって独立して実行される。上記検出の結果に基づいて，上記音声検出器10は，上記音声増強ゲイン算出ブロック40のための上記入力信号中の有声音または無声音の存在を示す音声フラグ信号ＳＦを生成する。

上記音声検出器10からの上記音声検出フラグＳＦの使用以外に，上記音声増強ゲイン算出ブロック40は，上記トランジェント検出ブロック４からのトランジェント検出フラグＴ，上記第１の差分ノード42によってもたらされる，上記ファスト10％パーセンタイル検出ブロック43からのファスト10％パーセンタイル検出値と上記スロー10％パーセンタイル検出ブロック41からのスロー10％パーセンタイル検出値の差Ｎ_ｉ，上記90％パーセンタイル検出ブロック45からの90％パーセンタイル値Ｓ_ｉ，上記第２の差分ノード44によってもたらされる，上記90％パーセンタイル検出値Ｓ_ｉと，上記ファスト10％パーセンタイル検出値と上記スロー10％パーセンタイル検出値の差Ｎ_ｉとの差分ＳＮＲ_ｉ，上記最小信号対ノイズ差テーブル・ブロック46からの最小信号対ノイズ差値σ_ｉ，および上記ゲイン補正テーブル47からのゲイン補正値Ｇ_ｉを使用して，音声増強ゲイン係数（speech enhancement gain factor）を上記多帯域増幅器５の対応する周波数帯域のゲイン値に与えるべきかどうかを決定する。上記音声増強ゲイン算出ブロック40の動作を以下詳細に説明する。

上記ファスト10％パーセンタイル値と上記スロー10％パーセンタイル値の差は，個々の周波数帯域のそれぞれにおける背景ノイズレベルＮ_ｉを表し，上記90％パーセンタイル値は個々の周波数帯域のそれぞれの信号レベルＳ_ｉを表し，上記90％パーセンタイル値と上記背景ノイズレベルの差は，個々の周波数帯域のそれぞれにおける信号対ノイズ比ＳＮＲ_ｉを表す。上記最小信号対ノイズ差テーブル46からの値は，上記入力信号における優位な（優勢な）（支配的な）音声信号の存在（the presence of dominating speech signal）を示すために上記音声増強ゲイン算出器40によって受付けられる，各個別の周波数帯域ｉにおける最小信号対ノイズ値σ_ｉを表す。上記ゲイン補正テーブル47からのゲイン補正値は個々の周波数帯域における最大ゲイン増強値Ｇ_ｉを表す。

したがって，上記補聴器の個々の周波数帯域における音声増強は，以下のようにして算出される。周波数帯域ｉにおける信号対ノイズ比（信号対雑音比）は次のとおりである。

優位（優勢）音声信号（主音声信号）（dominant speech signal）は以下の場合に周波数帯域ｉに存在する。

周波数帯域ｉにおいて音声を増強する論理条件は以下の通りである。

ここでＳＦは入力信号中に音声が検出されたことの論理インジケータ（the logical indicator）であり，Ｔは入力信号中に現れるトランジェントが検出されたことの論理インジケータである。この数式の条件が真であるときに，周波数帯域ｉについての上記最大音声増強ゲイン値Ｇ_ｉが上記音声増強ゲイン値テーブル47から取得され，算出されるゲイン値が周波数帯域ｉのゲイン値に加算される。検出された音声を増強するために各周波数帯域に加算される音声増強ゲイン値は，上記周波数帯域ｉ，補償すべき聴覚損失の特性（character），および周波数帯域ｉの音声レベルに依存し，典型的には２−４ｄＢの大きさである。しかしながら上記最大音声増強ゲイン値Ｇ_ｉは超えない。

好ましい実施態様では，ＳＦおよびＳＮＲ_ｉ＞σ_ｊの条件が時間遅延（timed delay）（図示略）と組み合わされる。高周波数成分を持つ任意の充分に変調された音信号（any sufficiency modulated sound signal having high-frequency content）は一時的に音声として検出されてかつ上記音声増強ゲイン算出ブロック40をトリガすることがある。しかしながら，上記音声フラグＳＦが所定遅延内にたとえば10ミリ秒内にセットされない場合は，音声増強は上記音声フラグＳＦによって「拒否」され（vetoed out），音声増強は行われない。換言すると，広帯域の音声信号がこの時間内に検出されない場合には，上記変調音信号は音声でないとみなされて，別の変調源からの音であるとみなされる。上記音声増強ゲイン算出ブロック40のこの短いエンゲージメント（these short engagements）（典型的には５−８ミリ秒）は通常の聴力を持つ者であっても聞くことはできない。

周波数帯における現在の音声信号を増強するために個々の周波数帯域に利得が追加されるときの速度は，400−500ｄＢ／秒の大きさである。実施調査によって示されるところでは，よりゆっくりとした速度のゲイン増加は，ある話し言葉の始まり部分（the beginning of certain spoken words）が上記ゲイン増加によって失われることがあるという事実におそらくは起因して，音声理解に困難性を導く傾向を持ち，より速いゲイン増加，たとえば600−800ｄＢ／秒は，高速ゲイン増加によって導入される人為的なトランジェント（transients artificially）におそらくは起因して，上記信号中に不快なアーティファクト（uncomfatable artifacts）を導入する傾向がある。

２つの同じ補聴器が用いられている場合，上記入力信号における検出音声の存在および周波数に関する情報を，２つの補聴器の間で相互に交換する手段を含めることが有益である。この目的のために，図２の同側補聴器60は，反対側補聴器（図示略）のために用いられる関連パラメータを収集する手段および上記パラメータを，双方向通信リンク・ブロック48を通して上記反対側補聴器へ送信する手段を有している。上記双方向通信リンク・ブロック48は，上記パラメータを反対側補聴器に補聴器無線トランスポンダ49およびアンテナ50を通して送信するのに適するデータパケットに変換する手段を備えている。上記補聴器無線トランスポンダ49は上記反対側補聴器から上記アンテナ50を通して無線で同様のパラメータを表すデータパケットを受信するようにも構成されている。

２つの補聴器の入力信号において検出された音声信号についての情報を相互に交換する手段によって，いくつかの，異なる，有益な，音声増強信号処理ストラテジーを利用することができる。たとえば優位（優勢，主要）な話者が２つの補聴器を装着しているユーザの真正面にいる場合，上記２つの補聴器の音声検出器は同じ音声周波数を検出することができるが，異なるノイズレベルが２つの補聴器に同時にもたらされることがあるので必ずしも同じ音声レベルを検出するわけではない。検出された有声音成分が両方の補聴器において同じ音声周波数を含む場合，両方の補聴器は同じ優位な話者からの音声を受信している。同じ優位音声信号の音声増強を実行することについて両方の補聴器が相互に承認する（agree mutually）場合，２つの補聴器によって導入される音声増強ゲインレベルはより一様になり（more alike），優位話者の定位が改善される（improving localization of the dominating speaker）。

別の例において，話者が補聴器ユーザの右側に位置している場合，右側補聴器および左側補聴器の両方は優位音声信号を示すことになるが，有声音成分は異なる周波数を持つことがあり，たとえば話している人物に対して同側補聴器が反対側補聴器よりもより大きな信号レベルを示し，上記反対側補聴器がノイズまたはより遠くの他の人物からの会話を受信することがある。この状況は，２つの補聴器が同じ優位話者を検出していないことを意味する。この場合，上記反対側補聴器は一時的にその音声増強を全体的に（完全に）開放する（disengage its speech enhancement altogether）ことができ，その結果として，両方の補聴器処理装置にアクセス可能な音声信号に関する相互の情報交換のおかげで，同側補聴器によってもたらされる音声増強が好都合となる。これは，特に，さもなければノイズの種類またはレベルが音声理解度を低下させる音環境において，上記補聴器ユーザの一方側にいる話者の明瞭度を向上させる。

図３はこの発明による音声検出器の動作原理を示す３つのグラフのセットを示している。上段のグラフはほぼ2.5秒の時間長をもつ純音声信号（pure speech signal）の振幅を示し，中段のグラフはほぼ同一時間長の無関係ノイズ信号（unrelated noise signal）（食堂ノイズ）（canteen noise）の振幅を示し，３番目のグラフは，上記音声信号およびノイズ信号の重合わせによって生成される，入力信号の複数の周波数帯域において動作するこの発明による音声検出器からの同一時間長の出力信号を示している。３番目のグラフに示す周波数帯域は，便宜上１〜11にナンバリングした低〜高の範囲の周波数帯域の範囲を表しており，１が最低周波数帯域を，11が最高周波数帯域を示している。図３に示す３つのグラフは時間に沿っていると理解される。上段グラフ中の音声は，会話中の４つの単語（four words of a spoken sentence）を含み，中段グラフはほぼ0.38秒にトランジェント事象（a transient happening）を含む。

図４の音声サンプルにおいて，音声はほぼ0.3秒後に検出可能なレベルに達している。しかしながら，大きなノイズトランジェント（loud noise transient）がほぼ0.38秒に存在しており上記音声を一時的にマスクしている。上記トランジェントが音声を超えて優位となっている（支配している）ので，音声周波数は入力信号において優位でなく，音声増強は中断（保留）される（suspended）。上記ノイズトランジェントが途絶えると，上記音声検出器は，ほぼ0.68秒で終わっている１番目の単語の残り部分を検出する。

会話中の２番目の単語は，上記サンプルにおいて0.8秒からほぼ1.3秒にかけてほぼ0.5秒の長さ（持続時間）を持つ。上記会話中の２番目の単語は上記音声検出器によって検出されて，上記音声増強ゲイン算出器は音声が検出された周波数帯域においてゲイン増強を実行する。散発音声信号（sporadic speech signals）が周波数帯域１，３，４および５で検出されているが，いくらか長い時間（ほぼ約0.3秒）の音声信号が周波数帯域６，７，８，９，10および11において検出されており，音声増強ゲインはこれらの周波数帯域で検出された音声信号に与えられる。これは，より高い周波数成分が会話中の２番目の単語に存在することも示している。

上記会話中の３番目の単語は，上記サンプルの1.45秒からほぼ1.85秒にかけてほぼ0.4秒の長さを持つ。ここで，時間についてはさまざまであるが，上記単語の持続期間の全体にわたって様々なポイントですべての11の周波数帯域において音声が検出されている。音声検出器によって音声とはみなされない信号部分に影響を与えることなく（without affecting those part of the signal not considered to be speech by the speech detector），上記音声増強ゲイン算出器は音声が存在する周波数帯域のゲインを増加することができる。

上記会話中の４番目の単語は，上記サンプルの1.95秒からほぼ2.4秒にかけて，ほぼ0.4秒の長さを持つ。ここで，（上記食堂ノイズ中にいる）（present in the canteen noise）他の話者がおそらく部分的に４番目の単語の開始部分をマスクしており，したがって会話増強が2.2秒まで中断（保留）されている。上記マスキング音声が終わると，幾分短い期間で上記検出は復帰して，周波数帯域６，７，８，９，10および11において0.15秒間音声が検出されている。したがってこれらの周波数帯域は，その期間の間上記音声増強ゲイン算出器によって増加される。

上記音声検出器の動作の複数の態様を，図４の３つのグラフから結論づけることができる。第１に，上記音声検出器は，たとえば同時に話している二人の話者からの競合している有声音信号に反応せずに，単一話者からの有声音信号に即座に反応する。この特徴は，一の話者からの音声の存在が上記音声検出器によって肯定的に確認される入力信号に対してだけ音声増強が適用されることを保証する。第２に，音声増強は，他の音が入力信号を占めている（支配している）場合にはすべての周波数帯域において一時的に停止される。第３に，音声検出はこの事例において11の周波数帯域で独立に動作する。上記音声検出器および上記音声増強ゲイン算出器の両方において各周波数帯域の一対一の関係性を維持することができるので，音声検出の信頼性が向上し，音声増強ゲイン算出器の動作がシンプルなものになる。

図４は，相互に通信する２つの補聴器60Ａ，60Ｂのブロック図を示すもので，各補聴器がこの発明による音声増強システムを有している。図４において，同側補聴器60Ａは，第１のマイクロフォン１Ａ，第１の信号処理装置51Ａ，第１の音響出力トランスデューサ７Ａ，第１の補聴器無線トランスポンダ49Ａおよび第１のアンテナ50Ａを備えている。上記同側補聴器60Ａの上記第１の信号処理装置51Ａは，第１のフィルタ・バンク３Ａ，第１の音声検出ブロック10Ａ，第１の音声増強ゲイン算出ブロック40Ａ，第１の10％パーセンタイル検出ブロック43Ａ，第１の90％パーセンタイル検出ブロック45Ａ，第１の増幅器ブロック５Ａ，および第１の双方向通信インターフェース52Ａを備えている。

上記第１のマイクロフォン１Ａは第１のフィルタ・バンク３Ａに接続されており，上記第１のフィルタ・バンク３Ａからの出力が上記第１の音声検出器10Ａおよび第１の増幅器ブロック５Ａの入力にそれぞれ接続されており，上記第１の増幅器ブロック５Ａの出力が上記音響出力トランスデューサ７Ａに接続されている。第１のフィルタ・バンク３Ａから第１の増幅器ブロック５Ａへの信号は，上記第１の10％パーセンタイル検出器43Ａおよび上記第１の90％パーセンタイル検出器45Ａの入力のそれぞれにも分岐している。上記第１の音声検出器10Ａの出力は第１の音声増強ゲイン算出ブロック40Ａおよび第１の双方向通信インターフェース52Ａのそれぞれに接続されており，上記第１の双方向通信インターフェース52Ａの出力は上記第１の補聴器無線トランスポンダ49Ａに接続されている。

反対側補聴器60Ｂは，第２のマイクロフォン１Ｂ，第２の信号処理装置51Ｂ，第２の音響出力トランスデューサ７Ｂ，第２の補聴器無線トランスポンダ49Ｂおよび第２のアンテナ50Ｂを備えている。上記同側補聴器60Ｂの上記第２の信号処理装置51Ｂは，第２のフィルタ・バンク３Ｂ，第２の音声検出ブロック10Ｂ，第２の音声増強ゲイン算出ブロック40Ｂ，第２の10％パーセンタイル検出ブロック43Ｂ，第２の90％パーセンタイル検出ブロック45Ｂ，第２の増幅器ブロック５Ｂ，および第２の双方向通信インターフェース52Ｂを備えている。

上記第２のマイクロフォン１Ｂは上記第２のフィルタ・バンク３Ｂに接続されており，上記第２のフィルタ・バンク３Ｂからの出力は上記第２の音声検出器10Ｂおよび上記第２の増幅器ブロック５Ｂのそれぞれの入力に接続されており，上記第２の増幅器ブロック５Ｂの出力は上記第２の音響出力トランスデューサ７Ｂに接続されている。上記第２のフィルタ・バンク３Ｂから上記第２の増幅器ブロック５Ｂへの信号も，上記第２の10％パーセンタイル検出器43Ｂおよび上記第２の90％パーセンタイル検出器45Ｂのそれぞれの入力に分岐している。上記第２の音声検出器10Ｂの出力は上記第２の音声増強ゲイン算出ブロック40Ｂおよび上記第２の双方向通信インターフェース52Ｂのそれぞれに接続され，上記第２の双方向通信インターフェース52Ｂの出力は上記第２の補聴器無線トランスポーザ49Ｂに接続されている。

使用中，同側補聴器60Ａは反対側補聴器60Ｂと無線で情報を交換する。上記同側補聴器60Ａの第１の無線トランスポンダ49Ａによって送信される情報は，上記第１の音声検出器10Ａの有声音検出器（図示略）によって検出された一セットの有声音周波数，および上記第１の90％パーセンタイル検出器45Ａによって検出された90％パーセンタイルの値を含む。

上記反対側補聴器60Ｂの第２の無線トランスポンダ49Ｂは，上記アンテナ50Ｂによって上記同側補聴器60Ａの第１のトランスポンダ49Ａからの情報を受信するように構成されている。上記反対側補聴器60Ｂが受信した情報を利用するやり方を，以下詳細に説明する。

上記同側補聴器60Ａの第１の90％パーセンタイル検出器45Ａからの90％パーセンタイル値が解析（分析）されて，反対側補聴器60Ｂの第２の90％パーセンタイル検出器45Ｂからの対応するパーセンタイル値と比較される。上記同側補聴器60Ａの第１の音声検出器10Ａによって見つけられた有声音周波数が，上記反対側補聴器60Ｂの第２の音声検出器10Ｂによって見つけられた有声音周波数と比較される。

上記反対側補聴器60Ｂによって検出された有声音周波数が，上記同側補聴器60Ａによって検出された周波数と実質的に同じである場合，音声が同じ話者から発せられているとみなされ，両方の補聴器において音声増強が許可される。上記有声音周波数が２つの補聴器において異なるとみなされる場合，この情報は無視されてパーセンタイル値が優先される（take precedence）。

使用中，上記同側補聴器60Ａの第１の無線トランスポンダ49Ａは，上記反対側補聴器60Ｂからの音声検出データ・テレグラムに連続的に注意を傾ける（listen）。双方向構成において，上記反対側補聴器60Ｂからの音声検出データは上記同側補聴器60Ａにおける音声増強を修正するために用いられ，両方の補聴器が同じ音声周波数を検出した場合には両方の補聴器において相互に音声増強が同期され，両方の補聴器が異なる音声周波数を検出して，上記反対側補聴器が最高の音声レベルを検出したことをパーセンタイル値が示す場合には，上記同側補聴器60Ａにおける音声増強が無効にされる。上記反対側補聴器が存在しない（absent）場合には，音声増強は上記同側補聴器60Ａによって実行されつづけるが，反対側補聴器60Ｂからのデータはもはや考慮されない。

Claims

音声増強手段および帯域分割フィルタを備え，上記音声増強手段が音声検出器および選択的ゲインコントローラを含み，上記帯域分割フィルタが入力信号を複数の周波数帯域に分割するように構成されており，上記音声検出器が，上記入力信号の複数の周波数帯域の各周波数において，ノイズレベルを検出する手段，有声音信号を検出する手段および無声音信号を検出する手段を有しており，上記選択的ゲインコントローラが，上記有声音信号のレベルが上記検出されたノイズレベルよりも高い，そのような上記複数の周波数帯域のうちの周波数帯域において，出力信号に与えられるゲインレベルを所定量だけ増加するように構成されている，補聴器。
上記有声音信号を検出する手段が上記入力信号からエンベロープ信号を抽出するエンベロープ・フィルタを備えている，請求項１に記載の補聴器。
上記有声音信号を検出する手段が，上記エンベロープ信号中に現れる検出された有声音周波数の数をカウントする手段，および上記検出された音声周波数の数に基づいて有声音確率レベルを算出する手段を備えている，請求項２に記載の補聴器。
上記無声音信号を検出する手段が，上記入力信号中の無声音のレベルを検出するためのゼロ交差回数カウンタおよび平均ゼロ交差回数カウンタを備えている，請求項３に記載の補聴器。
上記音声検出器が，上記入力信号中の音声の存在を示すために上記有声音確率レベルを利用する手段および上記無声音のレベルを利用する手段を備えている，請求項４に記載の補聴器。
上記選択的ゲインコントローラが，上記複数の周波数帯域のそれぞれにおいて検出された音声レベルと検出されたノイズレベルを比較し，上記検出された音声レベルが第２の所定量だけ上記検出されたノイズレベルを超えている，そのような上記複数の周波数帯域のうちの周波数帯域のそれぞれにおいて，第１の所定量だけ上記ゲインレベルを増加するように構成されている，請求項１に記載の補聴器。
請求項１に記載の第１の補聴器および第２の補聴器を備え，上記第１および第２の補聴器が，検出された有声音周波数および検出された音声レベルに関する情報を相互に交換する手段を備えている，補聴器システム。
上記第１および第２の補聴器が，両方の補聴器において，上記複数の周波数帯域のうちゲインレベルが増加した周波数帯域に関する情報を相互に交換するように構成されている，請求項７に記載の補聴器。
補聴器における音声増強方法であって，入力信号を提供し，上記入力信号を複数の周波数帯域に分割し，上記入力信号からエンベロープ信号を導出し，上記エンベロープ信号から少なくとも一つの検出有声音周波数を決定し，上記検出有声音周波数の数から有声音確率を決定し，上記入力信号から無声音レベルを決定し，ノイズレベルよりも第１の所定量だけ高い音声レベルを有する，そのような上記複数の周波数帯域のうちの周波数帯域を識別し，上記補聴器の出力信号中の上記周波数帯域のレベルを第２の所定量だけ増加する，
方法。
有声音確率を決定するステップは，上記エンベロープ信号の周波数相関解析を実行し，上記周波数相関解析に基づいて上記エンベロープ信号中に存在する音声周波数の数を決定し，上記決定された音声周波数の数から音声確率を算出する，請求項９に記載の方法。
無声音レベルを決定するステップは，上記入力信号のゼロ交差回数カウントを導出し，上記入力信号から平均ゼロ交差回数カウントを導出し，上記ゼロ交差回数カウントと平均ゼロ交差回数カウントを比較し，上記ゼロ交差回数カウントが上記平均ゼロ交差回数カウントよりも所定回数だけ多い場合を決定することによって無声音レベルを算出する，請求項９に記載の方法。