JP5901971B2 - 強化エンベロープ符号化音、音声処理装置およびシステム - Google Patents

強化エンベロープ符号化音、音声処理装置およびシステム Download PDF

Info

Publication number
JP5901971B2
JP5901971B2 JP2011546539A JP2011546539A JP5901971B2 JP 5901971 B2 JP5901971 B2 JP 5901971B2 JP 2011546539 A JP2011546539 A JP 2011546539A JP 2011546539 A JP2011546539 A JP 2011546539A JP 5901971 B2 JP5901971 B2 JP 5901971B2
Authority
JP
Japan
Prior art keywords
channel
signal
frequency
fundamental frequency
electrical signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011546539A
Other languages
English (en)
Other versions
JP2012517124A (ja
Inventor
ヴァンダリ,アンドリュー,イー
ホーセル,リチャード,ヤー,エム ヴァン
ホーセル,リチャード,ヤー,エム ヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hearworks Pty Ltd
Original Assignee
Hearworks Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2009900365A external-priority patent/AU2009900365A0/en
Application filed by Hearworks Pty Ltd filed Critical Hearworks Pty Ltd
Publication of JP2012517124A publication Critical patent/JP2012517124A/ja
Application granted granted Critical
Publication of JP5901971B2 publication Critical patent/JP5901971B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61NELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
    • A61N1/00Electrotherapy; Circuits therefor
    • A61N1/18Applying electric currents by contact electrodes
    • A61N1/32Applying electric currents by contact electrodes alternating or intermittent currents
    • A61N1/36Applying electric currents by contact electrodes alternating or intermittent currents for stimulation
    • A61N1/36036Applying electric currents by contact electrodes alternating or intermittent currents for stimulation of the outer, middle or inner ear
    • A61N1/36038Cochlear stimulation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61NELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
    • A61N1/00Electrotherapy; Circuits therefor
    • A61N1/18Applying electric currents by contact electrodes
    • A61N1/32Applying electric currents by contact electrodes alternating or intermittent currents
    • A61N1/36Applying electric currents by contact electrodes alternating or intermittent currents for stimulation
    • A61N1/36036Applying electric currents by contact electrodes alternating or intermittent currents for stimulation of the outer, middle or inner ear
    • A61N1/36038Cochlear stimulation
    • A61N1/36039Cochlear stimulation fitting procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • Veterinary Medicine (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Prostheses (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Headphones And Earphones (AREA)

Description

(関連出願の相互参照)
本出願は、2009年2月3日に出願されたオーストラリア仮特許出願第2009900365号からの優先権を主張し、その出願内容が参照により本明細書に組み込まれる。
本発明は、音声信号から抽出された信号を処理するシステムおよび方法に関し、詳細には、人工内耳および、ボコーダに基づく音声処理または符号化を必要とする他のシステムなど、補聴器内で刺激を生成するために音声信号から抽出された信号を処理するシステムおよび方法に関する。
人工内耳は、重度難聴の個人に聴覚を提供するのに臨床的に有効であることが判明している。かかる装置は、通常、その個人の蝸牛内に装着された埋め込み型電極の配列を備え、それらは、脳により音声として認識される残存聴覚神経要素に対して電気刺激に直接適用する。個人の聴覚伝導路に適用される電気刺激は、様様な音声処理方式に従った音声処理装置によって処理される音響信号から抽出される。
伝統的に、最も初期の音声処理方式は、レシピエントがオープンセットでのある程度の語音弁別を得ることを可能にする方法で、音響信号を処理することに重点を置いてきた。従って、現行の音声処理方式は、レシピエントが、読唇に頼ることなく、静かな環境で会話音声を理解できるようになることに成功している。しかし、正常聴力と人工内耳聴力との比較研究で、声のピッチは、人工内耳のユーザーによって完全には知覚されていないことが示されている。さらに、音楽においてメロディーの基礎を形成するピッチ情報も、人工内耳のユーザーによって完全には認識されていないことが示されている。
声のピッチ情報は、発話知覚において重要な役割を果たし得る。声のピッチ情報は、話者によって行われている発話が質問か意見かを聞き手が判別するのに役立つ抑揚、および話者によってなされ得る単語の強調など、発話の言語特性に対して重要な手がかりを提供できる。声のピッチ情報はまた、話者を識別したり、その話者の感情状態を判別したりするのに役立つほか、同時に発話している話者を聞き手が分離するのに役立つ周辺言語的特性に対しても、重要な手がかりを提供できる。
最も重要なことであるが、声のピッチ情報は、同一の音韻区分内における基本有声音周波数の変化が語彙的意味の変化をもたらす音調言語(標準中国語および広東語など)の認識には、極めて重要であることが実証されている。
人工内耳などの補聴器の刺激に使用する音声信号を処理するために、様々な音声処理方式が開発されている。「マルチピーク方式」と呼ばれるかかる一方式は、フォルマントおよび基本有声音周波数(F0)など、発話の態様の符号化に特に重点を置いている。この方式に対して、声のピッチ情報は、主に電気刺激率によって符号化されてきた。しかし、この方式の結果では、ピッチが知覚され得ることが示されているが、性能は、現実世界の状況において、特に雑音の存在下で、急速に悪化する。電気刺激信号のエンベロープにおいて、有声音周波数に等しいかまたはそれに関連する周波数で、振幅変調による声のピッチ情報の符号化する(約300Hzまでの有声音周波数に対して)他の方式が提案されてきた。これらの方式には、最大スペクトル音声処理装置(SMSP)法(これについては、1991年、McDermott & Vandaliによる、オーストラリア特許第657959号および米国特許第5597380号に詳しく記載)、およびスペクトルピーク(SPEAK)法として知られている本方式のより最近の実施(1994年、Skinnerほか;1995年、Whitfordほか)、およびAdvanced Combinational Encoder(ACE)法(2000年、Vandaliほか;2002年、Skinnerほか)が含まれる。しかし、これらの方式によるピッチ知覚の調査研究で、ピッチに対する手がかり(cue)の特徴および精度は、いくつかの信号について、および現実世界の環境で不足している可能性があり、さらに雑音下では性能が急速に悪化することが示されている。
声のピッチおよび/または音程の符号化を改善するために、現行の音声符号化法に対するいくつかの修正が提案されてきた。これらには、2005年にVandaliほかによる記述の米国特許出願公開第20060080087号、Vandali,A.Eおよびvan Hoesel,R.Jによる「Modulation depth enhancement for tone perception」という名称の米国特許第7561709号、およびVandali,A.E、van Hoesel、およびSeligman,P.Mによる「Pitch perception in an auditory prosthesis」という名称の米国特許出願US 2006/0080087号の米国一部継続出願で開示されている、Modulation Depth Enhancement(MDE)法およびMulti−channel Envelope Modulation(MEM)法がある。さらに、McDermottおよびMcKayは、人工内耳システムにおけるピッチの符号化を改善するための装置を提案した(McDermott,H.およびMcKay,C.による「Cochlear Implant Sound Processing Method and System」という名称の米国特許出願US 2005/0107843号)。これらの文書の各々は、参照により本明細書に組み込まれる。
前述した声のピッチおよび/または音程の符号化、特に補聴器の刺激に使用するための、改善の試みにもかかわらず、様々な範囲の聴覚環境におけるかかる知覚の改善がまだ必要とされている。従って、本発明は、人工内耳システムにおける声のピッチおよび/または音程情報を効率的な方法で符号化する、競合する雑音および/または干渉信号の影響に対して強固な完全システムを作成することにより、この必要性に対処する。
前述した従来の提案または製品の参照および説明は、当技術分野における公知の一般知識の言明または承認を意図するものでも、また、そのように解釈されるものではない。特に、次の従来技術の説明は、当業者によって公知または周知の事項に関係しないが、本発明の進歩性において、関連する従来技術の提言が一部にすぎないことを理解するのに役立つ。
第1態様において、本発明は、聴覚人工器官で利用する音声信号を処理するための方法であって、
前記音声信号を電気信号に変換するステップと、
前記電気信号を複数の周波数チャネル信号に加工し、各チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープを有するステップと、
前記電気信号の基本周波数に関連する情報を取得するステップと、
前記電気信号の調波特質に関連する情報を取得するステップと、
少なくとも1組の変更されたチャネル出力を生成するために、前記電気信号の基本周波数および調波特質に関連する情報に従って、少なくとも1組のチャネル出力を変調するステップと、
聴覚人工器官の対応する電極による電気刺激、および前記電気刺激の振幅のために、少なくとも1つまたは複数のチャネルを定義するため、少なくとも1組の変更されたチャネル出力から、1つまたは複数のチャネルを選択するステップとを含む。
一実施形態において、前記音声信号を電気信号に変換するステップは、音声信号を検出して、電気信号に変換するマイクロホンの使用を含む。その電気信号は、標本化信号を生成するために、さらに増幅され、その後、その電気信号をアナログデジタル変換器に通すことにより標本化され得る。
他の実施形態では、電気信号を複数の周波数チャネル信号に加工するステップは、電気信号を帯域通過フィルターの第1バンクに通すことを含む。各周波数チャネル信号は、その後、1組の対応するチャネルエンベロープ信号を1組の第1チャネル出力として生成するため、エンベロープ検出器に通され得る。
その1組の第1チャネル出力の各チャネルエンベロープ信号は、低速チャネルエンベロープ信号を1組の第2チャネル出力として抽出するため、チャネルエンベロープトラッカー(tracker)により時間内で平滑化され得る。チャネルエンベロープトラッカーは、各チャネルエンベロープ信号内の約70Hzを上回る周波数成分を平準化するための、一種の低域通過フィルターとして動作し得る。
電気信号を複数の周波数チャネル信号に加工するステップは、さらに、電気信号を帯域通過フィルターの第2バンクに通すことを含み得る。帯域通過フィルターの第2バンクは、帯域通過フィルターの第1バンクと実質的に同一の中心周波数を持ち得、そして、各フィルターは、複数の広帯域幅チャネル信号を生成するため、電気周波数に関連して決定される最大基本周波数の少なくとも2つの基本周波数調波を通すように、十分な広さを持ち得る。広帯域幅チャネル信号の各々は、結果として得られる複数の広帯域幅チャネルエンベロープ信号を1組の第3チャネル出力として抽出するため、エンベロープ検出器に通され得る。
他の実施形態では、電気信号の基本周波数に関連する情報を取得するステップは、電気信号を基本周波数推定器に通すことを含む。基本周波数推定器は、約2KHzの周波数までの電気信号に存在する任意の正弦波周波数成分の周波数および電力の推定値を提供するために、電気信号を処理する位相ボコーダFFTフィルターバンクであり得る。基本周波数推定器は、電気信号で検出される最も優勢な調波の基本周波数を決定し得、その最も優勢な基本周波数の推定を表す信号を生成し得る。基本周波数推定器は、さらに、約2kHzまでの周波数で、その最も優勢な基本周波数に関連する電力の、電気信号に存在する全信号電力に対する比を表す信号を生成し得る。
他の実施形態では、電気信号の調波特質に関連する情報を取得するステップは、最も優勢な基本周波数に関連する電力の、電気信号内に存在する全信号電力に対する比率を表す信号を、周期確率推定器に渡すことを含む。周期確率推定器は、最も優勢な基本周波数に関連する電力の、電気信号内に存在する全信号電力に対する比率を表す信号を圧縮制限および平準化することにより、入力信号(2kHzまで)の周期確率値を抽出し得る。
他の実施形態では、電気信号の調波特質に関連する情報を取得するステップは、電気信号に存在する任意の正弦波周波数成分の周波数および電力を、周期確率推定器に渡すことを含む。周期確率推定器は、任意の周波数チャネル内の信号が、電気信号の推定された最も優勢な基本周波数に関連する確率を推定し得、かつ、各チャネルに対して、チャネル周期確率信号を生成し得る。
さらに他の実施形態では、少なくとも1組の変更されたチャネル出力を生成するために、電気信号の基本周波数および調波特質に関する情報に従って、少なくとも1組のチャネル出力を変調するステップは、チャネル変調器によって実行される。チャネル変調器は、1組の第2チャネル出力を受信し得、そして、基本周波数推定器によって提供されるとおり、電気信号の推定された最も優勢な基本周波数と実質的に等しい周期変調関数によってその信号を変調し得る。第2チャネル出力の変調された組は、第2チャネル出力のスケーリングおよび変調された組を生成するために、周期確率推定器によって決定されたチャネル周期推定信号によってスケーリングされ得る。
チャネル変調器はさらに、1組の第1チャネル出力を受信し得、そして、第1チャネル出力のスケーリングされた組を生成するために、各チャネルに対して決定されたチャネル非周期推定信号(すなわち、1−チャネル周期確率)によって、各第1チャネル出力をスケーリングし得る。第1チャネル出力のスケーリングされた組は、特に入力信号周期推定値が、その入力信号が周期的であることを示している場合は、第1チャネル出力のスケーリングおよび減衰された組を生成するため、チャネル変調器によってさらに減衰され得る。
一実施形態では、第2チャネル出力のスケーリングおよび変調された組は、その後、第4チャネル出力の変更された組を生成するため、第1チャネル出力のスケーリングおよび減衰された組と混合され得る。他の実施形態では、第2チャネル出力のスケーリングおよび変調された組は、1組の復元チャネルエンベロープ信号を生成するため、第1チャネル出力のスケーリングされた組と混合される。
さらに他の実施形態では、チャネル出力の少なくとも1つの変更された組から1つまたは複数のチャネルを選択するステップは、最大スペクトル振幅を有する第4チャネル出力の変更された組からのチャネル選択を含む。最大スペクトル振幅を有するチャネルの選択は、選択されたチャネルのスペクトル範囲を拡大し、選択された最大チャネル内により広範囲に渡る拡散を取り込むために、フレーム間に渡り、少なくとも部分的に多重化され得る。最大スペクトル振幅を有する選択されたチャネルの振幅は、1組の復元チャネルエンベロープ信号の振幅から復元され得る。
第2態様に従って、聴覚人工器官内での使用のために音声信号を処理する方法が提供されており、この方法は、
前記音声信号を電気信号に変換するステップと、
前記電気信号を複数の周波数チャネル信号に加工し、各周波数チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープを有するステップと、
前記電気信号が調波および/または非調波信号を含むか否かを判断するステップと、
調波信号を含む電気信号の一部に対して、1つまたは複数の変調チャネルエンベロープ信号を生成するため、調波信号の基本周波数と等しい周波数の周期関数によって、チャネル出力の低速変動エンベロープを変調するステップと、
非調波信号を含む電気信号の一部に対して、1つまたは複数の非変調チャネルエンベロープ信号を生成するステップと、
各チャネルに対して、各チャネル用に混合チャネル刺激信号を生成するため、所定の混合比に従って、変調チャネルエンベロープ信号および非変調チャネルエンベロープ信号を混合するステップと、
混合チャネル刺激信号に従って、電気刺激用に少なくとも1つまたは複数のチャネルを定義するために1つまたは複数のチャネルを選択し、聴覚人工器官の対応する電極に刺激を適用するステップとを含む。
本発明の本態様の実施形態では、所定の混合比は、周波数チャネル信号が、電気信号内の最も優勢な基本周波数に関連する度合いから導出される。周波数チャネル信号と、電気信号内の最も優勢な基本周波数との間に強固な関係がある場合は、高い混合比であり得る。また、周波数チャネル信号と、電気信号内の最も優勢な基本周波数との間の関係が弱い場合は、低い混合比であり得る。
本発明の第3態様に従って、本発明は、聴覚人工器官内での使用のために声信号を処理するシステムを提供し、そのシステムは、
音声信号を電気信号に変換するための変換器と、
前記電気信号を複数の周波数チャネル信号に加工し、各チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープを有する第1処理装置と、
前記電気信号の基本周波数に関連する情報を取得するための第2処理装置と、
前記電気信号の調波特質に関連する情報を取得するための第3処理装置と、
少なくとも1組の変更されたチャネル出力を生成するために、電気信号の基本周波数および調波特質に関連する情報に従い、第1処理装置から受信した少なくとも1組のチャネル出力を変調するための変調器と、
前記電気信号の振幅と共に、電気刺激用に少なくとも1つまたは複数のチャネルを定義するため、少なくとも1組の変更されたチャネル出力から1つまたは複数のチャネルを選択し、それに従って刺激信号を生成するためのセレクターと、
前記聴覚人工器官での適用のために前記刺激信号を伝達するための送信機とを備える。
本発明の第3態様の実施形態に従って、変換器は、音声信号を検出して、電気信号に変換するように構成されたマイクロホンを備える。変換器はさらに、電気信号を増幅するための増幅器、および標本化信号を生成するためのアナログデジタル変換器を備え得る。
第1処理装置は、電気信号を複数の周波数チャネル信号に加工するための帯域通過フィルターの第1バンクを備え得る。第1処理装置はさらに、エンベロープ検出器を備え得る。エンベロープ検出器は、1組の対応するチャネルエンベロープ信号を1組の第1チャネル出力として生成するため、各チャネル信号がさらにエンベロープ検出器に通されるように構成され得る。第1処理装置はさらに、チャネルエンベロープトラッカーを備え得る。チャネルエンベロープトラッカーは、低速チャネルエンベロープ信号を第2チャネル出力として抽出するため、1組の第1チャネル出力の各チャネルエンベロープ信号を受信するよう構成され得る。
第1処理装置はさらに、帯域通過フィルターの第2バンクを備え得る。帯域通過フィルターの第2バンクは、帯域通過フィルターの第1バンクと実質的に同一の中心周波数を有し得、そして、複数の広帯域幅チャネル信号を生成するため、電気周波数に関連して決定される最大基本周波数の少なくとも2つの基本周波数調波を通すように、十分な広さを持ち得る。第1処理装置はまた、結果として得られる複数の広帯域幅チャネルエンベロープ信号を1組の第3チャネル出力として抽出するため、広帯域幅チャネル信号の各々が第2エンベロープ検出器に通され得るよう、第2エンベロープ検出器も備え得る。
第2処理装置は、基本周波数推定器を備え得る。基本周波数推定器は、約2kHzの周波数までの電気信号に存在する任意の正弦波周波数成分の周波数および電力の推定値を提供するためにその電気信号を処理する、位相ボコーダFFTフィルターバンクであり得る。基本周波数推定器は、約2kHzの周波数までの電気信号で検出される最も優勢な調波信号の基本周波数を決定し、そして、その最も優勢な基本周波数の推定を表す信号を生成し得る。基本周波数推定器はさらに、その最も優勢な基本周波数に関連する電力の、約2kHzの周波数までの電気信号に存在する全信号電力に対する比を表す信号を生成し得る。
第3処理装置は、最も優勢な基本周波数に関連する電力の、電気信号内に存在する全信号電力に対する比を表す信号を少なくとも受信する周期確率推定器を備え得る。周期確率推定器は、最も優勢な基本周波数に関連する電力の、電気信号内に存在する全信号電力に対する比を表す信号を圧縮制限および平準化することにより、入力信号の周期確率値を抽出し得る。電気信号に存在する任意の正弦波周波数成分の周波数および電力を表す信号、および1組の第3チャネル出力は、周期確率推定器によって受信され得る。周期確率推定器はさらに、任意の周波数チャネル内の信号が、電気信号の推定された最も優勢な基本周波数に関連する確率を推定し、そして、基本周波数推定器から決定された電気信号内に存在する任意の正弦波周波数成分の周波数および電力、ならびに帯域通過フィルターの第2バンクによって決定された1組の第3チャネル出力を使用して、各チャネルに対し、チャネル周期確率信号を生成し得る。
変調器は、1組の第2チャネル出力を受信して、基本周波数推定器によって提供されるとおり、電気信号の推定された最も優勢な基本周波数と実質的に等しい周期変調関数によって1組の第2チャネル出力を変調するチャネル変調器であり得る。第2チャネル出力の変調された組は、第2チャネル出力のスケーリングおよび変調された組を生成するため、各チャネルに対して、周期確率推定器によって決定されたチャネル周期推定信号によってスケーリングされ得る。チャネル変調器はさらに、1組の第1チャネル出力を受信して、第1チャネル出力のスケーリングされた組を生成するために、1−各チャネルに対して決定されたチャネル周期確率信号によって、各第1チャネル出力をスケーリングし得る。第1チャネル出力のスケーリングされた組は、特にその入力信号が周期的であることを入力信号周期確率値が示している場合、第1チャネル出力のスケーリングおよび減衰された組を生成するため、チャネル変調器によってさらに減衰され得る。第2チャネル出力のスケーリングおよび変調された組は、各チャネルに対して第4チャネル出力の変更された組を生成するため、第1チャネル出力のスケーリングおよび減衰された組と混合され得る。第2チャネル出力のスケーリングおよび変調された組は、1組の復元チャネルエンベロープ信号を生成するため、第1チャネル出力のスケーリングされた組と混合され得る。
セレクターは、最大スペクトル振幅を有する出力に基づき、少なくとも1組の変更されたチャネル出力から1つまたは複数のチャネルを選択する最大値セレクターであり得る。最大値セレクターは、選択されるチャネル数を増やすため、最大スペクトル振幅を有するチャネルの選択が、フレーム間に渡って少なくとも一部は多重化されるように、マルチプレクサをさらに備え得る。
送信機は、埋め込み型刺激装置に伝達するための刺激信号を符号化する符号器を備え得る。送信機は、RF信号の形式で符号化された刺激信号を伝達するように構成されるRF送信機をさらに備え得る。
ここでは、本発明の好ましい特徴について、特に添付の図を参照しながら説明する。しかし、図に例示され、また、図を参照して説明されている機能は、本発明の範囲を限定するものとして解釈されないことを理解されたい。
従来型の音声処理システムを示す単純なブロック図である。 本発明の一実施形態に従った音声処理システムの様々なコンポーネントを示す概略図である。 本発明のシステムに従った帯域通過フィルターおよびエンベロープトラッカーの様々なコンポーネントの一実施形態を示す概略図である。 図3のエンベロープトラッカーの様々なコンポーネントの一実施形態を示す概略図である。 本発明のシステムに従ったF0推定器の様々なコンポーネントの一実施形態を示す概略図である。 図5のF0推定器のFFT位相ボコーダの様々なコンポーネントの一実施形態を示す概略図である。 入力音声信号の基本周波数に関連する値を生成するために、図5のF0推定器によって開始されるプロセスの一実施形態を示す流れ図である。 本発明のシステムに従った周期確率推定器の様々なコンポーネントの一実施形態を示す概略図である。 システムによって受信された入力信号が調波(または周期的)である確率を推定するために、図8の周期確率推定器によって開始されるプロセスの一実施形態を示す流れ図である。 2kHz以下の中心周波数を有する各チャネルについてチャネル周期確率を推定するために、図8の周期確率推定器によって開始されるプロセスの一実施形態を示す追加の流れ図である。 2kHzを超える中心周波数を有する各チャネルについてチャネル周期確率を推定するために、図8の周期確率推定器によって開始されるプロセスの一実施形態を示す追加の流れ図である。 本発明のシステムに従ったチャネル変調器の様々なコンポーネントの一実施形態を示す概略図である。 刺激装置に対して刺激チャネルおよび刺激強度を決定するために、最大値セレクターによって開始されるプロセスの一実施形態を示す流れ図である。 標準的なCI処理方式および本発明の処理方式に関するエレクトロドグラム(electrodogram)を示す。 標準的なCI処理方式および本発明の処理方式に関するエレクトロドグラム(electrodogram)を示す。
本発明について、人工内耳などの埋め込み型聴覚人工器官での使用への応用に関連して、以下で説明する。しかし、本発明はまた、別のボコーダを基礎とする音声処理システムにも応用可能であり、その場合もなお本発明の精神の範囲内あることが理解されるであろう。
図1を参照すると、従来型の人工内耳システムで使用される従来型の音声処理システム20の簡略化したブロック図が示されている。従来型の人工内耳システムは、通常、音声を検出し、その音声を、埋め込み型刺激装置に伝達される信号に変換するための音声処理システム20を使用する外部スピーチプロセッサを備える。埋め込み型刺激装置は、その後、検出された音声を再現するために、受信した信号を、埋め込みレシピエントの聴覚路に直接適用され得る電気刺激パルスに変換する。
様々な音声処理システム20が提案され、人工内耳システムで採用されているが、成功の度合いは様々である。採用された様々なタイプのシステムまたは方式には、Advanced Combination Encoders(ACE)法、Continuous Interleaved Sampling(CIS)法、およびスペクトルピーク(SPEAK)法がある。
一般に、各システムまたは方式20は、音声を検出および受信して、対応する電気信号を生成するために、マイクロホン21を使用する。電気信号は、その後、通常、その信号がいくつかの事前増幅を受けるプリプロセッサに通され、さらに必要な場合は、アナログデジタル変換器に通された後、デジタル信号に変換される。
前処理された信号は、その後、通常は、帯域通過フィルターのバンク23によって、いくつかの周波数チャネルに分けられる。チャネル数は、採用した特定の方式20によって異なる可能性があり、そして、各チャネル内の信号のエンベロープが通常は推定される。マイクロプロセッサまたはデジタル信号プロセッサ24は、通常、最大チャネル振幅(または、CIS刺激方式の場合は、全てのチャネル)を選択し、その選択された振幅が、その後、通常は、刺激電流レベルに変換される。刺激電流レベルは、通常、選択された周波数チャネルに対応する各電極に対して、可聴値と最大快適度との間にマッピングされる。その際、埋め込み型刺激装置の電極は、蝸牛のトノトピーの特質に合致する方法で、周波数チャネルに割り当てられる。刺激電流レベルは、通常、符号器25へ送信され、そこで、検出された音声信号内のスペクトルキューが通常、電極の位置によって符号化され、時間的エンベロープキューが、刺激信号のエンベロープ内の振幅変動によって符号化される。符号化された信号は、その後、送信機26に送信され、そこで、通常はRF信号の形式で、埋め込み型刺激装置27に送信される。
前述したシステム20は、レシピエントに対する高レベルの発話知覚の実現に有効であったが、システム20は通常、音声から抽出された限られたスペクトルおよび時間的情報を供給し、これは、人工内耳のレシピエントにおいて、通常、満足のいく音楽および音程の知覚には不十分である。
この欠陥に対処するため、図2に示すように、本発明の音声処理システム15が提案される。前述のとおり、本発明の音声処理システム15は、前述したような従来型の音声処理システムの基本原理のいくつかを組み込む。
これに関し、音声処理システム15は、音響入力音声信号を電気信号に変換するマイクロホン1を含む。結果として得られた電気信号は、次に、プリアンプ2によって増幅され、8kHzのアンチエイリアシング(anti−aliasing)低域通過フィルターに続き、16ビットのアナログデジタル変換器3を用いて、16kHzの速度で標本化される。標本化(広帯域)信号30は、その後、フィルターバンク4に渡される。
フィルターバンク4は、信号30を複数の間隔周波数チャネル(通常Nch=20)に加工する帯域通過フィルター43のバンクを備える。フィルターバンク4は、各間隔周波数チャネル内の信号のエンベロープを推定するための複数のエンベロープ推定器または検出器44を含む。最大値セレクター8は、電気刺激信号生成のためにさらに処理される最大振幅を有する周波数チャネルに基づいて、周波数チャネルのサブセットを任意で選択するために提供される。マッピングエンコーダ9は、前述したように、個々の人工内耳ユーザーの周波数から電極および入力強度から電気刺激へのレベルマッピング要件に従って、最大値セレクター8によって選択されたエンベロープ信号を電気刺激信号に変換するために提供される。RF送信機10は、電気刺激信号を埋め込み型人工内耳受信機/刺激装置11に送信するために提供される。
しかし、前述のシステム20とは異なり、本発明のシステム15は、音声信号における声のピッチおよび音程の知覚の支援用である。このため、システム15は、標本化(広帯域)信号30を受信して、リアルタイムで、信号の最も優勢な基本周波数(F0)およびF0信号対全信号電力の比を推定するF0推定器5も含む。周期確率推定器(PPE)6も、各周波数チャネル内の信号が推定されたF0周波数に関連する度合いを決定するために提供される。これを実現するため、PPF 6は、各周波数チャネル内の信号が推定F0周波数の整数倍である周波数成分または一部を含むかどうか、および/または推定F0周波数と等しいそのエンベロープ内の周期性を含むかどうかを判別することができる。チャネル変調器7も、推定F0周波数と等しい周波数を有する周期関数によって、各チャネル信号の低周波エンベロープを適応的に変調する方法として提供される。後述するように、本発明のシステム15は、非変調の(元の)チャネルエンベロープ信号を、チャネル変調器7からの変調チャネル信号と適応的に組み合わせる(混合する)方法も提供し、そこでは、これらの信号を混合するために使用される利得率が、チャネル信号が推定F0に関連する度合いによって決定される。
後述でさらに明らかになるように、好ましい実施形態では、本発明のシステム15で提供される追加の機能性は、主に3つの処理段階で実施されるが、標準的な処理段階の一部に対するいくつかの小規模の修正も必要となる。
図3を参照すると、フィルターバンク4がより詳細に示されている。フィルターバンク4は、標本化信号30を複数のチャネル信号にフィルタリングするチャネル信号を構築するために、FFT二値ベクトルの複素加算が使用される帯域通過フィルター43の第1バンク(重複加算プロセスおよび128ポイントFFTを使用して実施)を採用する。チャネル信号は、その後、チャネルエンベロープ信号40(ChanMag)として参照される1組の第1チャネル出力を生成するため、エンベロープ検出器44の第1バンク(二乗の実数値および虚数値の合計の平方根が計算される複素チャネル信号の求積法調整によって実施)を通過する。チャネルエンベロープ信号40は、本明細書で低速変動チャネルエンベロープ信号41(ChanEnv)として参照される1組の第2チャネル出力を生成するため、チャネルエンベロープトラッカー47によって時間内に平滑化される。
エンベロープトラッカー47は、図4により詳細に示されている。エンベロープトラッカー47は、エンベロープ信号のピーク水準を追跡して、約70Hz(1455Hz/20標本)を超える変調を除去するように構成される。これは、チャネルエンベロープ信号40の各々を受信して、各信号の振幅を追跡するエンベロープトラッカー47によって実現される。エンベロープトラッカーは、チャネルエンベロープ信号40ChanMag内の全ピーク水準を追跡するよう、瞬時のアッタクタイム474を有する。ピーク475を検出すると、エンベロープトラッカーは、約70Hzを超える(またはF0周波数を超える)エンベロープ周波数成分を平滑化するように、ステップ479で定義されるとおり20標本まで(〜13.75ms)の期間(または推定F0期間51よりも若干長い期間)、ピーク水準を維持する(または、超低速リリースタイム0.02Hzの1次LPFを使用する)。ホールドタイム中により大きな信号に遭遇すると、ホールドタイムがリセットされ、そうでない場合は、ホールドタイムが満了すると、約70Hz(または推定F0周波数)を下回るエンベロープ成分が追跡されるように、高速リリースタイム477(300Hz LPF)が適用される。エンベロープトラッカーは、信号経路に13.75msの追加の処理遅延を導入することに注意されたい。
再度図3を参照すると、広帯域幅チャネルエンベロープ信号Wide Bandwidth ChanMag 42を決定するため、フィルターバンク4は、帯域通過フィルター45の第2バンクを用いて、標本化信号30をフィルタリングするためにも使用される(チャネルエンベロープ信号の抽出に使用された同一の重複加算128ポイントFFTを使用しても実施される)。これらの信号は、チャネル信号が推定F0に関連する確率を決定するために、周期確率推定器(PPE)によっても使用される。帯域通過フィルター45の第2バンクは、帯域通過フィルター43の第1バンクと並列しており、MaxF(約2kHz)を超えるチャネル周波数に対してのみ使用される。それらは、チャネルエンベロープ信号40および41を抽出するために使用される帯域通過フィルター43の元のバンクと同一の中心周波数を有し、システムによって分析されるため、最大F0周波数の少なくとも2つのF0調波を通すのに十分に広い最小帯域幅(すなわち、約330Hzの最大F0に対して少なくとも約660Hzの幅)を有する。第2の組のエンベロープ推定器46は、1組の第3チャネル出力を抽出するために使用され、本明細書では、広帯域幅チャネルエンベロープ信号42(Wide Bandwidth ChanMag)として参照される。このため、複合倍音に対して、これらのチャネルは、その音の基本周波数に関連するそれらのエンベロープ内で振幅変調を伝えるであろう。
フィルターバンク分析レート(またはFFT窓の重複)は、所望の電気刺激率に応じて、約1ms〜0.5msの間のレート(または87.5%〜93.75%の窓の重複)に調整可能である。通常、0.6873msのレート(すなわち、16000Hz/11標本=1455Hz)が採用され、これは、約350HzまでのF0周波数の標本化に十分な高さである。
以前に示唆したように、F0推定器5は、入力音声信号30内に存在する(もしあれば)最も優勢な調波信号に関連する基本周波数50(F0Freq)のリアルタイムの推定値を抽出するために使用される。それはまた、調波信号対全信号電力の比(またはその代わりに、F0信号対雑音+信号電力の比53(F0SNSR)として記述される)の推定値も提供する。これを実現するために、F0推定器5は、いくつかの処理段階を組み込む。第1段階は、入力信号内の成分の電力および周波数の推定に使用される。第2段階では、所与の(候補)F0に関連する信号内に存在する(または整合する)電力量を決定するため、一連の調波篩(ここで、各篩は所与のF0の調波を通す)が使用される。1つの半音で区切られるF0周波数の範囲が検査されて、最大量の電力を通す候補F0が見つけられる。第3段階では、最大の整合電力を有する候補F0に対して、より細かい周波数分解能を持つ調波篩の第2バンクが適用される。第4段階は、F0オクターブエラーの削減に使用される。静穏な状態および雑音下でオクターブエラーを最小限にするため、重み関数を最高の候補F0の整合電力に適用する。最大の重み付き整合電力を有する候補F0が、F0推定器の現在のタイムフレームに対するF0推定値として選択される。最終段階は、いくつかの連続するタイムフレームを通して取得されたものから最高のF0推定値を選択することにより、雑音下での誤ったF0推定エラーを削減するために使用される。各段階の詳細な説明については、後述する。
図5〜図7を参照すると、F0推定器5の第1段階が示されている。本段階は、入力信号30に存在する正弦波成分(または部分)の周波数または電力の推定値を提供するため、高速フーリエ変換(FFT)位相ボコーダ56を利用する。
図6に、FFT位相ボコーダ56が機能する方法が詳細に示されている。ステップ561で、人工内耳のレシピエントによって装着されているマイクロホンから通常受信される標本化信号30は、ステップ562で8kHzのレートまでダウンサンプリングする(2の倍数による時間内のデシメーション)前に、低域通過アンチエイリアス処理フィルター(2.2kHzのカットオフ周波数を持つ4次無限インパルス応答(HR)バターワースフィルター)を用いて、最初に低域通過フィルター処理される。ステップ562では、ダウンサンプリングされた信号の最近の32ms(すなわち、256標本)が、次に、ハニング窓(周波数領域で31.25Hzの−3dBの帯域幅を提供する)を使用して、窓をかけられる。その後、ステップ565で、「スタックおよび追加(stacking and adding)」技法が実行されるが、その技法は、周波数領域内で2の倍数でのデシメーションにより、標本数を128まで削減する(ステップ566で)のに使用される。
ステップ567で、これらの標本は、−(k×t)標本(ここで、tは分析フレーム番号(t=0,1,2,...)、k=分析フレームレート−11標本(これは分析周波数−8000Hz/11−727Hzを提供する)とする)、およびN−128標本によって時間内にローテーションされる。そのローテーションは、あとに続く位相ボコーダ処理のため、連続するFFTフレーム間のゼロ相対位相シフトを維持するために実行される。ステップ568では、128ポイントFFTが、その後、入力信号の複合周波数スペクトルの推定値を取得するために適用され、この場合、FFTビンb=1〜32で、62.5〜2000Hzの範囲で中心周波数を有する、62.5Hz間隔の周波数帯域を表す。
ステップ569で、位相ボコーダは次に、FFTビン1〜32内の信号成分のビン電力値570およびビン周波数値を推定するために使用される。ビン電力値は、二乗の実数および虚数のFFT値の合計から抽出されるが、ビン周波数値は、連続するFFTフレーム間の位相差から推定される。これは、各FFTビン内の実数項および虚数項からの位相(Ph)の計算(ここで、Ph−逆正接(虚数/実数))、および、ビン周波数を計算するための連続するFFTフレーム間の位相差(dPh)を使用して行われる(ここで、ビン周波数b×Fs/N+dPh[b]×Fs/(k×2π)、およびb=FFTビン数、k=解析ホップ=11標本、Fs=8000Hz、およびN=128標本とする)。計算された位相差は、ビン周波数を計算する前に、「アンラップ」されることに注意する。ビン電力およびビン周波数は、次に、ステップ572で、FFTビンb=1〜32に対して、平均ビン電力57(AvBinPower[b]またはp)および平均ビン周波数59(AvBinFreq[b]またはf)の値を生成するため、4つのFFTフレームに渡って算術的に平均化される。4つの連続するフレームに渡るビン電力およびビン周波数の平均化を通して、平均項は5.5ms(182Hz)毎に生成される。各ビンに対する平均ビン電力は、AvBinPower(P1+P2+P3+P4)×0.25(ここで、P1〜P4は、4つの連続するFFTフレームに対するFFTビン電力とする)を使用して計算される。各ビンに対する平均ビン周波数は、AvBinFreq−(F1×P1+F2×P2+F3×P3+F4×P4)/(P1+P2+P3+P4)(ここで、F1〜F4は、4つの連続するFFTフレームに対するFFTビン周波数とする)を使用して計算される。ビン電力およびビン周波数は、4つの連続するFFTフレームに渡って平均化され(FFTフレームレート=8000Hz/11標本=727Hz)、F0推定器内の残りの処理が、727/4=182Hzのレートで進められる。平均ビン周波数の許容可能な上限値は、MaxF−(32+0.5)FFTビン×62.5Hz(ビン幅)−2.031kHzである。この制限を越える周波数の平均ビン電力が、ゼロに設定される。
平均ビン電力57の値は、ステップ565で、256ポイントのハニング窓で窓をかけられて、周波数を2でデシメーションされた処理済み信号566の複合スペクトル振幅特性における過度のリップルを計上するため、任意で変更され得る。周波数デシメーションプロセスは、周波数デシメーションが生じなければ通常あったであろうFFTビン中央周波数の中心を外れた周波数成分に、より大きな減衰を効果的に導入する。このため、ステップ573で、システムの複合振幅特性は、その窓の逆の振幅特性を(そのビンの中心周波数から+/−半分のビン幅内のビン周波数に対して)、それらの平均ビン周波数に基づき、平気ビン電力に適用する。
マイクロホン1から取得した入力信号に対して、平均ビン電力57は、ステップ574で、0〜2kHzの周波数範囲に渡り、関数によって、マイクロホンのスペクトル振幅特性の逆に比例して、均一化される。その関数は、62Hz〜2kHzまでの−4dB/オクターブ特性を有する。システムに直接入力された(すなわち、マイクロホンを回避して)入力信号に対しては、平均ビン電力の均一化が回避される。
再度図5を参照すると、平均ビン電力57および平均ビン周波数59が抽出されると、これらはその後、F0推定プロセス58を実行するために、F0推定器の第2段階で使用される。
F0推定プロセスについては、図7に関連して、さらに詳述する。先ず、候補F0周波数に調波的に関連した、2kHzを下回る標本化入力信号30が決定される。これは、約82Hzから始まって、半音ずつ約329Hzまで(またはそれ以上、例えば、システムパラメータに応じて523Hzまで)、または西洋音階で音符E2〜E4に相当する5.94%(すなわち、82、87、93、98、104、110、...311、329Hz)まで増加する、候補F0周波数に対して行われる。各候補F0周波数に対して、それらの平均ビン周波数59が、次の式による候補F0周波数の倍数に中心を置く一連の矩形調波篩(すなわち理想的なBPF)の範囲に入る場合、ステップ582で、平均ビン電力57の合計により、合計または整合電力が決定される。
Figure 0005901971
(T=1〜28およびn=1,2,3...とする)
式中、Tは候補F0のテンプレート番号、CF0は候補F0周波数−82×2T/12、Fr[T]はMaxFの最大調波周波数までのCF0の全整数倍あたりの1/−0.5半音に渡る篩周波数の範囲であり、Foffset=2Hzは、隣接する候補F0の篩間に少量の重複を提供するために使用される。
その後、ステップ582で、次の方程式を用いて、各候補F0周波数について整合電力が計算される。
Figure 0005901971
ステップ582で、各候補F0について、平均ビン電力を合計するまえに、追加の規則が任意で採用され得る。各候補F0に対して、合計される周波数の範囲に含まれる最大平均ビン電力値が先ず、決定される。この値は、平均ビン電力値の合計用に閾値を設定するために使用される。その閾値は通常、「静穏な状況」に対しては、0.001×最大平均ビン電力、「雑音下の状況」に対しては、0.01×最大平均ビン電力に設定される。この閾値を下回る平均ビン電力は、ステップ582で合計されない。「静穏な状況」および「雑音下の状況」はそれぞれ、信号対雑音比(SNR)が+6dBより大きいか、+6dBより小さいかによって、おおまかに線引きされる。本実施では、「静穏な状況」または「雑音下の状況」パラメータの選択は、ユーザーによって行われる。将来の実施では、SNRの推定に基づいて、適応的にパラメータ選択を制御できるであろう。
第3段階では、理想的な条件下で、最大整合電力を有する候補F0が、F0の推定値を抽出するために使用され得る。しかし、雑音の影響に対してより頑強なF0推定値を決定するため、前述の第2段階で合計した調波から抽出された平均F0周波数の倍数に中心を置く、より狭い篩を使用する第2調波篩プロセスを採用する。また、処理要件を削減するため、残りの3〜5の処理段階は、ステップ586から抽出された最大整合電力587の3dB電力(すなわち、0.5)内の整合電力を有する候補F0、およびその整合電力を提供するために、少なくとも2つの平均ビン電力値(または調波)が合計された候補F0に対してのみ実行される。
平均F0周波数589(AverageF0)は、ステップ588で、候補F0用に合計された周波数の範囲に含まれるビン周波数fの重み付き電力平均から計算され、その後、次の方程式のように、同一組のビンに対する平均ビン電力の合計で除算される。
Figure 0005901971
調波篩の第2バンクは、機能においてガウス型であり、ステップ590で、重み付き整合電力591を抽出するために実施される。重み付き整合電力は、所与の候補F0に対して、成分周波数fが、平均F0周波数のその最も近い整数倍にどの程度近いかに比例するガウス関数Gによって合計される各周波数成分の電力をスケーリングすることにより計算される。ガウス型篩は、AverageF0の倍数の調波に置かれた平均中央周波数、および、以下の方程式で与えられるとおり、kの倍数に等しい標準偏差を有する(式中、hは調波数、またはビン周波数fに最も近いAverageF0の最も近い整数倍数である)。標準偏差kgは、ガウス型篩の帯域幅を設定するために使用される。k=0.02×CF0を設定すると、調波数f/hで除算されたビン周波数がAverageF0から約1/−2.4%(または〜1/−0.4半音)離れている場合、Gを〜0.5(すなわち、半分の電力)に確定する。
Figure 0005901971
式中、hは、次の方程式で与えられる平均F0に関して、fのための調波数である。
Figure 0005901971
低い候補F0に対して、kが高く設定されすぎた場合、高次の調波篩は、著しく重複し得る。また、雑音下の状況では、高次の幅広篩は大量の雑音電力を合計し得る。このため、前述の方程式では、ガウス型篩の標準偏差は、次の方程式で定義されるとおり(ここでは、制限帯域幅BWMaxを60Hzに設定)、kがある最大値kGMax(h)を超えないように制限された。
Figure 0005901971
調波篩590の第2バンクによって通される電力591の量(以後、ステップ584で抽出された整合電力に取って代わる)は、次の方程式(ここでは、AVF0(T)は、AverageF0の全整数倍あたりの12半音に渡るガウス型篩の周波数範囲である)のとおり、ガウス型篩によって重み付きビン電力を合計することにより決定される。
Figure 0005901971
静穏な状況では、整合電力は、完全に信号電力(Sp)から成るが、雑音下の状況では、整合電力は、信号電力および雑音電力(Np)の一部の両方を含む。このため、整合電力から、篩内の雑音電力の推定値を減算することにより、信号電力のより良好な推定値を導出するために、任意の処理段階を採用し得る。入力信号が単音の複合調波信号および2kHzの周波数範囲に渡って均一に分布する雑音から成るという想定を根幹として、F0信号に対応する候補F0に対し、整合帯域幅内の雑音電力(Np)が、全電力から整合電力を減算して、整合帯域幅の全帯域幅に対する比で積算したものに等しい、すなわち、Np=(Tp−Mp)×KBW×MBW/TBW(ここで、全帯域幅TBW−MaxF−60Hz、全電力585(Tp)は、全帯域幅583内のビン周波数を持つビン電力の合計から導出される)であり、整合帯域幅は、次の方程式(ここでは、各ガウス型篩のために−3dB(0.5)の電力帯域幅が想定される)のとおり、各ガウス型篩の帯域幅を合計することにより計算された。
Figure 0005901971
次に、整合電力が信号電力および整合帯域幅内の雑音電力の両方を含む(すなわち、Mp=Sp+Np)ことから考えると、信号電力(Sp)593は、ステップ592で、前述の方程式の移項により導出されて、次の方程式を提供する。
Figure 0005901971
定数KBWは、通常、信号および雑音は、周波数範囲に渡って均一に分布していないという事実を補うために使用される。KBWを用いた実験で、0.5という値は、異なる信号、雑音の種類、およびSNRに対する雑音電力推定値間に、良好な妥協を提供することが分かった。
処理の第4段階は、オクターブエラーを最小限にすることを含む。調波篩を基礎とした推定器に対して、F0の調波がF0の約数の偶数調波(すなわち、F0の下位オクターブ)に一致するために、オクターブエラーが生じる。このため、本実施では、信号F0に対応する候補F0および、その結果としてF0の下位オクターブ(下位オクターブエラー)が生じるF0エラーを導く全ての下位オクターブに対して、同等の信号電力(または、ステップ592が回避された場合は、同等の整合電力)が抽出される。この問題は、上位候補F0の信号電力(または整合電力)に対して少量の正の重み付けを適用することにより防ぐ。しかし、正の重み付けが多すぎると、F0の奇数調波のエネルギー量が偶数調波に比べて低い場合に、上位オクターブF0が推定されるエラーを引き起こし得る。このため、下位オクターブおよび上位オクターブの両方のタイプのエラーを最小限にするために、重み関数を注意深く選択する必要がある。さらに厄介なことには、重み関数の選択は、信号対雑音比によって決まる。雑音が混入するにつれ、下位候補F0は(より多くの調波篩を有するために)、上位候補F0よりも多くの雑音を合計し、従って、下位オクターブF0エラーを防ぐため、上位候補F0に対してより大きな正の重みが必要となる。
本実施では、正の重み付けが上位候補F0に適用される。重み関数は、各候補F0に対して合計される全調波篩の結合された帯域幅における差異を相殺する。それは、次の方程式で提供されるとおり、整合帯域幅MBW(すなわち、合計された全調波篩の帯域幅)の電力K乗に反比例し、式中、定数Kは、正の重み付けの程度を調整するために使用される。
Figure 0005901971
重み付き信号電力596は、ステップ595でWSp[T]=Sp[T]×W[T]から抽出される(または、ステップ592が回避される場合、重み付き整合電力はWMp[T]=Mp[T]×W[T]から抽出され得る)。音声信号の範囲および静穏な状況で提示されるF0を使用した実験を通して、K=0.02〜0.1に対して最良のF0推定確度が決定された。しかし、雑音が信号に追加された場合、低い候補F0によって合計される雑音電力の増加を相殺するため、K=0.02〜0.34の上位値が必要とされた。高〜中程度のSNR(すなわち、約1〜6dBを超える)に対して、「静穏な状況」処理パラメータが使用され(すなわち、K=0.08)、低いSNRに対しては、「雑音下の状況」処理パラメータが使用される(すなわち、K=0.3)。Kの適応調整のためのアルゴリズムも検査された。最大の重み付き電力に対する信号対全電力比STRの推定値が、ステップ594で、STR=S/T(またはその代わりにSTR=M/T)を使用して計算される。STR値は、高いSNRに対応する1.0から、0dB以下のSNRに対応する0.5以下までに及ぶ。適応アルゴリズムは、次の方程式を使用して、1.0〜0.55に及ぶSTR値に対し、0.02〜0.34の値の間で、Kを直線的に適応させた:K=(0.02...0.34)×(STR−0.55)/(1.0−0.55)+0.3。0.55未満のSTR値に対し、Kは0.34に制限された。
最大の重み付き信号電力598を持つ候補F0(または、最大の重み付き整合信号)は、ステップ597で決定され、その平均F0は、F0推定器の現在のフレームに対するF0推定値として使用される。
ステップ597では、オクターブエラーを削減するための任意の方法を採用することができ、この方法では、現在のF0推定値を以前のF0推定器フレーム53からのものと比較し、その2つのF0周波数が整数比または整数に近い比によって関連している場合は、いくつかのヒステリシスを適用する(例えば、以前のF0推定値=110Hz、および現在のF0推定値=326Hzで周波数が2.96倍高い場合は、ヒステリシスを適用する)。これは、実際は、F0周波数よりはむしろ、F0テンプレート番号(T)を使用して実行され、1/−1テンプレートの許容範囲を認めることに注意する。12、19,24、28、および30のテンプレート番号差(すなわち、それぞれ、×2、×3、×4、×5、および×6)に対して、整数の周波数比が存在する。テンプレートが調波的に関連し、現在の重み付き信号電力×ヒステリシス閾値が以前の重み付き信号電力を下回る場合は、以前のF0推定値が保持され(すなわち、それが現在のF0推定値を置き換える)、そこでは、ヒステリシス閾値が通常、「静穏な状況」では0.98、または「雑音下の情報」では0.9である。
段階5では、雑音下の状況で、重み付き信号電力(または重み付き整合電力)内の擬似関数が推定エラーを取り込み、それ故、いくつかの連続したF0推定器フレームから最良のF0推定値を選択する最終処理段階(すなわち、不足分を補うプロセスと同様)が含まれる。ステップ599では、最大の重み付き信号電力(または重み付き整合電力)を持つ候補F0に対するパラメータがF0フレームバッファに入れられる。また、ステップ600で、重み付き信号電力対全電力比601 WSTR=WS/T(またはその代わりにWSTR=WM/T)の推定値を提供するため、最大の重み付き信号電力(または重み付き整合電力)が、全電力585で正規化される。ステップ602で、最大のWSTRを持つF0フレームバッファ内のエントリが、連続したフレームに渡って最良のF0推定値を選択するために使用される。「静穏な状況」での最良のF0推定値を選択するための連続したフレーム数は4前後(これは〜20msの時間範囲に及ぶ)であるが、「雑音下の状況」での最良の結果は、例えば、最大で12フレーム(すなわち、60ms)までの、多数のフレームを使用して取得されたことが分かった。最良のF0推定値を持つフレームが決定されると、その平均F0が、F0推定器によりF0Freq 50として出力される。標本単位(8000/11=1455Hzの標本化レートを使用)内のF0期間51(F0Period)およびその候補F0テンプレート番号T 52(F0TemplateNum)も出力される。さらに、「重みのない」信号対全電力比F0SNSR=S/T(または、その代わりにF0SNSR=M/T)の推定値が、F0推定器53によって出力される。この値は、本発明の後の段階で、F0推定強度の評価基準、または信号が(0〜2kHzの範囲で)調波である確率として使用される。最後に、最良のF0推定器フレームに対するFFTビン電力54(F0BinPower[b])および周波数55(F0BinFreq[b])の値が、周期確率推定器の段階で使用するために出力される。
図8〜図11を参照すると、周期確率推定器(PPE)6が詳細に示されている。PPE 6のコンポーネント63は、入力信号30が2以上の調波的に関連した正弦波成分(または部分)から成る、すなわち、それが(純音を除いて)「周期的」である確率を推定するために使用される。PPEは、F0推定器5から抽出されたF0SNSR値53(すなわち、調波信号対全信号電力の比)から抽出された入力信号周期推定値60(PerProb)を生成する。
図9を参照すると、F0SNSR値53は、まず、圧縮制限関数630を用いて、信号を周期(調波)=1.0または非周期=0.0として分類するために適切な範囲に変換される。最大F0SNSR値は、入力が全て圧縮された複合調波信号の場合については1.0であり、入力がいかなる周期性も含まない場合については0.0に近くなる。非線形の圧縮制限関数630(以下の方程式内のシグモイド関数で記述されるとおり、式中、aは変曲点であり、bはその関数の5%〜95%幅を設定する)は、信号を「周期的」または「非周期的」として分類に適切な範囲にF0SNSR値を変換するために使用される。
Figure 0005901971
「静穏な状況」に対して、シグモイド関数は、変曲点a=0.65および幅b=0.4を有する。「雑音下の状況」に対しては、その関数は、変曲点a=0.575および幅b=0.35を有する。変換されたF0SNSR値は、その後、出力周期確率値60(PerProb)内のいかなる擬似変動も取り除くために、1次30Hz LPFを用いて、低域通過フィルターを通される。
周期確率推定器6は、任意の周波数チャネル内の信号が、推定されたF0周波数に関連する(すなわち、推定F0周波数の整数倍であるか、かつ/または推定F0周波数に等しいそのエンベロープ内に周期性を含む周波数成分、または部分を含む)確率を推定するためにも使用される。これは、2つの方法を用いて実行される。第1の方法64は、低周波数チャネル(通常、0〜2kHzの範囲)に対して使用される。第2の方法65は、高周波数チャネル(通常、2kHzを上回る)に対して使用される。
PPE 6の方法64がこれを実現する方法を図10に示す。F0推定器によって分析されるF0の範囲(通常0〜2kHz)に含まれる周波数チャネルに対し、チャネル内の全信号電力で除算された推定F0に関連するBPFチャネル内の信号電力の関数を用いて、チャネル信号が、推定F0の整数倍である正弦波成分または部分を含む確率が決定される。この比、すなわち、チャネル電力対全電力F0SNSRchは、チャネルn=1〜11、通常はNch=20チャネルフィルターバンクに対して、次の方程式のように推定される。
Figure 0005901971
各BPFチャネル内のF0信号電力および全電力は、現在のF0推定値に対応するF0推定器から取得されたビン電力(F0BinPower[b])および周波数(F0BinFreq[b])から抽出される。示された周波数範囲Fch(BPFの−60dB電力帯域幅のように)に及ぶ各BPFチャネルに対して、そのチャネル内の信号電力は、まず、それらの周波数が推定F0の調波にどの程度厳密に整合しているかに従って、範囲Fch内の全ビン電力に重みを付けることにより推定される。重み付け係数は、F0推定器の第3段階(ここで、K=F0FreqおよびBWMax=30Hz)に関連して前述したガウス型関数から抽出される。この結果、全ての調波およびF0に対して、30Hz幅のガウス型フィルターとなる。(低次調波用のガウス型フィルター幅を削減し、それによりチャネル周期(調波)確率の精度をより向上させるため、Kは、0.1×F0Freqまで削減可能であることに留意されたい)。次に、重み付きビン電力は、ステップ641で、前述の方程式における分子のように、チャネル内のF0信号電力の推定値を提供するため、各ビン周波数に対するBPFチャネルPch(f)の電力レスポンスによってスケーリングされて合計される。
BPFチャネル内の全電力は、前述の方程式の分母に示されるように、各ビン周波数でのチャネルの電力レスポンスによってスケーリングされたビン電力の合計から抽出される。ステップ643では、チャネルF0SNSRchが、0〜2kHzの信号電力対全電力比F0SNSR(これは、全体の信号が推定F0に調波的に関連する確率を反映する)によって正規化(すなわち、乗算)される。結果として得られる値は、チャネル信号が推定F0に関連する周波数成分を含み、F0SNSRが高い場合の約1から、チャネル信号が推定F0に関連せず、F0SNSRが低い場合の約0までの範囲に及ぶ。チャネル周期確率値は、その後、ステップ644で、次の方程式のようなシグモイド関数を用いて、スケーリングされたF0SNSRch値を変換することにより決定され、式中、a=0.5が変曲点を設定し、b=0.5がシグモイド関数の−5%〜9.5%幅に設定する。この関数は、0.75以上のスケーリングされたF0SNSRch値に対して、1に近いチャネル周期確率を返し、0.25以下のスケーリングされたF0SNSRch値に対しては0を、0.75と0.25の間のスケーリングされたF0SNSRch値に対しては、1と0との間の値を返す。
Figure 0005901971
チャネル信号レベルが低い場合、チャネル周期確率値を低減するために、従って、後にチャネル変調段階で適用されるF0変調の深さを低減するため、追加の調整が行われる。これは、低強度のチャネル信号によって生じた音量の減少を最小限にするために行われる。これを実現するため、チャネル周期確率は、低速変動チャネルエンベロープ信号ChanEnvが、チャネルの40dB入力ダイナミックレンジの下位16dB内にある場合、ステップ645で減衰される。減衰量は、最小チャネルレベルに関する16dBに等しいChanEnvに対する1.0から、最小チャネルレベルに等しいChanEnvに対する0.25まで、直線的に減少する。最終段階464として、チャネル周期確率値は、擬似変動を平滑化するため、30Hzの1次LPFを用いてフィルタリングされる。
図11を参照すると、F0推定器によって分析された周波数範囲(通常は>2kHz)を超える周波数チャネルに対して、PPE 6の方法65で、チャネルエンベロープ信号の期間が、推定F0周波数の期間に等しい(または近い)かどうかを判断することにより、チャネル周期確率が推定される。これは、ステップ650で、フィルターバンク4から取得した広帯域幅チャネルエンベロープ信号42(Wide bandwidth ChanMag)を高域通過フィルターで処理し、その履歴をバッファ651内に約28ms(40標本)の持続期間で保持することにより実現される。
各チャネルに対して、バッファ内容の最近の20標本(〜14ms)が、ステップ652で、ゼロの時間的推移、およびF0推定器5から取得した推定F0期間51を用いて、自動的に相互に関連付けられる。期間/時間推移された自動相関値654のゼロ時間推移された自動相関値653に対する比が、ステップ655で、次の方程式を用いて決定され、通常、n=12〜Nchに対し、式中、HPFは、高域通過フィルター関数、およびACF(f,l)は、時間差(lag)lに対するfの自動相関関数である。
Figure 0005901971
1.0に近い自動相関比に対して、高チャネル電力対全電力比が推定されるが、0.5以下の値に対しては、低チャネル電力対全電力比が推定される。ステップ656で、この結果が、F0SNSR値によって、正規化(すなわち、乗算)される。ステップ657では、結果は、ステップ644で前述した方程式のように、非線形圧縮制限(または、シグモイド)関数を用いて変換され、式中、シグモイド関数は、変曲点a=0.35、および幅b=0.5を持つ。ステップ658で、チャネル信号41の低速変動エンベロープが低い(ステップ645で前述されている同一の手順のように)場合にチャネル周期確率値を低減するため、次にスケーリング関数が使用される。最後に、ステップ659で、各チャネル(通常、>2kHz)に対するチャネル周期確率61(ChPerProb)を抽出するため、1次30Hz LPFを用いて、チャネル周期確率値が低域通過フィルター処理される。
図2に示すように、PPE 6は、F0変調を各周波数チャネル41の低速変動エンベロープ信号(ChanEnv)に適用し、これらの信号を非変調チャネルエンベロープ信号と結合または混合するために使用されるチャネル変調器7に対して、周期確率60(PerProb)およびチャネル周期確率61(ChPerProb)を提供する。
図12を参照すると、変更されたチャネルエンベロープ信号70(Modified ChanMag)を提供するため、各チャネルの低速変動エンベロープ信号(ChanEnv)4が、推定F0周波数50に等しい周波数の変調関数77(M)によって変調され、その後、チャネルエンベロープ信号40(ChanMag)と混合される。これら2つの信号に対する混合比は、各チャネル周期確率61(ChPerProb)から抽出されるが、ここで、高確率は、F0の変調対非変調信号の比に混合され、低確率は、これらの信号の低い比に混合される。一般に、高いチャネル周期確率61を持つチャネルは、1.0に近い変調対非変調の混合比を受信するであろう。一方、低いチャネル周期確率を持つチャネルは、0に近い変調対非変調の混合比を受信するであろう。これは、チャネル周期確率61(ChPerProb)で乗算された低速変動エンベロープ信号4(ChanEnv)を変調するためにF0変調関数Mが使用されるステップで実現される。その際、各周波数チャネルで変調された低速変動エンベロープ信号が、チャネル周期確率によってスケーリングされる。変調されていないチャネルエンベロープ信号40(ChanEnv)は、NonPerGain 75で乗算されたチャネル非周期確率(すなわち、1−ChPerProb)によってスケーリングされて、次の方程式のように、F0変調チャネル信号と混合される。
Figure 0005901971
(チャネルn=1〜Nchとする)
変更されたチャネルエンベロープ信号79(ModifiedChanMag)はその後、最大値選択段階に渡されて、処理が継続する。
さらに、各周波数チャネルに対して、変調低速変動エンベロープ信号が、1−チャネル周期確率61で乗算された復元利得76(RestoreGain)によってスケーリングされた各周波数チャネル40(ChanMag)と混合される。結果は、次の方程式のように、復元チャネルエンベロープ信号71(Restore ChanMag)として出力される。
Figure 0005901971

(チャネルn=1〜Nchとする)
非周期利得75(NonPerGain)および復元利得76(RestoreGain)の値は、変更および復元チャネルエンベロープ信号内において、特に、低チャネル周期確率を有するチャネルに対して、非周期成分のレベルを制御するために使用される。これらの値は、ステップ73で、入力信号周期確率60(PerProb)を用いて決定される。通常、RestoreGain=0.8(すなわち、−2dB)である。「静穏な状況」に対して、NonPerGain=PerProb×0.5+(1−PerProb)×RestoreGainであり、一方、「雑音下の状況」に対しては、NonPerGain=PerProb×0.1+(1−PerProb)×RestoreGainである。これらの値は、0.0〜0.1の間で変動し、従って、特に、入力信号周期確率値(PerProb)が高い(すなわち、周期的な)場合、変更および復元チャネルエンベロープ信号における非周期成分を実際に減衰させる。
ステップ74で決定されたF0変調関数77(M)は、符号化された刺激エンベロープが非変調、F0率、パルス列の刺激エンベロープに近づくように、低デューティサイクルを使用する。この関数は、電気パルス列によって引き起こされた音のピッチが、変調期間よりもむしろパルス間の最長1次間隔の関数によって管理されるために、選択された。変調関数は、瞬時のアタックタイムおよび指数関数的減衰を持つ狭パルスから成り、128標本から成る単一サイクル(期間)として保存される。変調関数の深さおよびその指数関数的減衰率を調整するための制御が提供される。デフォルト設定で、変調の深さMD(臨床の現在のユニットではピーク/トラフの刺激レベルとして定義される)は、0.5の対象者の電気DRに調整されるが、それは、各チャネルで40dB DRと仮定すると、20dBの音響等価の深さに変換する。また、指数関数的減衰関数は、変調期間の第1四半期内でそのピーク値の10%まで下がる。変調関数は、F0間隔×128標本をシステムの刺激率(1455Hz)で除算した値で標本化される。しかし、刺激率は、F0の非整数倍であり得るため、標本化出力に振幅の唸りが生じ得る。これを回避するため、各F0サイクルの初めで、サイクルの第1標本が変調関数の第1標本(すなわち、ピークのパルスレベル)に必ず一致するように、変調関数の標本化が再設定される。各F0サイクルの開始は、所望のF0変調フェーズの正確な進行中の記録を保持することにより決定される。
再度図2を参照すると、チャネル変調器で生成された変更チャネルエンベロープ信号70(Modified ChanMag)および復元チャネルエンベロープ信号71(Restore ChanMag)は、最大値セレクター8に送信される。最大値セレクター8は、特に雑音下の状況で、本発明と通常のCIシステムとの間での刺激用に選択されたチャネルにおける相違が最小限になるよう、F0の調波を含むチャネルの選択を改善するために、任意の処理を組み込む。最大値(すなわち、最大のスペクトル振幅を持つチャネル)は、前述のとおり、低速変動チャネルエンベロープ信号41(ChanEnv)の変調から抽出された変更チャネル振幅値70(Modified ChanMag)から選択される。これは、従来型CIシステムと対照をなし、ここでは、最大値が、低速変動チャネルエンベロープ信号より大きな時間的変動(すなわち、上位のエンベロープ周波数)を持つチャネルエンベロープ信号40(ChanMag)から直接選択される。本発明の最大値セレクター8によって処理される低速変動エンベロープ信号において時間的変動が低いことは、スペクトル振幅における変動がそのうち少なくなり、それ故、最大値として選択されたチャネルにおける変動がより低い結果となり得ることを意味する。これを補うため、本発明では、最大値の選択が、選択された最大値のスペクトル範囲を拡大し、それにより、選択された最大チャネルにより大きな拡散をもたらすため、フレーム全体で一部多重化される任意の方式を組み込む。
さらに、最大値セレクター8は、「非周期」のチャネル信号が減衰される(例えば、NonPerGainパラメータを用いて)変更チャネル振幅値70(Modified ChanMag)から選択するため、減衰された非周期チャネル信号の振幅が、復元チャネル振幅値71(Restore ChanMag)を用いた最大値選択処理の後に復元され得るように、処理が提供される。
図13を参照すると、最大値セレクター8は、最大値選択(すなわち、任意の1タイムフレーム内で最大のエンベロープ値を有する周波数チャネルの選択)の3つの段階を組み込む。ステップ82に示す第1段階は、通常、現行のCIシステムで行われるのと同様の方法で、変更チャネルエンベロープ信号70(Modified ChanMag)から最大値を選択する。しかし、NumMaxima(1455Hzのレートに対して、通常10)個までの最大値を選択するよりむしろ、最大値の選択をフレーム全体で多重化し、それによって、選択された最大値のスペクトル範囲を拡大し得るように、選択された最大値の数がNumMUXMaxima(通常は2)によって減らされる。例えば、NumMaxima=10およびNumMUXMaxima=2の場合、第1段階で8個までの最大値が選択されて、第2段階でもう2つの最大値が選択できるようにしておく。
ステップ83に示す第2段階では、任意の1段階で、偶数または奇数の周波数チャネルのいずれか一方からだけNumMUXMaximaが選択される。偶数または奇数のチャネル番号からの選択は、フレーム間で交互に行われる。このプロセスは、NumMUXMaximaにより2つの連続したフレームに渡って最大値として選択され得るチャネルの範囲を拡大する(例えば、10から12へ)。
ステップ84に示す第3および最終段階では、NumMaxima個より少ない最大値が実際に選択されている場合(多数のチャネルエンベロープ信号が、刺激の閾値より低い場合は、通常、最大値としての選択から除外されるために、これが生じることに留意されたい)、残りの最大値は、復元チャネルエンベロープ信号71(Restore ChanMag)から選択される。
最後に、ステップ86で、電極81(StimulusCh)の次の刺激用にチャネル番号を定義するために、選択された最大値チャネル番号が使用される。刺激強度80(StimulusMag)は、選択されたチャネル振幅値85、または選択された各最大チャネルに対応する復元チャネルエンベロープ信号71(Restore ChanMag)のいずれかから、任意で抽出される。復元チャネルエンベロープ信号から刺激強度を抽出すると、低周期確率を持つチャネル信号内の非周期成分の振幅が、それらが最大値として選択された後、それらの通常のレベル(または、一般には、RestoreGain=0.8に対して、−2dBのそれらのレベル)に復元できるようになる。最大値を選択する前に(すなわち、ステップ78で)それらを減衰する目的は、それらが、周期成分を含むチャネルに優先して最大値として選択される確率を減らすことである。
再度、図2を参照すると、マッピングエンコーダ9は、選択された各刺激チャネル81(StimulusCh)に対する音刺激レベル80(StimulusMag)を受信し、この情報を、それぞれ個々のCIレシピエントの電気的閾値に基づき、選択された各電極に対する電流レベル値、および従来の方法に従った快適なレベルの刺激に変換する。刺激データはその後、無線周波数(RF)パケットに符号化され、RF送信機10によって、符号化された刺激データストリームに基づいて蝸牛電極を作動させる(刺激する)埋め込み型蝸牛刺激装置11に送信される。
本発明のシステムは、人工内耳システムでの声のピッチおよび/または音程情報を効率的な方法で符号化し、競合する雑音および/または干渉信号の影響に対して強固な、完全なシステムの提供に向けたものであることを理解されるであろう。これは、複合調波入力信号、非調波入力信号、ならびに非調波および調波信号の両方の様々な組み合わせと、多岐に渡る様々な聴取状況に、様々なプロセスを適用することにより実現される。
その際、本発明のシステムは、各周波数チャネル内で電気刺激信号の低周波数(または低速変動)を、入力音内に存在する最も優勢な基本周波数(F0)に等しい周波数の周期関数によって変調することにより、複合調波入力信号(すなわち、基本周波数の2つ以上の調波(または部分)を含む信号で、例えば、会話の有声母音や調性楽器で演奏された楽音)を含む状況に応じる。
本発明のシステムは、非調波入力信号(例えば、会話の無声子音や打楽器で演奏された音)を含む状況に対しては、かかる状況を識別し、従来型のCI音声処理方式と一致する方法で(すなわち、各周波数チャネル内の非変調エンベロープ信号から)、各チャネル内の電気刺激信号を抽出することによって応じる。
本発明のシステムは、現実世界の数多くの聴取状況に対して、すなわち、入力音が、周波数スペクトルに渡って分布する調波と非調波信号の時間的に変化する組み合わせを含む場合に、それらの要求を満足するのに特に優れている。本発明でかかる状況が検出されると、システムは動的に、チャネル信号が入力音内で最も優勢なF0に関連する(すなわち、F0の整数倍に等しい周波数成分を含む)度合いに基づき、各周波数チャネル内のF0変調信号と非変調信号を一緒に結合(混合)する。調波(または周期)確率は、各チャネル信号生成のためのF0変調対非変調利得の比を制御するために使用される各周波数チャネルに対して、決定される。
図14aおよび図14bを参照すると、エレクトロドグラム(electrodogram)として知られる電気刺激の出力パターンが、本発明の機能性を実証するために提供されており、これは、音響信号のエレクトロドグラムと同様であるが、時間の関数として各電極(チャネル)に対し、刺激強度を(ログ電流レベルとして)プロットする。
図14aは、Advanced Combination Encoder(ACE)法として知られている、現行のCI音声処理方式のエレクトロドグラムを示し、他方、図14bは、本発明の音声処理方式のエレクトロドグラムを示す。これらのエレクトロドグラムの記録において、各方式によって処理された発話トークンは、約118HzのF0周波数を有する男性話者によって話された単語「choice」である。
Bとして識別され、複合調波入力信号を表す有声母音に対して、図14bの刺激エンベロープは、その話者のF0に等しい周波数の周期関数によって変調されていることが理解されるであろう。そのため、図14aの刺激エンベロープとはかなり異なり、そこでは、変調が全く、またはほとんど生じていない。
これは、AおよびCとして識別され、非調和入力信号を表す無声子音と対照をなし、それにより、図14aおよび図14bの刺激信号は、実質的に同一である。
本発明のプロセスおよびシステムは、現実の状況、すなわち、調和および非調和成分の両方を同時に含み得る状況で、音声をより効率的に処理できることが理解されるであろう。有声母音や、調性楽器で演奏された楽音の場合のように、F0の調波を2つ以上含む信号などの純粋な複合調波信号などの調和音声信号に対して、各チャネル内の低速変動エンベロープの刺激信号は、F0に等しい周波数の周期関数によって変動される。無声子音または打楽器の音などの非調波信号に対して、各チャネル内の電気刺激信号は、従来型の方法を用いて基本的に抽出され、それ故、狭帯域/雑音エンベロープ信号から成る。このため、音声信号の調波および非調波成分の両方を含む聴取環境では、各チャネル信号に対して、F0変調および非変調エンベロープ信号の混合物が符号化される。これらの信号の混合比は、チャネル信号が音声内の最も優勢なF0に関連する度合いによって決定され、それによって、強固な関係はF0変調対非変調信号の高い混合比となり、そして、弱い関係は低い比となる。
従って、本発明の音声処理システムが、競合する雑音および/または干渉信号の影響に効率的な方法で対処しながら、システムのユーザーに対して改善された声のピッチおよび音程の知覚を提供するために、毎日の状況で遭遇する様々な聴取状況を考慮に入れて、音声信号を検出して処理できることを理解されるであろう。
本明細書および請求項の範囲を通して、「comprise(含む、備える)」という単語およびその派生語は、明示的に逆の定めをしたか、または文脈上他の意味に解すべき場合を除き、排他的な意味よりもむしろ包含的な意味を有することを意図する。すなわち、「comprise(含む、備える)」という単語およびその派生語は、明示的に逆の定めをしたか、または文脈上他の意味に解すべき場合を除き、それが直接参照する列挙した要素、ステップ、または機能だけでなく、具体的に列挙されていない他の要素、ステップまたは機能も含むことを示すことになる。
当業者は、本発明の精神および範囲から逸脱することなく、本明細書で説明されている発明の方法に対して、多数の修正および変形を行い得ることを理解されるであろう。

Claims (57)

  1. 聴覚人工器官で使用するために音声信号を処理するための方法であって、
    前記音声信号を電気信号に変換するステップと、
    前記音声信号を複数の周波数チャネルに加工し、各周波数チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープ信号を有するステップと、
    前記電気信号の基本周波数に関連する情報を取得するステップと、
    前記電気信号の前記基本周波数の整数倍に対応する調波特質に関連する情報を取得し、前記チャネル出力が周期性を有する確率を表すチャネル周期確率を前記調波特質関連する情報に基づいて周波数チャネル毎に推定するステップであって、前記チャネル周期確率は、前記チャネル出力が前記基本周波数と関連する度合いによって決定される、ステップと、
    少なくとも1組の変更チャネル出力を生成するために、前記基本周波数および前記電気信号の前記調波特質に関連する前記情報に従い、前記基本周波数に依存した周期関数によって少なくとも1組のチャネル出力の低周波エンベロープ信号を適応的に変調するステップと、
    前記チャネル周期確率に応じた混合比率に従って、前記変調されたチャネル出力の低周波エンベロープ信号と前記振幅エンベロープ信号とを周波数チャネル毎に混合するステップと、
    前記聴覚人工器官の対応する電極による電気刺激用に、少なくとも1つまたは複数のチャネルを定義するため、前記少なくとも1組の変更チャネル出力から1つまたは複数のチャネルを選択するステップと
    を含む方法。
  2. 前記音声信号を電気信号に変換する前記ステップが、前記音声信号を検出して電気信号に変換するマイクロホンの使用を含む、請求項1に記載の方法。
  3. 前記音声信号を電気信号に変換する前記ステップが、前記電気信号に前記変換された前記音声信号を標本化した標本化信号を生成する動作を含み、その際、前記電気信号は、アナログデジタル変換器に通すことにより、前記電気信号が増幅されて標本化される、請求項2に記載の方法。
  4. 前記電気信号を複数の周波数チャネル信号に加工する前記ステップが、前記電気信号を帯域通過フィルターの第1バンクに通すことを含む、請求項1に記載の方法。
  5. 1組の対応する各チャネルエンベロープ信号を1組の第1チャネル出力として生成するために、各チャネル信号がさらにエンベロープ検出器を通される、請求項4に記載の方法。
  6. 低速チャネルエンベロープ信号を1組の第2チャネル出力として抽出するために、前記1組の第1チャネル出力の各チャネルエンベロープ信号が、チャネルエンベロープトラッカーによって時間内で平滑化される、請求項5に記載の方法。
  7. 前記電気信号を複数の周波数チャネル信号に加工する前記ステップが、前記電気信号を帯域通過フィルターの第2バンクに通すことを含む、請求項4乃至請求項6の中のいずれか一項に記載された方法。
  8. 複数の広帯域幅チャネル信号を生成するために、前記電気信号に関連して決定された最大基本周波数の少なくとも2つの基本周波数調波を通すように、帯域通過フィルターの前記第2バンクが、実質的に帯域通過フィルターの前記第1バンクと同一の中心周波数を有する、請求項7に記載の方法。
  9. 結果として得られる複数の広帯域幅チャネルエンベロープ信号を1組の第3チャネル出力として抽出するために、前記広帯域幅チャネル信号の各々が、エンベロープ検出器に通される、請求項8に記載の方法。
  10. 前記電気信号の前記基本周波数に関連する情報を取得する前記ステップが、前記電気信号を基本周波数推定器に通すことを含む、請求項9に記載された方法。
  11. 前記基本周波数推定器が、約2kHzの周波数までの前記電気信号に存在する任意の正弦波周波数成分の前記周波数および電力の推定値を提供するために、前記電気信号を処理する位相ボコーダFFTフィルターバンクである、請求項10に記載の方法。
  12. 前記基本周波数推定器が、約2kHzの周波数までの電気信号内で検出される最も優勢な調波信号の前記基本周波数を決定し、かつ前記最も優勢な調波信号の前記基本周波数の推定値を表す信号を生成する、請求項11に記載の方法。
  13. 前記基本周波数推定器が、約2kHzの周波数までの電気信号内に存在する、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、全信号電力に対する比を表す信号をさらに生成する、請求項12に記載の方法。
  14. 前記電気信号の前記調波特質に関連する情報を取得する前記ステップが、前記電気信号内に存在する、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、前記全信号電力に対する比を表す前記信号を、少なくとも周期確率推定器に渡すことを含む、請求項13に記載された方法。
  15. 前記周期確率推定器が、前記電気信号内に存在する、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、前記全信号電力に対する比を表す前記信号を、圧縮制限および平滑化することにより、入力信号周期確率値を抽出する、請求項14に記載の方法。
  16. 前記電気信号の前記調波特質に関連する情報を取得する前記ステップが、前記電気信号内に存在する、任意の正弦波周波数成分の前記周波数および電力を表す前記信号、および前記1組の第3チャネル出力を、前記周期確率推定器に渡すことをさらに含む、請求項15に記載された方法。
  17. 前記周期確率推定器が、任意の周波数チャネル内の前記信号が前記電気信号の推定された前記最も優勢な調波信号の前記基本周波数に関連する前記確率を推定して、前記基本周波数推定器から決定された前記電気信号内に存在する任意の正弦波周波数成分の前記周波数および電力、ならびに前記帯域通過フィルターの前記第2バンクによって決定された前記1組の第3チャネル出力を用いて、各チャネルに対してチャネル周期確率信号を生成する、請求項16に記載の方法。
  18. 少なくとも1組の変更チャネル出力を生成するように、前記基本周波数および前記電気信号の前記調波特質に関連する前記情報に従って、少なくとも1組のチャネル出力を変調する前記ステップが、チャネル変調器によって実行される、請求項17に記載された方法。
  19. 前記チャネル変調器が、前記1組の第2チャネル出力を受信して、前記基本周波数推定器によって提供されるとおり、前記電気信号の推定された前記最も優勢な調波信号の前記基本周波数と実質的に等しい周期変調関数によって、前記1組の第2チャネル出力を変調する、請求項18に記載の方法。
  20. 第2チャネル出力のスケーリングおよび変調された組を生成するため、各チャネルに対して、第2チャネル出力の前記変調された組が、前記周期確率推定器によって決定された前記チャネル周期確率信号によってスケーリングされる、請求項19に記載の方法。
  21. 第1チャネル出力のスケーリングされた組を生成するため、前記チャネル変調器が、前記1組の第1チャネル出力をさらに受信して、1−各チャネルに対して決定された前記チャネル周期確率信号によって、各第1チャネル出力をスケーリングする、請求項20に記載の方法。
  22. 第1チャネル出力のスケーリングおよび減衰された組を生成するために、第1チャネル出力の前記スケーリングされた組が、特に前記入力信号の周期確率値が、前記入力信号が周期的であることを示している場合、さらに、前記チャネル変調器によって減衰される、請求項21に記載の方法。
  23. 各チャネルに対して、第4チャネル出力の変更された組を生成するために、第2チャネル出力の前記スケーリングおよび変調された組が、第1チャネル出力の前記スケーリングおよび減衰された組と混合される、請求項20乃至請求項22の中のいずれか一項に記載された方法。
  24. 1組の復元チャネルエンベロープ信号を生成するために、第2チャネル出力の前記スケーリングおよび変調された組が、第1チャネル出力の前記スケーリングされた組と混合される、請求項20または請求項21に記載された方法。
  25. チャネル出力の前記少なくとも1つの変更された組から1つまたは複数のチャネルを選択する前記ステップが、最大スペクトル振幅を有する第4チャネル出力の前記変更された組からチャネルを選択することを含む、請求項1乃至請求項24の中のいずれか一項に記載された方法。
  26. 選択されたチャネルの数を増加させるために、前記最大スペクトル振幅を有する前記チャネルの前記選択が、全フレームに渡って、少なくとも一部が多重化される、請求項25に記載の方法。
  27. 前記最大スペクトル振幅を有する選択されたチャネルの前記振幅が、前記1組の復元チャネルエンベロープ信号の前記振幅から復元される、請求項26に記載の方法。
  28. 聴覚人工器官で使用するために音声信号を処理する方法であって、
    前記音声信号を電気信号に変換するステップと、
    前記電気信号を複数の周波数チャネル信号に加工するステップであって、各周波数チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープを有する、ステップと、
    前記電気信号が、調波および/または非調波信号を含むかどうかを判断するステップと、
    調波信号を含む前記電気信号の部分に対して、1つまたは複数の変調チャネルエンベロープ信号を生成するために、前記調波信号の基本周波数に等しい周波数の周期関数により、前記チャネル出力の低速変動エンベロープを、前記調波信号の前記基本周波数に従って適応的に変調するステップと、
    非調波信号を含む前記電気信号の部分に対して、1つまたは複数の非変調チャネルエンベロープ信号を生成するステップと、
    各チャネルに対して、各チャネルに対する混合チャネル刺激信号を生成するための所定の混合比に従い、前記変調チャネルエンベロープ信号と、前記非変調チャネルエンベロープ信号を混合するステップであって、前記混合比は、各チャネル出力が周期性を有する確率を表し、前記チャネル出力が前記基本周波数と関連する度合いに応じて周波数チャネル毎に決定される、ステップと、
    前記混合チャネル刺激信号に従って、電気刺激に対して少なくとも1つまたは複数のチャネルを定義するため1つまたは複数のチャネルを選択して、前記聴覚人工器官の対応する電極に刺激を適用するステップと、
    を含む方法。
  29. 前記所定の混合比が、前記周波数チャネル信号が前記電気信号内の最も優勢な調波信号の前記基本周波数に関連する度合いから抽出される、請求項28に記載の方法。
  30. 前記周波数チャネル信号と前記電気信号内の前記最も優勢な調波信号の前記基本周波数との間に弱い関連がある場合は、低い混合比である、請求項29に記載の方法。
  31. 聴覚人工器官で使用するために音声信号を処理するためのシステムであって、
    音声信号を電気信号に変換する変換器と、
    前記音声信号を複数の周波数チャネルに加工し、各周波数チャネル信号が、少なくとも1組のチャネル出力を定義するための振幅エンベロープ信号を有する第1処理装置と、
    前記電気信号の基本周波数に関連する情報を取得するための第2処理装置と、
    前記電気信号の前記基本周波数の整数倍に対応する調波特質に関連する情報を取得し、前記チャネル出力が周期性を有する確率を表すチャネル周期確率を前記調波特質関連する情報に基づいて周波数チャネル毎に推定するための第3処理装置であって、前記チャネル周期確率は、前記チャネル出力が前記基本周波数と関連する度合いによって決定される、第3処理装置と、
    チャネル出力の少なくとも1つの変更された組を生成するために、前記電気信号の前記基本周波数および前記調波特質に関連する前記情報に従い、前記基本周波数に依存した周期関数によって前記第1処理装置から受信した少なくとも1組のチャネル出力の低周波エンベロープ信号を適応的に変調するための変調器と、
    前記チャネル周期確率に応じた混合比率に従って、前記変調されたチャネル出力の低周波エンベロープ信号と前記振幅エンベロープ信号とを周波数チャネル毎に混合する手段と、
    電気刺激用に少なくとも1つまたは複数のチャネルを前記電気刺激の振幅と共に定義するため、チャネル出力の前記少なくとも1つの変更された組から1つまたは複数のチャネルを選択し、それに従って刺激信号を生成するためのセレクターと、
    前記聴覚人工器官による利用のために、前記刺激信号を送信するための送信機と、
    を備えるシステム。
  32. 前記変換器が、前記音声信号を検出して電気信号に変換するように構成されたマイクロホンを含む、請求項31に記載のシステム。
  33. 前記変換器が、前記電気信号を増幅するための増幅器および、標本化信号を生成するためのアナログデジタル変換器をさらに含む、請求項32に記載のシステム。
  34. 前記第1処理装置が、前記電気信号を複数の周波数チャネル信号に加工するための、帯域通過フィルターの第1バンクを含む、請求項31に記載のシステム。
  35. 前記第1処理装置がさらにエンベロープ検出器を含んで、1組の対応する各チャネルエンベロープ信号を1組の第1チャネル出力として生成するために、各チャネル信号がさらに前記エンベロープ検出器を通される、請求項34に記載のシステム。
  36. 前記第1処理装置が、低速チャネルエンベロープ信号を1組の第2チャネル出力として抽出するために、前記1組の第1チャネル出力の各チャネルエンベロープ信号を受信するチャネルエンベロープトラッカーをさらに含む、請求項35に記載のシステム。
  37. 前記第1処理装置が、帯域通過フィルターの第2バンクをさらに含む、請求項34乃至請求項36の中のいずれか一項に記載されたシステム。
  38. 帯域通過フィルターの前記第2バンクが、帯域通過フィルターの前記第1バンクと実質的に同一の中心周波数を有し、複数の広帯域幅チャネル信号を生成するために、前記電気信号に関連して決定された最大基本周波数の少なくとも2つの基本周波数調波が通るように十分に広い、請求項37に記載のシステム。
  39. 前記広帯域幅チャネル信号の各々が、結果として得られる複数の広帯域幅チャネルエンベロープ信号を1組の第3チャネル出力として抽出するために、エンベロープ検出器に通される、請求項38に記載のシステム。
  40. 前記第2処理装置が、基本周波数推定器を含む、請求項39に記載のシステム。
  41. 前記基本周波数推定器が、約2kHzの周波数までの前記電気信号に存在する任意の正弦波周波数成分の前記周波数および電力の推定値を提供するために、前記電気信号を処理する位相ボコーダFFTフィルターバンクである、請求項40に記載のシステム。
  42. 前記基本周波数推定器が、約2kHzの周波数までの電気信号内で検出される最も優勢な調波信号の前記基本周波数を決定し、かつ前記最も優勢な調波信号の前記基本周波数の前記推定値を表す信号を生成する、請求項41に記載のシステム。
  43. 前記基本周波数推定器が、約2kHzの周波数までの電気信号内に存在する、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、全信号電力に対する比を表す信号をさらに生成する、請求項42に記載のシステム。
  44. 前記第3処理装置が、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、前記電気信号内に存在する前記全信号電力に対する比を表す前記信号を少なくとも受信する、周期確率推定器を含む、請求項43に記載されたシステム。
  45. 前記周期確率推定器が、前記電気信号内に存在する、前記最も優勢な調波信号の前記基本周波数に関連する前記電力の、前記全信号電力に対する前記比を表す前記信号を、圧縮制限および平滑化することにより、入力信号周期確率値を抽出する、請求項44に記載のシステム。
  46. 前記電気信号内に存在する、任意の正弦波周波数成分の前記周波数および電力を表す信号、および前記1組の第3チャネル出力が、前記周期確率推定器によって受信される、請求項45に記載のシステム。
  47. 前記周期確率推定器がさらに、任意の周波数チャネル内の前記信号が前記電気信号の推定された前記最も優勢な調波信号の前記基本周波数に関連する前記確率を推定して、前記基本周波数推定器から決定された前記電気信号内に存在する任意の正弦波周波数成分の前記周波数および電力、ならびに前記帯域通過フィルターの前記第2バンクによって決定された前記1組の第3チャネル出力を用いて、各チャネルに対してチャネル周期確率信号を生成する、請求項45に記載のシステム。
  48. 前記変調器が、前記1組の第2チャネル出力を受信して、前記基本周波数推定器によって提供されるとおり、前記電気信号の推定された前記最も優勢な調波信号の前記基本周波数と実質的に等しい周期変調関数により、前記1組の第2チャネル出力を変調するチャネル変調器である、請求項47に記載されたシステム。
  49. 第2チャネル出力の前記変調された組が、第2チャネル出力のスケーリングおよび変調された組を生成するため、各チャネルに対して、前記周期確率推定器によって決定された前記チャネル周期確率信号によってスケーリングされる、請求項48に記載のシステム。
  50. 前記チャネル変調器が、第1チャネル出力のスケーリングされた組を生成するため、前記1組の第1チャネル出力をさらに受信して、1−各チャネルに対して決定された前記チャネル周期確率信号によって、各第1チャネル出力をスケーリングする、請求項49に記載のシステム。
  51. 第1チャネル出力の前記スケーリングされた組が、第1チャネル出力のスケーリングおよび減衰された組を生成するために、特に前記入力信号の周期確率値が、前記入力信号が周期的であることを示している場合、前記チャネル変調器によってさらに減衰される、請求項50に記載のシステム。
  52. 第2チャネル出力の前記スケーリングおよび変調された組が、各チャネルに対して、第4チャネル出力の変更された組を生成するために、第1チャネル出力の前記スケーリングおよび減衰された組と混合される、請求項49乃至請求項51の中のいずれか一項に記載されたシステム。
  53. 第2チャネル出力の前記スケーリングおよび変調された組が、1組の復元チャネルエンベロープ信号を生成するために、第1チャネル出力の前記スケーリングされた組と混合される、請求項49または50に記載のシステム。
  54. 前記セレクターが、最大スペクトル振幅を有する前記出力に基づき、チャネル出力の前記少なくとも1つの変更された組から1つまたは複数のチャネルを選択する、最大値セレクターである、請求項31乃至請求項53の中のいずれか一項に記載されたシステム。
  55. 前記最大値セレクターが、選択されたチャネルの数を増加させるために、前記最大スペクトル振幅を有する前記チャネルの前記選択が、フレーム間に渡って少なくとも一部が多重化される、マルチプレクサをさらに含む、請求項54に記載のシステム。
  56. 前記送信機が、埋め込み型刺激装置への伝達のために、前記刺激信号を符号化する符号器を含む、請求項31乃至請求項55の中のいずれか一項に記載されたシステム。
  57. 前記送信機が、前記符号化刺激信号をRF信号の形式で送信するように構成されるRF送信機を含む、請求項56に記載のシステム。
JP2011546539A 2009-02-03 2010-02-03 強化エンベロープ符号化音、音声処理装置およびシステム Expired - Fee Related JP5901971B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2009900365 2009-02-03
AU2009900365A AU2009900365A0 (en) 2009-02-03 Advanced Envelope Encoded Tone Sound Processor and System
PCT/AU2010/000104 WO2010088722A1 (en) 2009-02-03 2010-02-03 Enhianced envelope encoded tone, sound procrssor and system

Publications (2)

Publication Number Publication Date
JP2012517124A JP2012517124A (ja) 2012-07-26
JP5901971B2 true JP5901971B2 (ja) 2016-04-13

Family

ID=42541592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011546539A Expired - Fee Related JP5901971B2 (ja) 2009-02-03 2010-02-03 強化エンベロープ符号化音、音声処理装置およびシステム

Country Status (5)

Country Link
US (1) US9084893B2 (ja)
EP (2) EP3975587A1 (ja)
JP (1) JP5901971B2 (ja)
CN (1) CN102318371B (ja)
WO (1) WO2010088722A1 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031242B2 (en) * 2007-11-06 2015-05-12 Starkey Laboratories, Inc. Simulated surround sound hearing aid fitting system
US8840654B2 (en) * 2011-07-22 2014-09-23 Lockheed Martin Corporation Cochlear implant using optical stimulation with encoded information designed to limit heating effects
US9185500B2 (en) 2008-06-02 2015-11-10 Starkey Laboratories, Inc. Compression of spaced sources for hearing assistance devices
US8705751B2 (en) * 2008-06-02 2014-04-22 Starkey Laboratories, Inc. Compression and mixing for hearing assistance devices
US9485589B2 (en) 2008-06-02 2016-11-01 Starkey Laboratories, Inc. Enhanced dynamics processing of streaming audio by source separation and remixing
CN103262577B (zh) * 2010-12-08 2016-01-06 唯听助听器公司 助听器和增强语音重现的方法
US8849663B2 (en) 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US9324339B2 (en) * 2012-01-30 2016-04-26 Advanced Bionics Ag Methods and systems for enhancing pitch associated with an audio signal presented to a cochlear implant patient
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013186743A2 (en) * 2012-06-14 2013-12-19 Cochlear Limited Auditory signal processing
ITTO20120530A1 (it) 2012-06-19 2013-12-20 Inst Rundfunktechnik Gmbh Dynamikkompressor
WO2014114337A1 (en) 2013-01-24 2014-07-31 Advanced Bionics Ag Hearing system comprising an auditory prosthesis device and a hearing aid
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
US9058820B1 (en) 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
US9473852B2 (en) * 2013-07-12 2016-10-18 Cochlear Limited Pre-processing of a channelized music signal
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
AU2014309169B2 (en) * 2013-08-19 2016-11-10 Med-El Elektromedizinische Geraete Gmbh Auditory prosthesis stimulation rate as a multiple of intrinsic oscillation
IN2014MU00739A (ja) * 2014-03-04 2015-09-25 Indian Inst Technology Bombay
GB201406340D0 (en) 2014-04-08 2014-05-21 Analog Devices Technology Dominant signal detection method and apparatus
GB201406346D0 (en) 2014-04-08 2014-05-21 Analog Devices Technology Unwanted component reduction system
CN106537500B (zh) 2014-05-01 2019-09-13 日本电信电话株式会社 周期性综合包络序列生成装置、周期性综合包络序列生成方法、记录介质
WO2016057016A1 (en) * 2014-10-06 2016-04-14 Advanced Bionics Ag Channel selection systems and methods that employ temporal modification
US9808623B2 (en) 2014-10-07 2017-11-07 Oticon Medical A/S Hearing system
US9501568B2 (en) 2015-01-02 2016-11-22 Gracenote, Inc. Audio matching based on harmonogram
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
CN104873306B (zh) * 2015-05-20 2016-09-28 浙江诺尔康神经电子科技股份有限公司 人工耳蜗模拟神经遥测系统和方法
WO2016201187A1 (en) * 2015-06-11 2016-12-15 Med-El Elektromedizinische Geraete Gmbh Switching hearing implant coding strategies
CN107708794B (zh) * 2015-06-29 2020-12-29 Med-El电气医疗器械有限公司 具有耳蜗植入物的选择性刺激
AU2016317088B2 (en) * 2015-09-01 2019-07-18 Med-El Elektromedizinische Geraete Gmbh Rate and place of stimulation matched to instantaneous frequency
CN105999546B (zh) * 2016-06-24 2018-08-14 沈阳弘鼎康医疗器械有限公司 一种人工耳蜗
US10743114B2 (en) * 2016-11-22 2020-08-11 Cochlear Limited Dynamic stimulus resolution adaption
US10554253B2 (en) * 2017-06-05 2020-02-04 GaN Corp. Narrowband impulse radio system and method
US11632634B2 (en) 2017-12-08 2023-04-18 Cochlear Limited Feature extraction in hearing prostheses
WO2020089757A1 (en) * 2018-11-02 2020-05-07 Cochlear Limited Multiple sound source encoding in hearing protheses
CN111150934B (zh) * 2019-12-27 2022-10-04 重庆大学 人工耳蜗汉语声调编码策略的评估系统
US11806530B2 (en) 2020-04-21 2023-11-07 Cochlear Limited Balance compensation
EP3957358A1 (en) * 2020-08-21 2022-02-23 Oticon Medical A/S Cochlear implant system with optimized frame coding
CN117242795A (zh) * 2021-05-12 2023-12-15 科利耳有限公司 用于听力装置的音高编码增强
CN114705286B (zh) * 2022-04-02 2024-05-10 厦门亿联网络技术股份有限公司 机器震音检测方法、装置、计算机和可读存储介质
WO2023203442A1 (en) * 2022-04-19 2023-10-26 Cochlear Limited Wireless streaming from multiple sources for an implantable medical device

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5597380A (en) 1991-07-02 1997-01-28 Cochlear Ltd. Spectral maxima sound processor
JPH06214597A (ja) 1991-07-02 1994-08-05 Univ Melbourne 音声処理装置
JPH09171400A (ja) * 1995-12-19 1997-06-30 Hitachi Commun Syst Inc 音声信号帯域圧縮伝送方法及び音声信号再生方法並びに音声信号帯域圧縮伸長装置
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
AUPQ366799A0 (en) * 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
US7076308B1 (en) 2001-08-17 2006-07-11 Advanced Bionics Corporation Cochlear implant and simplified method of fitting same
US7130694B1 (en) * 2001-12-26 2006-10-31 Advanced Bionics Corporation Pulse skipping strategy
AU2003901025A0 (en) 2003-02-28 2003-03-20 The University Of Melbourne Cochlear implant found processing method and system
US7561709B2 (en) 2003-12-31 2009-07-14 Hearworks Pty Limited Modulation depth enhancement for tone perception
US8023673B2 (en) 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
US7711133B2 (en) 2004-06-28 2010-05-04 Hearworks Pty Limited Selective resolution speech processing
US8027733B1 (en) * 2005-10-28 2011-09-27 Advanced Bionics, Llc Optimizing pitch allocation in a cochlear stimulation system
EP1793645A3 (en) * 2005-11-09 2008-08-06 GPE International Limited Acoustical feedback suppression for audio amplification systems
CN100488473C (zh) * 2006-05-31 2009-05-20 复旦大学附属眼耳鼻喉科医院 全植入式人工耳蜗及其制备方法
US20100010570A1 (en) * 2006-07-26 2010-01-14 David Bruce Grayden Auditory prosthesis

Also Published As

Publication number Publication date
WO2010088722A1 (en) 2010-08-12
EP2394443B1 (en) 2021-11-10
US20110286618A1 (en) 2011-11-24
CN102318371A (zh) 2012-01-11
EP2394443A1 (en) 2011-12-14
AU2010210292A1 (en) 2011-08-18
CN102318371B (zh) 2017-03-15
US9084893B2 (en) 2015-07-21
JP2012517124A (ja) 2012-07-26
EP3975587A1 (en) 2022-03-30
EP2394443A4 (en) 2012-08-01

Similar Documents

Publication Publication Date Title
JP5901971B2 (ja) 強化エンベロープ符号化音、音声処理装置およびシステム
US8842853B2 (en) Pitch perception in an auditory prosthesis
US8098859B2 (en) Methods, devices and systems using signal processing algorithms to improve speech intelligibility and listening comfort
US9111549B2 (en) Hearing aid and a method of improved audio reproduction
US7343022B2 (en) Spectral enhancement using digital frequency warping
DK2375785T3 (en) Stability improvements in hearing aids
Vandali et al. Development of a temporal fundamental frequency coding strategy for cochlear implants
EP2890159B1 (en) Apparatus for processing audio signals
US8185383B2 (en) Methods and apparatus for adapting speech coders to improve cochlear implant performance
US6510408B1 (en) Method of noise reduction in speech signals and an apparatus for performing the method
Edraki et al. Speech intelligibility prediction using spectro-temporal modulation analysis
US7561709B2 (en) Modulation depth enhancement for tone perception
US8670582B2 (en) N band FM demodulation to aid cochlear hearing impaired persons
Jamieson et al. Evaluation of a speech enhancement strategy with normal-hearing and hearing-impaired listeners
JPH07146700A (ja) ピッチ強調方法および装置ならびに聴力補償装置
EP2184929B1 (en) N band FM demodulation to aid cochlear hearing impaired persons
Luo et al. Importance of pitch and periodicity to Chinese-speaking cochlear implant patients
AU2010210292B2 (en) Enhanced envelope encoded tone, sound processor and system
AU2004242561B2 (en) Modulation Depth Enhancement for Tone Perception
Lesimple et al. Evaluation of Hearing Aid Amplification on Auditory Feedback during the Production of Music for Hearing-Impaired Musicians
Arslan Determination of Optimum Parameters for Cochlear Implants Speech Processors by Using Objective Measures
CN114121037A (zh) 用于依据语音信号运行听力设备的方法
Verschuur Acoustic models of consonant recognition in cochlear implant users
CN114121040A (zh) 用于借助听力设备评估语音信号的语音质量的方法
Lu et al. Tone enhancement in Mandarin speech for listeners with hearing impairment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160309

R150 Certificate of patent or registration of utility model

Ref document number: 5901971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees