JP2022531363A

JP2022531363A - 骨伝導センサを備える聴覚機器

Info

Publication number: JP2022531363A
Application number: JP2021564874A
Authority: JP
Inventors: ティーフェナウアンドレアス; ダムペダーセンブライアン; ヨハネスヘンリクスアントニー; デブアウニュ
Original assignee: GN Hearing AS
Current assignee: GN Hearing AS
Priority date: 2019-05-06
Filing date: 2020-05-06
Publication date: 2022-07-06
Also published as: EP3967060A1; CN114009063A; US20230290333A1; WO2020225294A1; EP3737115A1

Abstract

本開示は、音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサと、発話モデルを実装する合成発話生成プロセスを実施するように構成された信号処理ユニットとを備え、合成発話生成プロセスは、制御入力として骨伝導信号を受信し、合成発話信号を出力する、聴覚機器に関する。【選択図】図３

Description

本発明は、骨伝導センサを備える聴覚機器に関する。

クリーンな発話信号を取得することは、ヘッドセット、アクティブ聴覚保護具、および聴覚器具または補聴器などの頭部装着型聴覚装置を含む多くの通信用途において、かなりの関心が持たれている。クリーンな発話信号が取得されたら、クリーンな発話信号は、より聴き取りやすく、および／またはより快適に聞こえる発話信号を提供するように、クリーンな発話信号の遠端の受信者に、例えば、無線データ通信リンクを介して、供給されてもよい。発話認識システム、音声制御システムなどへの入力として、例えば、電話での通話中に、遠方の受信者に、改善された発話の聴き取り易さおよび／またはより良好な快適さを提供する、クリーンな発話信号を得ることが一般的には望ましい。

しかしながら、頭部装着型聴覚装置のユーザが置かれる音環境は、妨害的な話者、交通雑音、騒々しい音楽、機械からのノイズなどの多数のノイズ音源により改悪または汚染されていることが多い。このような環境ノイズ音源のために、話者の音声が空気伝送音を記録するマイクロフォンによって拾われるとき、目標発話信号の信号対雑音比が悪くなることがある。このようなマイクロフォンは、ユーザの音環境からの全ての方向から到来する音に感度が高いこともあり、結果的に全ての周囲音を無差別に拾い上げ、これらをノイズが混ざった発話信号として遠端の受信者に送信してしまう傾向がある。環境ノイズの問題は、特定の指向特性を有するマイクロフォンを使用することによって、またはいわゆるブーム型マイクロフォン（ヘッドセットに典型的）を使用することによって、ある程度緩和され得るが、例えば無線データ通信リンクを介して遠端の受信者に送信される際のユーザの発話の改善された信号品質、特に改善された信号対雑音比を有する聴覚機器が、当該技術分野において必要とされている。後者は、Ｂｌｕｅｔｏｏｔｈ（登録商標）リンクまたはネットワーク、Ｗｉ－Ｆｉ（登録商標）リンクまたはネットワーク、ＧＳＭ（登録商標）セルラーリンク、有線接続などを備えてもよい。

欧州特許３１８８５０７号は、遠端の受信者への送信のための、特定の音環境条件下における、改善された信号対雑音比を有するハイブリッド発話／音声信号を提供するために、ユーザの外耳道内で拾われたユーザ自身の音声の骨伝導成分を検出し、活用する、頭部装着型聴覚装置を開示している。ハイブリッド発話信号は、ユーザ自身の音声の骨伝導成分に加えて、頭部装着型聴覚装置の周囲マイクロフォン構成によって拾われる、ユーザ自身の音声の成分／寄与も含んでもよい。周囲マイクロフォン構成から導出されるこの追加の音声成分は、ハイブリッドマイクロフォン信号内のユーザの音声の元のスペクトルを少なくとも部分的に復元するための、ユーザ自身の音声の高周波成分を含んでもよい。

国際公開第００／６９２１５号は、ユーザの外耳道に挿入するように適合されたイヤピースを有する音声送信ユニットを開示しており、イヤピースは、骨伝導センサと空気伝導センサとの両方を有する。骨伝導センサは、音声情報の骨振動を電気信号に変換するために、外耳道の一部に接触するように適合されている。空気伝導センサは耳道内に存在し、音声情報の空気振動を電気信号に変換する。好ましい形態では、発話プロセッサが骨伝導センサおよび空気伝導センサからの出力をサンプリングして、ノイズをフィルタリングし、純音の音声信号を、送信するために選択する。音声信号の送信は、無線リンクを介してもよく、双方向通信を可能にするためにスピーカおよびレシーバが備えられていてもよい。

骨伝導信号は、音および環境ノイズが骨伝導信号にほとんどまたは全く影響を及ぼさないという利点を有する一方で、骨伝導信号は話者の音声を表すためにそれを使用する際に、いくつかの欠点を有する。骨伝導信号はしばしば、くぐもって聞こえ、それはしばしば、より高い周波数を消してしまい、および／または、音が身体伝導性か空気伝導性かに起因する他のアーチファクトの影響を受ける。さらに、骨伝導信号は、例えば嚥下、顎の動き、耳とイヤピースの摩擦、および／またはそれらと同様のものから生じる音など、他の音を含むことがある。骨伝導信号は、不完全なイヤピースフィッティングまたは不完全な機械的カップリングにより、他のセンサノイズ（ヒス）を生じやすい場合がある。

骨振動センサから得られる信号の品質を改善するために、様々な試みがなされてきた。この目的のために、種々のフィルタ技術が提案されている。例えば、Ｔ．ＴａｍｉｙａおよびＴ．Ｓｈｉｍａｍｕｒａ、２００４年１０月４日－８日、韓国、済州島、ＩＣＣ済州、第８回音声言語処理に関する国際コンフェレンス（ＩＣＳＬＰ）－Ｉｎｔｅｒｓｐｅｅｃｈ２００４、「ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＦｉｌｔｅｒＤｅｓｉｇｎｆｏｒＢｏｎｅ－ＣｏｎｄｕｃｔｅｄＳｐｅｅｃｈ」の記事は、話者から取得された骨伝導された発話信号の質を再構成するためのデジタルフィルタを扱っている。

しかしながら、骨伝導センサを有する聴覚機器から取得される発話信号の品質を向上させる聴覚機器を提供すること、および／またはそれに代わるものを提供することが、依然として望まれている。

第１の態様によれば、本開示は、聴覚機器であって、前記聴覚機器の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成された骨伝導センサと、合成発話生成プロセスを実施するように構成された信号処理ユニットであって、合成発話生成プロセスは、制御入力として骨伝導信号の表現を受信し、合成発話信号を出力し、合成発話生成プロセスは、時系列の１つまたは複数の以前のサンプルから、時系列の現在のサンプルを予測するように構成される時系列予測器を実装し、時系列は、発話波形を表現しており、予測は、骨伝導信号の表現に条件付けられている、聴覚機器に関する。

本発明者らは、合成発話を作成する合成発話モデルを使用し、合成発話構築プロセスを操るために、骨伝導センサからの骨伝導信号を使用することによって、高品質の発話の再構成を得ることができることに気付いた。特に、合成発話生成プロセスは、人工的な人間の発話を作り出すように構成される。合成発話生成プロセスは、人工的な発話を表現するオーディオ信号の波形を合成してもよい。したがって、信号処理ユニットの実施形態は、人間の発話を人工的に作り出すための発話合成器を実装する。発話合成器は発話モデルを含み、すなわち、発話生成プロセスは、発話信号をどのように生成するかを知っている。発話合成器のいくつかの実施形態は、いかなる制御入力がない場合であっても、発話信号を生成することができる。

いくつかの実施形態では、発話モデルは、動作中に、経時的に発展する内部状態を定義する発話モデルである。したがって、発話モデルは、時間的に動的な挙動を示し、従って、オーディオ信号の波形を表現する時系列の作成を容易にする。

いくつかの実施形態では、発話モデルは、トレーニング済み機械学習モデルである。特に、機械学習モデルは、複数のトレーニング発話例に基づいて、トレーニング段階において、トレーニングされてもよい。トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された空気伝送音を表す対応するトレーニングマイクロフォン信号を備えてもよく、空気伝送音は、話者の発話について記録され、特にトレーニング骨伝導信号の記録と同時に記録される。したがって、機械学習モデルは、トレーニング骨伝導信号によって制御される場合に、機械学習アルゴリズムによって、トレーニングマイクロフォン信号に近似する合成発話を作成するようにトレーニングされてもよい。トレーニングマイクロフォン信号は、このように、トレーニング段階において目標信号として使用される。機械学習モデルがトレーニングされると、機械学習モデルは、骨伝導信号のみに基づいて合成発話を生成してもよく、すなわち、発話合成器として動作する場合、周囲マイクロフォン信号は、トレーニング済み発話モデルへの入力として必要とされない。このように、発話モデルは、骨伝導信号のみに基づいて合成発話を生成するように構成され、生成された合成発話は、空気伝導音声に近似している。合成発話生成プロセスは、骨伝導信号の表現を発話モデルへの入力として供給する。ここでいう表現は、骨伝導信号またはそれの１つまたは複数の特徴、特に、骨伝導信号の１つまたは複数の時間依存特徴を表してもよい。合成発話生成プロセスは、いかなる発話の認識も必要とせず、すなわち、発話の意味を推論するプロセスを必要としない。

機械学習発話モデルの作成は、実際の発話の仮定をほとんど必要とせず、再構成されるべき発話の特徴に関する先験的な知識をほとんど必要としない。代わりに、モデルは、トレーニング例のプールに基づいて作成される。特に、トレーニング例は、聴覚機器の特定のユーザの発話を表現する、骨伝導信号及び周囲マイクロフォン信号を含んでもよい。したがって、聴覚機器は、特定のユーザ、および特定のユーザの音声を合成するようにトレーニング済みの発話モデルに適合されてもよい。

トレーニング済み発話モデルは、骨伝導信号の受信に応じて、人工的な発話を合成するために使用されてもよい。特に、発話モデルは、その唯一の入力、特にその唯一の制御入力としての骨伝導信号に基づいて、人工的な発話を合成するように構成されてもよい。制御入力は、発話モデルに対する条件信号を表す入力であってもよく、ここで、発話モデルは、制御信号に基づいて調整された合成発話を予測するように構成され、すなわち、制御信号は確率的発話モデルに対する条件として、例えば、合成発話を表現する波形を予測するように構成された確率的時系列予測プロセスに対する条件として機能してもよい。

いくつかの実施形態では、機械学習モデルは、ニューラルネットワークモデルを備える。特に、いくつかの実施形態では、ニューラルネットワークモデルは、少なくとも３つの層など、少なくとも２つの層などの、１つまたは複数層の層状ニューラルネットワークモデルを備える。ニューラルネットワークは、少なくとも４つのネットワーク層など、少なくとも３つのネットワーク層を備える、深層ニューラルネットワークであってもよい。層の個数は、モデルの所望の設計精度に基づいて選択され得ることが理解されよう。さらに、他の実施形態は、他のタイプの機械学習モデルを使用してもよいことが理解されよう。

１つまたは複数の層のうちの１つは、回帰型ニューラルネットワークであってもよく、任意選択的に、例えば、ソフトマックス層、または別のハードもしくはソフトな分類もしくは決定層を含む、１つまたは複数の追加の層が続く。いくつかの実施形態では、回帰型ニューラルネットワークは、密度推定モードで動作する。

いくつかの実施形態では、発話モデルは、自己回帰型発話モデルを備える。特に、発話モデルは、合成発話波形を表現する予測サンプルのシーケンスを出力してもよい。合成発話生成プロセスは、予測サンプルのシーケンスのうちの１つまたは複数の以前のサンプルを、自己回帰型発話モデルへのフィードバック入力として供給するように構成されてもよく、自己回帰型発話モデルは、１つまたは複数の以前のサンプルから、予測サンプルのシーケンスのうちの現在のサンプルを予測し、さらに骨伝導信号の表現の１つまたは複数のサンプルに条件付けられるように構成されてもよい。一般に、合成発話生成プロセスおよび／または発話モデルは、発話波形を表す時系列の１つまたは複数の以前のサンプルから、時系列の現在のサンプルを予測するように構成された時系列予測器を実装し、予測は、骨伝導信号の表現に条件付けられており、たとえば、骨伝導信号の表現は、骨伝導信号の表現に条件付けられた、条件付き確率から発話信号を計算するための条件としての役割を果たす。

発話モデルへの自己回帰入力信号は、いくつかの方法で、例えば、連続的な変数として、またはワンホット符号化（ｏｎｅｈｏｔｅｎｃｏｄｉｎｇ）を使用して符号化することができる。符号化は、リニア、μ－ｌａｗ、ガウシアンおよび／またはそれらと同様のものであってもよい。

発話モデルによって出力される予測サンプルのシーケンスの予測サンプルは、複数の出力クラスにわたるサンプリングされた確率分布として表現されてもよい。したがって、いくつかの実施形態では、発話モデルは、複数の出力クラスにわたる確率分布を計算し、出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す。例えば、それぞれのクラスは、合成発話を表現する予測オーディオ信号の値を表してもよい。例えば、オーディオ信号が８ビット信号として符号化される場合、発話モデルは２５６個の出力を有してもよい。確率分布は、サンプリングされてもよく、サンプルは、合成発話生成プロセスの出力として転送されてもよい。サンプルはまた、後続のサンプルの予測のために発話モデルの入力に転送されてもよい。

合成発話モデルを操るために、例えば、条件付き予測処理に対する条件として、骨伝導信号は、いくつかの方法で表されてもよい。したがって、本明細書で使用される骨伝導信号への言及は概して、骨伝導信号の適切な表現、すなわち、未加工の骨伝導信号、または骨伝導信号の適切に処理されたバージョン、例えば以下のものであるが、骨伝導信号のフィルタリングされたバージョンおよび／またはアップサンプリング／またはダウンサンプリングされたバージョン、および／または骨伝導信号の適切に変換されたバージョン、例えば、骨伝導信号の時間および／または周波数表現を指す。骨伝導信号の表現は、適切な時間スケールで変化する波形を表現してもよい。骨伝導信号の表現は、発話信号のエンベロープ形状の情報を含む表現であってもよい。いくつかの実施形態では、信号処理ユニットは、骨伝導信号のメル（ＭＥＬ）変換を提供するように、骨伝導信号を処理するように構成されている。メル表現を使用することで、いくつかの発話合成アルゴリズムの「シームレスな」統合を可能にし得る。さらに、メル表現は、メル変換に埋め込まれている人間の聴覚の知識（対数周波数）に起因して、有益であり得る。

別の実施形態では、骨伝導信号は、単一の連続的な信号のサンプリングされたバージョンとして直接提供され、したがって、レイテンシが短くなる。この信号は、予測サンプルのシーケンスと同じレートで、またはそれよりも低いレートで、サンプリングされてもよい。そのような実施形態では、発話モデルは、マッチングするサンプルレートで、骨伝導信号に存在する情報全体を利用してもよい。

聴覚機器は、単一の聴覚装置、例えば、頭部装着型聴覚装置として、または互いに通信可能に接続された複数の装置を備える１つの機器として、実装されてもよい。頭部装着型聴覚装置は、骨伝導センサと、第１の通信インターフェースを備えてもよい。

特に、いくつかの実施形態では、聴覚機器は、骨伝導センサと、第１の通信インターフェースと、信号処理と、を備える頭部装着型聴覚装置を備える。この実施形態では、頭部装着型装置は、第１の通信インターフェースを介して、頭部装着型聴覚装置の外部にある外部装置に合成発話信号を通信するように構成されてもよい。

他の実施形態では、聴覚機器は、頭部装着型装置と、信号処理装置を備える。頭部装着型聴覚装置は、骨伝導センサと、骨伝導信号を信号処理装置に通信するための第１の通信インターフェースを備える。信号処理装置は、骨伝導信号を受信するための第２の通信インターフェースと、合成発話生成プロセスを実施する信号処理ユニットの少なくとも一部（例えば、全て）を備える。したがって、頭部装着型聴覚装置の処理要件が低減される。

頭部装着型聴覚装置と信号処理装置の間の通信は、有線であっても無線であってもよい。いくつかの実施形態では、聴覚装置は、例えば、アンテナおよび無線トランシーバを備える無線通信インターフェースを備える。同様に、信号処理装置は例えば、アンテナ及び無線トランシーバを備える無線通信インターフェースを備えてもよい。

無線通信は、双方向または単方向のデータリンク等の無線データ通信リンクを介してもよい。無線データ通信リンクは、２．４０～２．５０ＧＨｚ帯域または９０２～９２８ＭＨｚ帯域などの、産業科学医学（ＩＳＭ）無線周波数範囲または帯域で、例えば、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ通信または別の適切な短距離無線周波数通信技術を使用して動作してもよい。

有線通信は、例えば、スマートフォンまたはタブレットなどの別個の無線データ送信器または通信装置に骨伝導信号を送信するための、ＵＳＢ、ＩＩＣ、またはＳＰＩ準拠のデータ通信バスを備えてもよい有線データ通信インターフェースを介してもよい。

聴覚機器は、生成された合成発話信号を、後続の処理ステージ、例えば、信号処理装置などによって、聴覚機器によって実施される後続の処理ステージ、および／または聴覚機器の外部にある装置によって実施される後続の処理ステージに適用するように構成されてもよい。

この目的のために、聴覚機器は、作成された合成発話信号を、様々な方法で、出力として提供してもよい。例えば、信号処理ユニットが頭部装着型聴覚装置に含まれる実施形態では、頭部装着型聴覚装置は、作成された合成発話信号を、携帯電話、タブレットコンピュータおよび／またはそれらと同様のものなどの、ユーザアクセサリ装置に通信してもよい。この目的のために、頭部装着型聴覚装置は、例えば上述のように、有線または無線の通信リンクを介して、作成された合成発話信号を通信してもよい。ユーザアクセサリ装置は、例えば、ユーザアクセサリ装置上で実行される音声制御可能ソフトウェアアプリケーションなどの、音声制御可能機能への入力として、受信された合成発話信号を使用してもよい。代替的にまたは追加的に、ユーザアクセサリ装置は例えば、セルラー通信リンクを介して、または、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙリンク、セルラー通信ネットワークおよび／またはそれらと同様のものなどの、他の優先または無線の通信リンクを介して、合成発話信号を遠隔システムに送信してもよい。

同様に、信号処理ユニットが頭部装着型聴覚装置とは別の信号処理装置に含まれる実施形態では、信号処理装置は、受信した合成発話信号を、信号処理装置の音声制御可能な機能、例えば、信号処理装置上で実行される音声制御可能なソフトウェアアプリケーションへの入力として、それ自身が使用してもよい。代替的に又は追加的に、信号処理装置は、例えば、セルラー通信リンクを介して、またはＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙリンク、セルラー通信ネットワークおよび／またはそれらと同様のものなどの、他の有線または無線の通信リンクを介して、合成発話信号を遠隔システムに送信してもよい。

したがって、いくつかの実施形態では、聴覚機器は、生成された合成発話信号を聴覚機器の出力として提供するように構成された出力インターフェースを備える。出力インターフェースは、ラウドスピーカ、または生成された合成発話信号を、例えば有線または無線の通信リンクを介して１つまたは複数の遠隔システムに送信するように構成された、有線または無線の通信インターフェースなどの通信インターフェースであってよい。聴覚機器が信号処理ユニットを含む頭部装着型聴覚装置として実装される実施形態では、頭部装着型聴覚装置は、出力ユニットも備えてもよい。聴覚機器が頭部装着型聴覚装置および別個の信号処理装置を備える実施形態では、信号処理装置が出力ユニットを備えてもよい。

後続の処理ステージの例は、音声認識ステージ、人工的な発話信号を１つまたは複数の追加信号と混合するためのミキサステージ、フィルタリングステージなどを含んでもよい。

骨伝導センサは、聴覚機器の着用者、特に頭部着用型聴覚装置の着用者が話すときに、聴覚機器の着用者、特に頭部着用型聴覚装置の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成される。骨伝導センサは、記録された振動を示す骨伝導信号を提供する。一般に、聴覚機器の着用者、特に頭部着用型装置の着用者は、聴覚機器のユーザとも呼ばれる。骨振動は、ユーザが話すときに、聴覚機器のユーザの音声の情報を伝える。骨伝導振動の一部は、嚥下、顎の動き、耳とイヤピースの摩擦、および／またはそれらと同様のものから生じる音など、他の源を有し得ることが理解されるだろう。本明細書の目的のために、これらはノイズとして考えてもよい。したがって、本明細書の目的のために、骨伝導信号によって変換された骨振動は、ユーザが話すときのユーザの音声に関する情報を搬送するので、音声の振動とも呼ばれる。骨伝導センサは、外耳道マイクロフォン、加速度計、振動センサ、または聴覚機器の着用者が話すときに骨伝導振動を記録するための別の適切なセンサであってもよい。骨伝導センサの適切な例は、欧州特許３１８８５０７号および国際公開番号００／６９２１５に開示されている。

いくつかの実施形態では、聴覚機器は、聴覚機器のユーザが話した空気伝送発話を記録し、記録された空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える。いくつかの実施形態では、頭部装着型聴覚装置は、周囲マイクロフォンを備える。代替的又は付加的に、聴覚機器が頭部装着型聴覚装置及び別個の信号処理装置を含む実施形態では、信号処理装置が周囲マイクロフォンを備えてもよく、したがって、頭部装着型聴覚装置と信号処理装置との間の通信リンクに対する伝送要件を低減することができる。

いくつかの実施形態では、信号処理ユニットは、発話モデルをトレーニングするためのトレーニング段階において使用するための目標信号として、周囲マイクロフォン信号を受信するように構成される。代替的又は付加的に、信号処理ユニットは、通常動作中に、周囲マイクロフォン信号を受信し、生成された合成発話信号から、及び周囲マイクロフォン信号から、出力発話信号を作成してもよい。

特に、周囲マイクロフォン信号がトレーニング段階において使用される場合、信号処理ユニットは、記録モードおよび／またはトレーニングモードで動作可能であるように構成されてもよい。記録モードおよび／またはトレーニングモードで動作する場合、信号処理ユニットは、骨伝導信号および周囲マイクロフォン信号を受信する。ここで、周囲マイクロフォン信号は骨伝導信号と同時に記録されており、それによって、それぞれが聴覚機器の装着者の同じ発話を表現する、骨伝導信号および周囲マイクロフォン信号を含む信号ペアを表現している。このように、骨伝導信号および周囲マイクロフォン信号は、それぞれの波形のペアとして記録されてもよい。この目的のために、ユーザは、低ノイズ環境において、異なる文章または他の発話部分を話すように指示されてもよい。ここで、話者の骨伝導音信号は骨伝導センサによって記録され、空気伝送音は周囲マイクロフォン信号によって同時に記録される。

したがって、聴覚機器はトレーニングデータを記憶するためのメモリを備えてもよく、トレーニングデータは１つまたは複数の信号ペアを備えており、それぞれの信号ペアは、骨伝導センサによって記録されたトレーニング骨伝導信号と、信号ペアのトレーニング骨伝導信号の記録と同時に周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備えている。

トレーニングモードで動作する場合、信号処理ユニットは、記録された発話のセグメントを表現する波形など、互いに異なる発話部分を表す１つまたは複数のそのような信号ペアを受信し、任意選択で記憶するように構成されてもよい。

このように、１つまたは複数の記録された信号ペアは、発話モデルを適合させるための、特に発話モデルの調整可能なモデルパラメータを適合させるための機械学習プロセスにおいて、トレーニングデータとして使用されてもよい。機械学習プロセスは、信号処理ユニットによって、および／または外部のデータ処理システムによって、実行されてもよい。

したがって、いくつかの実施形態では、信号処理ユニットは、トレーニングモードで動作するように構成されており、信号処理ユニットは、トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの合成発話生成プロセスの結果に基づいて、およびモデル適合規則に従って、発話モデルの１つまたは複数のモデルパラメータを適合させて、作成された合成発話と、対応するトレーニング周囲マイクロフォン信号との間の改善された一致を提供する、適合された発話モデルを決定するように構成される。

トレーニングプロセスが外部データ処理システムによって実行される場合、信号処理ユニットは、記録されたトレーニングデータを外部データ処理システムに送信してもよい。外部データ処理システムは、トレーニングデータに基づいて発話モデルを作成し、または既存の発話モデルを適合させ、作成または適合された発話モデルの対応する作成または適合されたモデルパラメータを、信号処理ユニットに返信してもよい。信号処理ユニットは、例えば、適切な有線または無線のデータ通信リンクを介して、外部データ処理システムにトレーニング例を連続的に転送してもよい。代替的に、信号処理ユニットは、聴覚機器のメモリにトレーニングデータを格納し、格納されたトレーニングデータを、例えば、有線または無線の通信リンクを介して、および／または取り外し可能なデータキャリアおよび／またはそれと同様のものなどにトレーニングデータを格納することによって、外部データ処理システムに提供してもよい。

信号処理ユニット自体が機械学習プロセスを実行する場合、これはオンラインまたはオフラインで行われてもよい。オンライントレーニングを実行する際に、信号処理ユニットは、トレーニングデータが記録されつつ、発話モデルを連続的に適合させてもよい。オフライントレーニングを実行する際に、信号処理ユニットは、例えば、記録モードで動作するとき、トレーニングデータのプールを聴覚機器のメモリに記憶してもよく、プールは、固定長または可変長の複数の信号ペアを含む。トレーニングモードで動作する場合、信号処理ユニットは、記憶されたトレーニングデータのプールに基づいてトレーニング処理を実行してもよい。オンライントレーニングとオフライントレーニングの様々な組み合わせが可能であることが理解されるであろう。例えば、後に行う初期発話モデルのオンラインまたはオフラインでの適合と組み合わせた大型の初期トレーニングセットに基づく、外部データ処理システムまたは信号処理ユニットによる、初期発話モデルのオフライントレーニングなどである。別個の信号処理装置によって、または遠隔データ処理システムによって、トレーニングプロセスの少なくとも一部を実行することは、頭部装着型聴覚装置における計算能力の必要性を低減する。

いずれにしても、トレーニングプロセスの一実施形態は、現在の発話モデルが、例えば確率的時系列予測プロセスの条件として、制御入力として１つまたは複数の記録されたトレーニング骨伝導信号を受信するときに、現在の発話モデルを使用して合成発話を作成してもよい。トレーニングプロセスはさらに、このようにして作成された合成発話を、それぞれのトレーニング骨伝導信号と同時に記録された対応する１つまたは複数のトレーニング周囲マイクロフォン信号と比較してもよい。トレーニングプロセスはさらに、比較の結果に応じて、モデル適合ルールに従って、現在の発話モデルの１つまたは複数のモデルパラメータを適合させて、作成された合成発話と対応するトレーニング周囲マイクロフォン信号との間の改善された一致を提供する適合された発話モデルを決定してもよい。このプロセスは例えば、所定のモデル品質基準が満たされ、その結果トレーニング済み発話モデルが得られるまで、反復方式で繰り返されてもよい。好ましくは、少なくとも初期トレーニングプロセスは、歯がぶつかる音、顎の動き、嚥下などのような広範な種類の発話および発話関連アーチファクトをカバーする、トレーニングデータの大きなデータセットに基づく。

代替的に又は追加的に、周囲マイクロフォン信号は、聴覚機器の通常動作中に、すなわち、発話モデルのトレーニング後に、トレーニング済み発話モデルと組み合わせて使用されてもよい。特に、いくつかの実施形態では、合成発話モデルは、周囲マイクロフォン信号のフィルタリングされたバージョンを再構成するように、トレーニングされてもよい。フィルタリングされたバージョンは、第１のフィルタ、例えばローパスフィルタによって取得されてもよい。トレーニング済み発話モデルを使用する聴覚機器のその後の通常動作中、信号処理ユニットは、骨伝導センサから骨伝導信号を受信し、同時に記録された周囲マイクロフォン信号を周囲マイクロフォンから受信してもよい。信号処理ユニットは、トレーニング済み発話モデルを使用して、合成発話信号を作成してもよい。信号処理ユニットはさらに、第１のフィルタに対して相補的な第２のフィルタを使用して、受信した周囲マイクロフォン信号のフィルタリングされたバージョンを作成してもよい。例えば、第１のフィルタが第１のカットオフ周波数を有するローパスフィルタである場合、第２のフィルタは、第１のカットオフ周波数以下の第２のカットオフ周波数を有するハイパスフィルタであってもよい。信号処理ユニットはさらに、作成された合成発話信号を周囲マイクロフォン信号のフィルタリングされたバージョンと組み合わせ、特に、混合し、組み合わされた信号を出力発話信号として提供するように構成されてもよい。

したがって、いくつかの実施形態において、発話モデルは、発話モデルが骨伝導信号を制御入力として、特に条件入力として受信したとき、第１のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、信号処理ユニットは、骨伝導信号と同時に記録される周囲マイクロフォン信号を周囲マイクロフォンから受信し、第１のフィルタに対して相補的である第２のフィルタを使用して、受信した周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、生成した前記合成フィルタリング済み信号を、受信した周囲マイクロフォン信号の作成したフィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている。

特に、骨伝導振動は、話された発話の低周波数を再構成するのに特に有用であり、一方で骨伝導信号は、発話信号の高周波数を再構成するのにあまり有用ではない場合があることが分かってきた。したがって、いくつかの実施形態では、合成発話の再構成された低周波部分は、実際の周囲マイクロフォン信号の高周波部分と組み合わされる。

当業者であれば、上記のフィルタリング機能のそれぞれは、多くの方法で実装されてもよいことを理解するだろう。特定の実施形態では、ローパスおよび／またはハイパスフィルタリング機能は、所定の周波数応答または調節／適合可能な周波数応答を有する、１つまたは複数のＦＩＲフィルタ又はＩＩＲフィルタを備える。ローパスおよび／またはハイパスフィルタリング機能の代替実施形態は、デジタルフィルタバンクなどのフィルタバンクを備える。フィルタバンクは、音周波数範囲の少なくとも一部にわたって配置された複数の隣接するバンドパスフィルタを備えてもよい。信号処理ユニットは、信号プロセッサのプログラマブルマイクロプロセッサの実施形態上で実行される実行可能プログラム指示の所定のセットとして、ローパスフィルタリング機能および／またはハイパスフィルタリング機能を生成または提供するように構成されてもよい。デジタルフィルタバンクを使用して、ローパスフィルタリング機能は、複数の隣接するバンドパスフィルタの第１のサブセットのそれぞれの出力を選択することによって実行されてもよく、および／またはハイパスフィルタリング機能は、複数の隣接するバンドパスフィルタの第２のサブセットのそれぞれの出力を選択することを備えてもよい。フィルタバンクの隣接するバンドパスフィルタの第１および第２のサブセットは、後述するそれぞれのカットオフ周波数を除いて、実質的に重複していなくてもよい。

ローパスフィルタリング機能は、例えば、１ｋＨｚと２ｋＨｚの間等の、８００Ｈｚと２．５ｋＨｚの間で選択されるカットオフ周波数を有してもよく、および／またはハイパスフィルタリング機能は、例えば、１ｋＨｚと２ｋＨｚの間等の、８００Ｈｚと２．５ｋＨｚの間のカットオフ周波数を有してもよい。一実施形態では、ローパスフィルタリング機能のカットオフ周波数は、ハイパスフィルタリング機能のカットオフ周波数と実質的に同一である。別の実施形態によれば、ローパスフィルタリング機能及びハイパスフィルタリング機能のそれぞれの出力信号の合計の大きさは、少なくとも重複する領域において、実質的に１である。ローパスおよびハイパスフィルタリング機能の後者２つの実施形態は、典型的にはフィルタリング機能の合計の出力の比較的平坦な大きさをもたらす。

頭部装着型聴覚装置は、聴覚器具または補聴器、イヤフォン、ヘッドセット、聴覚保護装置などであってもよい。一般的に、頭部装着型聴覚装置は、ユーザの耳に、耳の後ろに、および／または耳の中に装着される装置であってもよい。特に、いくつかの実施形態では、頭部装着型聴覚装置は、聴覚損失補償オーディオ信号を受信し、ラウドスピーカを介してユーザまたは患者に送達するように構成された補聴器であってもよい。補聴器は、耳かけ（ＢＴＥ）型、耳内（ＩＴＥ）型、耳あな（ＩＴＣ）型、外耳道内レシーバ（ＲＩＣ）型、または耳内レシーバ（ＲＩＴＥ）型であってもよい。典型的には、聴覚装置の電源からの非常に限られた電力の量しか利用できない。例えば、電力は、典型的には補聴器内の従来のＺｎＯ２電池から供給される。頭部装着型聴覚装置の設計において、サイズと消費電力は、重要な考慮事項である。頭部装着型聴覚装置は、周囲マイクロフォンによって記録された、記録された周囲音に基づいてオーディオ信号を出力するように構成された、１つまたは複数の周囲マイクロフォンを備えてもよい。頭部装着型聴覚装置は、信号および／またはデータ処理を実行するための処理ユニットを備えてもよい。特に、処理ユニットは、頭部装着型聴覚装置のユーザの聴力損失を補償し、聴力損失補償されたオーディオ信号を出力するように構成された聴力損失プロセッサを備えてもよい。聴力損失補償されたオーディオ信号は、通常の聴取者によってそのように知覚されるであろうとおりに適用された信号のラウドネスが、ユーザによって知覚される聴力損失補償された信号のラウドネスと実質的に一致するように、ラウドネスを回復するように適合されてもよい。頭部装着型聴覚装置はさらに、聴力損失補償されたオーディオ信号に基づいて、人間の聴覚系によって受信可能な聴覚出力信号を出力するように構成された、レシーバまたはラウドスピーカ、埋め込み型トランスデューサなどの、出力トランスデューサを備えてもよく、それによって、ユーザはその音を聞く。

一般に、聴覚機器の実施形態の信号処理ユニットは、発話モデルのモデルパラメータを記憶するためのメモリを備えるか、またはメモリに通信可能に接続されてもよい。発話モデルのトレーニング中に適合可能な適合可能モデルパラメータに加えて、モデルパラメータは、発話モデルのトレーニング中に適合されない静的パラメータを含んでもよい。静的モデルパラメータは、モデル構造、例えばニューラルネットワークアーキテクチャのネットワークトポロジを示してもよい。そのような静的モデルパラメータは、例えば、層状ネットワーク構造のネットワーク層の個数および特性、それぞれの層におけるノードの個数、それぞれの層のノードを接続する重みの接続性トポロジなどを含んでもよい。しかしながら、いくつかのトレーニングプロセスは、例えば、重みを削ることおよび／またはそれと同様のものなどによって、モデルトポロジの少なくとも一部の適合を含んでもよいことが理解されるだろう。

いずれにしても、モデルパラメータは、トレーニングプロセス中に適合可能な複数の適合可能なモデルパラメータを含む。例えば、ニューラルネットワークベースの発話モデルでは、適合可能なネットワークパラメータがニューラルネットワークの重みを含み、その値または強度は、実際のモデル出力と目標出力との比較に応じて、所定のトレーニングルールに基づいて、トレーニングプロセス中に適合される。トレーニングルールの例には、誤差逆伝播および／または機械学習の技術分野で知られている他のトレーニングルールが含まれる。

上述のように、いくつかの実施形態では、聴覚機器は、頭部装着型聴覚装置とは別個の信号処理装置を備える。信号処理装置は、適切にプログラムされた中央処理ユニットとして実装され得る、信号処理ユニットを備えてもよい。信号処理装置は、それぞれが信号処理ユニットに通信可能に接続された、メモリユニットと、通信インターフェースをさらに備えてもよい。メモリユニットは、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）などを含むが、これらに限定されない、１つまたは複数の取り外し可能および／または取り外し不能なデータ記憶ユニットを含んでもよい。メモリユニットは、そこに記憶されたコンピュータプログラムを有してもよく、コンピュータプログラムは、信号処理装置に、本明細書で記載される合成発話生成プロセス、および任意選択で、本明細書で記載される発話モデルトレーニングプロセスを実行させるためのプログラムコードを備える。通信インターフェースは、アンテナと、例えば２．４～２．５ＧＨｚの範囲の周波数で、または別の適切な周波数範囲で無線通信するように構成された、無線トランシーバを備えてもよい。通信インターフェースは、例えばＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙを使用して、頭部装着型聴覚装置との無線通信などの通信のために構成されてもよい。通信インターフェースは、骨伝導信号の受信、および任意選択的に、頭部装着型装置からの周囲マイクロフォン信号の受信のためのものであってもよい。いくつかの実施形態では、通信インターフェースは、作成された合成発話信号を出力するための出力インターフェースとしても機能してもよい。代替的に又は追加的に、信号処理装置は、生成された合成発話信号を出力するための別の出力インターフェース、例えば、セルラー通信ネットワークを介したデータ通信のために構成されたセルラー通信ユニットおよび／または別の有線または無線のデータ通信インターフェースなどを含んでもよい。信号処理装置は、携帯通信装置、例えば、スマートフォン、スマートウォッチ、タブレットコンピュータ、または別の処理装置もしくはシステムなどのモバイル装置であってもよい。

いくつかの実施形態では、聴覚機器は、空気伝送振動をマイクロフォン信号に変換するように構成された周囲マイクロフォンを備えており、合成発話生成プロセスは、骨伝導信号に加えて、制御入力としてマイクロフォン信号を受信する。そのような実施形態では、マイクロフォン信号および骨伝導信号の両方が、合成発話生成プロセスに入力される。特に、発話モデルは、マイクロフォンおよび骨伝導信号を「クリーンな発話」にマッピングしてもよい。クリーンな発話は、一般的に、ノイズが存在しない場合の発話信号と考えることができる。これは、クリーンな発話信号の予測のために、追加的な相関信号が利用可能であるので、クリーンな発話の再構成をさらに助ける。発話モデルが入力としてマイクロフォン信号も有する場合、トレーニング発話例は、ノイズ成分を含んでもよく、および／または発話モデルは、マイクロフォン信号中のノイズ成分を推定し、ノイズ成分をフィルタリングするように構成されていてもよい。

いくつかの実施形態では、信号処理ユニットは、例えば、信号処理の一部、例えば、骨伝導センサによって提供される骨伝導信号の前処理が、頭部装着型聴覚装置によって実行され、信号処理の残りが、信号処理装置によって実行されるように、聴覚装置と信号処理装置との間で分散されていてもよいことが理解されるであろう。

信号処理ユニットが頭部装着型聴覚装置の一部として実装されるか、または別個の信号処理装置の一部として実装されるかにかかわらず、信号処理ユニットは、合成発話生成プロセスを実行するためにプログラム命令の所定のセットを実行するプログラマブルデジタル信号プロセッサなどのプログラマブルマイクロプロセッサを備えてもよい。したがって、信号プロセッサによって実行される信号処理機能または動作は、専用ハードウェアによって実装されてもよく、または１つまたは複数の信号プロセッサにおいて実装されてもよく、または専用ハードウェアと１つまたは複数の信号プロセッサとの組み合わせにおいて実行されてもよい。例えば、信号プロセッサは、ＡＳＩＣ集積プロセッサ、ＦＰＧＡプロセッサ、汎用プロセッサ、マイクロプロセッサ、回路構成要素、または集積回路であってもよい。

周囲マイクロフォン信号は、マイクロフォンのトランスデューサ素子に結合されたＡ／Ｄコンバータによって生成されたデジタルマイクロフォン入力信号として提供されてもよい。同様に、骨伝導信号は、骨伝導センサのトランスデューサ素子または他の感知素子に結合されたＡ／Ｄコンバータによって生成されたデジタル骨伝導信号として提供されてもよい。上記のＡ／Ｄコンバータの一方または両方は、例えば、共通の半導体基板上の信号処理ユニットとは別個であってもよいし、またはそれと一体化されていてもよい。周囲マイクロフォン信号および骨伝導信号のそれぞれは、適切なサンプリング周波数および分解能において、デジタルフォーマットで提供されてもよい。これらのデジタル信号のそれぞれのサンプリング周波数は、２ｋＨｚ～４８ｋＨｚの間に存在してもよい。当業者は、フィルタリング、組み合わせ、および／またはそれらと同様のものなどの、１つまたは複数のそれぞれの信号処理機能が、実行可能プログラム命令の所定のセットによって、および／または専用であって適切に構成されたデジタルハードウェアによって、実行されてもよいことを理解するであろう。いくつかの実施形態では、骨伝導信号は、それが制御入力として発話モデルに適用される前に、例えば、ダウンサンプリング、フィルタリングなど、前処理されてもよい。

本開示は上記および以下に記載される装置、対応する装置、システム、方法、および／または製品を含む異なる態様に関し、それぞれは１つ以上の他の態様に関連して記載される利益および利点のうちの１つ以上をもたらし、それぞれは、１つ以上の他の態様に関連して記載されるおよび／または添付の特許請求の範囲に開示される実施形態に対応する１つ以上の実施形態を有する。

特に、一態様によれば、本明細書で開示されるのは、発話信号を取得する、コンピュータにより実装される方法の実施形態であって、その方法は、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、発話モデルは、制御入力として骨伝導信号を受信する。

別の態様によれば、本明細書で開示されるのは、合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法の実施形態であって、その方法は、複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、発話モデルへの制御入力として骨伝導信号を使用することと、発話モデルが制御入力として１つまたは複数の骨伝導信号を受信する場合に、発話モデルによって生成された合成発話と、１つまたは複数の周囲マイクロフォン信号それぞれとの比較に基づいて、発話モデルを適合させることと、を備えている。

さらに別の態様によれば、本明細書で開示されるのは、コンピュータプログラム製品の実施形態であり、コンピュータプログラム製品は、信号処理ユニットおよび／またはデータ処理システムによって実行される場合に、信号処理ユニットおよび／またはデータ処理システムに、本明細書に開示される方法の１つまたは複数の動作を実行させるように構成される。

コンピュータプログラム製品は、ＣＤ－ＲＯＭ、ＤＶＤ、光ディスク、メモリカード、フラッシュメモリ、磁気記憶装置、フロッピーディスク、ハードディスクなどの、非一時的コンピュータ読み取り可能媒体として提供されてもよい。他の実施形態では、コンピュータプログラム製品は、ダウンロード可能なソフトウェアパッケージとして、例えば、インターネットを介してダウンロードするためのウェブサーバ上の、または他のコンピュータまたは通信ネットワーク上の、ダウンロード可能なソフトウェアパッケージとして、またはアプリストアからモバイル装置にダウンロードするためのアプリケーションとして提供されてもよい。

以下、添付図面を参照して、本発明の好ましい実施形態をより詳細に説明する。

聴覚機器の一例を概略的に示す。図１Ａの聴覚機器のブロック図を概略的に示す。聴覚機器の別の例を概略的に示す。図２Ａの聴覚機器のブロック図を概略的に示す。聴覚機器および遠隔ホストシステムを備えるシステムの一例を概略的に示す。発話信号を取得するプロセスのフローチャートを示す。合成発話を生成するための発話モデルをトレーニングするプロセスのフローチャートを示す。トレーニングプロセスの一例を模式的に示す図である。トレーニング済み発話モデルを使用して合成発話信号を作成するプロセスのフロー図を示す。学習発話モデルに基づく合成発話生成プロセスの例を模式的に示す図である。発話モデルの例を模式的に示す図である。

以下、添付の図面を参照して、本発明の聴覚機器の様々な例示的な実施形態を説明する。当業者は、添付の図面が明確にするために概略的かつ簡略化されており、したがって、本発明の理解に不可欠である詳細を単に示すに過ぎず、他の詳細は省略されていることを理解するであろう。全体を通して、同様の参照番号は同様の要素を指す。したがって、同様の要素は、各図に関して必ずしも詳細に説明されない。

図１Ａは聴覚機器の一例を概略的に示し、図１Ｂは、図１Ａの聴覚機器のブロック図を概略的に示す。聴覚機器は、頭部装着型聴覚装置１００および信号処理装置２００を備える。図１Ａの例では、聴覚装置１００はユーザの耳３６０または耳たぶに取り付けられたＢＴＥ聴覚器具または補聴器である。他の実施形態は、他のタイプの聴覚装置を含んでもよいことが理解されるだろう。例えば、頭部装着型聴覚装置の他の実施形態は、ヘッドセットまたはアクティブ聴覚保護具を備えてもよいことを当業者は理解するだろう。

聴覚装置１００は、ハウジングまたはケーシング１４０を備える。図１ＡのＢＴＥ聴覚器具の例では、ハウジングが図面上に概略的に図示されているように、ユーザの耳たぶの後ろに適合するように、形状およびサイズが決められている。他のタイプの聴覚装置は、異なる形状および／またはサイズのハウジングを有する可能性があることが理解されるだろう。ハウジング１４０は、聴覚装置１００の様々な構成要素を収容する。聴覚装置は、聴覚装置の電子部品に電力を供給するために接続されたＺｎＯ２電池又は他の好適な電池（図示せず）を含んでもよい。聴覚装置１００は、周囲マイクロフォン１２０と、処理ユニット１１０と、ラウドスピーカまたはレシーバ１３０とを備える。

周囲マイクロフォン１２０は例えば、ハウジング１４０の内部に通じる１つまたは複数の音ポートまたは開口を通して環境音を拾うように構成されてもよい。周囲マイクロフォン１２０は、聴覚装置１００が動作しているときにマイクロフォン１２０に達する音響信号に基づいて、アナログまたはデジタルのオーディオ信号を出力する。マイクロフォン１２０がアナログオーディオ信号を出力する場合、処理ユニット１１０は、アナログオーディオ信号を処理ユニット１１０内のデジタル信号処理のために対応するデジタルオーディオ信号に変換するアナログ－デジタルコンバータ（図示せず）を含んでもよい。処理ユニット１１０は、聴覚装置１００のユーザ３００の聴力損失を補償するように構成された聴力損失プロセッサ１１１を備える。好ましくは、聴力損失プロセッサ１１１は、当該技術分野で聴覚補充（ｒｅｃｒｕｉｔｍｅｎｔ）としばしば呼ばれるユーザのダイナミックレンジの周波数依存性損失の補償のために当該技術分野でよく知られたダイナミックレンジコンプレッサを備える。したがって、聴力損失プロセッサ１１１は、聴力損失補償オーディオ信号をラウドスピーカまたはレシーバ１３０に出力する。ラウドスピーカまたはレシーバ１３０は、聴力損失補償されたオーディオ信号を、ユーザの鼓膜に向かって伝送するための対応する音響信号に変換する。その結果、ユーザはマイクロフォン１２０に到達するが、ユーザの個々の聴力損失が補償された音を聞く。聴覚装置は、聴覚装置１００を装着するユーザによって知覚される聴力損失補償信号のラウドネスが、通常の聴覚を有する聴取者が知覚するであろう、マイクロフォン１２０に到着する音響信号のラウドネスと実質的に一致するように、ラウドネスを回復するように構成されてもよい。いくつかの実施形態では、聴覚装置１００が１つより多い周囲マイクロフォンを備えてもよい。例えば、聴覚装置は、例えば、無指向性マイクロフォンによって供給される個々のマイクロフォン信号上で動作するビームフォーミングアルゴリズムを通じて指向性を提供するために使用されてもよい一対の無指向性マイクロフォンを含んでもよい。ビームフォーミングアルゴリズムは特定の方向特性を有するマイクロフォン入力信号を提供するために、処理ユニット１１０上で実行されてもよい。

図１Ａの例では、聴覚装置１００はユーザの外耳道に挿入されるイヤモールドまたはプラグ１５０を備え、ここで、モールド１５０はユーザを取り囲む音環境から外耳道容積３２３を少なくとも部分的に封止する。聴覚装置１００は、可撓性の音管１６０を備え、音管１６０は、レシーバ／ラウドスピーカ１３０によって生成された音圧を、したがってレシーバ／ラウドスピーカ１３０はハウジング１４０内に配置されてもよいが、イヤモールド１５０を通って延在する音チャネルを通して、ユーザの外耳道に伝達するように適合されている。

聴覚装置は、例えば図１Ａに示すようにイヤモールド１５０に収容された骨伝導センサ１５１をさらに備える。骨伝導センサ１５１は、デジタルフォーマットまたはアナログフォーマットのいずれかで、ユーザ３００が音声を発声したときに感知された骨伝導振動を表す電子骨伝導信号を生成するように構成される。

骨伝導センサは、様々な方法で骨伝導信号を感知することができることが理解されるだろう。例えば、骨伝導センサは例えば、国際公開第００／６９２１５号に記載されているように、イヤモールド１５０が外耳道に挿入されたときに、外耳道の壁に対して、例えば、外耳道の後上壁に対して接触するように配置されてもよい。他の実施形態では、骨伝導センサがユーザの耳の解剖学的構造の別の部分、またはユーザの頭部の別の部分、例えば、ユーザの外耳道の外側、例えば、ユーザの耳の後ろの位置に接触するように配置される。当業者は、骨伝導センサが頭部装着型聴覚装置の異なる部分、例えば、ユーザの頭部の側面と接触するように配置される部分に配置されてもよいことを理解するだろう。さらに他の実施形態では、骨伝導センサはユーザの完全にまたは部分的に閉塞された外耳道容積３２３内の外耳道音圧を感知または検出するように構成された外耳道マイクロフォンとして形成される。外耳道容積３２３は例えば欧州特許３１８８５０７号に記載されているように、ユーザの鼓膜（ｔｙｍｐａｎｉｃｍｅｍｂｒａｎｅ）すなわち鼓膜（ｅａｒｄｒｕｍ）（図示せず）の前に配置される。

電子的骨伝導信号は例えば、可撓性音管１６０の外面または内面に沿って延びる好適な電気ケーブル（図示せず）を介して処理ユニット１１０に送信されてもよい。代替の有線または無線の通信チャネル／リンクが、処理ユニットへの骨伝導信号の送信のために使用されてもよい。周囲マイクロフォン１２０、処理ユニット１１０およびラウドスピーカ／レシーバ１３０は、好ましくはハウジング１４０の内側に全て配置されて、これらの構成要素をほこり、汗および他の周囲の汚染物から遮蔽する。

ユーザ自身の音声によって生成される外耳道容積３２３内の全音圧の骨伝導された発話成分の源は、ユーザの口からユーザの外耳道の骨部分（図示せず）を通って伝播する骨伝導音波３２４によって概略的に示される。また、ユーザが声を強めること（ｖｏｃａｌｅｆｆｏｒｔ）は、ユーザ自身の音声３０２の外耳道音圧の空気伝送成分も生成する。ユーザ自身の音声および／または他の環境音によって生成される外耳道音圧のこの空気伝送成分は、周囲マイクロフォン１４０、処理ユニット１１０、小型レシーバ１３０、可撓性音管１６０、およびイヤモールド１５０に伝播して、外耳道容積３２３に至る。

したがって、骨伝導センサ１５１の技術に応じて、骨伝導センサは骨伝導音波３２４と空気伝送音波３０２との組み合わせを感知してもよく、ここで、後者は、ユーザの口および／または他の環境音源から生じてもよい。従って、幾つかの実施形態では、処理ユニットは、マイクロフォン１４０によって拾われ、ラウドスピーカ１３０によって発せられた音から生じるユーザの外耳道内への寄与をフィルタリングするように、骨伝導センサ１５１によって生成された骨伝導信号をフィルタリングするように構成されてもよい。そのような補償フィルタリング機構の実施形態は、欧州特許３１８８５０７号に記載されている。したがって、信号処理ユニット１１０は、環境音を表す外耳道音圧の他の成分が著しく抑圧または相殺されるので、外耳道容積３２３内の全外耳道音圧の骨伝導された自身の音声成分によって支配される補償された骨伝導信号を提供してもよい。当業者は、環境音圧成分の実際の抑制量がとりわけ、補償フィルタがいかに正確にラウドスピーカと外耳道マイクロフォンとの間の音響伝達関数をモデル化することができるかに依存することを理解するだろう。さらに、骨伝導センサの他の実施形態は、いかなる補償も必要としなくてもよく、または骨伝導信号の異なるタイプの前処理を必要としてもよいことが理解されるだろう。

聴覚装置１００はさらに、アンテナ１８０と、信号処理装置２００と無線で通信するように構成された無線部分またはトランシーバ１７０とを備える無線通信ユニットを含む。処理ユニット１１０は、通信プロトコルおよび場合によっては他のタスクに関連する様々なタスクを実行するように構成された通信制御部１１３を備える。通信制御部１１３は例えば、ＢｌｕｅｔｏｏｔｈＬＥ制御部であってもよい。通信制御部１１３は様々な通信プロトコル関連タスク、例えば、オーディオ対応（ａｕｄｉｏｅｎａｂｌｅｄ）ＢｌｕｅｔｏｏｔｈＬＥプロトコル、および場合によって他のタスクを実行するように構成してもよい。聴覚装置１００は、選択的にはフィルタリングおよび／または他の信号処理の後に、骨伝導センサ１５１によって感知された骨伝導信号を、トランシーバ１７０およびアンテナ１８０を介して、信号処理装置２００に転送するように構成される。

聴力損失プロセッサ１１１および通信制御部１１３は図１Ｂでは別個のブロックとして示されているが、これらは完全にまたは部分的に単一のユニットに統合されてもよいことが理解されるだろう。例えば、処理ユニット１１０は、聴力損失プロセッサ１１１および／または通信制御部１１３、またはその一部を実装するように構成されてもよいデジタル信号プロセッサ（ＤＳＰ）などのソフトウェアプログラマブルマイクロプロセッサを備えてもよい。聴覚装置１００の動作は、ソフトウェアプログラマブルマイクロプロセッサ上で実行される適切なオペレーティングシステムによって制御されてもよい。オペレーティングシステムは、聴覚装置のハードウェアおよびソフトウェアリソースを管理するように構成してもよく、それらリソースは例えば聴力損失プロセッサ１１１、場合によっては他のプロセッサおよび関連する信号処理アルゴリズム、無線通信ユニット、メモリリソースなどを含む。オペレーティングシステムは、聴覚装置のリソースの効率的な使用のためにタスクをスケジュールしてもよく、電力消費、プロセッサ時間、メモリ位置、ワイヤレス送信、および他のリソースを含む、コスト振り分けのためのアカウンティングソフトウェアをさらに含んでもよい。

聴覚機器の他の実施形態は、異なるタイプの頭部装着型聴覚装置、例えば、周囲マイクロフォンを有さない、および／またはラウドスピーカおよび関連する回路を有さない装置を含んでもよいことが理解されるだろう。

信号処理装置２００は、アンテナ２１０と、アンテナ２１０を介して無線で聴覚装置１００の対応する無線部分または回路と通信するように構成された無線部分または回路２４０とを備える。信号処理装置２００はまた、通信制御部２２１と、メモリ２２２と、中央処理ユニット２２３とを備える処理ユニット２２０を備える。通信制御部２２１は例えば、ＢｌｕｅｔｏｏｔｈＬＥ制御部であってもよい。通信制御部２２１は、様々な通信プロトコル関連タスク、例えば、オーディオ対応ＢｌｕｅｔｏｏｔｈＬＥプロトコル、および場合によっては他のタスクを実行するように構成してもよい。

信号処理装置は、聴覚装置１００から骨伝導信号を受信するように構成される。この目的のために、骨伝導信号を表すデータパケットはＲＦアンテナ２１０を介して無線部分または回路２４０によって受信され、さらなる信号処理のために通信制御部２２１に、さらに中央処理ユニット２２３に転送されてもよい。特に、中央処理ユニット２２３は、制御入力として骨伝導信号を受信するトレーニング済み発話モデルに基づいて合成発話生成プロセスを実施するように構成される。

この目的のために、信号処理装置は、発話モデルのモデルパラメータを記憶するためのメモリ２２２を有する。具体的には、メモリ２２２は、本明細書で説明する機械学習トレーニングプロセスによって取得された適合可能なモデルパラメータを記憶するように構成されてもよい。メモリ２２２は処理ユニット２２０の一部として示されているが、メモリは処理ユニット２２０に通信可能に結合された別個のユニットとして実装されてもよいことが理解されるだろう。

中央処理ユニット２２３は、生成された合成発話を、信号処理装置２００の適切な出力インターフェース２３０を介して、例えば、有線または無線の通信インターフェースを介して出力するようにさらに構成される。出力インターフェースは、Ｂｌｕｅｔｏｏｔｈインターフェース、別の短距離無線通信インターフェース、セルラー電気通信インターフェース、有線インターフェースおよび／またはそれらと同様のものであってもよい。いくつかの実施形態では、出力インターフェースが回路２４０に統合されても、または別の方法で２４０と組み合わせられてもよい。

信号処理装置２００は、ユーザの音声によって生成された空気伝送音を受信し、記録するためのマイクロフォン２５０をさらに備えてもよい。マイクロフォン２５０によって生成されるマイクロフォン信号は、聴覚信号処理装置２００が記録および／またはトレーニングモードで動作するときに、特に以下に記載されるようなトレーニング例を作成するように、使用されてもよい。代替的に又は追加的に、マイクロフォン２５０は以下に常に説明されるように、生成された合成発話を補足するために使用されてもよい。代替の実施形態では、信号処理装置が本明細書で説明されるような発話生成の目的のために使用されるマイクロフォンを含まない。

信号処理装置は、適切にプログラムされたスマートフォン、タブレットコンピュータ、スマートＴＶ、またはオーディオ対応装置などの他の電子装置としてもよい。信号処理装置は、アプリケーションまたは他の形態のアプリケーションソフトウェアなどの適切なコンピュータプログラムを実行するように構成されてもよい。当業者は、信号処理装置２００が典型的には携帯電話の技術分野で周知であるように、概略的に示されたものに加えて、多数の追加のハードウェアおよびソフトウェアリソースを含むことを理解するだろう。

図２Ａは聴覚機器の別の例を概略的に示し、図２Ｂは、図２Ａの聴覚機器のブロック図を概略的に示す。図２Ａ－図２Ｂの聴覚機器は、図１Ａ－図１Ｂの聴覚機器と、図２Ａ－図２Ｂの実施例においては、頭部装着型聴覚装置１００が合成発話を生成することを除いて、同様である。特に、図２Ａ－図２Ｂの聴覚機器は、頭部装着型聴覚装置およびユーザアクセサリ装置４００を含む。図２Ａの例では、聴覚装置１００は、ユーザの耳３６０または耳たぶに取り付けられたＢＴＥ聴覚器具または補聴器である。他の実施形態は例えば、図１Ａ－図１Ｂに関連して説明されるような、別のタイプの聴覚装置を含んでもよいことが理解されるだろう。

聴覚装置１００は、ハウジング又はケーシング１４０と、周囲マイクロフォン１２０と、処理ユニット１１０と、ラウドスピーカ又はレシーバ１３０と、イヤモールド又はプラグ１５０と、可撓性音管１６０と、骨伝導センサ１５１と、アンテナ１８０と、無線部分又はトランシーバ１７０と、通信制御部１１３とを備え、これらは全て図１Ａ－図１Ｂに関連して説明した通りである。したがって、これらの構成要素および可能な変形例については、再び詳細に説明しない。

図２Ａ－図２Ｂの実施例は、図１Ａ－図１Ｂの実施例とは以下の点で異なり、図２Ａ－図Ｂの処理ユニットは、信号処理ユニット１１４を備え、信号処理ユニット１１４は、骨伝導センサ１５１からの骨伝導信号を、選択的にフィルタリングおよび／または他の信号処理後に受信するように構成され、制御入力として骨伝導信号を受信するトレーニング済み発話モデルに基づいて合成発話生成プロセスを実施するように構成されている。

この目的のために、聴覚装置１００は、発話モデルのモデルパラメータを記憶するためのメモリ１１２を備える。具体的には、メモリ１１２が本明細書で説明する機械学習トレーニングプロセスによって取得された適合可能なモデルパラメータを記憶するように構成してもよい。メモリ１１２は処理ユニット１１０の一部として示されているが、メモリは処理ユニット１１０に通信可能に結合された別個のユニットとして実装されてもよいことが理解されるだろう。

聴覚装置１００はさらに、生成された合成発話を、トランシーバ１７０およびアンテナ１８０を介して、ユーザアクセサリ装置４００および／または聴覚装置１００の外部の別の装置に出力するように構成される。

ユーザアクセサリ装置４００は、アンテナ４１０と、アンテナ４１０を介して聴覚装置１００の対応する無線部分または回路と無線で通信するように構成された無線部分または回路４４０とを備える。ユーザアクセサリ装置４００はまた、通信制御部４２１及び中央処理ユニット４２３とを備える処理ユニット４２０を備える。通信制御部４２１は例えば、ＢｌｕｅｔｏｏｔｈＬＥ制御部であってもよい。通信制御部４２１は様々な通信プロトコル関連タスク、例えば、オーディオ対応ＢｌｕｅｔｏｏｔｈＬＥプロトコル、および場合によっては他のタスクを実行するように構成してもよい。

ユーザアクセサリ装置４００は、生成された合成発話信号を聴覚装置１００から受信するように構成される。この目的のために、合成発話信号を表すデータパケットは、ＲＦアンテナ４１０を介して無線部分または回路４４０によって受信され、通信制御部４２１に転送され、さらにデータ処理のために中央処理ユニット４２３に転送されてもよい。特に、中央処理ユニット４２３は、音声入力に応答するユーザ機能、例えば音声制御機能を実行するように構成されたユーザアプリケーションを実装するように構成されてもよい。この目的のために、ユーザアプリケーションは適切な音声認識機能を実装してもよい。

代替的に又は追加的に、中央処理ユニット４２３は、ユーザアクセサリ装置の適切な出力インターフェース４３０、例えば、有線又は無線通信インターフェースを介して合成発話を転送するように構成されてもよい。出力インターフェースは、Ｂｌｕｅｔｏｏｔｈインターフェース、別の短距離無線通信インターフェース、セルラー電気通信インターフェース、有線インターフェースおよび／またはそれらと同様のものであってもよい。

ユーザアクセサリ装置４００はユーザの音声によって生成された空気伝送音を受信し、記録するためのマイクロフォン４５０をさらに備えてもよい。マイクロフォン４５０によって生成されるマイクロフォン信号は、聴覚機器が記録および／またはトレーニングモードで動作するときに、特に、以下に記載されるようなトレーニング例を作成するように使用されてもよい。

ユーザアクセサリ装置は、適切にプログラムされたスマートフォン、タブレットコンピュータ、スマートＴＶ、またはオーディオ対応装置などの他の電子装置としてもよい。ユーザアクセサリ装置は、アプリまたは他の形態のアプリケーションソフトウェアのような適切なコンピュータプログラムを実行するように構成されていてもよい。当業者はユーザアクセサリ装置４００が携帯電話の技術分野で周知のように、概略的に示されたものに加えて、典型的に多数の追加のハードウェアおよびソフトウェアリソースを含むことを理解するだろう。

図３は、聴覚機器および遠隔ホストシステムを備えるシステムの一例を概略的に示す。
聴覚機器は図１Ａ－図１Ｂに関連して説明したように、頭部装着型聴覚装置１００と信号処理装置２００とを備える。遠隔ホストシステム５００は、サーバコンピュータ、仮想マシン等の適切にプログラムされたデータ処理システムであってもよい。信号処理装置２００及び遠隔ホストシステム５００は、適切な有線又は無線通信リンクを介して、例えば、短距離ＲＦ通信を介して、インターネットのような適切なコンピュータネットワークを介して、又はセルラー通信ネットワーク又はそれらの組み合わせを介して、通信可能に結合されている。

遠隔ホストシステム５００は例えば、コンピュータプログラムの手段によって、トレーニング例のセットから発話モデルを作成するための機械学習トレーニング処理を実行するように構成される。この目的のために、遠隔ホストシステムは例えば、トレーニング例のリポジトリを含むデータベースから、発話記録システムから、及び／又は本明細書に記載される聴覚機器から、トレーニング例の適切なセットを取得してもよい。この目的のために、信号処理ユニット２００は少なくとも記録モードで動作するときに、聴覚装置１００から骨伝導信号を受信するだけでなく、骨伝導信号の記録と同時にマイクロフォン１２０によって記録された、対応する周囲マイクロフォン信号も受信するように構成されてもよい。

信号処理装置２００は、複数の記録された信号ペアを信号処理装置の内部メモリに記憶し、発話モデルをトレーニングするためのトレーニング例として使用するために、記録された信号ペアを遠隔ホストシステム５００に転送するように構成されてもよい。あるいは、信号処理は、受信した信号ペアを、最初に内部メモリに記憶することなく、遠隔ホストシステムに直接転送してもよい。

遠隔ホストシステム５００はさらに、作成されたトレーニング済み発話モデルの表現を信号処理装置２００に転送して、信号処理装置２００がトレーニング済み発話モデルを実装することを可能にするように構成される。例えば、遠隔ホストシステム５００は、モデルパラメータのセット、例えばネットワーク重みのセットを信号処理装置に転送してもよい。

代替実施形態では、信号処理装置２００は、聴覚装置１００による骨伝導信号の記録と同時に、ユーザ３００からの空気伝送発話を記録するためのマイクロフォンを含んでもよい。したがって、信号処理装置によって記録されたマイクロフォン信号は、聴覚装置１００のマイクロフォン１２０によって記録されたマイクロフォン信号の代わりに（またはそれに加えて）トレーニング例を作成するために使用されてもよい。聴覚装置１００から骨伝導信号を受信すると、信号処理装置は、少なくとも記録モードで動作するとき、骨伝導信号と、信号処理装置のマイクロフォンによって記録された、同時に記録されたマイクロフォン信号とを含む信号ペアを記憶してもよい。信号ペアを記憶することについて代替的または追加的に、信号処理装置は、信号ペアを遠隔ホストシステム５００に直接転送してもよい。

聴覚機器によるトレーニング済み発話モデルの受信および／またはトレーニング例の記録はまた、図２Ａ－図２Ｂの聴覚機器によって実行されてもよいことが理解されるだろう。例えば、ユーザアクセサリ装置４００は、記録された振動および対応するマイクロフォン信号の信号ペアを聴覚装置１００から受信してもよい。あるいは、ユーザアクセサリ装置４００は、聴覚装置から骨伝導信号を受信し、ユーザアクセサリ装置４００のマイクロフォンの手段によって対応するマイクロフォン信号を録音してもよい。次いで、ユーザアクセサリ装置は、収集されたトレーニング例を遠隔ホストシステムに転送してもよい。同様に、ユーザアクセサリ装置はトレーニング済み発話モデルを表すデータを遠隔ホストシステムから受信し、そのデータを記憶のために聴覚装置１００に転送してもよい。あるいは、聴覚装置が例えば、フィッティングプロセスの一部としての聴覚装置フィッティングシステムを介して、トレーニング済み発話モデルを表すデータを遠隔ホストシステムから直接的に受信してもよい。

さらに代替的にまたは追加的に、発話モデルをトレーニングするためのトレーニングプロセスは、信号処理装置またはユーザアクセサリ装置によって、あるいは聴覚装置によって実施されてもよい。

さらに代替的にまたは追加的に、聴覚装置および／または信号処理装置またはユーザアクセサリ装置によって記録されたマイクロフォン信号は以下で説明するように、作成された合成発話信号を補足するために使用されてもよい。

図４は、発話信号を取得するプロセスのフロー図を示す。プロセスは本明細書で開示される聴覚機器の実施形態、例えば、図１Ａ－図１Ｂの聴覚機器または図２Ａ－図２Ｂの聴覚機器または図３に示されるような遠隔ホストシステムと連動する聴覚機器によって実行されてもよい。

最初のステップＳ１において、プロセスは、機械学習トレーニングプロセスを実行して、トレーニング例に基づいてトレーニング済み発話モデルを作成する。トレーニングプロセスの例については、図５および図６に関連して説明する。

次のステップＳ２において、プロセスは、取得された骨伝導信号に基づいて合成発話を作成するために、トレーニング済み発話モデルを使用する。合成発話信号の作成の例については、図７及び図８に関連して説明する。

任意選択的に、ステップＳ３において、プロセスは、その後、例えば上記のステップＳ２の一部として、発話モデルの動作中に追加のトレーニング例を収集することによって、初期のトレーニング済み発話モデルを更新し、追加のトレーニングステップ、例えばステップＳ１のようなトレーニングステップを実行してもよい。

図５は、合成発話を生成するための発話モデルをトレーニングするプロセスのフロー図を示す。プロセスは、本明細書で開示される聴覚機器の実施形態、例えば、図１Ａ－図１Ｂの聴覚機器または図２Ａ－図２Ｂの聴覚機器または図３に示されるような遠隔ホストシステムと連動する聴覚機器によって実行されてもよい。

最初のステップＳ１１において、プロセスは、トレーニング例を取得する。特に、プロセスは、骨伝導信号と対応する発話信号のペアを取得する。骨伝導信号は、本明細書に記載される聴覚機器の骨伝導センサによって取得されてもよい。対応する発話信号は、骨伝導センサを着用している対象者が話したときに空気伝送音を記録する周囲マイクロフォンから取得されてもよい。特に、骨伝導信号および対応する周囲マイクロフォン信号の信号ペアは同時に、すなわち、それらが骨伝導センサを装着している対象者の同じ発話のそれぞれの記録を表すように、記録される。トレーニング中、周囲マイクロフォン信号はターゲット信号として使用される。従って、クリーンな発話を合成するための発話モデルのトレーニングを容易にできるように、マイクロフォン信号の一部又は全部を低ノイズ環境で記録してもよい。骨伝導信号およびマイクロフォン信号は、波形を表すサンプリングされた信号値のそれぞれのシーケンスとして表してもよい。この目的のために、各信号は、４ｋＨｚなどの適切なサンプリングレートでサンプリングされてもよい。

任意選択的に、ステップＳ１２において、骨伝導信号および／またはマイクロフォン信号は、発話モデルをトレーニングするためのトレーニング例としてそれらを使用する前に処理される。処理ステップの例は、それぞれの信号ペアの長さを正規化すること、信号を再サンプリングすること、信号をフィルタリングすること、合成ノイズを追加すること、および／またはそれらと同様のものを含んでもよい。

特に、いくつかの実施形態では、発話モデルは、合成発話信号の低周波数のみを合成するように、具体的には、周囲マイクロフォン信号のローパスバージョンを再構成するように、トレーニングされる。この目的のために、トレーニング例の周囲マイクロフォン信号は、例えば１ｋＨｚと２ｋＨｚとの間等、０．８と２．５ｋＨｚとの間といった、適当なカットオフ周波数を用いてローパスフィルタリングされてもよい。次いで、ローパスフィルタリングされたマイクロフォン信号は、トレーニングプロセスのための目標信号として使用されてもよい。

ステップＳ１３では、発話モデルを初期化する。具体的には、プロセスは、複数のネットワーク層を有し、複数の相互接続されたネットワークノードを備えるニューラルネットワークモデルなどの所定のモデルアーキテクチャを初期化する。したがって、発話モデルを初期化することは、モデルタイプを選択すること、モデルアーキテクチャを選択すること、発話モデルのサイズおよび／または構造および／または相互接続性を選択すること、適合可能なモデルパラメータの初期値を選択することなどを含んでもよい。プロセスはさらに、学習レート、トレーニングアルゴリズム、最小化されるべきコスト関数などのトレーニングプロセスの１つまたは複数のパラメータを選択してもよい。上記のパラメータの一部またはすべてが、プロセスによって事前に選択されているか、自動的に選択されてもよい。しかしながら、上記のパラメータの一部またはすべてが、ユーザ入力に基づいて選択されてもよい。適切な発話モデルの例を、以下でより詳細に説明する。いくつかの実施形態では、以前にトレーニング済みの発話モデルが例えば、聴覚機器の意図されたユーザから取得された話者固有のトレーニング例に基づいて汎用モデルを改善するように、トレーニングプロセスの開始点として機能してもよい。

ステップＳ１４において、コスト関数を計算できるように、発話モデルは、トレーニング例のセットの骨伝導信号とともに提示され、モデル出力は、それぞれのトレーニング例に対応する目標値と比較される。

ステップＳ１５において、プロセスは、計算されたコスト関数を成功基準と比較する。成功基準が満たされる場合、プロセスはステップＳ１７に進み、そうでない場合、プロセスはステップＳ１６に進む。

ステップＳ１６において、プロセスは発話モデルの適合可能なモデルパラメータの一部または全部を、すなわちコスト関数を低減するように構成されたトレーニングアルゴリズムに基づいて、調整する。次に、プロセスはステップＳ１４に戻り、反復トレーニングプロセスの後続の反復を実行する。

初期モデルパラメータ、コスト関数などを選択するための適切なトレーニングアルゴリズム、メカニズムの例は、機械学習分野の当業者に知られている。例えば、トレーニングプロセスは、誤差逆伝播アルゴリズムに基づいていてもよい。

ステップＳ１７において、プロセスは、トレーニング済み発話モデルを表現し、トレーニング済み発話モデルは、適切なデータ構造においてモデルの最適化されたモデルパラメータを含み、そのデータ構造においては発話モデルを聴覚機器内で表現することができる。

図６は、モデル６００の内部状態を維持しながら複数の経路で動作するように構成された自己回帰発話モデル６００のためのトレーニングプロセスの例を概略的に示す。それぞれの経路ｎ（ｎは適切なサンプリングレートに対応する時間増分を表す）において、モデルは骨伝導信号の現在の値ｘｎと、目標信号ｙ＝（ｙ１，・・・，ｙＮ）のｋ（ｋ≧１）個の以前のサンプルを受け取る。発話モデルは、発話信号の後続の予測値ｙ’ｎ＋１を予測する。他の実施形態は、骨伝導信号ｘ＝（ｘ１，・・・，ｘＮ）の別の表現、例えば、現在のサンプルｘｎおよび多数の以前のサンプル、または骨伝導信号の１つ以上の時間依存特徴を表す符号化されたバージョンを受信してもよいことが理解されよう。

予測値ｙ’ｎ＋１は、目標発話信号の対応値ｙｎ＋１と比較される。これらの値および任意選択で他の値に基づいて計算された差分またはコスト関数Δを、発話モデル６００を適合させるためのコスト関数として使用してもよい。例えば、いくつかの実施形態では、発話モデルが複数のクラスにわたる確率分布を出力し、クラスの個数は得られる合成発話信号の分解能に対応する。そのような実施形態では、差分は、予測される分布と目標信号によって表現される真の発話との間の交差エントロピーまたは別の適切な差分の尺度であってもよい。

複数のトレーニング例がモデルを通して繰り返し供給されるにつれ、発話モデル６００は、モデルから得られる予測値ｙ’が、モデルが骨伝導信号ｘによって駆動されるときに、目標信号ｙのますます良好な予測を提供するように、その後も引き続いて適合されてもよい。

トレーニング済みモデルは、その後、聴覚機器に記憶されてもよい。

図７は、トレーニング済み発話モデル、例えば図５及び／又は図６のプロセスによるトレーニング済み発話モデルを用いて合成発話信号を作成するプロセスのフロー図を示す。プロセスは本明細書で開示される聴覚機器の実施形態、例えば、図１Ａ－図１Ｂの聴覚機器または図２Ａ－図２Ｂの聴覚機器によって実行されてもよい。

最初のステップＳ２１において、プロセスは、骨伝導信号を取得する。骨伝導信号は、本明細書に記載の聴覚機器の骨伝導センサによって取得される。骨伝導信号は、波形を表すサンプリングされた信号値のそれぞれのシーケンスとして表現されてもよい。この目的のために、骨伝導信号は、４ｋＨｚなどの適切なサンプリングレートでサンプリングされてもよい。いくつかの実施形態では、プロセスは、骨伝導信号と同時に記録された周囲マイクロフォン信号をさらに取得する。

任意選択的に、ステップＳ２２において、骨伝導信号は、トレーニング済み発話モデルに供給する前に、処理される。処理ステップの例は、信号を再サンプリングすること、信号をフィルタリングすること、および／またはそれらと同様のものを含んでもよい。

ステップＳ２３において、プロセスは、取得された骨伝導信号の表現を制御信号としてトレーニング済み発話モデルに供給し、トレーニング済み発話モデルによって生成された合成発話信号を計算する。

図８は、トレーニング自己回帰発話モデル６００に基づく合成発話生成プロセスの例を概略的に示す。発話モデル６００は、モデル６００の内部状態を維持しながら、複数の経路で動作するように構成される。それぞれの経路ｎにおいて、モデルは、骨伝導信号（または骨伝導信号の別の表現）の現在値ｘｎと、生成された合成発話モデルのｋ（ｋ≧１）個の以前のサンプルｙ’を受け取る。発話モデルは、発話信号の後続の予測値ｙ’ｎ＋１を予測する。

再び、図７を参照すると、任意選択で、ステップＳ２４において、プロセスは、発話モデルによって生成された合成発話モデルを後処理してもよい。例えば、上述したように、いくつかの実施形態では、発話モデルが低周波数の合成発話のみを生成するようにトレーニングされていてもよい。そのような実施形態では、後処理は、合成発話信号を、骨伝導信号と同時に記録されたハイパスフィルタリングされた周囲マイクロフォン信号と混合することを含んでもよい。この目的のために、同時録音されたマイクロフォン信号は、例えば１ｋＨｚと２ｋＨｚ等の、０．８と２．５ｋＨｚとの間といった、合成発話信号の周波数帯域に対して相補的な適当なカットオフ周波数を用いて、ハイパスフィルタリングされてもよい。

最後に、ステップＳ２５において、合成発話信号は、選択的には後処理の後に、プロセスの出力として、例えばデジタル波形の形式で提供される。次いで、生成された合成発話信号は、さまざまな異なるアプリケーションで使用されてもよく、それらは例えば、合成発話を生成する装置によって、または生成された信号が送信される外部装置によって、モバイルコマンドまたは音声コマンドのハンズフリー操作などである。

図９は、発話モデル６００の例を示す。図９の発話モデルは、図６および図８に関連して説明したような自己回帰発話モデルである。図９の発話モデルは深層ニューラルネットワーク、すなわち、３つ以上のネットワーク層を含む層状ニューラルネットワークである。図９の例では、４つのそのような層６１０、６２０、６３０および６４０がそれぞれ示されている。しかしながら、深層ニューラルネットワークの他の実施形態は、異なる個数の層、例えば、４つより多い層を有してもよいことが理解されるだろう。

図９のニューラルネットワークは、ゲート付き回帰型ユニットを含む層のような回帰層６１０と、それに続く２つの中間層６２０および６３０と、最後のソフトマックス（ＳｏｆｔＭａｘ）層６４０とを含む。

モデル６００は、複数のクラスにわたって確率分布を出力し、そのクラスの個数は、得られる合成発話信号の解像度と対応する。例えば、２５６個の出力クラスを有するモデルは、８ビットの合成発話信号を表現し得る。

特に、発話モデルは、幾つか又は全ての以前のサンプルに条件付けられ、かつ骨伝導信号ｘ＝（ｘ１，・・・，ｘＮ）に条件付けられた、個々の発話サンプル分布の積への同時分布の因子分解（ｆａｃｔｏｒｉｚａｔｉｏｎ）を介して、高次元オーディオデータの同時分布をモデル化するように構成されてもよい。したがって、波形サンプルのシーケンスの同時分布は、次のように表してもよい。

ここで、ｘ＾は、発話モデルへの条件入力として使用される骨伝導信号ｘの表現である。いくつかの実施形態では、ｘ＾は、骨伝導信号のＭＥＬ表現であってもよく、他の実施形態では、骨伝導信号の個々の波形サンプルが条件信号として直接使用されてもよい。

いくつかの実施形態では、例えば、好適なウィンドウサイズｌ≧１のためのスライディングウィンドウ（ｘｎ，・・・，ｘｎ－１）など、骨伝導信号ｘの１つより多い個数のサンプルが使用されてもよいことが理解されるだろう。

適切な発話モデルのいくつかの例は例えば、ＮａｌＫａｌｃｈｂｒｅｎｎｅｒら、ａｒＸｉｖ：１８０２．０８４３５、「ＥｆｆｉｃｉｅｎｔＮｅｕｒａｌＡｕｄｉｏｓｙｎｔｈｅｓｉｓ」、またはＪａｅｎ－ＭａｒｃＶａｌｉｎおよびＪａｎＳｋｏｇｌｕｎｄ、ａｒＸｉｖ：１８１０．１１８４６、「ＬＰＣＮＥＴ：ＩｍｐｒｏｖｉｎｇＮｅｕｒａｌＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＴｈｒｏｕｇｈＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ」に記載されるような、ＷａｖｅＲＮＮアーキテクチャの変形例から知られているモデルアーキテクチャを利用してもよい。適切な発話モデルの他の例は例えば、ＷｅｉＰｉｎｇら、ａｒＸｉｖ：１８０７．０７２８１、「ＣｌａｒｉＮｅｔ：ＰａｒａｌｌｅｌＷａｖｅＧｅｎｅｒａｔｉｏｎｉｎＥｎｄ－ｔｏ－ＥｎｄＴｅｘｔ－ｔｏ－Ｓｐｅｅｃｈ」に記載されるような、ＷａｖｅＮｅｔアーキテクチャの変形例から知られているモデルアーキテクチャを利用してもよい。しかしながら、テキスト入力の代わりに、本明細書で説明されるプロセスおよびシステムの実施形態は、発話合成器に供給される条件信号として骨伝導信号を使用する。

本明細書に記載される本発明の少なくともいくつかの態様は、列挙された項目の以下のリストに要約され得る。

（項目１）
聴覚機器であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサと、
合成発話生成プロセスを実施するように構成された信号処理ユニットであって、前記合成発話生成プロセスは発話モデルを実装し、前記合成発話生成プロセスは制御入力として前記骨伝導信号を受信し、合成発話信号を出力する信号処理ユニットを備える聴覚機器。

（項目２）
前記発話モデルは、動作中に、経時的に発展する内部状態を定義する、項目１に記載の聴覚機器。

（項目３）
前記発話モデルは、複数のトレーニング発話例に基づいてトレーニングされた、トレーニング済み機械学習モデルである、以前の項目のいずれか１項に記載の聴覚機器。

（項目４）
前記トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された話者の発話の空気伝送音を表す対応するトレーニングマイクロフォン信号を備えており、
前記空気伝送音は、前記トレーニング骨伝導信号の記録と同時に記録される、項目３に記載の聴覚機器。

（項目５）
前記機械学習モデルは、ニューラルネットワークを備える、項目３または４に記載の聴覚機器。

（項目６）
前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、項目５に記載の聴覚機器。

（項目７）
前記回帰ニューラルネットワークは、密度推定モードで動作する、項目６に記載の聴覚機器。

（項目８）
前記ニューラルネットワークは、２つ以上の層を備える層状ニューラルネットワークを備える、項目５から７のいずれか１項に記載の聴覚機器。

（項目９）
前記発話モデルは、自己回帰型発話モデルを備える、以前の項目のいずれか１項に記載の聴覚機器。

（項目１０）
前記発話モデルは、複数の出力クラスにわたる確率分布を計算し、
前記出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す、以前の項目のいずれか１項に記載の聴覚装置。

（項目１１）
頭部装着型聴覚装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導センサと、第１の通信インターフェースを備える、以前の項目のいずれか１項に記載の聴覚機器。

（項目１２）
前記頭部装着型聴覚装置は、前記信号処理ユニットをさらに備えており、
前記頭部装着型装置は、前記第１の通信インターフェースを介して前記頭部装着型聴覚装置の外部にある外部装置に前記合成発話信号を通信するように構成される、項目１１に記載の聴覚機器。

（項目１３）
信号処理装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導信号を前記第１の通信インターフェースを介して前記信号処理装置に通信するように構成されており、
前記信号処理装置は、前記信号処理ユニットと、前記骨伝導信号を受信するように構成された第２の通信インターフェースを備える、項目１１に記載の聴覚機器。

（項目１４）
前記聴覚機器のユーザによって発話された空気伝送発話を記録し、記録された前記空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える、以前の項目のいずれか１項に記載の聴覚機器。

（項目１５）
トレーニングデータを記憶するためのメモリを備えており、
前記トレーニングデータは、１つまたは複数の信号ペアを備えており、
前記信号ペアのそれぞれは、前記骨伝導センサによって記録されたトレーニング骨伝導信号と、前記信号ペアの前記トレーニング骨伝導信号の記録と同時に前記周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備える、項目１４に記載の聴覚機器。

（項目１６）
前記発話モデルは、前記発話モデルが前記骨伝導信号を制御入力として受信した場合に、第１のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、
前記信号処理ユニットは、
前記骨伝導信号と同時に記録される周囲マイクロフォン信号を前記周囲マイクロフォンから受信し、
前記第１のフィルタに対して相補的である第２のフィルタを使用して、受信した前記周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、
生成した前記合成フィルタリング済み信号を、受信した前記周囲マイクロフォン信号の作成した前記フィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている、項目１４または１５に記載の聴覚機器。

（項目１７）
前記信号処理ユニットは、トレーニングモードで動作されるように構成されており、
前記信号処理ユニットは、前記トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの前記合成発話生成プロセスの結果に基づいて、およびモデル適合ルールに従って、前記発話モデルの１つまたは複数のモデルパラメータを適合させて、作成された前記合成発話と、対応するトレーニング周囲マイクロフォン信号の間の改善された一致を提供する、適合された発話モデルを決定するように構成される、以前の項目のいずれか１項に記載の聴覚機器。

（項目１８）
ＢＴＥ、ＲＩＥ、ＩＴＥ、ＩＴＣまたはＣＩＣ聴覚器具等の聴覚器具又は補聴器を備える、以前の項目のいずれか１項に記載の聴覚機器。

（項目１９）
発話信号を取得する、コンピュータにより実装される方法であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、
前記発話モデルは、制御入力として前記骨伝導信号を受信する、方法。

（項目２０）
合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法であって、
複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、前記骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、
前記発話モデルへの制御入力として前記骨伝導信号を使用することと、
前記発話モデルが制御入力として１つまたは複数の骨伝導信号を受信する場合に、前記発話モデルによって生成された前記合成発話と、１つまたは複数の前記周囲マイクロフォン信号それぞれとの比較に基づいて、前記発話モデルを適合させることと、を備える方法。

（項目２１）
信号処理ユニットおよび／またはデータ処理システムによって実行される場合に、前記信号処理ユニットおよび／または前記データ処理システムに、項目１９または２０に記載の方法の動作を実行させるように構成されている、コンピュータプログラム製品。

上記の実施形態は主に、特定の実施形態を参照して記載されてきたが、その様々な変更は本明細書に添付された特許請求の範囲に概説されるような本発明の精神および範囲から逸脱することなく、当業者には明らかであろう。

例えば、本明細書で開示される様々な態様は、主に補聴器の文脈で説明されてきたが、他のタイプの聴覚装置にも適用可能であり得る。

同様に、本明細書で開示される様々な態様は主に、装置間のＢｌｕｅｔｏｏｔｈＬＥ短距離ＲＦ通信の文脈で説明されてきたが、装置間の通信は、他の無線技術または有線技術など、他の通信技術を使用し得ることが理解されよう。

Claims

聴覚機器であって、
前記聴覚機器の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成された骨伝導センサと、
合成発話生成プロセスを実施するように構成された信号処理ユニットを備えており、
前記合成発話生成プロセスは、
制御入力として前記骨伝導信号の表現を受信し、合成発話信号を出力し、
前記合成発話生成プロセスは、時系列の１つまたは複数の以前のサンプルから、前記時系列の現在のサンプルを予測するように構成される時系列予測器を実装し、
前記時系列は、発話波形を表現しており、
前記予測は、前記骨伝導信号の前記表現に条件付けられている、聴覚機器。
前記発話モデルは、動作中に、経時的に発展する内部状態を定義する、請求項１に記載の聴覚機器。
前記発話モデルは、複数のトレーニング発話例に基づいてトレーニングされた、トレーニング済み機械学習モデルである、請求項１または２に記載の聴覚機器。
前記トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された前記話者の発話の空気伝送音を表す対応するトレーニングマイクロフォン信号を備えており、
前記空気伝送音は、前記トレーニング骨伝導信号の記録と同時に記録される、請求項３に記載の聴覚機器。
前記機械学習モデルは、ニューラルネットワークを備えており、
好ましくは、前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、請求項３または４に記載の聴覚機器。
前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、請求項５に記載の聴覚機器。
前記回帰型ニューラルネットワークは、密度推定モードで動作する、請求項６に記載の聴覚機器。
前記ニューラルネットワークは、２つ以上の層を備える層状ニューラルネットワークを備える、請求項５から７のいずれか１項に記載の聴覚機器。
前記発話モデルは、自己回帰型発話モデルを備える、請求項１から８のいずれか１項に記載の聴覚機器。
前記発話モデルは、複数の出力クラスにわたる確率分布を計算し、
前記出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す、請求項１から９のいずれか１項に記載の聴覚機器。
頭部装着型聴覚装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導センサと、第１の通信インターフェースを備える、請求項１から１０のいずれか１項に記載の聴覚機器。
前記頭部装着型聴覚装置は、前記信号処理ユニットをさらに備えており、
前記頭部装着型装置は、前記第１の通信インターフェースを介して前記頭部装着型聴覚装置の外部にある外部装置に前記合成発話信号を通信するように構成される、請求項１１に記載の聴覚機器。
信号処理装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導信号を前記第１の通信インターフェースを介して前記信号処理装置に通信するように構成されており、
前記信号処理装置は、前記信号処理ユニットと、前記骨伝導信号を受信するように構成された第２の通信インターフェースを備える、請求項１１に記載の聴覚機器。
前記聴覚機器のユーザによって発話された空気伝送発話を記録し、記録された前記空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える、請求項１から１３のいずれか１項に記載の聴覚機器。
トレーニングデータを記憶するためのメモリを備えており、
前記トレーニングデータは、１つまたは複数の信号ペアを備えており、
前記信号ペアのそれぞれは、前記骨伝導センサによって記録されたトレーニング骨伝導信号と、前記信号ペアの前記トレーニング骨伝導信号の記録と同時に前記周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備える、請求項１４に記載の聴覚機器。
前記発話モデルは、前記発話モデルが前記骨伝導信号の表現を制御入力として受信した場合に、第１のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、
前記信号処理ユニットは、
前記骨伝導信号と同時に記録される周囲マイクロフォン信号を前記周囲マイクロフォンから受信し、
前記第１のフィルタに対して相補的である第２のフィルタを使用して、受信した前記周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、
生成した前記合成フィルタリング済み信号を、受信した前記周囲マイクロフォン信号の作成した前記フィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている、請求項１４または１５に記載の聴覚機器。
前記信号処理ユニットは、トレーニングモードで動作するように構成されており、
前記信号処理ユニットは、前記トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの前記合成発話生成プロセスの結果に基づいて、およびモデル適合ルールに従って、前記発話モデルの１つまたは複数のモデルパラメータを適合させて、作成された前記合成発話と、対応するトレーニング周囲マイクロフォン信号の間の改善された一致を提供する、適合された発話モデルを決定するように構成される、請求項１から１６のいずれか１項に記載の聴覚機器。
ＢＴＥ、ＲＩＥ、ＩＴＥ、ＩＴＣまたはＣＩＣ聴覚器具等の聴覚器具又は補聴器を備える、請求項１から１７のいずれか１項に記載の聴覚機器。
発話信号を取得する、コンピュータにより実装される方法であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、
前記発話モデルは、制御入力として前記骨伝導信号を受信する、方法。
合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法であって、
複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、前記骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、
前記発話モデルへの制御入力として前記骨伝導信号を使用することと、
前記発話モデルが制御入力として１つまたは複数の前記骨伝導信号を受信する場合に、前記発話モデルによって生成された前記合成発話と、１つまたは複数の前記周囲マイクロフォン信号それぞれとの比較に基づいて、前記発話モデルを適合させること、を備える方法。
信号処理ユニットおよび／またはデータ処理システムによって実行される場合に、前記信号処理ユニットおよび／または前記データ処理システムに、請求項１９または２０に記載の方法の動作を実行させるように構成されている、コンピュータプログラム製品。