JP2023543795A

JP2023543795A - 音声記録からの呼吸関連音の取得

Info

Publication number: JP2023543795A
Application number: JP2023519036A
Authority: JP
Inventors: フィッツ，ステーフェン; マシー，フレデリック; ファン・ピー，バート
Original assignee: Ectosense NV
Current assignee: Ectosense NV
Priority date: 2020-09-24
Filing date: 2021-09-23
Publication date: 2023-10-18
Also published as: WO2022063874A1; EP3973851A1; IL301373A; AU2021350384A1; US20230371916A1; CN116471988A

Abstract

対象患者から発生した呼吸関連音（１６０）（ＲＲＳ）を取得するための方法（１００）が開示され、この方法は、以下のステップ、すなわち、対象患者の睡眠環境の入力音声記録（１１０、１１１）を取得するステップと、対象患者の呼吸の呼吸トレース（１５０）を取得するステップと、入力音声記録においてＲＲＳ（１３０）を識別する（１２０）ステップと、呼吸トレースに基づいて、ＲＲＳから、対象患者から発生したＲＲＳ（１６０）を選択する（１４０）ステップと、を含む。選択するステップは、対象患者から発生したことの高い確率及び／又は低い確率を有するＲＲＳの第１のサブセット及び／又は第２のサブセットを求めるステップと、対象患者から発生したＲＲＳを選択するように、第１のサブセット及び／又は第２のサブセットに基づいて分類器を訓練するステップと、訓練された分類器によって、対象患者から発生したＲＲＳ（１６０）を選択するステップと、を更に含む。【選択図】図１

Description

本発明は、特に、対象患者から発生する呼吸関連音（ｒｅｓｐｉｒａｔｏｒｙｒｅｌａｔｅｄｓｏｕｎｄｓ、ＲＲＳ）を取得する方法に関する。

睡眠分析の分野で研究すべき要素の１つは、呼吸関連音（ＲＲＳ）である。ＲＲＳは、睡眠分析中に患者から発せられる音の、短い音声断片であり、例えば、いびき音、ため息音、重い呼吸音、うめき声などである。さらに、そのような音の更なる分析を使用して、睡眠時無呼吸などの睡眠障害を診断することができる。さらに、各ＲＲＳの持続時間、ＲＲＳの頻度、ＲＲＳの総数をカウントし、ＲＲＳの様々な側面を分析することが望ましいことがある。

ＲＲＳ及び関連するメトリクスは、睡眠中の患者の音声記録から取得することができる。

このような音声記録を得るための１つの方法は、患者の顔面に録音用マイクロフォンを取り付け、患者の鼻又は口にできるだけ近づけることである。この方法の利点として、設計上、外部の音及びノイズが軽減される。しかしながら、このようなマイクロフォンの存在は、患者の睡眠に悪影響を及ぼすことがあり、その結果、検出されたＲＲＳが、患者の自然な睡眠を正確に反映しないことがある。

あるいは、音声記録装置、例えば携帯電話などのデジタル音声記録装置、又は専用の音声記録装置を、対象患者の近傍に更に配置することもできる。このようにすることで、患者は顔の上又は近くにマイクロフォン又は何らかの他の装置などがあっても邪魔にならず、より自然な睡眠を得ることができる。しかしながら、この場合の欠点として、患者が部屋で一人で寝ていない場合、別の人のＲＲＳが音声記録に記録されることがある。

米国特許出願公開第２０２０／２６１６８７号明細書には、１人以上の睡眠パートナーによって生成されたものと判定された可聴呼吸ノイズを動的にマスキングするための解決策が開示されている。一態様によれば、睡眠環境における可聴呼吸ノイズを検出し、可聴呼吸ノイズが被験者によって生成されていないと判定し、ベッドパートナー、ペットなどの別の被験者から発生しているものと判定される可聴呼吸ノイズの知覚を緩和することによって、被験者の睡眠が保護される。動的なマスキングにより、被験者が不必要な音にさらされることが減少し、マスキング音が被験者の睡眠を妨げる可能性が低減する。

米国特許出願公開第２０２０／２６１６８７号明細書

したがって、本発明の目的は、上述した問題の１つ以上を解決する、又は少なくとも軽減することである。特に、本開示は、患者の自然な睡眠を妨げることなく、比較的快適な方法で対象患者のＲＲＳを識別する方法を提供することを目的とする。

この目的のために、第１の態様によれば、対象患者から発生する呼吸関連音（ＲＲＳ）を取得するためのコンピュータ実装方法が提供され、この方法は、以下のステップ、すなわち、対象患者の睡眠環境の入力音声記録を取得するステップと、音声記録の期間中の患者の呼吸を特徴付ける、対象患者の呼吸の呼吸トレースを取得するステップと、入力音声記録においてＲＲＳを識別するステップと、呼吸トレースに基づいて、ＲＲＳから、対象患者から発生したＲＲＳを選択するステップと、を含み、選択するステップは、対象患者から発生したことの高い確率及び／又は低い確率を有するＲＲＳの第１のサブセット及び／又は第２のサブセットを求めるステップと、対象患者から発生したＲＲＳを選択するように、第１のサブセット及び／又は第２のサブセットに基づいて分類器を訓練するステップと、訓練された分類器により、対象患者から発生したＲＲＳを選択するステップと、を含む。

入力音声記録は、対象患者の睡眠環境をカバーするものであり、すなわち対象患者のＲＲＳとは別に、他の人や動物のＲＲＳ、その他の環境音を更に含んでいることがある。したがって入力音声記録は、複数の対象患者のＲＲＳを含む。その後、選択ステップにおいて、これらのすべて又は一部が選択される。対象患者から発生したＲＲＳを他の音と区別するために、ＲＲＳ音は、呼吸トレース（すなわち入力音声記録の持続時間をカバーする時間の関数としての対象患者の呼吸の表現）に基づいて選択される。対象患者から発生したＲＲＳは対象患者の呼吸に関連しているため、これらのＲＲＳと呼吸の間には関係がある。その結果、対象患者から発生したＲＲＳを、入力音声記録内の他の音と区別することができる。

この結果、分析に悪影響を与え得る他の音が存在しない音のセットを得ることができ、正確な睡眠分析を行うことができる。さらに、他の音が除外されるため、患者の口や胸に非常に近い位置で音声記録を行う必要がない。すなわち、マイクロフォンが対象患者からのＲＲＳを抑制したり、マイクロフォン自身が不要なＲＲＳを発生させたりすることがない。

第１のサブセットについては、対象患者から発生した確率が特定の閾値を上回る（例えば９０％より高い確率を有する）ＲＲＳのみを選択することができる。これにより、低い出力誤差が保証される。さらに、高い確率を有するＲＲＳを選択することは、一般に判定が容易であり、すなわち、必要とされる計算能力及び／又はメモリ容量が小さい。

第２のサブセットについては、対象患者から発生した確率が特定の閾値を下回る（例えば１０％より低い確率を有する）ＲＲＳのみを選択することができる。この第２のサブセットは、その後、更に結果から破棄することができる。

第１及び／又は第２のサブセットに従って得られた結果は、訓練された分類器によって、第１及び／又は第２のサブセットに割り当てられなかった他のＲＲＳを追加することによって更に改良することができる。これを達成するために、ＲＲＳを対象患者に属するか否かのいずれかとして分類するように、サブセットの一方又は両方を使用して分類器を最初に訓練する。言い換えれば、第１及び／又は第２のサブセットは、ラベル付けされたデータとして使用される。次に、訓練された分類器を使用して他のＲＲＳを更に分類し、対象患者から発生したＲＲＳをより多く選択する。

呼吸トレースは、例えば、睡眠ポリグラフ、心電計、筋電計、又は光電脈波（ｐｈｏｔｏｐｌｅｔｈｙｓｍｏｇｒａｍ、ＰＰＧ）によって得られた信号からトレースを導出することによって、当技術分野で利用可能な技術によって更に得ることができる。

１つのステップは、ＲＲＳの識別である。一実施形態によれば、このステップは、呼吸関連音及び非呼吸関連音を判定するステップと、非呼吸関連音を破棄するステップと、を更に含む。

言い換えれば、呼吸に関連しない音が最初に音声記録から破棄され、その結果、ＲＲＳであるが必ずしも対象患者のみから発生していない音のサブセットが得られる。次いで、呼吸トレースに基づいて、このサブセットから、対象患者から発生したＲＲＳが選択される。

一実施形態によれば、識別するステップは、音のセットを求めるステップを含み、セットの音は、同じ音声源から発生し、選択するステップは、呼吸トレースに基づいて、音のセットから、対象患者から発生したＲＲＳを選択するステップ、を更に含む。

言い換えれば、音は最初に、その発生元に従ってセット又はクラスタに分けられる。この時点では、どのセットが対象患者から発生したものであるかはまだわからない。呼吸トレースを参照することにより、あるセットのＲＲＳを対象患者に関連付けることができる。オプションとして、非ＲＲＳの識別及び廃棄は、セットを求める前又は後に実行することができる。

それぞれの音声源に従って音をセットにクラスタリングすることは、例えば、訓練された分類器によって行うことができる。

オプションとして、分類器の訓練は、判定されないＲＲＳの数が多すぎる場合、すなわち、対象患者から発生したことの高い確率又は低い確率のいずれも有さない識別されたＲＲＳが依然として多く存在する場合にのみ、実行することができる。このような場合、より計算負荷の高い分類操作を実行することが有用であり得る。

一実施形態によれば、第１のサブセットを求めるステップは、入力音声記録からの、ＲＲＳに関連付けられる音声タイムスタンプと、呼吸トレースからの、ＲＲＳに関連付けられる呼吸タイムスタンプとを求めるステップと、音声タイムスタンプ及び呼吸タイムスタンプに基づいて第１のサブセットを求めるステップと、を含む。

言い換えれば、音声タイムスタンプは、入力音声記録におけるそれぞれのＲＲＳの発生を示し、呼吸タイムスタンプは、対象患者のそれぞれの呼吸サイクルの発生を示す。対象患者のＲＲＳは患者の呼吸に関連するため、これらの求められたタイムスタンプに基づいて選択を実行することができる。この目的のために、タイムスタンプは、例えば開始、局所最大値、又は局所最小値などの任意の検出可能な時間的特徴によって特徴付けることができる。このようにして、選択操作は、最初に時間的特徴を識別し、次にこれらの時間的特徴に対して操作を実行することに軽減される。

１つの操作は、音声タイムスタンプとそれぞれの呼吸タイムスタンプとの間の時間差を求めることであり得る。対象患者のＲＲＳは呼吸に関連しているため、患者に関連付けられる時間差は相当に一定であり、他の音声源に関連付けられる時間差はよりランダムに拡散する。

次いで時間差のヒストグラムを求めることにより、対象患者に属する高い確率を有するものはヒストグラムのピークに、低い確率を有するものはヒストグラムのテールに、相対的に多く存在する。

第２の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備えるコントローラが開示され、少なくとも１つのメモリ及びコンピュータプログラムコードは、少なくとも１つのプロセッサを使用して、コントローラに第１の態様による方法を実行させるように構成されている。

第３の態様によれば、プログラムがコンピュータ上で実行されるときに第１の態様による方法を実行するためのコンピュータ実行可能命令を含むコンピュータプログラム製品が開示される。

第４の態様によれば、第３の態様によるコンピュータプログラム製品を含むコンピュータ可読記憶媒体が開示される。

患者から発生した呼吸関連音を音声記録から選択するための、例示的な実施形態に従って実行されるステップを示している。複数の呼吸関連音及び呼吸トレースから、患者から発生した呼吸関連音を選択するための、例示的な実施形態に従って実行されるステップを示している。患者から発生した選択された呼吸関連音の拡張セットのために、例示的な実施形態に従って実行されるステップを示している。患者から発生した呼吸関連音を音声記録から選択するための、例示的な実施形態に従って実行されるステップを示している。求められた呼吸関連音を有する音声記録の例示的なプロットと、呼吸関連タイムスタンプ及び呼吸関連音タイムスタンプを有する呼吸トレースのプロットとを示している。求められた呼吸関連音を有する音声記録の別の例示的なプロットと、呼吸関連タイムスタンプ及び呼吸関連音タイムスタンプを有する呼吸トレースのプロットとを示している。すべてのＲＲＳが対象患者から発生しているときの時間差発生のヒストグラムを示している。対象患者から発生したＲＲＳが存在しないときの時間差発生のヒストグラムを示している。ＲＲＳが複数の異なる音声源から発生しているときの時間差発生のヒストグラムを示している。例示的な実施形態に係る様々なステップを実行するのに適したコンピューティングシステムを示している。

図１は、入力音声記録１１０から、対象、すなわち監視対象の患者から発生した呼吸関連音１６０（ＲＲＳ）を識別するためのコンピュータ実装方法１００の複数の異なるステップを示している。ＲＲＳは、睡眠中の呼吸によって発生する可聴イベントに対応する。このようなＲＲＳは、例えば、いびき音、ため息音、重い呼吸音、うめき声、又は無呼吸イベント中に発生する音に対応し得る。ＲＲＳは、呼吸サイクル内、例えば、吸気中、呼気中、又はその両方において発生する。したがって、いびきをかいている患者は、特定の時間間隔、例えば数秒、数分、あるいは数時間の間、一連のＲＲＳを発生させる。監視対象の患者から発生したＲＲＳのトレースを有することは、様々なタイプの健康状態を明らかにしたり説明したりすることができるため、睡眠分析を行ううえで価値がある。

本方法は、患者から発生したＲＲＳ１６０が識別又は選択される音声トラック１１０又は音声記録１１０を得ることから始まる。音声トラックは、対象患者から可聴距離内、すなわち患者の睡眠環境内で録音される。録音は、例えば、患者のベッドの隣、又は患者の寝室のどこかに音声記録装置を配置することによって行うことができる。このような音声記録の例示的な例が、プロット１１１に更に示されており、プロット１１１では、記録された音声信号の振幅１１２が時間の関数として提示されている。

方法１００のステップ１２０においては、この音声記録１１０から、異なるＲＲＳ１３１～１３４を識別する。これらの識別されたＲＲＳは、１つの特定のタイプのＲＲＳ、例えばいびきのみ、又はいくつかの、あるいはすべての可能なＲＲＳに関連し得る。ＲＲＳの識別によって、他の音又はノイズ（例えば部屋の外からの音）が、更なるステップから除外される。ＲＲＳは、例えば、音声記録１１０内でＲＲＳを一意に識別することを可能にするその開始時刻、その終了時刻、及び／又はその期間を示すことによって、識別することができる。

ＲＲＳの識別は、例えば、以下のステップのうちの１つ以上を実行することによって行うことができる。
ａ）例えば、信号１１２の分析信号を計算することによって、信号１１２の移動平均、例えば二乗平均平方根（ｒｏｏｔｍｅａｎｓｑｕａｒｅ、ＲＭＳ）値を計算することによって、又は信号１１２のピークを計算することによって、信号１１２の音の包絡線を求める。
ｂ）アクティブな音セグメントを特徴付ける閾値を求める。これは例えば、局所的な信号エネルギ値を計算し、局所的な信号エネルギの下位パーセンタイル値を確立してベースライン閾値を定義することによって、行うことができる。
ｃ）音の包絡線がこの閾値を超えたときを計算する。
ｄ）包絡線が閾値を超えるすべてのエピソードをアクティブセグメントとしてラベル付けする。
ｅ）一連の決定規則に従ってアクティブセグメントを結合又は削除し、例えば、あり得ないほど大きい又は小さいアクティブセグメントを回避する。
ｆ）メル周波数ケプストラム係数（Ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）、特定の周波数範囲内の信号出力、信号の平均及び標準偏差などの時間的特徴、信号のエントロピを特徴付ける特徴、フォルマント及びピッチを特徴付ける特徴といった一連の特徴を計算することによって、このようにして得られたアクティブセグメントを特徴付ける。
ｇ）例えば、すべてのアクティブセグメントをＲＲＳ又は非ＲＲＳとして分類するための事前に訓練された分類器によって、アクティブセグメントからＲＲＳを識別し、それによって１つ又は複数の音声源から発生したＲＲＳセグメントのセットを得る。

識別されたＲＲＳ１３０は、必ずしもすべてが対象患者から発生したものとは限らない。例えば、そのうちのいくつかは、患者の隣又は同じ部屋内で寝ている別の人から発生したものであり得る。また、一部のＲＲＳは、同じ部屋で寝ている犬からなど、動物から発生したものであり得る。したがって、続く選択ステップ１４０においては、ＲＲＳ１３０のサブセット１６０を、監視対象の患者から発生したものとして選択する。この選択を行うため、患者からの呼吸トレース１５０を使用して、サブセット１６０を選択する。このような呼吸トレースは、音声記録１１０の期間中の患者の呼吸を特徴付ける。プロット１５１は、患者のそのようなトレースを時間の関数として示している。この場合、立ち上がりエッジは吸気、立ち下がりエッジは呼気に対応することができ、又はその逆である。呼吸トレースは、異なる呼吸サイクルを特徴付ける離散的なタイムスタンプにも対応し得る。トレース１５０と、患者から発生したＲＲＳとの間には、観察可能な時間的関係が存在するが、他のＲＲＳはそのような時間的関係を示さない。これに基づいて、患者から発生したＲＲＳ１６０を、ステップ１４０の出力として選択する。

呼吸トレースは、直接的に得ることができ、又は患者に関する測定から間接的に導出してもよい。例えば、トレースは、睡眠ポリグラフ、心電計、筋電計、光電脈波（ＰＰＧ）、又は加速度計によって得られる信号から導出することができる。

一実施形態によれば、ＲＲＳ１６０の選択１４０は、図２に示したステップ２００によって実行することができる。最初に、ステップ２０１及びステップ２０２において、ＲＲＳ１３０のタイムスタンプ２０３及び呼吸トレース１５０のタイムスタンプ２０４を識別する。ＲＲＳ１３０に関して、ＲＲＳタイムスタンプ２０３は、ＲＲＳの開始、ＲＲＳの終了、又はＲＲＳの発生内の任意の所定の時間基準を特徴付けることができる。呼吸トレース１５０において、呼吸タイムスタンプ２０４は、呼吸サイクル、例えば、吸気又は呼気のいずれかの呼吸サイクル中の開始、終了、又は任意の所定の時間基準を識別する。次に、ステップ２０５において、タイムスタンプ２０３、２０４の間の差２０６を求め、すなわち、各ＲＲＳタイムスタンプ２０３について、近傍の呼吸タイムスタンプ２０４との（例えば次又は前の呼吸タイムスタンプとの）時間差を求める。その結果、時間差２０６のシーケンスが得られ、各時間差はそれぞれのＲＲＳに関連付けられる。次のステップ２０７においては、これらの時間差２０６から、ヒストグラム２０８を構築する。ヒストグラム２０８は、特定の時間差又は時間差間隔の発生を表現する。このようなヒストグラム２０８において、出現率の高い時間差は、関連するＲＲＳと呼吸トレースとの間の強い時間的相関を示し、したがって、患者から発生したことの高い確率を有する。同様に、出現率の低い時間差は、関連するＲＲＳと呼吸トレースとの間の時間的相関がほとんどなく、したがって、患者から発生した可能性が低いことを示す。したがって、特定の第１の閾値よりも高い出現率を有するＲＲＳ２１２を、患者から発生したことの高い確率を有するものとして選択し、患者ＲＲＳの選択１６０に加える。特定の第２の閾値より低い出現率を有する更なるＲＲＳ２１０は、患者から発生したことの低い確率を有するものとして選択することができる。残りのＲＲＳ２１１は、未割り当てとして残される。未割り当てのＲＲＳ２１１は、図３及び図４を参照しながら本実施形態において更に説明されるように、患者ＲＲＳ１６０のセットを更に拡張するために依然として使用され得る。

患者ＲＲＳ１６０を選択する別の方法は、１つ以上のＲＲＳ１３０の、呼吸トレース１５０とのコヒーレンス、すなわち、同じ時間間隔中の１つ以上のＲＲＳの音声信号と呼吸信号との間の同期の度合いを計算することによる。この場合、高いコヒーレンスを有する１つ以上のＲＲＳは、患者から発生した確率が高いと考えられ、低いコヒーレンスを有する１つ以上のＲＲＳは、患者から発生した確率が低いと考えられ、それによって、この場合にもＲＲＳの同様のセット２１０、２１１、２１２が得られる。次いで、図２の方法と同様に、高い確率を有するＲＲＳ２１２を、患者から発生したものとして選択する。

確率による患者からのＲＲＳの選択、例えば図２のステップによる選択は、結果に応じて更に拡張することができる。例えば、かなりの量のＲＲＳ２１１が依然として割り当てられていない、すなわち、患者から発生した確率が低くも高くもないことがある。そのような場合、図３に示したステップ３００を実行することができる。最初のステップ３０１では、例えば図２を参照して説明したステップ２００を実行することによって、高い確率及び／又は低い確率を有するＲＲＳを選択することにより、初期選択３０２を行う。次に、ステップ３０３において、高い確率及び／又は低い確率を有するＲＲＳのセット、例えばセット２１０及び２１２に基づいて、更なるＲＲＳを患者から発生したものとして識別する。これらのセットに基づいて、未割り当てのＲＲＳのいくつかが、患者から発生した、又は患者から発生していないのいずれかとして更に割り当てられる。このステップ３０３は、様々な方法で実行することができる。第１の例によれば、ステップ３０３は、ＲＲＳが患者から発生したかどうかに従ってＲＲＳを分類するための分類器の訓練を含む。訓練においては、高い確率及び／又は低い確率を有するＲＲＳを、ラベル付けされた訓練データとして使用する。次に、訓練された分類器を使用して、まだ割り当てられていないＲＲＳ（例えばＲＲＳ２１１）を選択１６０に追加する。第２の例によれば、教師なしクラスタリング法を使用して、高確率セット又は低確率セットから、ＲＲＳとの類似する時間的コヒーレンスの類似する特徴内容を有する未割り当てＲＲＳを選択する。次いで、高確率セットによってクラスタリングされた未割り当てのＲＲＳを選択１６０に加える。

図５、図６、及び図７は、ステップ２００を更に説明する。図５は、音声記録５１０と、例えば図１のステップ１２０によって得られた識別されたＲＲＳ５１１とを含む第１のプロットを示している。図５は、さらに、呼吸トレース５２０を含む第２のプロットを示している。呼吸トレース５２０において、ＲＲＳ５１１の開始は、円５２１で示されており、ＲＲＳタイムスタンプ５２４を表す。呼吸トレース５２０において、トレースの周期的な極小値は、×印５２２で示されており、呼吸関連タイムスタンプ５２５を表す。この場合、時間差５２６は、ＲＲＳタイムスタンプを表す破線と、ＲＲタイムスタンプを表す前又は次の点線との間の空間によって表される。図５に示したＲＲＳ５１１は、すべて患者から発生したものである。したがって、ＲＲタイムスタンプ５２５とＲＲＳタイムスタンプ５２４との間には、ほぼ一定の時間差５２６によって観察することができる強い時間的関係が存在する。次に、図７Ａは、図５に示した患者からのみ発生したＲＲＳから導出される時間差のヒストグラム７１０を示している。

図５と同様に、図６は、音声記録６１０と、例えば図１のステップ１２０によって得られた識別されたＲＲＳ６１１とを含む第１のプロットを示している。図６は、さらに、呼吸トレース６２０を含む第２のプロットを示している。呼吸トレース６２０において、ＲＲＳ６１１の開始は、円６２１で示されており、ＲＲＳタイムスタンプ６２４を表す。呼吸トレース６２０において、トレースの周期的な極小値は、×印６２２で示されており、呼吸関連タイムスタンプ６２５を表す。この場合、時間差６２６は、ＲＲＳタイムスタンプを表す破線と、ＲＲタイムスタンプを表す最も近い点線との間の空間によって表される。図６に示したＲＲＳ６１１は、患者から発生したものではない。したがって、ＲＲタイムスタンプ６２５とＲＲＳタイムスタンプ６２４との間には、大きく変化する時間差６２６によって観察することができる弱い時間的関係が存在する。次に、図７Ｂは、図６に示した患者からのみ発生したＲＲＳから導出される時間差のヒストグラム７２０を示している。

次に図７Ｃは、図５及び図６の両方からの時間差に基づくヒストグラム７３０、すなわちヒストグラム７１０と７２０の組合せを示している。したがって、ヒストグラム７３０のデータは、方法２００のヒストグラムデータ２０８に対応し得る。図２のステップ２０９を参照して説明したように、高い確率７３５を有するＲＲＳを選択するために第１の閾値７３１を定義することができ、低い確率７３３、７３７を有するＲＲＳを選択するために第２の閾値７３２を定義することができる。残りのＲＲＳは、領域７３４、７３６によって示されるように、割り当てられないままにされる。

一実施形態によれば、図１に示した方法１００において、更なるクラスタリングステップを実行することができる。これについて、図４の方法を参照して更に説明する。ステップ１２０に対応し得る第１のステップ４２０においては、入力音声記録４１０からＲＲＳ４３０を識別する。次いで、追加のクラスタリングステップ４７０を実行する。このステップ４７０においては、ＲＲＳが同じ音声源に属する高い確率を有するとき、それらのＲＲＳをクラスタにグループ化する。

クラスタリング４７０の方法は、最初に、ＲＲＳを特徴付ける一連の特徴、例えば、メル周波数ケプストラム係数（ＭＦＣＣ）、特定の周波数範囲内の信号出力、信号の平均及び標準偏差などの時間的特徴、ＲＲＳのエントロピを特徴付ける特徴、フォルマント及びピッチを特徴付ける特徴、を求める。これに加えて、又は補足的に、時間的に繰り返されるパターンで発生するＲＲＳを識別し、それによってＲＲＳの異なる連鎖を得ることができる。次に、時間的な連鎖との関連性に基づいて、及び／又は、導出された異なる特徴間の類似性に基づいて、ＲＲＳを複数の異なる妥当な音声源にクラスタリングする。特徴に基づくクラスタリングは、例えば、Ｋ－ｍｅａｎｓクラスタリングや混合ガウスモデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、ＧＭＭ）クラスタリングなどのクラスタリングアルゴリズムによって実行することができる。得られた時間的連鎖に基づくクラスタリングは、例えば、発生の間の特定の時間間隔を有する反復的なＲＲＳパターンを識別することによって実行することができる。クラスタリングによって、ＲＲＳは依然として未割り当てのまま、すなわち、高い確率で特定の音声源に属さない場合がある。このような場合、更なる教師ありクラスタリングステップを実行することができる。この場合、すでにクラスタリングされたＲＲＳをラベル付き訓練データとして使用することにより、ＲＲＳをクラスタに分類するように分類器を訓練する。分類器には、サポートベクターマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ、ＳＶＭ）又はニューラルネットワークを使用することができる。

次いで、このようにして得られたＲＲＳのクラスタ４７１を、更なる選択ステップ４４０の入力として使用し、ステップ４４０では、患者から発生したことの高い確率及び／又は低い確率を有するクラスタを識別する。次いで、高い確率を有するクラスタを、出力１６０として選択する。ステップ４４０は、ステップ１４０又はステップ２００と同じ方法で実行することができるが、個々のＲＲＳの代わりにＲＲＳのクラスタに基づいている。さらに、追加のステップ４０３を実行することができ、ステップ３０３と同じ方法で、ただし個々のＲＲＳの代わりにＲＲＳのクラスタに基づいて、まだ割り当てられていないＲＲＳのクラスタを出力１６０に追加する。

上述した実施形態によるステップは、任意の適切なコンピューティング回路、例えば携帯電話、タブレット、デスクトップコンピュータ、ラップトップ、及びローカルサーバ又はリモートサーバによって、実行することができる。上述した実施形態によるステップは、音声記録装置と同じ装置において実行されてもよい。このため、音声記録は、例えば携帯電話、タブレット、デスクトップコンピュータ、又はラップトップによって実行されてもよい。また、上述した実施形態によるステップは、患者の環境から離れた適切な回路によって実行されてもよい。そのような場合、音声記録は、インターネット又はプライベートネットワークなどの通信ネットワークを介して回路に提供されてもよい。

図８は、説明した実施形態によるステップの実行を可能にする回路を備えた好適なコンピューティングシステム８００を示している。コンピューティングシステム８００は、一般に、好適な汎用コンピュータとして形成されてよく、バス８１０、プロセッサ８０２、ローカルメモリ８０４、１つ以上のオプションの入力インターフェース８１４、１つ以上のオプションの出力インターフェース８１６、通信インターフェース８１２、記憶要素インターフェース８０６、及び１つ以上の記憶要素８０８を備えている。バス８１０は、コンピューティングシステム８００の構成要素間の通信を可能にする１つ以上の導体を備えていることができる。プロセッサ８０２は、プログラミング命令を解釈して実行する任意のタイプの従来のプロセッサ又はマイクロプロセッサを含むことができる。ローカルメモリ８０４は、プロセッサ８０２によって実行される情報及び命令を格納するランダムアクセスメモリ（ＲＡＭ）又は別のタイプの動的記憶デバイス、及び／又はプロセッサ８０２によって使用される静的情報及び命令を格納する読み取り専用メモリ（ＲＯＭ）又は別のタイプの静的記憶デバイスを含んでもよい。入力インターフェース８１４は、キーボード８２０、マウス８３０、ペン、音声認識及び／又は生体認証機構、カメラなど、オペレータ又はユーザが情報をコンピューティングデバイス８００に入力することを可能にする１つ以上の従来の機構を備えていることができる。出力インターフェース８１６は、ディスプレイ８４０など、オペレータ又はユーザに情報を出力する１つ以上の従来の機構を備えていることができる。通信インターフェース８１２は、コンピューティングシステム８００が他のデバイス及び／又はシステム、例えば他のコンピューティングデバイス８８１、８８２、８８３と通信することを可能にする、例えば１つ以上のイーサネットインターフェースなど、任意の送受信機のような機構を備えていることができる。コンピューティングシステム８００の通信インターフェース８１２は、ローカル・エリア・ネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を介して、例えばインターネットを介して、そのような別のコンピューティングシステムに接続されてもよい。記憶要素インターフェース８０６は、バス８１０を１つ以上の記憶要素８０８、例えばＳＡＴＡディスクドライブなどの１つ以上のローカルディスクに接続するための、シリアル・アドバンスド・テクノロジー・アタッチメント（ＳＡＴＡ）インターフェース又はスモール・コンピュータ・システム・インターフェース（ＳＣＳＩ）などの記憶インターフェースを含んでもよく、これらの記憶要素８０８への及び／又はこれらの記憶要素８０８からのデータの読み取り及び書き込みを制御してもよい。上記の記憶要素８０８はローカルディスクとして説明されているが、一般に、取り外し可能な磁気ディスク、ＣＤ又はＤＶＤなどの光学記憶媒体、ＲＯＭディスク、ソリッドステートドライブ、フラッシュメモリカードなど、任意の他の適切なコンピュータ可読媒体を使用することができる。

本願で使用されるように、「回路」という用語は、以下の１つ以上又はすべてを指してもよい。
（ａ）アナログ及び／又はデジタル回路のみでの実装などのハードウェアのみの回路実装、
（ｂ）ハードウェア回路とソフトウェアの組み合わせ、例えば、（適用可能な）：
（ｉ）アナログ及び／又はデジタルハードウェア回路とソフトウェア／ファームウェアの組合せ、及び
（ｉｉ）ソフトウェアを備えたハードウェアプロセッサの部分（携帯電話やサーバなどの装置に様々な機能を実行させるために協働するデジタルシグナルプロセッサ、ソフトウェア、及びメモリを含む）、及び
（ｃ）動作するためにソフトウェア（例えばファームウェア）を必要とするが、ソフトウェアが動作するために必要でない場合に存在しない可能性がある、マイクロプロセッサ又はマイクロプロセッサの一部などのハードウェア回路及び／又はプロセッサ。
この回路に関する定義は、任意の請求項を含む本願におけるこの用語のすべての使用に適用される。さらなる例として、本願で使用されるように、回路という用語は、また、ハードウェア回路のみ、又はプロセッサ（又は複数のプロセッサ）のみ、若しくはハードウェア回路又はプロセッサの一部とその（又はそれらの）付随するソフトウェア及び／又はファームウェアの実装をカバーする。また、回路という用語は、例えば、特定の請求項要素に適用可能な場合、携帯端末用のベースバンド集積回路又はプロセッサ集積回路、あるいはサーバ、セルラーネットワークデバイス、又は他のコンピューティング又はネットワークデバイスにおける同様の集積回路をカバーする。

特定の実施形態を参照して本発明を説明してきたが、本発明は上述した例示的な実施形態の細部に限定されるものではなく、本発明がその範囲を逸脱することなく様々な変更や修正を加えて具現化することができることは、当業者には明らかであろう。したがって、本実施形態は、あらゆる点において例示的であり、制限的ではないと考えられ、本発明の範囲は、前述の説明によってではなく、添付の請求項によって示され、したがって、請求項の意味及び同等性の範囲内に入るすべての変更は、本発明に包含されることを意図する。言い換えれば、基本的な基礎原理の範囲内にあり、その本質的な属性がこの特許出願で主張されている、あらゆる変更、変形、又は同等物がカバーされるものと企図されている。さらに、本特許出願の読者は、「含む（ｃｏｍｐｒｉｓｉｎｇ）」又は「含む（ｃｏｍｐｒｉｓｅ）」という用語が他の要素又はステップを排除するものではなく、「１つ（ａ）」又は「１つ（ａｎ）」という用語が複数を排除するものではなく、コンピュータシステム、プロセッサ、又は別の集積ユニットなどの単一の要素が特許請求の範囲に列挙されたいくつかの手段の機能を実現し得ることを理解する。特許請求の範囲におけるいかなる参照符号は、関連するそれぞれの請求項を限定するものと解釈してはならない。「第１」、「第２」、「第３」、「ａ」、「ｂ」、「ｃ」などの用語は、明細書又は特許請求の範囲で使用される場合、同様の要素又はステップを区別するために導入されるものであり、必ずしも順序又は時系列を説明するものではない。同様に、「上部」、「下部」、「上」、「下」などの用語は、説明のために導入されるものであり、必ずしも相対的な位置を示すものではない。このように使用される用語が、適切な状況下で交換可能であり、本発明の実施形態は、他のシーケンスで、又は上記で説明又は図示されたものとは異なる向きで、本発明に従って動作可能であることは理解されるべきである。

Claims

対象患者から発生した呼吸関連音（１６０、５１１）（ＲＲＳ）を取得するためのコンピュータ実装方法（１００、４００）であって、前記方法は、以下のステップ、すなわち、
前記対象患者の睡眠環境の入力音声記録（１１０、１１１、４１０、５１０、６１０）を取得するステップと、
前記入力音声記録の期間中の前記対象患者の呼吸を特徴付ける、前記対象患者の呼吸の呼吸トレース（１５０、４５０、５２０、６２０）を取得するステップと、
前記入力音声記録においてＲＲＳ（１３０、４３０、５１１、６１１）を識別する（１２０、４２０、４７０）ステップと、
前記呼吸トレースに基づいて、前記ＲＲＳから、前記対象患者から発生した前記ＲＲＳ（１６０）を選択する（１４０、２００、３００、４４０、４０３）ステップと、を含み、
前記選択するステップは、
前記対象患者から発生したことの高い確率及び／又は低い確率をそれぞれ有するＲＲＳの第１のサブセット（２１２、７３５）及び／又は第２のサブセットを求める（２０９）ステップと、
前記対象患者から発生したＲＲＳを選択するように、前記第１のサブセット及び／又は前記第２のサブセットに基づいて分類器を訓練する（３０３、４０３）ステップと、
前記訓練された分類器によって、前記対象患者から発生した前記ＲＲＳ（１６０）を選択するステップと、
を含む、方法。
前記識別するステップは、呼吸関連音及び非呼吸関連音を求める（１２０、４２０）ステップと、前記非呼吸関連音を破棄するステップと、を含む、請求項１に記載の方法。
前記識別するステップは、音のセット（４７１）を求める（４７０）ステップを含み、セットの音は同じ音声源から発生し、前記選択するステップは、前記呼吸トレースに基づいて、音のセットから、前記対象患者から発生したＲＲＳ（１６０）を選択する（４４０、４０３）ステップを更に含む、請求項１又は２に記載の方法。
前記選択するステップは、前記ＲＲＳから前記第２のサブセットを破棄するステップを更に含む、請求項１から３のいずれか一項に記載の方法。
前記選択するステップは、前記第１のサブセット及び第２のサブセットに割り当てられていないＲＲＳ（２１１、７３４、７３６）の量に依存して前記訓練を実行するステップを含む、請求項１から４のいずれか一項に記載の方法。
前記第１のサブセットを求める前記ステップは、前記入力音声記録（１３０）からの、前記ＲＲＳに関連付けられる音声タイムスタンプ（２０３、５２１、６２１）と、前記呼吸トレース（１５０）からの、前記ＲＲＳに関連付けられる呼吸タイムスタンプ（２０４、５２２、６２２）とを求める（２０１、２０２）ステップと、前記音声タイムスタンプ及び前記呼吸タイムスタンプに基づいて前記第１のサブセットを求める（２０５、２０７、２０９）ステップと、を含む、請求項１から５のいずれか一項に記載の方法。
前記第１のサブセットを求める前記ステップは、前記音声タイムスタンプとそれぞれの呼吸タイムスタンプとの間の時間差（２０６、５２６、６２５）を求める（２０６）ステップを更に含む、請求項６に記載の方法。
前記第１のサブセットを求める前記ステップは、前記時間差のヒストグラム（７３０）を求める（２０７）ステップと、前記ヒストグラムから前記第１のサブセット（２１２）を識別する（２０９）ステップと、を更に含む、請求項７に記載の方法。
前記呼吸トレースは、睡眠ポリグラフ、心電計、筋電計、又は光電脈波（ＰＰＧ）によって得られる信号から導出される、請求項１から８のいずれか一項に記載の方法。
少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備えたコントローラ（８００）であって、前記少なくとも１つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを使用して、請求項１から９のいずれか一項に記載の方法を前記コントローラに実行させるように構成されている、コントローラ（８００）。
プログラムがコンピュータ上で実行されたときに、請求項１から９のいずれか一項に記載の前記方法を実行するためのコンピュータ実行可能命令を含む、コンピュータプログラム製品。
プログラムがコンピュータ上で実行されたときに、請求項１から９のいずれか一項に記載の前記方法を実行するためのコンピュータ実行可能命令を含む、コンピュータ可読記憶媒体。