JP2023507343A

JP2023507343A - 咳嗽自動検出のための方法および装置

Info

Publication number: JP2023507343A
Application number: JP2022536864A
Authority: JP
Inventors: タナーウッド，ジャワン; ツオマスクリスチャンペルトネン，ヴェサ
Original assignee: レスアップヘルスリミテッド
Priority date: 2019-12-16
Filing date: 2020-12-16
Publication date: 2023-02-22
Also published as: US20230039619A1; WO2021119743A1; EP4076177A1; CA3164373A1; CN115023183A; MX2022007501A; EP4076177B1; AU2020404447A1; EP4076177A4

Abstract

患者の音声記録における咳嗽音を識別するための方法は、少なくとも１つの電子プロセッサを動作させて、前記音声記録における潜在的咳嗽音を識別することと、前記少なくとも１つの電子プロセッサを動作させて、１または複数の前記潜在的咳嗽音を、対応する１または複数の画像表現に変換することと、前記少なくとも１つの電子プロセッサを動作させて、前記１または複数の画像表現を、潜在的咳嗽音が咳嗽音である、または咳嗽音でないことを確認するために訓練済みの表現パターン分類器に適用することと、前記少なくとも１つの電子プロセッサを動作させて、前記表現パターン分類器の出力に基づいて、確認済みの咳嗽音として、１または複数の前記潜在的咳嗽音にフラグ付けを行うことと、を有する。
【選択図】図１

Description

（関連出願の相互参照）
本出願は、２０１９年１２月１６日出願のオーストラリア仮特許出願第２０１９９０４７５５号の優先権を主張し、同出願の開示は参照により本明細書に援用される。

本発明は、咳嗽音自動検出のために患者音を処理する方法および装置に関する。

先行技術の方法、装置、又は文献へのいかなる言及も、これらが通常の一般知識を成すかその一部を成すことの証拠又は認定に当たるものと解釈されてはならない。

呼吸器疾患の存在を予測するのに患者音を電子的に処理することは周知である。疾患の症状が患者の咳嗽である際には、例えば咳嗽を内含する患者音のセグメントを背景ノイズに対して識別できることが重要である。

患者音の咳嗽セグメントを識別する幾つかのアプローチが先行技術では周知である。例えば、特許文献１には、患者の音の複数のセグメントの各々について幾つかの特徴を判断することと、これらの特徴から特徴ベクトルを形成することと、事前訓練済み分類器へこれらを適用することとを含む咳嗽検出方法が記載されている。セグメントを「咳嗽」と「非咳嗽」のいずれかと見なすように分類器からの出力が処理される。

咳嗽を内含する患者音部分の識別についてのより最近のアプローチは、咳嗽音の初期の位相と咳嗽音の後続の位相とを検出するためにそれぞれ訓練された二つの事前訓練済みニューラルネットに患者音からの特徴ベクトルが適用される（時に「ＬＷ２」法と呼ばれる）特許文献２に記載されている。第１のニューラルネットは初期の爆発的な位相（ｅｘｐｌｏｓｉｖｅｐｈａｓｅ）を検出するように能動的訓練により加重され、第２のニューラルネットは咳嗽音の１または複数の爆発後の位相（ｐｏｓｔ－ｅｘｐｌｏｓｉｖｅｐｈａｓｅ）を検出するように能動的に加重される。ＬＷ２法の好適な実施形態では、第１のニューラルネットは更に、爆発的な位相については能動的訓練により、そして爆発後の位相については受動的訓練により加重される。ＬＷ２は一連の連続した咳嗽の咳嗽音を識別するのに特に良好である。

先行技術の咳嗽識別方法で発生し得る問題は、実際には存在しない時に音セグメントを咳嗽音と識別することを意味する望ましくない低特異度を有し得ることであると発明者らは気付いた。このような偽陽性検出は、患者音記録での非咳嗽事象の数が咳嗽事象の数よりはるかに多い高背景ノイズ環境での長期の使用においてこれらの方法を実行不可能にする。

国際公開第２０１３／１４２９０８号国際公開第２０１８／１４１０１３号

偽陽性の数を減少させ得る方法および装置が提供されることがあれば望ましいだろう。

患者の録音において咳嗽音を識別するための方法であって、
少なくとも一つの電子プロセッサを作動させて、録音における潜在的咳嗽音を識別することと、
少なくとも一つの電子プロセッサを作動させて、１または複数の潜在的咳嗽音を対応する１または複数の画像表現に変換することと、
少なくとも一つの電子プロセッサを作動させて、潜在的咳嗽音が咳嗽音であるか咳嗽音でないかを確認するように訓練済みの表現パターン分類器に１または複数の画像表現を適用することと、
少なくとも一つの電子プロセッサを作動させて、表現パターン分類器の出力に基づいて１または複数の潜在的咳嗽音に確認済みの咳嗽音としてフラグ付けすることと、
を有する。

一実施形態において、この方法は、プロセッサを作動させて１または複数の音を画像表現に変換することを含み、画像表現は周波数および時間に関する。

一実施形態において、１または複数の画像表現は、スペクトログラムを有する。

一実施形態において、１または複数の画像表現は、メルスペクトログラムを有する。

一実施形態において、この方法は、プロセッサを作動させて、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練された第１および第２の咳嗽音パターン分類器を使用することにより、潜在的咳嗽音を音声記録の咳嗽音声セグメントとして識別することを有する。

一実施形態において、１または複数の画像表現は、Ｎ×Ｍの画素の寸法を有し、咳嗽音声セグメントの各々のＮ個のウィンドウを処理するプロセッサにより形成され、Ｎ個のウィンドウの各々がＭ個の周波数ビンで解析される。

一実施形態において、Ｎ個のウィンドウの各々は、Ｎ個のウィンドウのうち少なくとも一つの他のウィンドウと重複する。

一実施形態において、ウィンドウの長さは、関連する咳嗽音声セグメントの長さに比例する。

一実施形態において、この方法は、プロセッサを作動させて、高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）と周波数ビンごとのパワー値とを計算し、１または複数の画像表現のうち対応する画像表現の対応する画素値を得ることを含む。

一実施形態において、この方法は、プロセッサを作動させて、Ｍ個の周波数ビンの各々のパワー値であるＭ個のパワー値の形で周波数ビンごとのパワー値を計算することを含む。

一実施形態において、Ｍ個の周波数ビンはＭ個のメル周波数ビンを有し、この方法は、プロセッサを作動させて、Ｍ個のパワー値を連結および正規化することによりメルスペクトログラム画像の形で対応する画像表現を作成することを含む。

一実施形態において、画像表現は正方形であり、ＭはＮに等しい。

一実施形態において、表現パターン分類器は、ニューラルネットワークを有する。

一実施形態において、ニューラルネットワークは畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）である。

一実施形態において、この方法は、プロセッサを作動させて、表現パターン分類器の出力を有する、またはこれに基づく確率値を、所定の閾値と比較することを含む。

一実施形態において、この方法は、プロセッサを作動させて、所定の閾値を超える確率値に基づいて１または複数の潜在的咳嗽音を確認済みの咳嗽音としてフラグ付けすることを含む。

一実施形態において、この方法は、プロセッサを作動させて、対応の咳嗽音声セグメントの開始および終了の時間を確認済みの咳嗽音の開始および終了の時間であると記録することにより確認済み咳嗽音をフラグ付けすることを含む。

一実施形態において、この方法は、プロセッサを作動させて、プロセッサに対応するディスプレイに画面を生成し、この画面は、処理された潜在的咳嗽音の数と確認済みの咳嗽音の数とを表す。

更なる装置では、患者の咳嗽音を識別するための装置であって、
患者のデジタル録音を電子メモリに記憶するように構成される音声キャプチャ構成と、
事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成された音セグメント・画像表現アセンブリと、
音セグメント・画像表現アセンブリとコミュニケーションをとる表現パターン分類器であって、画像表現を処理することにより事前識別済みの潜在的咳嗽音に対応する画像表現が確認済みの咳嗽音である確率を表す信号を発生させるように構成された、表現パターン分類器と、
を有する、装置が提供される。

一実施形態において、装置は、デジタル音声記録の部分を識別することにより事前識別済みの潜在的咳嗽音を作成するように訓練された１または複数の咳嗽音分類器を含む。

一実施形態において、１または複数の咳嗽音分類器は、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練された第１の咳嗽音パターン分類器と第２の咳嗽音パターン分類器とを有する。

一実施形態において、第１の咳嗽音パターン分類器と第２の咳嗽音パターン分類器の各々はニューラルネットワークを有する。

一実施形態において、音セグメント・画像表現アセンブリは、スペクトログラムを有する対応する画像表現に事前識別済みの潜在的咳嗽音を変換するように構成される。

一実施形態において、音セグメント・画像表現アセンブリは、高速フーリエ変換と事前識別済みの潜在的咳嗽音についてのＭ個のビンごとのパワーとを計算することにより、事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成される。

一実施形態において、音セグメント・画像表現アセンブリは、事前識別済みの潜在的咳嗽音をスペクトログラムに変換するように構成される。

一実施形態において、スペクトログラムは、メルスペクトログラムを有する。

一実施形態では、電子メモリとコミュニケーションをとる少なくとも一つの電子プロセッサを装置が含み、プロセッサは、電子メモリに記憶された命令により音セグメント・画像表現アセンブリを実装するように構成される。

一実施形態において、少なくとも一つの電子プロセッサは、電子メモリに記憶された命令により表現パターン分類器を実装するように構成される。

一実施形態において、少なくとも一つの電子プロセッサは、電子メモリに記憶された命令により、潜在的咳嗽音を識別するように構成された少なくとも一つの咳嗽音パターン分類器を実装するように構成される。

本発明の更なる態様によれば、患者の音声記録から確認済みの咳嗽音として潜在的咳嗽音を確認するようにパターン分類器を訓練するための方法であって、この方法は、
患者の咳嗽音と非咳嗽音とを対応する画像表現に変換することと、
確認済みの咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が確認済みの咳嗽音であると予測する出力を発生させ、非咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が咳嗽音でないと予測する出力を発生させるようにパターン分類器を訓練することと、
を有する。

別の態様によれば、録音の潜在的咳嗽音を対応する画像表現に変換することと、事前訓練済みの分類器に画像表現を適用することと、事前訓練済みの分類器からの出力に基づいて潜在的咳嗽音を確認済みの咳嗽音または非咳嗽音としてフラグ付けすることとを含む、患者の音声記録における咳嗽音を識別するための方法が提供される。

更なる態様によれば、患者の音声記録で識別された潜在的咳嗽音を処理するための装置が提供され、この装置は、この方法を実装するようにプロセッサを構成する命令を記憶するデジタルメモリとの通信状態にある少なくとも一つの電子プロセッサを含む。

本発明の別の態様によれば、潜在的咳嗽音の画像表現に基づいて潜在的咳嗽音が確認済みの咳嗽音であると確認するための方法を実装する１または複数のプロセッサのための非一時的機械可読命令を担持するコンピュータ可読媒体が提供される。

本発明の好適な特徴、実施形態、そして変形は、本発明を実施するのに充分な情報を当業者に提供する以下の詳細な説明から了解され得る。詳細な説明は、前出の発明の概要の範囲をいかなる点でも限定するものと見なされてはならない。詳細な説明では以下の幾つかの図面を参照する。

本発明の実施形態による咳嗽識別方法のフローチャートである。本発明の実施形態による咳嗽識別装置のブロック図である。患者音の記録中の装置のインタフェース画面ディスプレイである。潜在的咳嗽音を検出するための図１のフローチャートの方法の手順を示す図である。潜在的咳嗽音の画像表現を作成するように装置により実装される方法のステップを示す図である。非咳嗽音の第１のメルスペクトログラム画像表現である。非咳嗽音の第２のメルスペクトログラム画像表現である。咳嗽音の第１のメルスペクトログラム画像表現である。咳嗽音の第２のメルスペクトログラム画像表現である。咳嗽識別方法の結果を提示するための装置のインタフェース画面ディスプレイである。本発明の実施形態による畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）訓練装置のブロック図である。図９の訓練装置により実行されるソフトウェア製品の命令としてコード化された方法のフローチャートである。

図１には、咳嗽自動検出のための本発明の好適な実施形態による方法のフローチャートが提示されている。

この方法を実装するように設定されるハードウェアプラットフォームは、咳嗽識別装置を有する。この装置は、これから記載される方法ステップを作動時に行うようにプロセッサに固有の構成を行う命令を記憶する電子メモリとの通信状態にある少なくとも１つのプロセッサを格納するデスクトップコンピュータまたはスマートフォンなどのポータブルコンピュータデバイスであってよい。専用のハードウェア、つまり専用の装置あるいは固有のプログラミングによる１または複数のプロセッサから構成される装置を伴わずにこの方法を実行するのは不可能であることが認識されるだろう。代替的に、これから検討されるステップの各々を実行する固有の回路構成を含む専用アセンブリとして装置が実装されてもよい。回路構成は主に、ＨＤＬ（ＨａｒｄｗａｒｅＤｅｓｃｒｉｐｔｏｒＬａｎｇｕａｇｅ）またはヴェリログ（Ｖｅｒｉｌｏｇ）仕様により設定されるＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を使用して実装されてよい。

図２は、ここに記載される実施形態ではスマートフォンの１または複数のプロセッサおよびメモリを使用して実装される咳嗽識別装置５１を有する装置のブロック図である。咳嗽識別装置５１は、電子メモリ５５にアクセスする少なくとも１つのプロセッサ５３を含む。電子メモリ５５は、例えばプロセッサ５３による実行のための、アンドロイド（登録商標）オペレーティングシステムまたはアップルｉＯＳオペレーティングシステムなどのオペレーティングシステム５８を含む。電子メモリ５５は、本発明の好適な実施形態によれば咳嗽識別ソフトウェア製品または「アプリ」５６も含む。咳嗽識別アプリ５６は、咳嗽識別装置５１が患者５２からの音を処理し、ＬＣＤタッチ画面インタフェース６１によって咳嗽の識別を臨床医５４に提示するためにプロセッサ５３により実行可能な命令を含む。アプリ５６は、訓練済みの予測器または決定装置のようなパターン分類器をプロセッサ５３が実装するための命令を含み、ここに記載の本発明の好適な実施形態において、パターン分類器は、特殊な訓練済みの畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）６３を有する。

プロセッサ５３は、図２に記されているように、プロセッサと様々な周辺機器との間でデジタル信号２００が伝搬される金属導体から構成されるデータバス５７を介して、複数の周辺アセンブリ５９から７３とのデータ通信状態にある。結果的に、必要であれば、咳嗽識別装置５１は、ＷＡＮ／ＷＬＡＮアセンブリ７３と無線周波数アンテナ７９とを介して音声および／またはデータ通信ネットワーク８１との音声およびデータ通信を確立できる。装置はまた、所望であれば患者５２の画像がキャプチャできるようにデジタルカメラを操作するレンズ・ＣＣＤアセンブリ５９など他の周辺機器も含む。ヒューマンマシンインタフェースとして作用して臨床医５４が結果を読み取るとともにコマンドおよびデータを装置５１に入力することを可能にするＬＣＤタッチ画面インタフェース６１が設けられる。ＵＳＢスティックなどの外部記憶デバイスへのシリアルデータ接続を設ける為の、あるいはデータネットワークまたは外部の画面およびキーボード等へのケーブル接続を行うためのＵＳＢポート６５が設けられる。メモリ５５により用意される内部データ記憶空間に加えて、必要に応じて追加の二次記憶装置のために、二次記憶カード６４も設けられる。音声インタフェース７１はマイクロフォン７５をデータバス５７に結合し、アンチエイリアシングフィルタリング回路構成と、（患者音波３９に対応する）マイクロフォン７５から、メモリ５５に記憶されてプロセッサ５３により処理できるデジタル音声信号５０（図２のメモリに記憶され、図５に図示）へアナログ電気波形４０を変換するアナログデジタルサンプラーとを含む。音声インタフェース７１はスピーカ７７にも結合される。音声インタフェース７１は、デジタル音声をアナログ信号に変換するためのデジタルアナログ変換器と、メモリ５５または二次記憶装置６４に記録された音声が臨床医５４による聴取のために再生できるようにスピーカ７１に接続される音声増幅器とを含む。マイクロフォン７５と音声インタフェース７１とは、アプリ５６でプログラミングされたプロセッサ５３とともに、メモリ５５または二次記憶装置６４などの電子メモリに患者５２のデジタル音声記録５０を記憶するために設定された音声キャプチャ構成を有することが認識されるであろう。

咳嗽識別装置５１は、患者音の記録時に咳嗽セグメントを識別するための装置として作動する構成となるようにアプリ５６でプログラミングされる。

既に述べられたように、図２に図示されている咳嗽識別装置５１は、アプリ５６による独自に構成されたスマートフォンハードウェアの形で設けられるが、デスクトップコンピュータ、ラップトップ、またはタブレットコンピュータデバイスなど他の幾つかのタイプのコンピュータデバイスを等しく使用してよく、アプリ５６により特殊なプログラミングが行われたバーチャル装置をハードウェアが有するクラウドコンピューティング環境において実装されてもよい。更に、汎用プロセッサを使用しない専用の咳嗽識別装置も構築されてよい。例えば、このような専用装置は、マイクロフォンと、患者のデジタル音声記録を電子メモリに記憶するように構成されるアナログデジタル変換回路構成とを含む音声キャプチャ構成を有してよい。メモリとの通信状態にあって、デジタル録音を処理することにより咳嗽音を潜在的に内含するデジタル音声つまり潜在的咳嗽音のセグメントを識別するように構成される潜在的咳嗽音識別アセンブリを、装置が更に含む。好ましくは、潜在的咳嗽音識別アセンブリは、国際公開第２０１８／１４１０１３号のＬＷ２法を実装するように構成される。識別された咳嗽音声セグメントを画像表現に変換する音声セグメント・画像表現アセンブリが設けられてよい。専用の装置は更に、潜在的咳嗽音が確認済みの咳嗽音と非咳嗽音のいずれかであることを表す信号を発生させるハードウェア実装によるパターン分類器を含む。

患者５２の記録時に咳嗽セグメントを識別するのに咳嗽識別装置５１を使用して、アプリ５６を構成する命令を包含する手順の実施形態が、図１のフローチャートに図示されており、これから詳細に記載される。

最初に臨床医５４または別の介護者や患者３９は、ＬＣＤタッチ画面インタフェース６１でＯＳ５８により生成されたアプリ選択画面からアプリ５６を選択する。この選択に応じて、プロセッサ５３は、装置５１を作動させてマイクロフォン７５および音声インタフェース７１を介して患者５２からの録音３９を開始するように臨床医５４を促すために図３の画面８２などの画面を表示する。音声インタフェース７１は音をデジタル信号２００に変換し、デジタル信号はバス５７を伝搬され、プロセッサ５３により１または複数のデジタルファイル５０としてメモリ５５および／または二次記憶ＳＤカード６４に記録される。ここに記載される好適な実施形態では、音声記録に存在する患者５２の幾つかの咳嗽音を含むのに充分な期間にわたって記録が進められるべきである。

ボックス１０で、プロセッサ５３は音声ファイル５０の潜在的咳嗽音（ＰＣＳ：ＰｏｔｅｎｔｉａｌＣｏｕｇｈＳｏｕｎｄ）を識別する。本発明の好適な実施形態において、アプリ５６は、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練されたニューラルネットワークを好ましくは各々が有する第１の咳嗽音パターン分類器（ＣＳＰＣ１）６２ａと第２の咳嗽音パターン分類器（ＣＳＰＣ２）６２ｂとを実装するようにプロセッサ５３を構成する命令を含む。ゆえに、好適な実施形態において、プロセッサ５３は、参照によりその開示全体が本明細書に援用される上述の国際公開第２０１８／１４１０１３号に記載されているＬＷ２法を使用してＰＣＳを識別する。潜在的咳嗽音を識別するための他の方法、例えば上述したアベイラトネその他（Ａｂｅｙｒａｔｎｅｅｔａｌ．）による国際公開第２０１３／１４２９０８号に記載されている方法がボックス１０で代替的に使用されてもよい。

図４は、患者５２から記録された音波５０の一部分を示すグラフである。国際公開第２０１８／１４１０１３号に記載された方法の適用は、咳嗽音の第１の位相および第２の位相を認識するようにそれぞれ訓練された二つの訓練済みニューラルネットワークに音波の特徴を適用することを必要とする。第１のニューラルネットワークの出力は図４にライン５４で示されており、音波の対応する部分が咳嗽音の第１の位相である可能性を表す信号を有する。第２のニューラルネットワークの出力は図４にライン５２で示されており、音波の対応する部分が咳嗽音の後続の位相である可能性を表す信号を有する。第１および第２の訓練済みニューラルネットワークの出力５４および５２に基づいて、プロセッサ５３は、セグメント６８ａおよび６８ｂに位置する二つの潜在的咳嗽音６６ａおよび６６ｂを識別する。

ボックス１２で、プロセッサ５３は、変数「現在ＰＣＳ」を、既に識別された、つまりボックス１０で「事前識別された」第１のＰＣＳに設定する。

ボックス１４で、プロセッサ５３は、変数現在ＰＣＳに記憶された事前識別済みのＰＣＳを変換して、メモリ５５と二次記憶装置６４のいずれかに記憶される対応する画像表現７６を作成する。

この画像表現は、デジタル音声ファイルの現在咳嗽音の部分のスペクトログラムを有するか、これに基づいてよい。可能な画像表現は、メル周波数スペクトログラム（または「メルスペクトログラム」）と、連続ウェーブレット変換、およびデルタ特徴としても知られる時間次元でのこれら表現の導関数とを含む。結果的に、画像表現は、ＰＣＳの期間にわたる、例えば垂直軸上の周波数と例えば水平軸上の時間とに関係する。

ボックス１４の１つの特定の実装形態の一例が図５に描かれている。最初にプロセッサ５３は、デジタル音ファイル５０の二つの潜在的咳嗽音（ＰＣＳ：ＰｏｔｅｎｔｉａｌＣｏｕｇｈＳｏｕｎｄ）６６ａ、６６ｂを識別する。

プロセッサ５３は、潜在的咳嗽音６６ａ、６６ｂを別々の咳嗽音声セグメント６８ａ、６８ｂとして識別する。そして別々の咳嗽音声セグメント６８ａ、６８ｂの各々が、この例ではＮ＝５であるＮ個の等しい長さの重複ウィンドウ７２ａ１，．．．７２ａ５と７２ｂ１，．．．７２ｂ５に分割される。短い咳嗽セグメント、例えば咳嗽セグメント６８ａより若干短い咳嗽セグメント６８ｂについては、セグメント部６８ｂに使用される重複ウィンドウ７２ｂは、セグメント部６８ａに使用される重複ウィンドウ７２ａよりも比例的に短い。

そして、プロセッサ５３は、対応する画素値が得られるように、高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）と、Ｎ＝５個のウィンドウの各々のＭ＝５個のビンについてのメルビンごとのパワー値とを計算する。これらの操作を音波に実施するようにプロセッサを設定する機械可読命令が、アプリ５６に含まれる。このような命令は、例えば、ｈｔｔｐｓ：／／ｌｉｂｒｏｓａ．ｇｉｔｈｕｂ．ｉｏ／ｌｉｂｒｏｓａ／＿ｍｏｄｕｌｅｓ／ｌｉｂｒｏｓａ／ｃｏｒｅ／ｓｐｅｃｔｒｕｍ．ｈｔｍｌ（２０１９年１２月１１日検索）で公開されている。

図５に図示されている例で、プロセッサ５３は、各々がＭ＝５個のメル周波数ビンを含むメルスペクトログラム７４ａ、７４ｂを、Ｎ＝５個の重複ウィンドウ７２ａ１，．．．７２ａ５及び７２ｂ１，．．．７２ｂ５の各々から抽出する。

プロセッサ５３は、スペクトログラム７４ａ及び７４ｂに記憶された値を連結および正規化して、それぞれ咳嗽音６６ａ、６６ｂを表す対応の方形メルスペクトグラム画像７６ａ、７６ｂを作成する。画像７６ａ、７６ｂの各々は８ビットのグレイスケールのＭ×Ｎの画像であって、Ｍ＝Ｎである。

Ｎは正の整数値であってよく、あるＮでは、音声インタフェース７１のサンプリングレートに応じて元の音声に存在する全ての情報を咳嗽画像が内含し、これが望ましい。高いＮに対応するようにＦＦＴビンの数を増加させてよい。

図６ａおよび図６ｂは、図５に記されたプロセスを使用して得られた患者音記録の非咳嗽セグメントの方形メルスペクトグラム画像であって、Ｎ＝Ｍ＝２２４である。この画像で、時間は左から右へ増加し、周波数は下から上へ増加する。濃色エリアは、メル周波数ビンの振幅の増加を指す。

対照的に、図７ａおよび図７ｂは、咳嗽セグメント、例えばセグメント６８ａ、６８ｂの一方の方形メルスペクトログラム画像である。

図６ａ～図７ｂの画像は、本特許明細書の公開を目的として白黒画像に変換されるように閾値処理されている。

Ｎ＝Ｍの場合にＭ個の周波数ビンについて各々が解析されたＮ個のセグメントから導出されたＮ×Ｍの画素である方形表現を使用すると好都合であるが、類似寸法の矩形画像を使用してＣＮＮ６３が訓練されたと仮定すると、ＮがＭに等しくない矩形表現を使用することも可能である。

ボックス１４の検討により、ボックス１４の手順を実施するようにアプリ５６により構成されるプロセッサ５３が、例えばボックス１０で潜在的咳嗽音として既に識別された記録の音セグメントを対応する画像表現に変換するように構成される音声セグメント・画像表現アセンブリを有することが理解されるであろう。

図１に戻り、ボックス１６で、プロセッサ５３は、訓練済み畳み込みニューラルネットワーク（ＣＮＮ）６３の形の表現パターン分類器に画像表現、例えば画像７６ａを適用する。ＣＮＮ６３は、潜在的咳嗽音の画像表現が実際に咳嗽音、つまり確認済み咳嗽音（ＣＣＳ：ＣｏｎｆｉｒｍｅｄＣｏｕｇｈＳｏｕｎｄ）であるか否かを確認するように訓練される。ＣＮＮ６３は、０と１の間の範囲である出力確率信号を生成する表現パターン分類器を有し、１は、潜在的咳嗽音（ＰＣＳ：ＰｏｔｅｎｔｉａｌＣｏｕｇｈＳｏｕｎｄ）が実際に咳嗽音である、故に確認済み咳嗽音である確実性を表し、０は、ＰＣＳが咳嗽音である可能性が無いことを表す。ボックス１６での訓練済みニューラルネットワーク（ＣＮＮ）の出力から確率値ｐがボックス１８で得られる。ボックス２０では、ボックス１８で判断されたｐ値が、変数閾値に記憶された閾値と比較される。ＰＣＳがＣＣＳより可能性が高いことをｐ値が表すと仮定すると、ＰＣＳがＣＣＳであると見なされるように閾値は好ましくは０．５である。特定状況の要件に応じて、これより高いか低い閾値が所望通りに使用されてもよい。

ボックス２０でｐが閾値より大きい場合には、ボックス２２で、例えば対応の音セグメントの開始および終了の時間を確認済み咳嗽音（ＣＣＳ：ＣｏｎｆｉｒｍｅｄＣｏｕｇｈＳｏｕｎｄ）の開始および終了の時間として記録することにより、プロセッサ５３は、現在ＰＣＳがＣＣＳであるとのフラグ付けを行う。

ｐ値が閾値より大きくない場合には、ＰＣＳはＣＣＳではないとフラグ付けされる。そして制御は、決定ボックス２４に進む。決定ボックス２４では、プロセッサ５３は、処理されるべきＰＣＳがまだあるかどうかをチェックする。識別されるべきＰＣＳがまだあるとボックス１０で識別された場合には、ボックス２６で、可変の現在ＰＣＳが次の識別済みＰＣＳとして設定され、制御はボックス１４へ進んで、ここで既に記載されたボックス１４から２２が反復される。ボックス２４で処理されるべきＰＣＳがもうない場合には、制御はボックス２８へ進み、ここで、プロセッサ５３は、図８に示された画面７８を表示するように、プロセッサ５３に対応するＬＣＤタッチ画面インタフェース６１の形のディスプレイを作動させる。画面７８は、処理されたＰＣＳの数とＣＣＳであることが分かった数とを提示する。臨床医５４が所望であればスピーカ７７を介して聴取できるように、各ＣＣＳの開始および終了の時間も提示される。

図９は、ＣＮＮ訓練ソフトウェア１４０に従って設定されたデスクトップコンピュータの１または複数のプロセッサおよびメモリを使用して実装されるＣＮＮ訓練装置１３３のブロック図である。ＣＮＮ訓練装置１３３は、１または複数の内蔵マイクロプロセッサ（ＣＰＵ）１３５に電力供給してこれと相互作用を行う回路構成を含むメインボード１３４を含む。

メインボード１３４は、マイクロプロセッサ１３５と二次メモリ１４７との間のインタフェースとして作用する。二次メモリ１４７は、１または複数の光学または磁気、あるいはソリッドステートのドライブを備えてよい。二次メモリ１４７は、オペレーティングシステム１３９の為の命令を記憶する。メインボード１３４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５０ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１４３とも通信する。ＲＯＭ１４３は一般的に、起動時にマイクロプロセッサ１３５がアクセスするとともにオペレーティングシステム１３９をロードするためにマイクロプロセッサ１３５を用意するＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）あるいはＵＥＦＩ（ＵｎｉｆｉｅｄＥｘｔｅｎｓｉｂｌｅＦｉｒｍｗａｒｅＩｎｔｅｒｆａｃｅ）のような起動ルーチンについての命令を記憶する。例えば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）とＵｂｕｎｔｕＬｉｎｕｘ（登録商標）デスクトップは、このようなオペレーティングシステムの二つの例である。

メインボード１３４は、ディスプレイ１４７を駆動するための統合グラフィックアダプタも含む。メインボード１３３は一般的に、通信アダプタ１５３、例えばサーバ１３３をデータネットワークとのデータ通信状態にするＬＡＮアダプタ、モデム、あるいはシリアルまたはパラレルポートを含む。

ＣＮＮ訓練装置１３３のオペレータ１６７は、キーボード１４９、マウス１２１、およびディスプレイ１４７によってこの装置との相互作用を行う。

オペレータ１６７は、オペレーティングシステム１３９を作動させてソフトウェア製品１４０をロードしてよい。ソフトウェア製品１４０は、ディスクドライブ１５２による読み取りの為に光学ディスク１５７などのコンピュータ可読媒体に担持される有形の非一時的機械可読命令１５９とし用意され得る。代替的に、ポート１５３を介してダウンロードされてもよい。

二次記憶装置１４７は、本発明の実施形態によるＣＮＮ訓練ソフトウェア製品１４０であるソフトウェア製品１４０も含む。ＣＮＮ訓練ソフトウェア製品１４０は、図１０に図示されている方法を実装するＣＰＵ１３５（または代替的および集合的に「プロセッサ１３５」と呼ばれる）の為の命令から成る。

最初に、図１０のボックス１９２で、プロセッサ１３５は、ここに記載される実施形態では７０，０００個の咳嗽セグメントおよび非咳嗽セグメントから構成される訓練患者音声データ集合を検索する。メタデータは訓練ラベル、つまり各セグメントが実際に咳嗽であるか否かを含む。

ボックス１９６で、プロセッサ１３５は、図１のボックス１４で既に検討されたのと同じように非咳嗽事象と咳嗽事象とを画像として表現し、各潜在的咳嗽音（ＰＣＳ：ＰｏｔｅｎｔｉａｌＣｏｕｇｈＳｏｕｎｄ）を表現するようにメルスペクトログラム画像が作成される。

ボックス１９８で、プロセッサ１３５は、続いて、畳み込みニューラルネット（ＣＮＮ）を訓練するための追加訓練例を形成するようにボックス１９６で作成された各画像を変換する。ＣＮＮは非常にパワフルな学習手段であって、限定数の訓練画像により訓練例を記憶してモデルを過剰適合となりうるので、ボックス１９８でのこのデータ拡張ステップは好ましい。発明者らは、前もって確認されていないデータではこのようなモデルがうまく一般化されないことに気付いた。適用される画像変換は、小規模のランダムズーミング、クロッピング、そしてコントラスト変化を含むが、これらに限定されるわけではない。

ボックス２００で、プロセッサ１３５は、ボックス１９８で作成された咳嗽および非咳嗽の拡張画像と元の訓練ラベルとによりＣＮＮ１４２を訓練する。ドロップアウトと荷重減衰とバッチ正規化などの正規化技術を使用して、ＣＮＮ１４２の過剰適合が更に低減される。

ＣＮＮ１４２を作成するのに使用されるプロセスの一例は、ＲｅｓＮｅｔ－１８のようなショートカットコネクションを含む残差ネットワークである事前訓練済みのＲｅｓＮｅｔモデルを入手し、モデルの畳み込み層をバックボーンとして使用し、咳嗽識別の問題領域に適合する層で最終的な非畳み込み層を置換することである。これらは全結合隠れ層、ドロップアウト層、そしてバッチ正規化層を含む。ＲｅｓＮｅｔ－１８についての情報は、ｈｔｔｐ：／／ｗｗｗ．ｍａｔｈｗｏｒｋｓ．ｃｏｍ／ｈｅｌｐ／ｄｅｅｐｌｅａｒｎｉｎｇ／ｒｅｆ／ｒｅｓｎｅｔ１８．ｈｔｍｌ（２０１９年１２月２日に検索）で入手可能であり、その開示は参照により本明細書に援用される。ＲｅｓＮｅｔ－１８は、イメージネット（ＩｍａｇｅＮｅｔ）データベース（ｈｔｔｐ：／／ｗｗｗ．ｉｍａｇｅ－ｎｅｔ．ｏｒｇ）からの百万以上の画像で訓練された畳み込みニューラルネットワークである。ネットワークには１８層の奥行があり、キーボード、マウス、鉛筆、そして多くの動物など１０００個の物体カテゴリに画像を分類できる。その結果、ネットワークは広範囲の画像についての豊富な特徴表現を学習している。ネットワークは２２４×２２４の画素の画像入力サイズを有する。

ＲｅｓＮｅｔ－１８層を固定して新たな非畳み込み層のみを訓練するだけで充分であるが、しかしながらＲｅｓＮｅｔ－１８層と新たな非畳み込み層の両方を再訓練して作業モデルを得るのも可能であることを、発明者らは発見した。０．５の固定ドロップアウト比が好ましくは使用される。適応オプティマイザとして好ましくはＡＤＡＭ（ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ）が使用されるが、他のオプティマイザ技術も使用されてよい。

ボックス２０２で、ボックス１９６からの元の咳嗽および非咳嗽の（非拡張）画像がＣＮＮ１４２に適用され、そして今度は各々の確率に対応するようにＣＮＮが訓練される。

そして訓練済みＣＮＮが、ＣＮＮ６３である咳嗽識別アプリ５６の一部としてのＣＮＮ６３として配布される。

図１の方法の成果を検査するために、発明者らは４８４７１件の咳嗽と１９２６０件の非咳嗽のデータ集合を展開した。ＬＷ２アルゴリズムにより咳嗽として間違ってフラグ付けされた事象から、データ集合の非咳嗽音が明確に選択された。

この集合の７５％は重度咳嗽ＩＤについてＣＮＮ１４２を訓練するのに使用され、残りの２５％（１２２２５件の咳嗽と４７０７件の非咳嗽）が検査集合として使用された。

ＬＷ２を使用して、１２２２５件の咳嗽（ＰＣＳ）が識別され、一方で４７０７件の非咳嗽事象が偽陽性であった（つまりこれらはＬＷ２では咳嗽であったが、更なる研究からこれらが咳嗽ではないことが明らかになった）。ＬＷ２の後で重度咳嗽ＩＤが使用された時に、１２２２３件の咳嗽が識別され（つまり２件の咳嗽が偽陰性であって間違って分類され）、４６６３件の非咳嗽事象がここでは正しく分類され（否定され）、これらの非咳嗽事象のうち４４件のみが咳嗽として間違って分類された。

試験集合に対する図１の方法の成果の要約が、表１に提示されている。

本発明の実施形態では、国際公開第２０１８／１４１０１３号の主題である先行技術のＬＷ２法よりも２５％を超える精度向上が結果的に得られることが、上の表から観察されるであろう。

要約すると、一態様において、患者５２のデジタル音ファイル５０などの音声記録の咳嗽音６６ａ、６６ｂなど咳嗽音を識別するための方法が提供される。この態様の方法は、少なくとも一つの電子プロセッサ５３を作動させて、例えば図４に関して記載されたＬＷ２手順を使用することにより音声記録５２の潜在的咳嗽音を識別すること（図１のボックス１０）を含むが、ＬＷ２手順に限定されるわけではない。この方法はまた、電子プロセッサ５３を作動させて、１または複数の潜在的咳嗽音を、画像表現７６ａ、７６ｂ（図５）など対応の一以上の画像表現に変換すること（図１のボックス１４）含む。

電子プロセッサ５３は、潜在的咳嗽音が咳嗽音であるか咳嗽音ではないことを確認する（図１のボックス１８）ように訓練された表現パターン分類器６３（図２）に１または複数の画像表現７６ａ、７６ｂを適用するように作動する。この方法は、少なくとも１つの電子プロセッサ５３を作動させて、表現パターン分類器６３の出力に基づいて、１または複数の潜在的咳嗽音を確認済みの咳嗽音としてフラグ付けすること（図１のボックス２２）を含む。

別の態様では、患者の咳嗽音を識別するための装置が記載されている。この装置は、患者５２のデジタル音声記録５０をキャプチャしてメモリ５５または二次記憶装置６４などの電子メモリに記憶するようにアプリ５６により構成されるプロセッサ５３と、例えばマイクロフォン７５（図２）と音声インタフェース７１とから構成される音声キャプチャ構成を含む。

装置は、事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成される音セグメント・画像表現アセンブリを有する。例えば、音セグメント・画像表現アセンブリは、例えばボックス１０で潜在的咳嗽音として既に識別された記録の音セグメントを対応する画像表現に変換するように構成された、ボックス１４（図１）の手順を実施するようにアプリ５６により構成されるプロセッサ５３を有してよい。

装置は、画像表現を処理することにより事前識別済みの潜在的咳嗽音に対応する画像表現が確認済みの咳嗽音である確率を表す信号を発生させるように構成される音セグメント・画像表現アセンブリとの通信状態にある表現パターン分類器も含む。表現パターン分類器は、潜在的咳嗽音の画像表現が実際には咳嗽音つまり確認済みの咳嗽音（ＣＣＳ：ＣｏｎｆｉｒｍｅｄＣｏｕｇｈＳｏｕｎｄ）であるかどうかを確認するように訓練された訓練済み畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）６３の形であってよい。

法を順守して、本発明は多かれ少なかれ構造又は方法の特徴について固有の言語で記載されている。「有する（ｃｏｍｐｒｉｓｅｓ）」と、「有する（ｃｏｍｐｒｉｓｉｎｇ）」および「から成る（ｃｏｍｐｒｉｓｅｄｏｆ）」などその変形は、追加特徴を除外する為ではなく包括的な意味で終始使用される。

本明細書に記載の手段は発明を実行する好適な形態を包含するので、図示及び記載された特定の特徴に発明が限定されないことが理解されるはずである。それゆえ本発明は、当業者により適切に解釈される添付請求項の適正な範囲内の形態又変形のいずれでも請求される。

明細書及び請求項（存在する場合に）を通して、文脈上それ以外が必要とされない限り、「実質的に（ｓｕｂｓｔａｎｔｉａｌｌｙ）」または「約（ａｂｏｕｔ）」の語は、これらの語により定性化される範囲の値に限定されないことが理解されるであろう。

本発明の実施形態は例示的であることのみを意図したものであり、発明を限定することは意図されていない。それゆえ、本発明の趣旨及び範囲を逸脱することなく記載の実施形態に対して他の様々な変更及び変形が行われることが認識されるべきである。

Claims

患者の音声記録における咳嗽音を識別するための方法であって、
少なくとも１つの電子プロセッサを動作させて、前記音声記録における潜在的咳嗽音を識別することと、
前記少なくとも１つの電子プロセッサを動作させて、１または複数の前記潜在的咳嗽音を、対応する１または複数の画像表現に変換することと、
前記少なくとも１つの電子プロセッサを動作させて、前記１または複数の画像表現を、潜在的咳嗽音が咳嗽音である、または咳嗽音でないことを確認するために訓練済みの表現パターン分類器に適用することと、
前記少なくとも１つの電子プロセッサを動作させて、前記表現パターン分類器の出力に基づいて、確認済みの咳嗽音として、１または複数の前記潜在的咳嗽音にフラグ付けを行うことと、
を有する方法。
前記プロセッサを動作させて、前記１または複数の音声を前記画像表現に変換することを含み、
前記画像表現は、周波数と時間に関連する、請求項１に記載の方法。
前記１または複数の画像表現は、スペクトログラムを含む、請求項１または２に記載の方法。
前記１または複数の画像表現は、メルスペクトログラムを含む、請求項３に記載の方法。
前記プロセッサを動作させて、咳嗽音の初期および後続の位相をそれぞれ検出するために訓練済みの第１および第２の咳嗽音パターン分類器を用いて、前記音声記録の咳嗽音セグメントとして、前記潜在的咳嗽音を識別することを含む、請求項１から４のいずれか一項に記載の方法。
前記１または複数の画像表現は、Ｎ×Ｍの画素の寸法を有し、前記咳嗽音セグメントそれぞれのＮ個のウィンドウを処理する前記プロセッサによって形成され、
前記Ｎ個のウィンドウのそれぞれは、Ｍ個の周波数ビンにて解析される、請求項５に記載の方法。
Ｎ個のウィンドウは、前記Ｎ個のウィンドウのうちの少なくとも１つの他のウィンドウと重複する、請求項６に記載の方法。
前記ウィンドウの長さは、その関連付けられた咳嗽音セグメントの長さに比例する、請求項７に記載の方法。
前記プロセッサを動作させて、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）および周波数ビンごとのパワー値を算出し、前記１または複数の画像表現のうちの前記対応する画像表現の対応するパワー値を得ることを含む、請求項８に記載の方法。
前記プロセッサを動作させて、前記Ｍ個の周波数ビンのそれぞれに対するパワー値である、Ｍ個のパワー値の形にて周波数ビンごとのパワー値を計算することを含む、請求項９に記載の方法。
前記Ｍ個の周波数ビンは、Ｍ個のメル周波数ビンを含み、
前記プロセッサを動作させて、前記方法は、前記Ｍ個のパワー値を連結および正規化し、メルスペクトログラムの形にて前記対応する画像表現を処理することを含む、請求項９または１０に記載の方法。
前記画像表現は、正方形であり、
ＭはＮに等しい、請求項６から１１のいずれか一項に記載の方法。
前記表現パターン分類器は、ニューラルネットワークを含む、請求項１から１２のいずれか一項に記載の方法。
前記ニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）である、請求項１３に記載の方法。
前記プロセッサを動作させて、前記表現パターン分類器の出力を含むまたは基づく確率値と、所定の閾値とを比較することを含む、請求項１から１４のいずれか一項に記載の方法。
前記プロセッサを動作させて、前記確率値が前記所定の閾値を超えた場合、確認済みの咳嗽音として、１または複数の前記潜在的咳嗽音にフラグ付けを行うことを含む、請求項１に記載の方法。
前記プロセッサを動作させて、確認済みの咳嗽音の開始および終了の時間であるとして、前記対応する咳嗽音セグメントの開始および終了の時間を記録することにより、前記確認済みの音声をフラグ付けすることを含む、請求項１６に記載の方法。
前記プロセッサを動作させて、前記プロセッサに応答するディスプレイ上にてスクリーンを生成することを含み、
前記スクリーンは、処理された潜在的咳嗽音の数、および、確認済みの咳嗽音の数を示す、請求項１から１７のいずれか一項に記載の方法。
患者の咳嗽音を識別するための装置であって、
患者のデジタル音声記録を、電子メモリに格納する、音声キャプチャ構造と、
予め識別された潜在的咳嗽音を、対応する画像表現に変換する、音声セグメントから画像表現へのアセンブリと、
前記音声セグメントから画像表現へのアセンブリとコミュニケーションをとる表現パターン分類器であって、前記画像表現を処理し、確認済みの咳嗽音である、前記予め識別された潜在的咳嗽音に対応する前記画像表現の確率を示す信号を処理する、表現パターン分類器と、
を有する装置。
前記デジタル音声記録の部分を識別し、それにより前記予め識別された潜在的咳嗽音を処理するように訓練済みの１または複数の咳嗽音分類器を含む、請求項１９に記載の装置。
前記１または複数の咳嗽音分類器は、咳嗽音の最初と後続の位相をそれぞれ検出するために訓練された第１の咳嗽音パターン分類器と第２の咳嗽音パターン分類器を含む、請求項２０に記載の装置。
前記第１の咳嗽音パターン分類器と前記第２の咳嗽音パターン分類器はそれぞれ、ニューラルネットワークを含む、請求項１９から２１のいずれか一項に記載の装置。
前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音を、スペクトログラムを含む対応する画像表現に変換するように構成される、請求項１９から２５のいずれか一項に記載の装置。
前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音に対して、高速フーリエ変換およびＭ個のビンごとのパワーを計算することにより、対応する画像表現へ変換するように構成される、請求項２３に記載の装置。
前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音をスペクトログラムへ変換するように構成される、請求項２４に記載の装置。
前記スペクトログラムは、メルスペクトログラムを含む、請求項２５に記載の装置。
前記電子メモリとコミュニケーションをとる少なくとも１つの電子プロセッサを含み、
前記プロセッサは、前記電子メモリに格納された命令により、前記音声セグメントから画像表現へのアセンブリを実装するように構成される、請求項１９から２６のいずれか一項に記載の装置。
前記少なくとも１つの電子プロセッサは、前記電子メモリに格納された命令により、前記表現パターン分類器を実装するように構成される、請求項２７に記載の装置。
前記少なくとも１つの電子プロセッサは、前記電子メモリに格納された命令により、前記潜在的咳嗽音を識別するように構成された少なくとも１つの咳嗽音パターン分類器を実装するように構成される、請求項２７または２８に記載の装置。
前記少なくとも１つの電子プロセッサは、前記電子メモリに格納された命令により、前記潜在的咳嗽音を識別するように構成された第１の咳嗽音パターン分類器および第２の咳嗽音パターン分類器を実装するように構成される、請求項２９に記載の装置。