JP2023507343A - 咳嗽自動検出のための方法および装置 - Google Patents
咳嗽自動検出のための方法および装置 Download PDFInfo
- Publication number
- JP2023507343A JP2023507343A JP2022536864A JP2022536864A JP2023507343A JP 2023507343 A JP2023507343 A JP 2023507343A JP 2022536864 A JP2022536864 A JP 2022536864A JP 2022536864 A JP2022536864 A JP 2022536864A JP 2023507343 A JP2023507343 A JP 2023507343A
- Authority
- JP
- Japan
- Prior art keywords
- cough
- processor
- sounds
- sound
- potential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010011224 Cough Diseases 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 title description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 15
- 239000002360 explosive Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002296 dynamic light scattering Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 229920003258 poly(methylsilmethylene) Polymers 0.000 description 1
- 238000013061 process characterization study Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Detecting, measuring or recording devices for evaluating the respiratory organs
- A61B5/0823—Detecting or evaluating cough events
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6887—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
- A61B5/6898—Portable consumer electronic devices, e.g. music players, telephones, tablet computers
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B7/00—Instruments for auscultation
- A61B7/003—Detecting lung or respiration noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Pulmonology (AREA)
- Physiology (AREA)
- Epidemiology (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Biodiversity & Conservation Biology (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
患者の音声記録における咳嗽音を識別するための方法は、少なくとも1つの電子プロセッサを動作させて、前記音声記録における潜在的咳嗽音を識別することと、前記少なくとも1つの電子プロセッサを動作させて、1または複数の前記潜在的咳嗽音を、対応する1または複数の画像表現に変換することと、前記少なくとも1つの電子プロセッサを動作させて、前記1または複数の画像表現を、潜在的咳嗽音が咳嗽音である、または咳嗽音でないことを確認するために訓練済みの表現パターン分類器に適用することと、前記少なくとも1つの電子プロセッサを動作させて、前記表現パターン分類器の出力に基づいて、確認済みの咳嗽音として、1または複数の前記潜在的咳嗽音にフラグ付けを行うことと、を有する。【選択図】図1
Description
(関連出願の相互参照)
本出願は、2019年12月16日出願のオーストラリア仮特許出願第2019904755号の優先権を主張し、同出願の開示は参照により本明細書に援用される。
本出願は、2019年12月16日出願のオーストラリア仮特許出願第2019904755号の優先権を主張し、同出願の開示は参照により本明細書に援用される。
本発明は、咳嗽音自動検出のために患者音を処理する方法および装置に関する。
先行技術の方法、装置、又は文献へのいかなる言及も、これらが通常の一般知識を成すかその一部を成すことの証拠又は認定に当たるものと解釈されてはならない。
呼吸器疾患の存在を予測するのに患者音を電子的に処理することは周知である。疾患の症状が患者の咳嗽である際には、例えば咳嗽を内含する患者音のセグメントを背景ノイズに対して識別できることが重要である。
患者音の咳嗽セグメントを識別する幾つかのアプローチが先行技術では周知である。例えば、特許文献1には、患者の音の複数のセグメントの各々について幾つかの特徴を判断することと、これらの特徴から特徴ベクトルを形成することと、事前訓練済み分類器へこれらを適用することとを含む咳嗽検出方法が記載されている。セグメントを「咳嗽」と「非咳嗽」のいずれかと見なすように分類器からの出力が処理される。
咳嗽を内含する患者音部分の識別についてのより最近のアプローチは、咳嗽音の初期の位相と咳嗽音の後続の位相とを検出するためにそれぞれ訓練された二つの事前訓練済みニューラルネットに患者音からの特徴ベクトルが適用される(時に「LW2」法と呼ばれる)特許文献2に記載されている。第1のニューラルネットは初期の爆発的な位相(explosive phase)を検出するように能動的訓練により加重され、第2のニューラルネットは咳嗽音の1または複数の爆発後の位相(post-explosive phase)を検出するように能動的に加重される。LW2法の好適な実施形態では、第1のニューラルネットは更に、爆発的な位相については能動的訓練により、そして爆発後の位相については受動的訓練により加重される。LW2は一連の連続した咳嗽の咳嗽音を識別するのに特に良好である。
先行技術の咳嗽識別方法で発生し得る問題は、実際には存在しない時に音セグメントを咳嗽音と識別することを意味する望ましくない低特異度を有し得ることであると発明者らは気付いた。このような偽陽性検出は、患者音記録での非咳嗽事象の数が咳嗽事象の数よりはるかに多い高背景ノイズ環境での長期の使用においてこれらの方法を実行不可能にする。
偽陽性の数を減少させ得る方法および装置が提供されることがあれば望ましいだろう。
患者の録音において咳嗽音を識別するための方法であって、
少なくとも一つの電子プロセッサを作動させて、録音における潜在的咳嗽音を識別することと、
少なくとも一つの電子プロセッサを作動させて、1または複数の潜在的咳嗽音を対応する1または複数の画像表現に変換することと、
少なくとも一つの電子プロセッサを作動させて、潜在的咳嗽音が咳嗽音であるか咳嗽音でないかを確認するように訓練済みの表現パターン分類器に1または複数の画像表現を適用することと、
少なくとも一つの電子プロセッサを作動させて、表現パターン分類器の出力に基づいて1または複数の潜在的咳嗽音に確認済みの咳嗽音としてフラグ付けすることと、
を有する。
少なくとも一つの電子プロセッサを作動させて、録音における潜在的咳嗽音を識別することと、
少なくとも一つの電子プロセッサを作動させて、1または複数の潜在的咳嗽音を対応する1または複数の画像表現に変換することと、
少なくとも一つの電子プロセッサを作動させて、潜在的咳嗽音が咳嗽音であるか咳嗽音でないかを確認するように訓練済みの表現パターン分類器に1または複数の画像表現を適用することと、
少なくとも一つの電子プロセッサを作動させて、表現パターン分類器の出力に基づいて1または複数の潜在的咳嗽音に確認済みの咳嗽音としてフラグ付けすることと、
を有する。
一実施形態において、この方法は、プロセッサを作動させて1または複数の音を画像表現に変換することを含み、画像表現は周波数および時間に関する。
一実施形態において、1または複数の画像表現は、スペクトログラムを有する。
一実施形態において、1または複数の画像表現は、メルスペクトログラムを有する。
一実施形態において、この方法は、プロセッサを作動させて、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練された第1および第2の咳嗽音パターン分類器を使用することにより、潜在的咳嗽音を音声記録の咳嗽音声セグメントとして識別することを有する。
一実施形態において、1または複数の画像表現は、N×Mの画素の寸法を有し、咳嗽音声セグメントの各々のN個のウィンドウを処理するプロセッサにより形成され、N個のウィンドウの各々がM個の周波数ビンで解析される。
一実施形態において、N個のウィンドウの各々は、N個のウィンドウのうち少なくとも一つの他のウィンドウと重複する。
一実施形態において、ウィンドウの長さは、関連する咳嗽音声セグメントの長さに比例する。
一実施形態において、この方法は、プロセッサを作動させて、高速フーリエ変換(FFT:Fast Fourier Transform)と周波数ビンごとのパワー値とを計算し、1または複数の画像表現のうち対応する画像表現の対応する画素値を得ることを含む。
一実施形態において、この方法は、プロセッサを作動させて、M個の周波数ビンの各々のパワー値であるM個のパワー値の形で周波数ビンごとのパワー値を計算することを含む。
一実施形態において、M個の周波数ビンはM個のメル周波数ビンを有し、この方法は、プロセッサを作動させて、M個のパワー値を連結および正規化することによりメルスペクトログラム画像の形で対応する画像表現を作成することを含む。
一実施形態において、画像表現は正方形であり、MはNに等しい。
一実施形態において、表現パターン分類器は、ニューラルネットワークを有する。
一実施形態において、ニューラルネットワークは畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)である。
一実施形態において、この方法は、プロセッサを作動させて、表現パターン分類器の出力を有する、またはこれに基づく確率値を、所定の閾値と比較することを含む。
一実施形態において、この方法は、プロセッサを作動させて、所定の閾値を超える確率値に基づいて1または複数の潜在的咳嗽音を確認済みの咳嗽音としてフラグ付けすることを含む。
一実施形態において、この方法は、プロセッサを作動させて、対応の咳嗽音声セグメントの開始および終了の時間を確認済みの咳嗽音の開始および終了の時間であると記録することにより確認済み咳嗽音をフラグ付けすることを含む。
一実施形態において、この方法は、プロセッサを作動させて、プロセッサに対応するディスプレイに画面を生成し、この画面は、処理された潜在的咳嗽音の数と確認済みの咳嗽音の数とを表す。
更なる装置では、患者の咳嗽音を識別するための装置であって、
患者のデジタル録音を電子メモリに記憶するように構成される音声キャプチャ構成と、
事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成された音セグメント・画像表現アセンブリと、
音セグメント・画像表現アセンブリとコミュニケーションをとる表現パターン分類器であって、画像表現を処理することにより事前識別済みの潜在的咳嗽音に対応する画像表現が確認済みの咳嗽音である確率を表す信号を発生させるように構成された、表現パターン分類器と、
を有する、装置が提供される。
患者のデジタル録音を電子メモリに記憶するように構成される音声キャプチャ構成と、
事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成された音セグメント・画像表現アセンブリと、
音セグメント・画像表現アセンブリとコミュニケーションをとる表現パターン分類器であって、画像表現を処理することにより事前識別済みの潜在的咳嗽音に対応する画像表現が確認済みの咳嗽音である確率を表す信号を発生させるように構成された、表現パターン分類器と、
を有する、装置が提供される。
一実施形態において、装置は、デジタル音声記録の部分を識別することにより事前識別済みの潜在的咳嗽音を作成するように訓練された1または複数の咳嗽音分類器を含む。
一実施形態において、1または複数の咳嗽音分類器は、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練された第1の咳嗽音パターン分類器と第2の咳嗽音パターン分類器とを有する。
一実施形態において、第1の咳嗽音パターン分類器と第2の咳嗽音パターン分類器の各々はニューラルネットワークを有する。
一実施形態において、音セグメント・画像表現アセンブリは、スペクトログラムを有する対応する画像表現に事前識別済みの潜在的咳嗽音を変換するように構成される。
一実施形態において、音セグメント・画像表現アセンブリは、高速フーリエ変換と事前識別済みの潜在的咳嗽音についてのM個のビンごとのパワーとを計算することにより、事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成される。
一実施形態において、音セグメント・画像表現アセンブリは、事前識別済みの潜在的咳嗽音をスペクトログラムに変換するように構成される。
一実施形態において、スペクトログラムは、メルスペクトログラムを有する。
一実施形態では、電子メモリとコミュニケーションをとる少なくとも一つの電子プロセッサを装置が含み、プロセッサは、電子メモリに記憶された命令により音セグメント・画像表現アセンブリを実装するように構成される。
一実施形態において、少なくとも一つの電子プロセッサは、電子メモリに記憶された命令により表現パターン分類器を実装するように構成される。
一実施形態において、少なくとも一つの電子プロセッサは、電子メモリに記憶された命令により、潜在的咳嗽音を識別するように構成された少なくとも一つの咳嗽音パターン分類器を実装するように構成される。
本発明の更なる態様によれば、患者の音声記録から確認済みの咳嗽音として潜在的咳嗽音を確認するようにパターン分類器を訓練するための方法であって、この方法は、
患者の咳嗽音と非咳嗽音とを対応する画像表現に変換することと、
確認済みの咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が確認済みの咳嗽音であると予測する出力を発生させ、非咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が咳嗽音でないと予測する出力を発生させるようにパターン分類器を訓練することと、
を有する。
患者の咳嗽音と非咳嗽音とを対応する画像表現に変換することと、
確認済みの咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が確認済みの咳嗽音であると予測する出力を発生させ、非咳嗽音に対応する画像表現の適用に応じて潜在的咳嗽音が咳嗽音でないと予測する出力を発生させるようにパターン分類器を訓練することと、
を有する。
別の態様によれば、録音の潜在的咳嗽音を対応する画像表現に変換することと、事前訓練済みの分類器に画像表現を適用することと、事前訓練済みの分類器からの出力に基づいて潜在的咳嗽音を確認済みの咳嗽音または非咳嗽音としてフラグ付けすることとを含む、患者の音声記録における咳嗽音を識別するための方法が提供される。
更なる態様によれば、患者の音声記録で識別された潜在的咳嗽音を処理するための装置が提供され、この装置は、この方法を実装するようにプロセッサを構成する命令を記憶するデジタルメモリとの通信状態にある少なくとも一つの電子プロセッサを含む。
本発明の別の態様によれば、潜在的咳嗽音の画像表現に基づいて潜在的咳嗽音が確認済みの咳嗽音であると確認するための方法を実装する1または複数のプロセッサのための非一時的機械可読命令を担持するコンピュータ可読媒体が提供される。
本発明の好適な特徴、実施形態、そして変形は、本発明を実施するのに充分な情報を当業者に提供する以下の詳細な説明から了解され得る。詳細な説明は、前出の発明の概要の範囲をいかなる点でも限定するものと見なされてはならない。詳細な説明では以下の幾つかの図面を参照する。
図1には、咳嗽自動検出のための本発明の好適な実施形態による方法のフローチャートが提示されている。
この方法を実装するように設定されるハードウェアプラットフォームは、咳嗽識別装置を有する。この装置は、これから記載される方法ステップを作動時に行うようにプロセッサに固有の構成を行う命令を記憶する電子メモリとの通信状態にある少なくとも1つのプロセッサを格納するデスクトップコンピュータまたはスマートフォンなどのポータブルコンピュータデバイスであってよい。専用のハードウェア、つまり専用の装置あるいは固有のプログラミングによる1または複数のプロセッサから構成される装置を伴わずにこの方法を実行するのは不可能であることが認識されるだろう。代替的に、これから検討されるステップの各々を実行する固有の回路構成を含む専用アセンブリとして装置が実装されてもよい。回路構成は主に、HDL(Hardware Descriptor Language)またはヴェリログ(Verilog)仕様により設定されるFPGA(Field Programmable Gate Array)を使用して実装されてよい。
図2は、ここに記載される実施形態ではスマートフォンの1または複数のプロセッサおよびメモリを使用して実装される咳嗽識別装置51を有する装置のブロック図である。咳嗽識別装置51は、電子メモリ55にアクセスする少なくとも1つのプロセッサ53を含む。電子メモリ55は、例えばプロセッサ53による実行のための、アンドロイド(登録商標)オペレーティングシステムまたはアップルiOSオペレーティングシステムなどのオペレーティングシステム58を含む。電子メモリ55は、本発明の好適な実施形態によれば咳嗽識別ソフトウェア製品または「アプリ」56も含む。咳嗽識別アプリ56は、咳嗽識別装置51が患者52からの音を処理し、LCDタッチ画面インタフェース61によって咳嗽の識別を臨床医54に提示するためにプロセッサ53により実行可能な命令を含む。アプリ56は、訓練済みの予測器または決定装置のようなパターン分類器をプロセッサ53が実装するための命令を含み、ここに記載の本発明の好適な実施形態において、パターン分類器は、特殊な訓練済みの畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)63を有する。
プロセッサ53は、図2に記されているように、プロセッサと様々な周辺機器との間でデジタル信号200が伝搬される金属導体から構成されるデータバス57を介して、複数の周辺アセンブリ59から73とのデータ通信状態にある。結果的に、必要であれば、咳嗽識別装置51は、WAN/WLANアセンブリ73と無線周波数アンテナ79とを介して音声および/またはデータ通信ネットワーク81との音声およびデータ通信を確立できる。装置はまた、所望であれば患者52の画像がキャプチャできるようにデジタルカメラを操作するレンズ・CCDアセンブリ59など他の周辺機器も含む。ヒューマンマシンインタフェースとして作用して臨床医54が結果を読み取るとともにコマンドおよびデータを装置51に入力することを可能にするLCDタッチ画面インタフェース61が設けられる。USBスティックなどの外部記憶デバイスへのシリアルデータ接続を設ける為の、あるいはデータネットワークまたは外部の画面およびキーボード等へのケーブル接続を行うためのUSBポート65が設けられる。メモリ55により用意される内部データ記憶空間に加えて、必要に応じて追加の二次記憶装置のために、二次記憶カード64も設けられる。音声インタフェース71はマイクロフォン75をデータバス57に結合し、アンチエイリアシングフィルタリング回路構成と、(患者音波39に対応する)マイクロフォン75から、メモリ55に記憶されてプロセッサ53により処理できるデジタル音声信号50(図2のメモリに記憶され、図5に図示)へアナログ電気波形40を変換するアナログデジタルサンプラーとを含む。音声インタフェース71はスピーカ77にも結合される。音声インタフェース71は、デジタル音声をアナログ信号に変換するためのデジタルアナログ変換器と、メモリ55または二次記憶装置64に記録された音声が臨床医54による聴取のために再生できるようにスピーカ71に接続される音声増幅器とを含む。マイクロフォン75と音声インタフェース71とは、アプリ56でプログラミングされたプロセッサ53とともに、メモリ55または二次記憶装置64などの電子メモリに患者52のデジタル音声記録50を記憶するために設定された音声キャプチャ構成を有することが認識されるであろう。
咳嗽識別装置51は、患者音の記録時に咳嗽セグメントを識別するための装置として作動する構成となるようにアプリ56でプログラミングされる。
既に述べられたように、図2に図示されている咳嗽識別装置51は、アプリ56による独自に構成されたスマートフォンハードウェアの形で設けられるが、デスクトップコンピュータ、ラップトップ、またはタブレットコンピュータデバイスなど他の幾つかのタイプのコンピュータデバイスを等しく使用してよく、アプリ56により特殊なプログラミングが行われたバーチャル装置をハードウェアが有するクラウドコンピューティング環境において実装されてもよい。更に、汎用プロセッサを使用しない専用の咳嗽識別装置も構築されてよい。例えば、このような専用装置は、マイクロフォンと、患者のデジタル音声記録を電子メモリに記憶するように構成されるアナログデジタル変換回路構成とを含む音声キャプチャ構成を有してよい。メモリとの通信状態にあって、デジタル録音を処理することにより咳嗽音を潜在的に内含するデジタル音声つまり潜在的咳嗽音のセグメントを識別するように構成される潜在的咳嗽音識別アセンブリを、装置が更に含む。好ましくは、潜在的咳嗽音識別アセンブリは、国際公開第2018/141013号のLW2法を実装するように構成される。識別された咳嗽音声セグメントを画像表現に変換する音声セグメント・画像表現アセンブリが設けられてよい。専用の装置は更に、潜在的咳嗽音が確認済みの咳嗽音と非咳嗽音のいずれかであることを表す信号を発生させるハードウェア実装によるパターン分類器を含む。
患者52の記録時に咳嗽セグメントを識別するのに咳嗽識別装置51を使用して、アプリ56を構成する命令を包含する手順の実施形態が、図1のフローチャートに図示されており、これから詳細に記載される。
最初に臨床医54または別の介護者や患者39は、LCDタッチ画面インタフェース61でOS58により生成されたアプリ選択画面からアプリ56を選択する。この選択に応じて、プロセッサ53は、装置51を作動させてマイクロフォン75および音声インタフェース71を介して患者52からの録音39を開始するように臨床医54を促すために図3の画面82などの画面を表示する。音声インタフェース71は音をデジタル信号200に変換し、デジタル信号はバス57を伝搬され、プロセッサ53により1または複数のデジタルファイル50としてメモリ55および/または二次記憶SDカード64に記録される。ここに記載される好適な実施形態では、音声記録に存在する患者52の幾つかの咳嗽音を含むのに充分な期間にわたって記録が進められるべきである。
ボックス10で、プロセッサ53は音声ファイル50の潜在的咳嗽音(PCS:Potential Cough Sound)を識別する。本発明の好適な実施形態において、アプリ56は、咳嗽音の初期および後続の位相をそれぞれ検出するように訓練されたニューラルネットワークを好ましくは各々が有する第1の咳嗽音パターン分類器(CSPC1)62aと第2の咳嗽音パターン分類器(CSPC2)62bとを実装するようにプロセッサ53を構成する命令を含む。ゆえに、好適な実施形態において、プロセッサ53は、参照によりその開示全体が本明細書に援用される上述の国際公開第2018/141013号に記載されているLW2法を使用してPCSを識別する。潜在的咳嗽音を識別するための他の方法、例えば上述したアベイラトネその他(Abeyratne et al.)による国際公開第2013/142908号に記載されている方法がボックス10で代替的に使用されてもよい。
図4は、患者52から記録された音波50の一部分を示すグラフである。国際公開第2018/141013号に記載された方法の適用は、咳嗽音の第1の位相および第2の位相を認識するようにそれぞれ訓練された二つの訓練済みニューラルネットワークに音波の特徴を適用することを必要とする。第1のニューラルネットワークの出力は図4にライン54で示されており、音波の対応する部分が咳嗽音の第1の位相である可能性を表す信号を有する。第2のニューラルネットワークの出力は図4にライン52で示されており、音波の対応する部分が咳嗽音の後続の位相である可能性を表す信号を有する。第1および第2の訓練済みニューラルネットワークの出力54および52に基づいて、プロセッサ53は、セグメント68aおよび68bに位置する二つの潜在的咳嗽音66aおよび66bを識別する。
ボックス12で、プロセッサ53は、変数「現在PCS」を、既に識別された、つまりボックス10で「事前識別された」第1のPCSに設定する。
ボックス14で、プロセッサ53は、変数現在PCSに記憶された事前識別済みのPCSを変換して、メモリ55と二次記憶装置64のいずれかに記憶される対応する画像表現76を作成する。
この画像表現は、デジタル音声ファイルの現在咳嗽音の部分のスペクトログラムを有するか、これに基づいてよい。可能な画像表現は、メル周波数スペクトログラム(または「メルスペクトログラム」)と、連続ウェーブレット変換、およびデルタ特徴としても知られる時間次元でのこれら表現の導関数とを含む。結果的に、画像表現は、PCSの期間にわたる、例えば垂直軸上の周波数と例えば水平軸上の時間とに関係する。
ボックス14の1つの特定の実装形態の一例が図5に描かれている。最初にプロセッサ53は、デジタル音ファイル50の二つの潜在的咳嗽音(PCS:Potential Cough Sound)66a、66bを識別する。
プロセッサ53は、潜在的咳嗽音66a、66bを別々の咳嗽音声セグメント68a、68bとして識別する。そして別々の咳嗽音声セグメント68a、68bの各々が、この例ではN=5であるN個の等しい長さの重複ウィンドウ72a1,...72a5と72b1,...72b5に分割される。短い咳嗽セグメント、例えば咳嗽セグメント68aより若干短い咳嗽セグメント68bについては、セグメント部68bに使用される重複ウィンドウ72bは、セグメント部68aに使用される重複ウィンドウ72aよりも比例的に短い。
そして、プロセッサ53は、対応する画素値が得られるように、高速フーリエ変換(FFT:Fast Fourier Transform)と、N=5個のウィンドウの各々のM=5個のビンについてのメルビンごとのパワー値とを計算する。これらの操作を音波に実施するようにプロセッサを設定する機械可読命令が、アプリ56に含まれる。このような命令は、例えば、https://librosa.github.io/librosa/_modules/librosa/core/spectrum.html(2019年12月11日検索)で公開されている。
図5に図示されている例で、プロセッサ53は、各々がM=5個のメル周波数ビンを含むメルスペクトログラム74a、74bを、N=5個の重複ウィンドウ72a1,...72a5及び72b1,...72b5の各々から抽出する。
プロセッサ53は、スペクトログラム74a及び74bに記憶された値を連結および正規化して、それぞれ咳嗽音66a、66bを表す対応の方形メルスペクトグラム画像76a、76bを作成する。画像76a、76bの各々は8ビットのグレイスケールのM×Nの画像であって、M=Nである。
Nは正の整数値であってよく、あるNでは、音声インタフェース71のサンプリングレートに応じて元の音声に存在する全ての情報を咳嗽画像が内含し、これが望ましい。高いNに対応するようにFFTビンの数を増加させてよい。
図6aおよび図6bは、図5に記されたプロセスを使用して得られた患者音記録の非咳嗽セグメントの方形メルスペクトグラム画像であって、N=M=224である。この画像で、時間は左から右へ増加し、周波数は下から上へ増加する。濃色エリアは、メル周波数ビンの振幅の増加を指す。
対照的に、図7aおよび図7bは、咳嗽セグメント、例えばセグメント68a、68bの一方の方形メルスペクトログラム画像である。
図6a~図7bの画像は、本特許明細書の公開を目的として白黒画像に変換されるように閾値処理されている。
N=Mの場合にM個の周波数ビンについて各々が解析されたN個のセグメントから導出されたN×Mの画素である方形表現を使用すると好都合であるが、類似寸法の矩形画像を使用してCNN63が訓練されたと仮定すると、NがMに等しくない矩形表現を使用することも可能である。
ボックス14の検討により、ボックス14の手順を実施するようにアプリ56により構成されるプロセッサ53が、例えばボックス10で潜在的咳嗽音として既に識別された記録の音セグメントを対応する画像表現に変換するように構成される音声セグメント・画像表現アセンブリを有することが理解されるであろう。
図1に戻り、ボックス16で、プロセッサ53は、訓練済み畳み込みニューラルネットワーク(CNN)63の形の表現パターン分類器に画像表現、例えば画像76aを適用する。CNN63は、潜在的咳嗽音の画像表現が実際に咳嗽音、つまり確認済み咳嗽音(CCS:Confirmed Cough Sound)であるか否かを確認するように訓練される。CNN63は、0と1の間の範囲である出力確率信号を生成する表現パターン分類器を有し、1は、潜在的咳嗽音(PCS:Potential Cough Sound)が実際に咳嗽音である、故に確認済み咳嗽音である確実性を表し、0は、PCSが咳嗽音である可能性が無いことを表す。ボックス16での訓練済みニューラルネットワーク(CNN)の出力から確率値pがボックス18で得られる。ボックス20では、ボックス18で判断されたp値が、変数閾値に記憶された閾値と比較される。PCSがCCSより可能性が高いことをp値が表すと仮定すると、PCSがCCSであると見なされるように閾値は好ましくは0.5である。特定状況の要件に応じて、これより高いか低い閾値が所望通りに使用されてもよい。
ボックス20でpが閾値より大きい場合には、ボックス22で、例えば対応の音セグメントの開始および終了の時間を確認済み咳嗽音(CCS:Confirmed Cough Sound)の開始および終了の時間として記録することにより、プロセッサ53は、現在PCSがCCSであるとのフラグ付けを行う。
p値が閾値より大きくない場合には、PCSはCCSではないとフラグ付けされる。そして制御は、決定ボックス24に進む。決定ボックス24では、プロセッサ53は、処理されるべきPCSがまだあるかどうかをチェックする。識別されるべきPCSがまだあるとボックス10で識別された場合には、ボックス26で、可変の現在PCSが次の識別済みPCSとして設定され、制御はボックス14へ進んで、ここで既に記載されたボックス14から22が反復される。ボックス24で処理されるべきPCSがもうない場合には、制御はボックス28へ進み、ここで、プロセッサ53は、図8に示された画面78を表示するように、プロセッサ53に対応するLCDタッチ画面インタフェース61の形のディスプレイを作動させる。画面78は、処理されたPCSの数とCCSであることが分かった数とを提示する。臨床医54が所望であればスピーカ77を介して聴取できるように、各CCSの開始および終了の時間も提示される。
図9は、CNN訓練ソフトウェア140に従って設定されたデスクトップコンピュータの1または複数のプロセッサおよびメモリを使用して実装されるCNN訓練装置133のブロック図である。CNN訓練装置133は、1または複数の内蔵マイクロプロセッサ(CPU)135に電力供給してこれと相互作用を行う回路構成を含むメインボード134を含む。
メインボード134は、マイクロプロセッサ135と二次メモリ147との間のインタフェースとして作用する。二次メモリ147は、1または複数の光学または磁気、あるいはソリッドステートのドライブを備えてよい。二次メモリ147は、オペレーティングシステム139の為の命令を記憶する。メインボード134は、RAM(Random Access Memory)150ROM(Read Only Memory)143とも通信する。ROM143は一般的に、起動時にマイクロプロセッサ135がアクセスするとともにオペレーティングシステム139をロードするためにマイクロプロセッサ135を用意するBIOS(Basic Input Output System)あるいはUEFI(Unified Extensible Firmware Interface)のような起動ルーチンについての命令を記憶する。例えば、Microsoft Windows(登録商標)とUbuntu Linux(登録商標)デスクトップは、このようなオペレーティングシステムの二つの例である。
メインボード134は、ディスプレイ147を駆動するための統合グラフィックアダプタも含む。メインボード133は一般的に、通信アダプタ153、例えばサーバ133をデータネットワークとのデータ通信状態にするLANアダプタ、モデム、あるいはシリアルまたはパラレルポートを含む。
CNN訓練装置133のオペレータ167は、キーボード149、マウス121、およびディスプレイ147によってこの装置との相互作用を行う。
オペレータ167は、オペレーティングシステム139を作動させてソフトウェア製品140をロードしてよい。ソフトウェア製品140は、ディスクドライブ152による読み取りの為に光学ディスク157などのコンピュータ可読媒体に担持される有形の非一時的機械可読命令159とし用意され得る。代替的に、ポート153を介してダウンロードされてもよい。
二次記憶装置147は、本発明の実施形態によるCNN訓練ソフトウェア製品140であるソフトウェア製品140も含む。CNN訓練ソフトウェア製品140は、図10に図示されている方法を実装するCPU135(または代替的および集合的に「プロセッサ135」と呼ばれる)の為の命令から成る。
最初に、図10のボックス192で、プロセッサ135は、ここに記載される実施形態では70,000個の咳嗽セグメントおよび非咳嗽セグメントから構成される訓練患者音声データ集合を検索する。メタデータは訓練ラベル、つまり各セグメントが実際に咳嗽であるか否かを含む。
ボックス196で、プロセッサ135は、図1のボックス14で既に検討されたのと同じように非咳嗽事象と咳嗽事象とを画像として表現し、各潜在的咳嗽音(PCS:Potential Cough Sound)を表現するようにメルスペクトログラム画像が作成される。
ボックス198で、プロセッサ135は、続いて、畳み込みニューラルネット(CNN)を訓練するための追加訓練例を形成するようにボックス196で作成された各画像を変換する。CNNは非常にパワフルな学習手段であって、限定数の訓練画像により訓練例を記憶してモデルを過剰適合となりうるので、ボックス198でのこのデータ拡張ステップは好ましい。発明者らは、前もって確認されていないデータではこのようなモデルがうまく一般化されないことに気付いた。適用される画像変換は、小規模のランダムズーミング、クロッピング、そしてコントラスト変化を含むが、これらに限定されるわけではない。
ボックス200で、プロセッサ135は、ボックス198で作成された咳嗽および非咳嗽の拡張画像と元の訓練ラベルとによりCNN142を訓練する。ドロップアウトと荷重減衰とバッチ正規化などの正規化技術を使用して、CNN142の過剰適合が更に低減される。
CNN142を作成するのに使用されるプロセスの一例は、ResNet-18のようなショートカットコネクションを含む残差ネットワークである事前訓練済みのResNetモデルを入手し、モデルの畳み込み層をバックボーンとして使用し、咳嗽識別の問題領域に適合する層で最終的な非畳み込み層を置換することである。これらは全結合隠れ層、ドロップアウト層、そしてバッチ正規化層を含む。ResNet-18についての情報は、http://www.mathworks.com/help/deeplearning/ref/resnet18.html(2019年12月2日に検索)で入手可能であり、その開示は参照により本明細書に援用される。ResNet-18は、イメージネット(ImageNet)データベース(http://www.image-net.org)からの百万以上の画像で訓練された畳み込みニューラルネットワークである。ネットワークには18層の奥行があり、キーボード、マウス、鉛筆、そして多くの動物など1000個の物体カテゴリに画像を分類できる。その結果、ネットワークは広範囲の画像についての豊富な特徴表現を学習している。ネットワークは224×224の画素の画像入力サイズを有する。
ResNet-18層を固定して新たな非畳み込み層のみを訓練するだけで充分であるが、しかしながらResNet-18層と新たな非畳み込み層の両方を再訓練して作業モデルを得るのも可能であることを、発明者らは発見した。0.5の固定ドロップアウト比が好ましくは使用される。適応オプティマイザとして好ましくはADAM(Adaptive Moment Estimation)が使用されるが、他のオプティマイザ技術も使用されてよい。
ボックス202で、ボックス196からの元の咳嗽および非咳嗽の(非拡張)画像がCNN142に適用され、そして今度は各々の確率に対応するようにCNNが訓練される。
そして訓練済みCNNが、CNN63である咳嗽識別アプリ56の一部としてのCNN63として配布される。
図1の方法の成果を検査するために、発明者らは48471件の咳嗽と19260件の非咳嗽のデータ集合を展開した。LW2アルゴリズムにより咳嗽として間違ってフラグ付けされた事象から、データ集合の非咳嗽音が明確に選択された。
この集合の75%は重度咳嗽IDについてCNN142を訓練するのに使用され、残りの25%(12225件の咳嗽と4707件の非咳嗽)が検査集合として使用された。
LW2を使用して、12225件の咳嗽(PCS)が識別され、一方で4707件の非咳嗽事象が偽陽性であった(つまりこれらはLW2では咳嗽であったが、更なる研究からこれらが咳嗽ではないことが明らかになった)。LW2の後で重度咳嗽IDが使用された時に、12223件の咳嗽が識別され(つまり2件の咳嗽が偽陰性であって間違って分類され)、4663件の非咳嗽事象がここでは正しく分類され(否定され)、これらの非咳嗽事象のうち44件のみが咳嗽として間違って分類された。
試験集合に対する図1の方法の成果の要約が、表1に提示されている。
本発明の実施形態では、国際公開第2018/141013号の主題である先行技術のLW2法よりも25%を超える精度向上が結果的に得られることが、上の表から観察されるであろう。
要約すると、一態様において、患者52のデジタル音ファイル50などの音声記録の咳嗽音66a、66bなど咳嗽音を識別するための方法が提供される。この態様の方法は、少なくとも一つの電子プロセッサ53を作動させて、例えば図4に関して記載されたLW2手順を使用することにより音声記録52の潜在的咳嗽音を識別すること(図1のボックス10)を含むが、LW2手順に限定されるわけではない。この方法はまた、電子プロセッサ53を作動させて、1または複数の潜在的咳嗽音を、画像表現76a、76b(図5)など対応の一以上の画像表現に変換すること(図1のボックス14)含む。
電子プロセッサ53は、潜在的咳嗽音が咳嗽音であるか咳嗽音ではないことを確認する(図1のボックス18)ように訓練された表現パターン分類器63(図2)に1または複数の画像表現76a、76bを適用するように作動する。この方法は、少なくとも1つの電子プロセッサ53を作動させて、表現パターン分類器63の出力に基づいて、1または複数の潜在的咳嗽音を確認済みの咳嗽音としてフラグ付けすること(図1のボックス22)を含む。
別の態様では、患者の咳嗽音を識別するための装置が記載されている。この装置は、患者52のデジタル音声記録50をキャプチャしてメモリ55または二次記憶装置64などの電子メモリに記憶するようにアプリ56により構成されるプロセッサ53と、例えばマイクロフォン75(図2)と音声インタフェース71とから構成される音声キャプチャ構成を含む。
装置は、事前識別済みの潜在的咳嗽音を対応する画像表現に変換するように構成される音セグメント・画像表現アセンブリを有する。例えば、音セグメント・画像表現アセンブリは、例えばボックス10で潜在的咳嗽音として既に識別された記録の音セグメントを対応する画像表現に変換するように構成された、ボックス14(図1)の手順を実施するようにアプリ56により構成されるプロセッサ53を有してよい。
装置は、画像表現を処理することにより事前識別済みの潜在的咳嗽音に対応する画像表現が確認済みの咳嗽音である確率を表す信号を発生させるように構成される音セグメント・画像表現アセンブリとの通信状態にある表現パターン分類器も含む。表現パターン分類器は、潜在的咳嗽音の画像表現が実際には咳嗽音つまり確認済みの咳嗽音(CCS:Confirmed Cough Sound)であるかどうかを確認するように訓練された訓練済み畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)63の形であってよい。
法を順守して、本発明は多かれ少なかれ構造又は方法の特徴について固有の言語で記載されている。「有する(comprises)」と、「有する(comprising)」および「から成る(comprised of)」などその変形は、追加特徴を除外する為ではなく包括的な意味で終始使用される。
本明細書に記載の手段は発明を実行する好適な形態を包含するので、図示及び記載された特定の特徴に発明が限定されないことが理解されるはずである。それゆえ本発明は、当業者により適切に解釈される添付請求項の適正な範囲内の形態又変形のいずれでも請求される。
明細書及び請求項(存在する場合に)を通して、文脈上それ以外が必要とされない限り、「実質的に(substantially)」または「約(about)」の語は、これらの語により定性化される範囲の値に限定されないことが理解されるであろう。
本発明の実施形態は例示的であることのみを意図したものであり、発明を限定することは意図されていない。それゆえ、本発明の趣旨及び範囲を逸脱することなく記載の実施形態に対して他の様々な変更及び変形が行われることが認識されるべきである。
Claims (30)
- 患者の音声記録における咳嗽音を識別するための方法であって、
少なくとも1つの電子プロセッサを動作させて、前記音声記録における潜在的咳嗽音を識別することと、
前記少なくとも1つの電子プロセッサを動作させて、1または複数の前記潜在的咳嗽音を、対応する1または複数の画像表現に変換することと、
前記少なくとも1つの電子プロセッサを動作させて、前記1または複数の画像表現を、潜在的咳嗽音が咳嗽音である、または咳嗽音でないことを確認するために訓練済みの表現パターン分類器に適用することと、
前記少なくとも1つの電子プロセッサを動作させて、前記表現パターン分類器の出力に基づいて、確認済みの咳嗽音として、1または複数の前記潜在的咳嗽音にフラグ付けを行うことと、
を有する方法。 - 前記プロセッサを動作させて、前記1または複数の音声を前記画像表現に変換することを含み、
前記画像表現は、周波数と時間に関連する、請求項1に記載の方法。 - 前記1または複数の画像表現は、スペクトログラムを含む、請求項1または2に記載の方法。
- 前記1または複数の画像表現は、メルスペクトログラムを含む、請求項3に記載の方法。
- 前記プロセッサを動作させて、咳嗽音の初期および後続の位相をそれぞれ検出するために訓練済みの第1および第2の咳嗽音パターン分類器を用いて、前記音声記録の咳嗽音セグメントとして、前記潜在的咳嗽音を識別することを含む、請求項1から4のいずれか一項に記載の方法。
- 前記1または複数の画像表現は、N×Mの画素の寸法を有し、前記咳嗽音セグメントそれぞれのN個のウィンドウを処理する前記プロセッサによって形成され、
前記N個のウィンドウのそれぞれは、M個の周波数ビンにて解析される、請求項5に記載の方法。 - N個のウィンドウは、前記N個のウィンドウのうちの少なくとも1つの他のウィンドウと重複する、請求項6に記載の方法。
- 前記ウィンドウの長さは、その関連付けられた咳嗽音セグメントの長さに比例する、請求項7に記載の方法。
- 前記プロセッサを動作させて、FFT(Fast Fourier Transform)および周波数ビンごとのパワー値を算出し、前記1または複数の画像表現のうちの前記対応する画像表現の対応するパワー値を得ることを含む、請求項8に記載の方法。
- 前記プロセッサを動作させて、前記M個の周波数ビンのそれぞれに対するパワー値である、M個のパワー値の形にて周波数ビンごとのパワー値を計算することを含む、請求項9に記載の方法。
- 前記M個の周波数ビンは、M個のメル周波数ビンを含み、
前記プロセッサを動作させて、前記方法は、前記M個のパワー値を連結および正規化し、メルスペクトログラムの形にて前記対応する画像表現を処理することを含む、請求項9または10に記載の方法。 - 前記画像表現は、正方形であり、
MはNに等しい、請求項6から11のいずれか一項に記載の方法。 - 前記表現パターン分類器は、ニューラルネットワークを含む、請求項1から12のいずれか一項に記載の方法。
- 前記ニューラルネットワークは、CNN(Convolutional Neural Network)である、請求項13に記載の方法。
- 前記プロセッサを動作させて、前記表現パターン分類器の出力を含むまたは基づく確率値と、所定の閾値とを比較することを含む、請求項1から14のいずれか一項に記載の方法。
- 前記プロセッサを動作させて、前記確率値が前記所定の閾値を超えた場合、確認済みの咳嗽音として、1または複数の前記潜在的咳嗽音にフラグ付けを行うことを含む、請求項1に記載の方法。
- 前記プロセッサを動作させて、確認済みの咳嗽音の開始および終了の時間であるとして、前記対応する咳嗽音セグメントの開始および終了の時間を記録することにより、前記確認済みの音声をフラグ付けすることを含む、請求項16に記載の方法。
- 前記プロセッサを動作させて、前記プロセッサに応答するディスプレイ上にてスクリーンを生成することを含み、
前記スクリーンは、処理された潜在的咳嗽音の数、および、確認済みの咳嗽音の数を示す、請求項1から17のいずれか一項に記載の方法。 - 患者の咳嗽音を識別するための装置であって、
患者のデジタル音声記録を、電子メモリに格納する、音声キャプチャ構造と、
予め識別された潜在的咳嗽音を、対応する画像表現に変換する、音声セグメントから画像表現へのアセンブリと、
前記音声セグメントから画像表現へのアセンブリとコミュニケーションをとる表現パターン分類器であって、前記画像表現を処理し、確認済みの咳嗽音である、前記予め識別された潜在的咳嗽音に対応する前記画像表現の確率を示す信号を処理する、表現パターン分類器と、
を有する装置。 - 前記デジタル音声記録の部分を識別し、それにより前記予め識別された潜在的咳嗽音を処理するように訓練済みの1または複数の咳嗽音分類器を含む、請求項19に記載の装置。
- 前記1または複数の咳嗽音分類器は、咳嗽音の最初と後続の位相をそれぞれ検出するために訓練された第1の咳嗽音パターン分類器と第2の咳嗽音パターン分類器を含む、請求項20に記載の装置。
- 前記第1の咳嗽音パターン分類器と前記第2の咳嗽音パターン分類器はそれぞれ、ニューラルネットワークを含む、請求項19から21のいずれか一項に記載の装置。
- 前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音を、スペクトログラムを含む対応する画像表現に変換するように構成される、請求項19から25のいずれか一項に記載の装置。
- 前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音に対して、高速フーリエ変換およびM個のビンごとのパワーを計算することにより、対応する画像表現へ変換するように構成される、請求項23に記載の装置。
- 前記音声セグメントから画像表現へのアセンブリは、前記予め識別された潜在的咳嗽音をスペクトログラムへ変換するように構成される、請求項24に記載の装置。
- 前記スペクトログラムは、メルスペクトログラムを含む、請求項25に記載の装置。
- 前記電子メモリとコミュニケーションをとる少なくとも1つの電子プロセッサを含み、
前記プロセッサは、前記電子メモリに格納された命令により、前記音声セグメントから画像表現へのアセンブリを実装するように構成される、請求項19から26のいずれか一項に記載の装置。 - 前記少なくとも1つの電子プロセッサは、前記電子メモリに格納された命令により、前記表現パターン分類器を実装するように構成される、請求項27に記載の装置。
- 前記少なくとも1つの電子プロセッサは、前記電子メモリに格納された命令により、前記潜在的咳嗽音を識別するように構成された少なくとも1つの咳嗽音パターン分類器を実装するように構成される、請求項27または28に記載の装置。
- 前記少なくとも1つの電子プロセッサは、前記電子メモリに格納された命令により、前記潜在的咳嗽音を識別するように構成された第1の咳嗽音パターン分類器および第2の咳嗽音パターン分類器を実装するように構成される、請求項29に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2019904755 | 2019-12-16 | ||
AU2019904755A AU2019904755A0 (en) | 2019-12-16 | Method and apparatus for automatic cough detection | |
PCT/AU2020/051383 WO2021119743A1 (en) | 2019-12-16 | 2020-12-16 | Method and apparatus for automatic cough detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023507343A true JP2023507343A (ja) | 2023-02-22 |
Family
ID=76476530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022536864A Pending JP2023507343A (ja) | 2019-12-16 | 2020-12-16 | 咳嗽自動検出のための方法および装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230039619A1 (ja) |
EP (1) | EP4076177A4 (ja) |
JP (1) | JP2023507343A (ja) |
CN (1) | CN115023183A (ja) |
AU (1) | AU2020404447A1 (ja) |
CA (1) | CA3164373A1 (ja) |
MX (1) | MX2022007501A (ja) |
WO (1) | WO2021119743A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230244996A1 (en) * | 2022-01-31 | 2023-08-03 | Johnson Controls Tyco IP Holdings LLP | Auto adapting deep learning models on edge devices for audio and video |
WO2024163390A1 (en) * | 2023-01-31 | 2024-08-08 | Hyfe Inc | Methods for automatic cough detection and uses thereof |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118054A1 (en) * | 2005-11-01 | 2007-05-24 | Earlysense Ltd. | Methods and systems for monitoring patients for clinical episodes |
EP1898786B1 (en) * | 2005-06-03 | 2011-03-30 | South Manchester University Hospitals NHS Trust | A method for generating output data |
EP2299910B1 (en) * | 2008-06-17 | 2016-08-03 | Koninklijke Philips N.V. | Acoustical patient monitoring using a sound classifier and microphones |
WO2013142908A1 (en) * | 2012-03-29 | 2013-10-03 | The University Of Queensland | A method and apparatus for processing patient sounds |
EP3097847A1 (en) * | 2015-05-28 | 2016-11-30 | Nitetronic Holding Limited | Wearable device and system for stopping airway disorders including such a wearable device |
DK3566225T3 (da) * | 2017-02-01 | 2021-05-31 | Resapp Health Ltd | Metode og apparat til detektering af hoste i baggrunden |
-
2020
- 2020-12-16 CN CN202080094651.5A patent/CN115023183A/zh active Pending
- 2020-12-16 WO PCT/AU2020/051383 patent/WO2021119743A1/en unknown
- 2020-12-16 US US17/757,545 patent/US20230039619A1/en active Pending
- 2020-12-16 JP JP2022536864A patent/JP2023507343A/ja active Pending
- 2020-12-16 CA CA3164373A patent/CA3164373A1/en active Pending
- 2020-12-16 AU AU2020404447A patent/AU2020404447A1/en active Pending
- 2020-12-16 EP EP20902253.2A patent/EP4076177A4/en active Pending
- 2020-12-16 MX MX2022007501A patent/MX2022007501A/es unknown
Also Published As
Publication number | Publication date |
---|---|
CN115023183A (zh) | 2022-09-06 |
MX2022007501A (es) | 2022-09-07 |
US20230039619A1 (en) | 2023-02-09 |
CA3164373A1 (en) | 2021-06-24 |
EP4076177A4 (en) | 2023-12-20 |
WO2021119743A1 (en) | 2021-06-24 |
EP4076177A1 (en) | 2022-10-26 |
AU2020404447A1 (en) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11996091B2 (en) | Mixed speech recognition method and apparatus, and computer-readable storage medium | |
JP6198872B2 (ja) | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 | |
US10540988B2 (en) | Method and apparatus for sound event detection robust to frequency change | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
US10397266B1 (en) | Verifying that the influence of a user data point has been removed from a machine learning classifier | |
CN112183099A (zh) | 基于半监督小样本扩展的命名实体识别方法及系统 | |
WO2023283823A1 (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
US20200125836A1 (en) | Training Method for Descreening System, Descreening Method, Device, Apparatus and Medium | |
JP2023507343A (ja) | 咳嗽自動検出のための方法および装置 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
JP5955925B2 (ja) | カスケード式のオーバ・コンプリート・ディクショナリに基づいた画像認識システム | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
US10956792B2 (en) | Methods and apparatus to analyze time series data | |
JP2023507344A (ja) | 患者音からの呼吸器疾患の診断 | |
EP4014461A1 (en) | Methods and apparatus for malware detection using jar file decompilation | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
KR20220053475A (ko) | 전자 장치 및 이의 제어 방법 | |
CN115641856B (zh) | 一种语音的重复音频检测方法、装置及存储介质 | |
CN113823271B (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
KR20200061830A (ko) | 안드로이드 애플리케이션의 주요부분을 패턴화한 멀웨어 탐지 분류 방법 및 시스템 | |
US20240135950A1 (en) | Sound source separation method, sound source separation apparatus, and progarm | |
JP2022086961A (ja) | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
Warke et al. | AI Formed Audio and Human Audio Detection | |
WO2024144996A1 (en) | System and method for detecting and preventing model inversion attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230904 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20240705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240903 |