JP2023538287A - 呼吸器症候群を検出するためのアンサンブル機械学習モデル - Google Patents
呼吸器症候群を検出するためのアンサンブル機械学習モデル Download PDFInfo
- Publication number
- JP2023538287A JP2023538287A JP2023508076A JP2023508076A JP2023538287A JP 2023538287 A JP2023538287 A JP 2023538287A JP 2023508076 A JP2023508076 A JP 2023508076A JP 2023508076 A JP2023508076 A JP 2023508076A JP 2023538287 A JP2023538287 A JP 2023538287A
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- learning model
- user
- machine
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 69
- 230000000241 respiratory effect Effects 0.000 title description 8
- 208000011580 syndromic disease Diseases 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 54
- 206010011224 Cough Diseases 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 27
- 241000711573 Coronaviridae Species 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 208000015181 infectious disease Diseases 0.000 claims description 16
- 208000023504 respiratory system disease Diseases 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 10
- 229910052760 oxygen Inorganic materials 0.000 claims description 10
- 239000001301 oxygen Substances 0.000 claims description 10
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 9
- 239000008280 blood Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 210000003608 fece Anatomy 0.000 claims description 2
- 210000003097 mucus Anatomy 0.000 claims description 2
- 210000002700 urine Anatomy 0.000 claims description 2
- 210000004916 vomit Anatomy 0.000 claims description 2
- 230000008673 vomiting Effects 0.000 claims description 2
- 210000003491 skin Anatomy 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000005259 measurement Methods 0.000 abstract description 7
- 208000025721 COVID-19 Diseases 0.000 description 35
- 238000005516 engineering process Methods 0.000 description 24
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 238000003860 storage Methods 0.000 description 12
- 201000010099 disease Diseases 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 208000001528 Coronaviridae Infections Diseases 0.000 description 7
- 230000004913 activation Effects 0.000 description 7
- 238000001994 activation Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000007637 random forest analysis Methods 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 206010037660 Pyrexia Diseases 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 208000000112 Myalgia Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000037007 arousal Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 208000013465 muscle pain Diseases 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000000954 anitussive effect Effects 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100032202 Cornulin Human genes 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 201000005702 Pertussis Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 235000003407 Sigesbeckia orientalis Nutrition 0.000 description 1
- 240000003801 Sigesbeckia orientalis Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 229940124584 antitussives Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- ZZVUWRFHKOJYTH-UHFFFAOYSA-N diphenhydramine Chemical compound C=1C=CC=CC=1C(OCCN(C)C)C1=CC=CC=C1 ZZVUWRFHKOJYTH-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000416 exudates and transudate Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000422 nocturnal effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
1つ以上のプロセッサにより、複数の患者レコードを含むデータセットを取得する工程と、機械学習システムへの入力のための前記複数のパラメータのサブセットを選択する工程と、トレーニングデータおよび前記入力のための前記複数のパラメータのサブセットに基づいて、前記機械学習システムを使用して分類器を生成する工程と、1つ以上のプロセッサにより、第1のユーザの患者レコードを受信する工程と、1つ以上のプロセッサにより、分析を実行して、第1のユーザの音声サンプルから音響測定値を特定する工程と、を備えるプロセスを提供する。
Description
(関連出願の相互参照)
本出願は、米国特許仮出願第63/060,297号、出願日:2020年8月3日、発明の名称「呼吸器症候群を検出するアンサンブル機械学習モデル」、および、米国特許仮出願第63/117,394号、出願日:2020年11月23日、発明の名称:「咳から新型コロナウイルス感染症をAI検出するための、クラウドソーシングによるデータセットおよび臨床データセットの大陸横断的な適用性」に基づく優先権を主張する。上記出願の全内容はあらゆる目的で参照により本明細書に組み込まれる。
本出願は、米国特許仮出願第63/060,297号、出願日:2020年8月3日、発明の名称「呼吸器症候群を検出するアンサンブル機械学習モデル」、および、米国特許仮出願第63/117,394号、出願日:2020年11月23日、発明の名称:「咳から新型コロナウイルス感染症をAI検出するための、クラウドソーシングによるデータセットおよび臨床データセットの大陸横断的な適用性」に基づく優先権を主張する。上記出願の全内容はあらゆる目的で参照により本明細書に組み込まれる。
本開示は、一般に、感染を検出するコンピュータモデルに関し、より具体的には、呼吸器ウイルスおよびその他の病原体に感染した個人を検出するための機械学習モデルに関する。
新型コロナウイルスが流行し、世界中で7300万人以上の新型コロナウイルス感染症患者が発見されている。同時に、新型コロナウイルス感染症の臨床診断は、人々、特に新型コロナウイルス感染症の医療機関が少ない遠方の人々にとって、時間の浪費と経済的な負担を強いることになる。
以下は、本技術のいくつかの態様を非網羅的に列挙したものである。これらおよびその他の態様は、以降の開示に記載されている。
本発明の幾つかの態様は、コンピュータ実装される方法を提供する。方法は、1つ以上のプロセッサにより、複数の患者レコードを含むデータセットを取得する工程を備え、患者レコードはそれぞれ、患者についての複数のパラメータおよび対応する値を含み、前記患者についての複数のパラメータおよび対応する値は、咳、呼吸または発話のような患者の音声雑音の音声ファイルを含み、前記データセットは、新型コロナウイルス感染症と診断されたか否かを示す診断情報を含み、前記方法は更に、機械学習システムへの入力となる、前記複数のパラメータのサブセットを選択する工程を備え、前記複数のパラメータの前記サブセットは、前記患者についての少なくとも2つのパラメータおよび対応する値を含み、前記複数のパラメータの前記サブセットのパラメータのうちの一つは、患者の咳の前記音声ファイルであり、前記方法は、前記データセットを、トレーニングデータおよび検証データへと分割する工程と、トレーニングデータおよび前記入力のための前記複数のパラメータのサブセットに基づいて、前記機械学習システムを使用して分類器を生成する工程と、1つ以上のプロセッサにより、第1のユーザの患者レコードを受信する工程と、1つ以上のプロセッサにより、分析を実行して、第1のユーザの音声サンプルから音響測定値を特定する工程と、前記分類器を用いて、前記第1のユーザの前記音声サンプルの特定された前記音響測定値に基づいて、前記第1のユーザの新型コロナウイルス感染の可能性を決定する工程と、前記第1のユーザの新型コロナウイルス感染の前記可能性を出力する工程と、を備える。
いくつかの態様は、データ処理装置によって実行されると、データ処理装置に上述のプロセスを含む動作を実行させる命令を記憶する有形かつ非一時的な機械可読媒体を提供する。
いくつかの態様は、1つ以上のプロセッサと、命令を記憶するメモリと、を備え、前記命令が前記1つ以上のプロセッサの少なくとも一部よって実行されると、上記のプロセスの処理が実行される、システムを提供する。
本技術の上述の態様およびその他の態様は、本願を、以下の図を参照して読めば、よりよく理解されるであろう。これらの図において、同一番号は類似または同一の要素を示す。
本発明の技術は、様々な変更や代替の形態が可能であるが、その具体的な実施形態が図面に例として示されており、本明細書で詳細に説明される。図面は実際の縮尺通りでない場合もある。ただし、図面およびそれに基づく詳細な説明は、開示された特定の形態に本技術を限定することを意図したものではなく、逆に、添付の請求項によって定義される本技術の趣旨および範囲内に入るすべての修正、均等物、および代替物を網羅することを意図したものであることを理解すべきである。
本書に記載されている問題を軽減するために、本発明者らは解決策を考案しなければならなかったが、場合によっては、同様に重要なこととして、機械学習分野の他の人々が見落としていた(あるいはまだ予見されていない)問題を認識しなければならなかった。実際、本発明者らは、初期段階にある問題を認識することの難しさを強調したいと考えている。これらの問題は、本発明者らが期待するように産業界の動向が継続した場合、将来的にははるかに明白になるであろう。さらに、対処する問題が複数あるため、いくつかの実施形態はいずれかの問題に特化しており、すべての実施形態が本明細書に記載されている従来のシステムの問題のすべてに対処しているわけでも、本明細書に記載されているすべての利点を提供しているわけでもないことを理解すべきである。つまり、これらの問題の様々な順列を解決する改良が以下に記載されている。
機械学習アルゴリズムは、人の新型コロナウイルス感染症の状態を事前に示すことができる強力なツールとなる可能性がある。いくつかの実施形態では、スマートフォンで取得した音声や画像から新型コロナウイルス感染を正確に推測するために、そのようなモデルを実装する。スマートフォンの使用率は高く、経済的に恵まれない地域でも継続的に上昇していることから、これらのデバイスは、呼吸器の音声記録を収集し、音声に基づく新型コロナウイルス感染症検査を実施するための汎用的で低コストの理想的なプラットフォームとなることが期待される。とはいえ、本技術は、その他のプラットフォーム、例えば、公共のキオスク、デスクトップコンピュータ、リモートクライアントデバイスから同様のデータを受信するサーバ等でも使用できる。
コンピュータに実装される新型コロナウイルス感染症音声解析のいくつかの形態は、単一チャネルの情報、例えば、もっぱら音声に限定されることが多く、より広い特徴のセットおよび適切なアンサンブルモデルで達成可能と予測される精度および特異度よりも、低い精度および特異度となる。
いくつかの実施形態では、最終的なモデルのトレーニング(トレーニング中の場合)または推論(例えば、新型コロナウイルス感染を示すものとして入力セットを分類する)の前に、ネイティブアプリケーションは、前処理、フィルタリングおよび特徴抽出を受ける生のデータまたは入力で動作してもよい。いくつかの実施形態は、複数の(場合によっては異種の)機械学習モデルをアンサンブルし、音声以外の多くのチャンネルの入力から分類をトレーニングおよび推論する。あるいは、いくつかの実施形態は、音声のみで動作してもよい。いくつかの実施形態では、機械学習モデルは、入力データの複数のチャンネルを融合して動作してもよい。音声については、例えば、いくつかの実施形態では、深層ニューラルネットワークをトレーニングするためにメル周波数セプストラル係数(MFCC)とメルスペクトログラムの両方を使用する。また、別の実施形態では、アンサンブル機械学習モデルにおいて画像からCOVID関連特徴を推論するために、このモデルの出力を、コンピュータビジョンモデルの出力と組み合わせてもよい。
いくつかの実施形態は、スマートフォン上で実行され(例えば、専らモノリシックアプリケーションとしてまたは一部がリモートサーバ上で実行される分散アプリケーションの一部として)、ユーザに関する複数チャンネルのデータを取得する、そのような例は以下に説明される。別の例では、音声または画像はその他のソースから取得されてもよく、例えば、コールセンターに電話をかけるユーザの通話、または、音声ベースのデジタルアシスタントのスマートスピーカまたはその他のホストから取得されてもよい。そのようなソースも、本目的のユーザのモバイルコンピュータデバイスの例となる。いくつかの実施形態は、新型コロナウイルス感染症の状態(またはその他の症候群)の分類(例えば、ローカルでまたはリモートサーバによって実行)を、リアルタイム(例えば、データ取得から1分以内または10分以内)で応答する。いくつかの実施形態では、スマートフォンに存在するセンサのハードウェアを使用する。いくつかの実施形態は、単一のモダリティテストを利用し、他の実施形態は、アンサンブル手法として様々なモダリティを組み合わせて、精度(例えば、感度、特異度、タイプ1エラー、タイプ2エラーまたはF2スコアによって測定)を上げる。いくつかの実施形態では、スマートフォン上のネイティブアプリケーションのユーザインターフェースを介して、アンサンブルモデルに供給する様々な上流サブモデルへの入力が取得される様々なアクションをユーザに実行するよう求めてもよい。例えば、テキストアンケートに記入する、電話のマイクに向かって呼吸するまたはせき込む、マイクの可聴範囲で話す、指、その他の付属器官、顔またはその他の身体排出物(例えば、便、唾液、血液、粘液等)の動画または写真を撮る、ウェアラブルデバイス(手首に装着するパルスオキシメータ、慣性計測装置(歩数計等)、心拍センサ、温度モニタ等)からのデータ取得を許可することが含まれる。
図1は、本技術が実施され得るコンピュータシステム100内で動作する、コントローラ12の一例の概略的なブロック図である。様々に異なるコンピュータアーキテクチャが考えられる。そのため、「コンピュータシステム」という用語は、単一のコンピュータデバイス(例えば、スマートフォンまたはサーバであり得る)およびコンピュータデバイスの集まり(例えば、各デバイスがコンピュータシステムによって実行されるタスクの異なるサブセットを実行する、スマートフォンおよびマイクロサービスアーキテクチャにおける複数の異なるサーバの両方を含み得る)に対する総称として使用するものとする。いくつかの実施形態では、コントローラ12のコンポーネントの一部または全部は、異なるエンティティによってホストされてもよく、例えば、クライアント-サーバアーキテクチャにおいて、モデルのトレーニングまたは推論がサーバ側で実行され、クライアント側であるスマートフォンからデータが取得される。場合によっては、モデルはサーバ側でトレーニングが行われるが、推論は、ネイティブアプリケーションにダウンロードされたトレーニング済みモデルを使用してクライアント側で実行されてもよい。いくつかの実施形態では、コントローラ12およびその構成要素は、例えば、モノリシックアプリケーションとして実装され、図示された様々な構成要素が、例えば、関数呼び出しを介して互いに通信する異なるソフトウェアモジュールまたはプロセスとして実装されてもよく、場合によっては、複数の構成要素の一部または全てが、単一のコンピュータデバイス上で同時に実行される異なる複数のプロセスとして実装されてもよい。いくつかの実施形態では、図示された構成要素の一部または全ては、異なるネットワークホスト上で実行される別個のサービスとして実装されてもよく、これらホストは、例えば、異なるサービスそれぞれのアプリケーションプログラムインターフェースに従って、ホスト各自のネットワークスタックを介して交換されるメッセージを介して互いに通信する。
いくつかの実施形態では、コンピュータシステム100は、複数のソースデータセット10を使用してモデルをトレーニングすることができ、コントローラ12は、スマートフォンのようなコンピュータデバイスにユーザインターフェース18を提示させてもよい。いくつかの実施形態では、コントローラ12は、複数のモダリティ分類器16(例えば、咳分類器、深呼吸分析、時間データ分析、顔動画、指先動画および生体画像)を有する人工知能(AI)モジュール14(機械学習モデルを実装するもの等)を備えてもよい。分類器16は感染していることが示されたか否かに従って入力を分類するように動作可能であってもよい、または、分類器16のいくつかの実施形態は、アンサンブルモデルによるダウンストリーム処理のために入力から特徴を抽出してもよい。
いくつかの実施形態では、コントローラ12は、図2を参照して以下に説明するプロセス200を実行するように構成され得る。いくつかの実施形態では、このプロセス200の異なる複数のサブセットがコントローラ12の図示された構成要素によって実行されてもよく、それらの特徴は、本明細書で同時に説明される。プロセス200の実施形態は、図1のアーキテクチャによる実装に限定されず、図1のアーキテクチャは、図2を参照して説明されるものとは異なるプロセスを実行してもよく、いずれも、本明細書のその他の説明が限定的であることを示唆するものではない。
いくつかの実施形態では、プロセス200は、図2のブロック102によって示されるように、トレーニングデータの複数のデータセットを取得することを含む。トレーニングデータは、教師あり学習のためのラベル付きデータ、または教師なし学習もしくは半教師あり学習のためのラベルなしデータであってよい。例としては、推論に使用される同じチャンネルの入力データに対するラベル付きデータセットが挙げられる。場合によっては、トレーニングセットはそれぞれ、各チャンネルの入力と、その人が新型コロナウイルスを持っているかどうか、いつ新型コロナウイルスに感染したか、サンプルが採取された時点でのその人の感染の段階、その人が入院したかどうか、人口統計データ、併存疾患、感染による合併症、その人がその感染で死亡したかどうか、を示すラベルを含む。場合によっては、入院や死亡の可能性を推論するために、上述したモデルを使用することもできる。場合によっては、情報の入力チャンネルのいくつかは、UI18を通じて提示される調査に記入する際にユーザが入力するデータのこれらのフィールドを含んでもよい。
いくつかの実施形態では、ブロック104によって示されるように、複数のパラメータからなるサブセット(例えば、複数のチャンネルのうちの1つ以上)が、AIモジュール(例えば、機械学習モデル)への入力として選択されてもよい。いくつかの実施形態では、新型コロナウイルス予測におけるその信頼性を高めるために、テキストによるアンケートが使用されてもよい。
いくつかの実施形態では、スマートフォンまたは医療機器を使用して、新型コロナウイルス(SAR-CoV-2)または他の病原体による感染の可能性についてユーザを評価してもよい。モダリティの種類に応じて、スマートフォンまたは医療機器は、カメラ(高解像度(例えば、1メガピクセル以上)の相補型金属酸化膜半導体(CMOS)画像センサを有するもの等)、温度センサ、全地球測位システム(GPS)センサ、加速度計、ジャイロスコープ、磁力計、周囲光センサ、マイク、タッチスクリーンインターフェース、酸素濃度センサ(Apple(登録商標)watchシリーズ6)等を備えてもよい。
いくつかの実施形態では、新型コロナウイルス検出のための深呼吸(例えば、最大呼吸深度の80%以上)分析を使用してもよい。このモダリティの予測精度は、信号強度が微弱であるため、現在のところ音声に劣ると考えられているが、それでもランダムな推測を大幅に上回り、アンサンブルモデルにおいて追加的に信頼度を測るメトリックとして有用であると期待される。場合によっては、異なる形態の音声入力、例えば、咳、指定されたフレーズの読み取り、音節の復唱(例えば、「ア、ア、ア…」又は「イ、イ、イ…」と5秒間言うようにユーザに求める)、及び、深呼吸はそれぞれ、異なるチャネルの入力を構成し得る。音声入力は、ユーザのスマートフォンのマイクを使用して行ってもよい。
いくつかの実施形態では、時間的データ解析が使用されてもよい。ユーザインターフェースを使用して同じ患者のデータを使用し、数日および数週間にわたって複数回データを記録することにより、アルゴリズムはユーザの新型コロナウイルス疾患における段階を推論し、疾患の発症および転帰を予測することができると期待される。新型コロナウイルス感染症から回復しても、患者の耳、鼻、喉、肺の組織が抗体の存在とともに影響を受けているケースがある。これらの変化によって生じる生物学的および物理学的な違いは、いくつかの実施形態によって検出可能であると期待され、いくつかの実施形態では、このようなデータから新型コロナウイルス免疫を推論してもよい。
いくつかの実施形態は、画像(または動画のような画像の集まり)を取得し、例えば、ユーザのスマートフォンのカメラから、顔画像解析を実行することができる。いくつかの実施形態では、新型コロナウイルス陽性患者および陰性患者の顔における明確な特徴、例えば、酸素不足により新型コロナウイルス患者では青みがかった色になる傾向がある唇の色や、肌の色/質感の変化を(例えば、クライアント装置またはサーバ側で)検出する。いくつかの実施形態では、顔の動画から、(血管の周りの血流による)顔の赤みの強さの変化に基づいて、心拍数、心拍変動、酸素飽和度、呼吸数等の様々な状態を推論する。
いくつかの実施形態では、音声による新型コロナウイルス感染症の検出も使用してもよい。また、いくつかの実施形態では、新型コロナウイルス保有者を正確に検出するシステムの有効性をさらに強化するために、話者の音声から、特徴として、年齢、性別および民族性を推論することができる。場合によっては、これらの特徴は、UI18を介して提示される調査においてユーザによって入力され得る。
いくつかの実施形態では、血中酸素濃度や心拍数を測定および記録するために使用される指先の動画(または個々の画像)を(例えば、モバイルデバイスのカメラから)取得し、処理してもよい。新型コロナウイルス感染症患者は、呼吸器系に影響を受けて酸素摂取量の減少につながることが多く、指の血管の酸素濃度の低下を示す視覚的特徴によって(例えば、色から)検出可能であると考えられる。場合によっては、撮影時に指に光を当てるように指示してもよい。同様に、新型コロナウイルス感染症の患者は心拍数の増加または不整脈を経験することが多く、これは酸素摂取の困難性の増大に伴って発生する新型コロナウイルス感染症の合併症である。いくつかの実施形態では、スマートフォンにパルスオキシメータを実装し、フラッシュをオンにした状態でカメラレンズに1本の指をしっかりと押し付けで動画を撮影し、取り込まれた赤色画素の強度(例えば、赤色チャンネルの強度およびその時間的変動)を分析することにより、光電式血圧計(PPG)の代わりとなり得る。さらにいくつかの実施形態において、様々な患者バイタルを推論するために、取得されたPPGを心拍数についてさらに分析され得る。例えば、いくつかの実施形態は、参照によりここに組み込まれる以下の論文の技法を実装する。Hasan等、SmartHeLP:人工ニューラルネットワークを用いたスマートフォンによるヘモグロビン値予測機能、AMIA Annu Symp Proc.2018年12月5日;2018:535-544.eCollection 2018,PMID:30815094 PMCID:PMC6371334.
いくつかの実施形態では、新型コロナウイルス感染者を特定するために生体画像を使用することができる。新型コロナウイルスは、身体の様々な生物物理学的システムに影響を及ぼす可能性がある。いくつかの実施形態では、唾液、便、尿、嘔吐物、粘液等の様々な身体分泌物における変化を、ユーザのスマートフォンで撮影した画像を分析することによって検出することができる。新型コロナウイルス感染症と関係しているこれらの物質の画像における微妙な差異が、いくつかの実施形態によって検出されることが期待される。例えば、視野内(または指定された角度でそのような表面上)に既知の基準寸法(クレジットカードのような)を設定したブロブ検出アルゴリズムを使用して検出された複数のブロブ(小塊または小泡)の寸法(および色)の統計値は、新型コロナウイルス感染と関係する流体の粘性、表面張力またはその他の属性を示し得る。患者によって報告された表面張力及び/又は色の変化も、いくつかの実施形態によって入力特徴として使用可能である。
いくつかの実施形態において、推論を強化するようにモバイルデバイスに搭載された音声/画像圧縮を調整してもよい。本明細書に記載される機械学習モデルのいくつかの実施形態は、従来の非可逆圧縮技術によって失われてしまうことが多い人間の目や耳では区別できない信号から、新型コロナウイルス感染症を拾い上げることができると期待される。いくつかの実施形態は、そのようなモデルによる新型コロナウイルス感染症の分類に関連する特徴を保持するように、データの音声圧縮/解凍を調整してもよい。例えば、いくつかの実施形態は、人間に聞こえる周波数帯の一部について非可逆圧縮技術を適用する一方、新型コロナウイルス感染症に関連すると判断された周波数帯には相対的にデータ損失が少ない圧縮を優先させてもよい。関連する特徴を保持するために、同様の技術を、例えば、量子化マトリックスを調整することによって画像圧縮(例えば、ビデオ圧縮)に適用してもよい。場合によっては、圧縮は、その解釈可能性を高めるためにトレーニングされた機械学習モデルに技術を適用することによって調整されてもよく、例としては、F2スコアにおいてニューラルネットワークの特定の部分を削除することによる効果を測定することが挙げられる。F2スコアに対して比較的大きな効果を有するモデルの削除部分(例えば、パーセプトロン、畳み込みフィルタ、接続など)は重要であると考えられる。いくつかの実施形態では、モデルのそれらの部分によって出力される特徴に対する様々な圧縮パラメータの効果を測定し、圧縮において許容できるトレードオフを考慮しながら精度を保つパラメータ値を決定してもよい。
いくつかの実施形態は、最終的な分類を出力する下流のアンサンブルモデルにおいて組み合わされる複数の出力を生成する複数の上流サブモデルを備えてもよい。場合によっては、識別能力を有すると期待される上記モダリティの各々は、異なるサブモデルを有してもよいし、それらを組み合わせてもよい。場合によっては、サブモデルはそれぞれ、別々に独立してトレーニングされ、新型コロナウイルス感染症(または、新型コロナウイルス感染症に関して参照するのと同様に、その他の呼吸器疾患)の検出における精度について最適化される。あるいは、場合によっては、単一のグローバル最適化においてエンドツーエンドのトレーニングが適用されることがあるが、このアプローチは、複数のモデルパラメータについてメモリが同時に必要とされることから、より計算資源が集中すると考えられる。
例として、確率的勾配降下、焼きなまし法、進化的最適化アルゴリズム等の技術がある。場合によっては、アンサンブルモデルがトレーニングされる前に、サブモデルの各々がトレーニングされる。いくつかの実施形態では、モデルパラメータ値をランダムに割り当て、目的関数に関する各パラメータの偏微分係数を計算し、偏微分係数が示す方向にパラメータを調整してモデルを局所的に最適化し、イタレーション間の目的関数の変化が局所最適または全体最適を示す閾値未満になるまでこのような計算と調整を繰り返す。いくつかの実施形態では、ランダムに割り当てられた複数の異なる初期パラメータ値でこのプロセスを複数回繰り返し、これらのイタレーションのうち目的関数によって測定される最適な結果をもたらすトレーニング済みモデルのバージョンを選択してもよい。
アンサンブルモデルには、様々なアーキテクチャが考えられる。例としては、ディープニューラルネットワーク、決定木、ランダムフォレスト、回帰木、分類木、ベインジアンネットワーク等が挙げられる。初期段階での結合と共に、ソフト投票およびハード投票のような方法が実装されてもよい。場合によっては、これらのアプローチもサブモデルで使用されることがある。場合によっては、いくつかのサブモデル、例えば、時系列データ(例えば、動画または音声)を処理するものは、トランスフォーマアーキテクチャを使用することができ、例えば、マルチヘッドアテンション、長短期記憶モデル、または、その他のリカレントニューラルネットワークを有するもの等を使用することができる。特に、トレーニングデータ(またはその中の正例)が疎である場合、シャムネットワーク(Siamese network)またはトリプレットロスネットワーク(triplet loss network)のような技法を適用してもよく、場合によっては、時系列データ用の時間比較ネットワーク(time-contrastive network)を使用する。
いくつかの実施形態では、データ拡張(ホワイトノイズまたはガウスノイズ等の背景音声ノイズの追加、画像のぼかし等)、および、補助データ(様々な呼吸器疾患並びにその他の疾患の音声および視覚データセット等)も、アルゴリズムの効果を促進および改善するために使用することができる。
いくつかの実施形態では、データ収集は、グローバルな草の根的なクラウドソーシングの取り組みと、様々な国での臨床研究および試験を組み合わせるという多方面から行うことができる。
いくつかの実施形態では、アルゴリズムは、百日咳や喘息等の呼吸器疾患と共に、インフルエンザ、風邪、SARS、COVID-20等の他のコロナウイルスを含む様々な疾患を検出および判別するように構成されてもよい。いくつかの実施形態では、音声によって潜在的に検出可能な他の障害(例えば、児童虐待、家庭内暴力、うつ病など)を検出してもよい。
いくつかの実施形態では、ラベル付きトレーニングデータのセットは、図2のブロック106に示すように、複数の異なるサブグループ(例えば、トレーニングデータセットおよび検証データセット)に分割されてもよい。場合によっては、トレーニングデータは、陽性が比較的まれであることに起因して、かなり不均衡なデータセットである可能性がある。場合によっては、よりバランスのとれたトレーニングデータセットを作成するために、データ拡張技術が適用されてもよい。ガウスノイズまたはホワイトノイズ(または上記のその他の例)を追加する、音量の調整、ピッチシフト、時間信号のシフトおよび時間信号の伸張によって、新型コロナウイルス感染症ラベル付きサンプルの数を増加させてもよい。拡張段階の前に、データは、トレーニングデータセット、検証データセットおよびテストデータセットへと分割されてもよく、分割されたデータセットに拡張が別々に適用されるようにしてもよい。場合によっては、各クラスは、分割されたサンプルの数の3分の1で表されてもよい、これは、データが全てのクラスに対して完璧にバランスよく分配されると考えられる。
いくつかの実施形態では、分類器は、図2のブロック108によって示されるように、機械学習技術を使用して生成(例えば、トレーニング)されてもよい。いくつかの実施形態では、Coswara、Coughvid、およびIatos等の新型コロナウイルス感染症ステータスラベルを有する、咳音の誰でも利用可能なデータセットを使用して、深層ニューラルネットワークのトレーニングが行われてもよい。
いくつかの実施形態では、モデルの性能を検証するために、CoswaraおよびCoughvidクラウドソースデータを超える、より詳細なラベルを持つ追加のデータセットがコンパイルされてもよい。全てのデータは新型コロナウイルス感染症PCRラベルを有し、実世界での使用をシミュレートすることを意図した条件で取得されてもよい。音声ファイルは、データ取得のモードに応じて、圧縮ファイルと非圧縮ファイル(例:wav、ogg、flac、webm、mp3ファイル)が混在している場合がある。潜在的なプライバシーリスクやセキュリティ脅威は、データ保護影響評価(DPIA)やいくつかの内部情報セキュリティポリシーと共に、地域毎のプライバシーポリシーや患者同意書を通じて対処してもよい。場合によっては、データセットは匿名化され、処理中および非処理時の両方で暗号化される。
いくつかの実施形態では、一般のスマートフォンユーザの音声からの新型コロナウイルス検出の1つの潜在的な使用例を模倣するために、モデル内で使用されるサンプルはモバイルデータ収集アプリを使用してクラウドソーシングされる。
いくつかの実施形態では、臨床設定における新型コロナウイルス検出アルゴリズムの性能を決定するために、スマートフォンを使用して病院でサンプルを収集してもよい。全ての患者に対して電子的に提示され署名される明示的な患者同意書は、事前に起草される。データは、病院の施設審査委員会(IRB)承認の臨床研究プロトコルの下、患者から直接収集される。
いくつかの実施形態では、クラウドソーシングされたデータセットからの複数の特徴が、モデルのトレーニングに使用されてもよい。グリッドサーチを使用して様々な特徴およびアーキテクチャについて検索した後、以下に記載するようなパラメータを有する3つの特徴のアンサンブルモデルが使用されてもよい。第1の特徴は、短期パワースペクトルから得られる音声特徴であるメル周波数ケプストラム係数(MFCC)である。音声ファイルはそれぞれ22.5kHzに再サンプリングされ、librosaパッケージを使用して、サンプリングレート22.5kHz、ホップ長23ms、ウィンドウ長93ms、Hannウィンドウタイプで最初の39個のMFCCが抽出されてもよい。出力は時間軸で平均化され、音声ファイル一つにつき平均39個のMFCCs特徴を得ることができる。
いくつかの実施形態では、抽出される第2の特徴は、別のオーディオ特徴であるメル周波数スペクトログラムであってもよい。MFCCはスペクトログラムから導出されるが、スペクトログラムは、いかなる変換も行わずに生のパワー情報をエンコードする。スペクトログラムは、MFCCと同じパラメータでlibrosaパッケージを使用して抽出され、所定のサイズになるように補間されてもよい。
いくつかの実施形態では、音声ファイルから音声特徴を抽出する方法は、モデルの性能に影響を与える可能性がある。ネットワークをトレーニングするためのいくつかの有用な特徴があると考えられ、例えば、両方とも音声特徴であるメル周波数ケプストラム係数およびメル周波数スペクトログラムが考えられる。いくつかの実施形態では、複数の異種分類器を使用することができ、そのうちの1つはメルスペクトログラムでトレーニングされ、他の1つはMFCCでトレーニングされる。音声ファイルはそれぞれ、元の周波数の半分(22.5KHz)にダウンサンプリングされ、3秒の音塊に分割されてもよい。最初の13個のMFCCは、pythonのlibrosaパッケージを使用して、前処理された音塊から抽出され、Hann window typeはホップ長で10ms、ウィンドウ長で20msであってもよい。
いくつかの実施形態では、MFCCを抽出するのに使用されるのと同じパラメータについて、librosaパッケージを使用してメルスペクトログラムが抽出されてもよい。mel-spectrogramカラー画像はそれぞれ、ResNet-50畳み込みニューラルネットワークの元の入力サイズである(224,224,3)のサイズに再形成されてもよい。また、新型コロナウイルス感染者を予測するモデルの精度をさらに高めるために、呼吸器疾患の既往歴や発熱の症状等、COUGHVIDデータセットの他の有用な臨床情報を用いてもよい。この臨床情報は、症状や状態の有無を二進数で表すため、二進数の一次元ベクトルで渡すことができる。
いくつかの実施形態では、声の音塊から抽出された複数の異なるタイプの特徴は、各レコードのキーと共にハッシュテーブルに格納されてもよい。データは、80-10-10の分割を使用して、トレーニング検証-テストセットにランダムに(例えば、擬似乱数的に)グループ化されてもよい。
いくつかの実施形態では、スライスベースの解析が実行され、テストデータセットを年齢及び性別に基づくグループに分割することができる。テストデータセットは年齢によって複数のグループに分割されてもよい。例えば、4つのグループの場合、第1グループは20歳未満の患者、第2グループは20歳から40歳までの患者、第3グループは40歳から60歳までの患者、第4グループは60歳以上であってもよい。あるいは、いくつかの実施形態では、18~30歳、30~45歳、46~60歳、そしてそれ以上の年齢というグループ分けをしてもよい。性別については、テストデータセットが対応するグループに分割されてもよい。
いくつかの実施形態では、モデルは、ImageNetデータセットで事前にトレーニングされ、最上層(例えば、分類層)を取り除いたResNet-50 3D畳み込みニューラルネットワークに基づくマルチブランチアンサンブル学習アーキテクチャである。CNNの入力は、所定サイズ(224ピクセル、224ピクセル、3つのRGB層、または、これら寸法の何れかより大きいもしくは小さい)のメルスペクトログラムカラー画像であってもよく、CNNの出力は、2つの別々の並列リンクにおいてグローバル平均プーリング層とグローバル最大プーリング層の両方に渡されることがある。これらの層の後にはバッチ正規化層とドロップアウト層がそれぞれ続き、単一のdense層(例えば、シグモイドまたは双曲線正接活性化関数を有する層のような非線形の層)において一緒に連結されて最初の分岐を作ってもよい。
いくつかの実施形態において、第2の分岐は、それぞれ8ノードおよび64ノードである2つのdense層を含む多層フィードフォワードニューラルネットワークであってよい。そして、各層の後に、バッチ正規化層およびドロップアウト層が続いてもよい。第1の分岐の入力は、二進数のIDベクトルであってもよい。二進数は、呼吸器疾患の既往歴、咳の種類、患者の発熱の有無等、患者記録に関連する臨床的特徴のうちの1つをエンコードしてもよい。この分岐により臨床情報が充実することが期待される。
いくつかの実施形態では、第3の分岐は、メル周波数ケプストラム係数のベクトルを所定サイズ(13、1、または、これら寸法の何れかよりも大きいもしくは小さい)の入力ベクトルとする二重並列フィードフォワードニューラルネットワークであってよい。2つの並列リンクはそれぞれ、2つの層を含む多層フィードフォワードニューラルネットワークであってよく、各層の後にはバッチ正規化層およびドロップアウト層が続いてもよい。両方のリンクの高位端は、単一のdense層で連結されてもよい。
いくつかの実施形態では、第3の分岐の高位端で抽出された高レベルの特徴は、マルチラベル分類タスクのためのソフトマックス層が続く逐次フィードフォワードニューラルネットワーク(SFFN)に渡される前に結合されでもよい。3つのラベルは、いくつかの実施形態では次の通りである:新型コロナウイルス感染症陰性(健康)、新型コロナウイルス感染症陰性(症候性)および新型コロナウイルス感染症陽性。他の実施形態では、確信度の低い陰性、確信度の高い陰性、確信度の低い陽性、確信度の高い陽性、および不確定というように、より多くのラベルを含むことができる。あるいは、いくつかの実施形態は、0と1の間の値のような実数スコアを出力してもよく、より高い値は、人が感染しているという推論の強さがより大きいことを示す。
いくつかの実施形態では、ネットワークアーキテクチャは、複数の異種分類器を使用してもよく、ResNet-50 CNN(畳み込みニューラルネットワーク)を使用して、スペクトログラム画像から抽出された高レベル特徴、および、深層ニューラルネットワークを使用してMFCCから抽出された高レベル特徴を結合させてもよい。ネットワークアーキテクチャ、分岐に対する隠れ層の数および一層あたりのユニット数は、グリッド検索を使用して決定され得るハイパーパラメータである。モデルは、カテゴリ交差エントロピー損失、学習率le-2および2500の減衰ステップを有する確率的勾配降下オプティマイザを使用してトレーニングされてもよい
音声ファイル以外にも、各サンプルは、予測精度を高める可能性のある追加の豊富な情報を含み得る。いくつかの実施形態では、音声ファイル各々について、患者の臨床像を反映する2つの更なる特徴を使用してもよい。咳音の検出可能な変化は、新型コロナウイルス感染症以外の疾患でも発生することが示されている。したがって、現在の呼吸器疾患の有無に関する二値ラベルを統合して、1つの追加特徴としてアルゴリズムに投入することができる。新型コロナウイルス感染症は咳以外の症状も呈し、代表的なものに発熱や筋肉痛(筋肉痛)がある。これらの症状の有無も、新型コロナウイルス感染症を有する確率に影響を与える可能性がある。いくつかの実施形態では、発熱または筋肉痛の状態の第2の二値ラベルについても、全てのデータセットから統合し、第2の追加特徴としてモデルに供給することができる。
新型コロナウイルス感染者を検出する精度を最大化するために、様々なアーキテクチャを使用することができる。いくつかの実施形態では、1D CNN、2D CNN、LSTMおよびCRNNアーキテクチャを、個別にまたは組み合わせて使用してもよい。
いくつかの実施形態では、3つの異なるネットワークのアンサンブルを使用することができ、アンサンブルの構造およびハイパーパラメータは、過学習を最小限に抑えるためにグリッド研削を使用して微調整されてもよい。各ネットワークからの出力は、新型コロナウイルス感染症を有する確率を予測するために統合されてもよい。
いくつかの実施形態では、第1のネットワークは入力サイズが(39,)のMFCC用であり、ReLU(rectified linear activation function:正規化線形活性化関数)活性化を有する2つの隠れ層を含み、2つの隠れ層の後にはドロップアウト層が続いている。第2のネットワークはサイズ(64,64,1)の入力としてメルスペクトログラム画像を有する畳み込みニューラルネットワークであってもよい。第2のネットワークは3つの2D畳み込み層を含んでもよく、最初の畳み込み層のカーネルサイズは3、ストライドサイズは2、残りの2つの畳み込み層のカーネルサイズは3、ストライドサイズは1であり、それぞれの後に、2D平均プーリング、バッチ正規化およびReLU活性化が続いてもよい。第3のネットワークは、各サンプルの発熱または筋肉痛と呼吸状態との2つの追加特徴に対応する。第1のネットワークと同様に、第3のネットワークはReLU活性化関数を持つ2つの隠れ層を含み、それぞれドロップアウト層が続く。各ネットワークからの出力は、統合され、それぞれReLU活性化関数が続く2つの追加の隠れ層に供給され、最終的にシグモイド(活性化関数)出力決定層へと組み合わされてもよい。
いくつかの実施形態では、アンサンブルネットワークは、交差エントロピー損失、アダムオプティマイザおよび0.001の学習率を用いてトレーニングされてもよい。トレーニングデータは、70-15-15分割を使用して、トレーニング-検証-テストデータセットにランダムに分割されてもよい。トレーニングインスタンスはそれぞれ、異なるランダムデータ分割を使用して、それぞれ5回繰り返されてもよい。平均統計値及び95%信頼区間は報告され、メモリに格納されてもよい。
いくつかの実施形態では、精度およびROC(受信者動作特性)曲線下の面積(AUC)の両方が、評価指標として使用され得る。トレーニングデータは不均衡である可能性があるため、AUCはモデルがどのように機能しているかをよりよく表現することができる。
いくつかの実施形態では、症状の発症前と新型コロナウイルス感染の経過の両方において、咳と発話(または他の形態の音声)を含む人間の呼吸音の特徴に関するより多くの情報を用いて機械学習アルゴリズムをトレーニングするために、様々な国で行われる縦断クラウドソーシング研究および臨床研究が実施され得る。PCRや進化するin vitroの新型コロナウイルス感染症診断法、人口統計学、および、疾患経過ラベルに関連してより多くの音声データを収集した後、多数の症状および人口統計学的グループにおけるMLモデルの性能を検証するためのサブ解析が実施されてもよい。
いくつかの実施形態では、機械学習アルゴリズムは、決定木学習、人工ニューラルネットワーク、深層学習ニューラルネットワーク、サポートベクターマシン、ルールに基づく機械学習、ランダムフォレスト等を含む。線形回帰またはロジスティック回帰等のアルゴリズムが、機械学習プロセスの一部として使用され得る。
いくつかの実施形態では、サポートベクターマシン(SVM)は、分類及び回帰分析のためにデータを分析する教師あり学習モデルとして使用され得る。SVMは、n次元空間(例えば、nは臨床パラメータの数)においてデータ点の集まりをプロットしてもよく、データ点の集まりを複数のクラスへと分離できる超平面を見つけることによって分類が実行される。いくつかの実施形態では、超平面は線形であり、他の実施形態では、超平面は非線型である。SVMは、高次元空間で有効であり、次元数がデータ点の数よりも多い場合に有効であり、一般に、分離のマージンが明確なデータセットでうまく機能する。
いくつかの実施形態では、決定木は、分類問題でも使用される教師あり学習アルゴリズムの一種として使用され得る。決定木は、データの最良の均質なセットを提供する最も重要な変数を特定するために使用され得る。決定木は、データポイントの複数のグループを1つまたは複数のサブセットに分割し、各サブセットを1つまたは複数の更なるカテゴリへと分割し、終端ノード(例えば、分割しないノード)を形成するまで、そのような分割を行うことができる。エントロピー、ジニ不純物、カイ二乗、情報利得、分散削減等、様々なアルゴリズムを使用して、分割が発生する場所を決定することができる。決定木は、多数の変数の中から最も重要な変数を迅速に特定したり、2つ以上の変数間の関係を特定するのに役立つことが多い。さらに、決定木は数値データと非数値データの両方を扱うことができる。この手法は一般的にノンパラメトリックなアプローチと考えられており、例えば、データが正規分布に適合する必要はない。
いくつかの実施形態では、ランダムフォレスト(またはランダム決定フォレスト)は、分類と回帰の両方に適したアプローチとして使用できる。いくつかの実施形態において、ランダムフォレスト法は、分散を小さくして、決定木の集合体を構築する。一般に、M個の入力変数に対して、Mより少ない数の変数(nvar)が、データポイントのグループを分割するために使用される。最適な分割が選択され、終端ノードに到達するまで処理が繰り返される。ランダムフォレストは、多数の入力変数(例えば、数千)を処理して、最も重要な変数を特定するのに特に適している。また、ランダムフォレストは欠損データの推定にも効果的である。
いくつかの実施形態では、別の機械学習技法である深層学習ニューラルネットワークを使用してもよい。これらのネットワークは、複数の隠れ層を有していてもよく、自動化された方法で操作(例えば、特徴抽出)を行うことが可能である。
いくつかの実施形態では、機械学習システムをトレーニングするために、データセットは、トレーニングデータと検証データとにランダムに分割される。トレーニングデータ、入力のサブセットおよび本明細書に記載の機械学習システムに関連するその他のパラメータに基づいて機械学習システムを使用し、分類器が生成される。分類器が、患者を正しく分類できる感度及び特異度を規定する所定の受信者演算子特性(ROC)統計量を満たしているか否かが判断される。実施形態では、特異度及び感度の基準値は、医療機器に関するFDA及びWHOの基準に沿うように最適化されてもよく、例えば、抗原検査の場合は、特異度90%以上、感度80%以上を指定してもよい。
分類器が所定のROC統計量を満たさない場合、分類器が所定のROC統計量を満たすまで、トレーニングデータ及び入力の異なるサブセットに基づいて分類器を繰り返し生成してもよい。機械学習システムが所定のROC統計量を満たす場合、分類器の静的構成が生成されてもよい。この静的構成は、新型コロナウイルス感染症を罹患しているリスクのある患者の特定に使用するために、病院もしくは医療施設に配備される、または、病院もしくは医療施設がアクセス可能なリモートサーバに保存されてもよい。場合によっては、結果は、電子医療記録システム上の患者のファイルに書き込まれてもよい。
いくつかの実施形態では、咳の正確な性質および持続時間は、疾患ごとに異なる場合があるが、強度(強さ)、頻度(発生回数)および咳が持続する期間(発症からの時間)は、感染症(例えば新型コロナウイルス感染症)の特定および感染症を有する個人を非感染症の状態から区別するのに役立ち得る変数である。例えば、特定の急性状態(例えば、新型コロナウイルス感染症)とは異なり、感染症に起因する咳は、通常、より長い期間続く。結核などの一部の疾患では、咳が数週間続くことがある。
さらに、気道感染の1つのマーカとして、喉頭の炎症または上気道の閉塞等の要因に起因する声質の変化がある。いくつかの実施形態では、音声の振る舞いに関する情報をその他の生体パラメータ(例えば、酸素レベル)と組み合わせることによって、新型コロナウイルス感染の可能性を決定することができる。いくつかの実施形態は、感染前の音声サンプルおよび最近の音声記録を取得してもよい。いくつかの実施形態は、これら2つ音声の差(例えば、周波数)を計算し、その差を入力特徴として使用することができる。
いくつかの実施形態では、電話/マイク(例えば、携帯電話、VoIP、インターネット等)を介して音声ストリームを受信し、音声ストリームを短いウィンドウにセグメント化し、各ウィンドウから音響測定値を計算し(例えば、メル周波数ケプストラム係数)、連続する複数のウィンドウにわたって音響測定値を比較し、機械学習パターン認識エンジンを開発してトレーニングすることにより咳の音響パターンを識別し、特定のウィンドウ(またはウィンドウのセット)が咳のインスタンスを含む可能性を判断することにより、音声ストリームを解析する。
音声ストリームで咳(または他のターゲット音声サンプル)が検出されると、咳信号の周波数、強度またはその他の特性が抽出され、病気(例えば、新型コロナウイルス感染症と季節性風邪と)を区別するためのモデル入力特徴(または中間特徴)として使用することができる。例えば、ある疾患ではゴロゴロした声質を特徴とする「湿った」咳をもたらし、他の疾患では固い頭子音(速いアタックタイム)の後に非周期的(ノイズ)エネルギーが続くのが特徴の「乾いた」咳(例えば、新型コロナウイルス感染症患者に関連する)をもたらす場合がある。
いくつかの実施形態では、図1のコントローラ12へのデータ入力20として、図2のブロック110で示されるように、第1のユーザに自身の患者レコード(可能な範囲で完全にまたは部分的に匿名化されてもよく、場合によっては、手元の分析に関係のない個人識別情報および健康状態情報を省略してもよい)の提供を求めてもよい。いくつかの実施形態では、ユーザは、ネイティブアプリのユーザインターフェースを介して、アンサンブルモデルに供給する様々な上流サブモデルへの入力が取得される様々なアクションを実行するように求められてもよい。具体的には、テキストアンケートの記入、電話のマイクへの呼吸または咳の吹き込み、マイクの集音範囲で文章の音読、指や他の身体の部分の動画の撮影、ウェアラブルデバイス(手首に装着するパルスオキシメータ、慣性計測ユニット(ステップカウンタやユーザの歩行の特徴を抽出するように構成されたスマートフォン等)、心拍センサ、温度等)からのデータ取得の許可、が含まれる。
患者レコードに基づいて、図2のブロック112で示すように、複数の異なる分析(例えば、咳分類器、深呼吸分析、時間データ分析、顔動画、指先動画および生体画像)を実行して、図2のブロック114で示すように、第1のユーザの新型コロナウイルス感染の可能性を評価してもよい。
いくつかの実施形態では、個人の音声動作をより長い期間にわたって追跡して(例えば、記載されたサンプル取得プロセスを繰り返し、新しいデータを再処理することによって)、咳が時間とともにどのように変化するかを決定してもよい。変化およびその速度は、本明細書に記載されるモデルの特徴として機能し得る。咳(またはその他の音声)のふるまいの急激な変化または長期間にわたる悪化は、特定の疾患状態を示す可能性がある。
いくつかの実施形態において、音声サンプルは、新たな臨床的に関連する結果変数である咳覚醒指数(CAI)および咳妨害指数(CDI)を決定するために使用され得る。CAIは、睡眠中の各時間における脳波(EEG)覚醒に関連する夜間咳嗽の数を反映する。また、夜間咳嗽が脳波の覚醒を伴わない場合は、覚醒を伴わない睡眠1時間あたりの咳嗽数で定義される咳嗽障害指数(CDI)にカウントされる。これらの新しい指標は、個々の患者の医療管理だけでなく、例えば、薬理学的化合物の鎮咳作用や鎮咳作用のプロファイルを理解するための医学研究にも利用することができる。
いくつかの実施形態では、次に、例えば、スマートフォンのようなユーザのモバイルコンピュータデバイス上でそのような情報を提示するためにユーザインターフェース18を更新することにより、図2のブロック116によって示されるように、ユーザインターフェースを介してユーザに新型コロナウイルス感染の可能性を通知する。いくつかの実施形態では、機械学習モデルは、特異度を80%に設定した場合に、少なくとも70%、75%、80%、85%、90%、95%、98%または99%の感度で新型コロナウイルス感染の可能性を有する個人を分類可能であると期待される。これは、単一変数による閾値分類や複数変数による多変量ロジスティック回帰等の線形統計モデルよりも優れていると期待される。いくつかの実施形態では、従来のロジスティック回帰または多変量線形回帰等の従来の統計手法と比較して、機械学習技術を使用して、少なくとも5%の改善、少なくとも10%の改善、少なくとも15%の改善、少なくとも20%の改善、少なくとも25%の改善または少なくとも30%の改善が達成される。
図3は、本技術の実施形態が実装され得る例示的なコンピュータシステム1000を説明する図である。例えば、システム1000の特徴は、スマートフォンと、上述したようなサーバの両方に存在し得る。本明細書で説明したシステムおよび方法の様々な部分は、コンピュータシステム1000と同様の1つまたは複数のコンピュータシステムを含むか、またはそれらで実行されてもよい。さらに、本明細書で説明するプロセスおよびモジュールは、ココンピュータシステム1000のものと同様の1つまたは複数の処理システムによって実行されてもよい。
コンピュータシステム1000は、入力/出力(I/O)インターフェース1050を介して、システムメモリ1020と、入力/出力I/Oデバイスインターフェース1030と、ネットワークインターフェース1040とに結合された1つまたは複数のプロセッサ(例えば、プロセッサ1010a~1010n)を含んでもよい。プロセッサは、単一のプロセッサまたは複数のプロセッサ(例えば、分散型プロセッサ)を含んでもよい。プロセッサは、命令を実行することができる任意の適切なプロセッサであってもよい。プロセッサは、コンピュータシステム1000の演算、論理、入出力の動作を行うプログラム命令を実行する中央演算処理装置(CPU)および/または画像処理装置(GPU)を含んでもよい。プロセッサは、プログラム命令の実行環境を構築するコード(例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの組み合わせ)を実行してもよい。プロセッサは、プログラマブル・プロセッサを含んでいてもよい。プロセッサは、汎用または特殊目的のマイクロプロセッサを含んでもよい。プロセッサは、メモリ(例えば、システムメモリ1020)から命令およびデータを受け取ってもよい。コンピュータシステム1000は、1つのプロセッサ(例えば、プロセッサ1010a)を含むユニプロセッサシステムであってもよいし、任意の数の適切なプロセッサ(例えば、1010a~1010n)を含むマルチプロセッサシステムであってもよい。複数のプロセッサは、本明細書に記載された技術の一つまたは複数の部分の並列または逐次的な実行を実現するために採用されてもよい。本明細書に記載されている論理フローなどのプロセスは、一つまたは複数のコンピュータプログラムを実行する一つまたは複数のプログラマブル・プロセッサによって実行され、入力データを操作して対応する出力を生成することによって機能を実行することができる。本明細書に記載されているプロセスは、FPGA(Field Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)などの特別な目的の論理回路によって実行されてもよく、また本明細書に記載されている装置もこれらによって実装することができる。コンピュータシステム1000は、様々な処理機能を実装するために、複数のコンピュータデバイス(例えば、分散型コンピュータシステム)を含んでもよい。
I/Oデバイスインターフェース1030は、1つまたは複数のI/Oデバイス1060をコンピュータシステム1000に接続するためのインターフェースを提供してもよい。I/Oデバイスは、(例えば、ユーザから)入力を受けたり、(例えば、ユーザに)情報を出力したりするデバイスを含んでもよい。I/Oデバイス、例えば、クライアント装置202は、ディスプレイ(例えば、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)モニタ)に提示されるグラフィカルユーザインターフェース、ポインティングデバイス(例えば、コンピュータマウスまたはトラックボール)、キーボード、キーパッド、タッチパッド、スキャンデバイス、音声認識デバイス、ジェスチャー認識デバイス、プリンタ、オーディオスピーカ、マイクロフォン、カメラ等を含んでもよい。I/Oデバイス1060は、有線または無線の接続を介してコンピュータシステム1000に接続されてもよい。I/Oデバイス1060は、遠隔地からコンピュータシステム1000に接続されてもよい。遠隔地のコンピュータシステムに配置されたI/Oデバイス1060は、例えば、ネットワークおよびネットワークインターフェース1040を介してコンピュータシステム1000に接続されてもよい。
ネットワークインターフェース1040は、コンピュータシステム1000のネットワークへの接続を提供するネットワークアダプタを含んでもよい。ネットワークインターフェース1040は、コンピュータシステム1000と、ネットワークに接続された他のデバイスとの間のデータ交換を促進してもよい。ネットワークインターフェース1040は、有線または無線の通信をサポートしてもよい。ネットワークは、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラー通信ネットワークなどの電子通信ネットワークを含んでもよい。
システムメモリ1020は、プログラム命令1100またはデータ1110を格納するように構成されてもよい。プログラム命令1100は、本技術の1つまたは複数の実施形態を実装するために、プロセッサ(例えば、プロセッサ1010a~1010nのうちの1つまたは複数)によって実行可能であってもよい。命令1100は、様々な処理モジュールに関して本明細書に記載された一つまたは複数の技術を実装するためのコンピュータプログラム命令のモジュールを含んでもよい。プログラム命令は、コンピュータプログラム(特定の形態では、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとして知られている)を含んでいてもよい。コンピュータプログラムは、コンパイル言語、インタプリタ言語、宣言型言語、手続き型言語などのプログラミング言語で記述されていてもよい。コンピュータプログラムは、スタンドアロンプログラム、モジュール、コンポーネント、サブルーチンなど、コンピュータ環境で使用するのに適したユニットを含む。コンピュータプログラムは、ファイルシステム内のファイルに対応していてもいなくてもよい。プログラムは、他のプログラムやデータを格納するファイルの一部(例えば、マークアップ言語文書に格納された一つまたは複数のスクリプト)、当該プログラム専用の単一のファイル、または複数の協調的なファイル(例えば、一つまたは複数のモジュール、サブプログラム、またはコードの一部を格納するファイル)に格納されてもよい。コンピュータプログラムは、1つのサイトにローカルに配置されるか、または複数のリモートサイトに分散され、通信ネットワークによって相互に接続された一つまたは複数のコンピュータプロセッサ上で実行されるように配置されてもよい。
システムメモリ1020は、プログラム命令を格納する有形プログラムキャリアを含んでもよい。有形のプログラムキャリアは、非一時的なコンピュータ可読記憶媒体を含んでもよい。非一時的なコンピュータ可読記憶媒体は、機械可読記憶装置、機械可読記憶基板、記憶装置、またはそれらの任意の組み合わせを含んでもよい。非一時的なコンピュータ可読記憶媒体は、不揮発性メモリ(例えば、フラッシュメモリ、ROM、PROM、EPROM、EEPROMメモリ)、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM)、スタティックランダムアクセスメモリ(SRAM)、シンクロナスダイナミックRAM(SDRAM))、バルクストレージメモリ(例えば、CD-ROMおよび/またはDVD-ROM、ハードドライブ)などを含んでもよい。システムメモリ1020は、本明細書に記載された主題および機能動作を達成するために、コンピュータプロセッサ(例えば、プロセッサ1010a~1010nのうちの1つまたは複数)によって実行可能なプログラム命令を格納する非一時的なコンピュータ可読記憶媒体を含んでもよい。メモリ(例えば、システムメモリ1020)は、単一のメモリデバイスおよび/または複数のメモリデバイス(例えば、分散型メモリデバイス)を含んでもよい。本明細書に記載された機能を提供する命令または他のプ対数パワーラムコードは、有形の非一時的なコンピュータ可読媒体に格納されてもよい。場合によっては、命令のセット全体が媒体上に同時に格納されてもよく、または場合によっては、命令の異なる部分が異なる時間に同じ媒体上に格納されてもよい。
I/Oインターフェース1050は、プロセッサ1010a~1010n、システムメモリ1020、ネットワークインターフェース1040、I/Oデバイス1060、および/または他の周辺デバイス間のI/Oトラフィックを調整するように構成されてもよい。I/Oインターフェース1050は、プロトコル変換、タイミング変換、または他のデータ変換を実行して、1つのコンポーネント(例えば、システムメモリ1020)からのデータ信号を、別のコンポーネント(例えば、プロセッサ1010a~1010n)による使用に適したフォーマットに変換してもよい。I/Oインターフェース1050は、PCI(Peripheral Component Interconnect)バス規格の変種、Bluetooth、 WiFi、USB(Universal Serial Bus)規格等、様々な種類の周辺バスを介して接続されたデバイスをサポートしてもよい。
本明細書で説明した技術の実施形態の実装においては、コンピュータシステム1000の単一のインスタンスを使用してもよいし、実施形態の異なる部分またはインスタンスをホストするように構成された複数のコンピュータシステム1000を使用してもよい。複数のコンピュータシステム1000は、本明細書で説明した技術の1つまたは複数の部分の並列または逐次的な処理/実行を提供してもよい。
当業者であれば、コンピュータシステム1000は単なる例示であり、本明細書に記載された技術の範囲を限定することを意図していないことを理解するであろう。コンピュータシステム1000は、本明細書に記載された技術を実行するか、さもなければその実行を提供することができるデバイスまたはソフトウェアの任意の組み合わせを含むことができる。例えば、コンピュータシステム1000は、クラウドコンピュータシステム、データセンター、サーバラック、サーバ、仮想サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ装置、クライアント装置、携帯電話、PDA(Personal Digital Assistant)、携帯オーディオ・ビデオプレーヤー、ゲーム機、車載コンピュータ、またはGPS(Global Positioning System)などを含むか、またはそれらの組み合わせであってもよい。また、コンピュータシステム1000は、図示されていない他の装置に接続されていてもよいし、スタンドアロンのシステムとして動作していてもよい。さらに、図示された構成要素によって提供される機能は、いくつかの実施形態では、より少ない構成要素にまとめられてもよいし、追加の構成要素に分散されてもよい。同様に、いくつかの実施形態では、図示された構成要素の一部の機能が提供されなくてもよく、または他の追加機能が利用可能であってもよい。
また、様々なアイテムが使用中にメモリまたはストレージ上に保存されるように図示されているが、当業者であれば、これらのアイテムまたはその一部は、メモリ管理およびデータの整合性の目的で、メモリと他のストレージデバイスの間で転送されてもよいことを理解できるだろう。あるいは、他の実施形態では、ソフトウェアコンポーネントの一部またはすべてが、別のデバイス上のメモリで実行され、コンピュータ間通信を介して図示されたコンピュータシステムと通信してもよい。また、システム構成要素またはデータ構造の一部または全部は、コンピュータアクセス可能な媒体、または適切なドライブによって読み取られるボータブル機器に(例えば、命令または構造化データとして)格納されてもよく、その様々な例が上述されている。いくつかの実施形態では、コンピュータシステム1000とは別のコンピュータアクセス可能な媒体に格納された命令が、ネットワークまたは無線リンクなどの通信媒体を介して伝えられる電気信号、電磁信号、またはデジタル信号などの伝送媒体または信号として、コンピュータシステム1000に伝送されてもよい。様々な実施形態は、前述の説明に従ってコンピュータアクセス可能な媒体上で実装された命令またはデータを、受信、送信、または保存することをさらに含むことができる。したがって、本発明の技術は、他のコンピュータシステムの構成で実施されてもよい。
ブロック図では、図示された構成要素が別々の機能ブロックとして描かれているが、実施形態は、本明細書に記載された機能が図示されたように編成されたシステムに限定されない。各構成要素によって提供される機能は、現在図示されているものとは異なる態様で編成されたソフトウェアまたはハードウェアモジュールによって提供されてもよく、例えば、そのようなソフトウェアまたはハードウェアは、混合、結合、複製、分割、分散(例えば、データセンター内または地理的に)されていてもよく、またはその他の異なる態様で編成されていてもよい。本明細書に記載されている機能は、有形の非一時的な機械可読媒体に格納されたコードを実行する1つ以上のコンピュータの1つ以上のプロセッサによって提供されてもよい。場合によっては、「媒体」という単数形の用語の使用にかかわらず、命令は異なるコンピュータデバイスに関連付けられた異なるストレージデバイス上に分散され、このとき、例えば、各コンピュータデバイスが命令の異なるサブセットを持つとしてもよい。これは、本明細書における「媒体」という単数形の用語の使用と矛盾しない実装である。場合によっては、サードパーティのコンテンツ配信ネットワークが、ネットワークを介して伝達される情報の一部または全部をホストしてもよく、その場合、情報(例えば、コンテンツ)が供給される、またはその他の方法で提供されると表現できる範囲において、コンテンツ配信ネットワークから情報を取得する命令を送信することによって、その情報が提供されることがある。
読者は、本願がいくつかの個別に有用な技術を説明していることを理解すべきである。出願人はこれらの技術を複数の独立した特許出願に分けるのではなく、1つの文書にまとめているが、これはそれらの技術の主題が関連しているために、出願プロセスの経済性につながるからである。しかし、このような技術の別個の利点や態様を混同してはならない。場合によっては、実施形態は本明細書で指摘した欠陥のすべてに対処しているが、技術は独立して有用であり、いくつかの実施形態はそのような問題の部分集合のみに対処しているか、または本開示を閲覧している当業者には明らかであろう他の言及されていない利点を提供していることを理解すべきである。コストの制約のため、本明細書に開示されているいくつかの技術は、現在は所有権を請求されていない可能性があり、継続出願などの後の出願で、または現在の請求項を補正することで所有権を請求される可能性もある。同様に、紙面の都合上、本文書の「要約」や「発明の概要」のセクションは、そのような技術のすべて、またはそのような技術のすべての態様を包括的に記載しているものとみなすべきではない。
詳細な説明および図面は、開示された特定の形態に本技術を限定することを意図したものではなく、逆に、添付の請求項によって定義される本技術の趣旨および範囲内に入るすべての修正、均等物、および代替物を網羅することを意図したものであることを理解すべきである。本技術の様々な態様のさらなる修正および代替の実施形態は、この説明を読めば当業者には明らかであろう。したがって、この説明および図面は、例示としてのみ解釈され、本技術を実施する一般的な方法を当業者に教えることを目的としている。ここに図示および説明されている本技術の形態は、実施形態の例として見なすべきものであることを理解されたい。各種要素および材料を、本明細書に図示および説明されているものに代えて使用してもよく、部品およびプロセスは逆にしてもよいし、省略してもよく、本技術の特定の特徴は独立して利用してもよいが、これらはすべて、本技術に関するこの説明の恩恵を受けた後に当業者に明らかになるであろう。以下の特許請求の範囲に記載された本技術の趣旨と範囲から逸脱することなく、本明細書に記載された要素に変更を加えることができる。本明細書で使用されている見出しは、整理を目的としたものであり、説明の範囲を限定するために使用することを意図していない。
本願を通して使用されているように、「may」という言葉は、必須の意味(すなわち、必ずしなければならないという意味)ではなく、許容的な意味(すなわち、する可能性があるという意味)で使用されている。「含む(include)」、「含む(including)」、「含む(includes)」などの言葉は、含むがそれに限定されないことを意味する。本願では、単数形の「a」、「an」、「the」は、内容が明示的に別の意味を示していない限り、複数のものを含む。したがって、例えば、「構成要素(an element)」または「構成要素(a element)」への言及は、「一又は複数の(one or more)」のような1つまたは複数の構成要素に対する他の用語およびフレーズの使用にかかわらず、2つ以上の構成要素の組み合わせを含む。「または」という用語は、別の意味が明記されていない限り非排他的であり、すなわち、「および」と「または」の両方を包含する。条件関係を表す用語、例えば、「X,Yに応答して(in response to X,Y)」、「X,Yすると(on X,Y)」、「X,Yならば(if X,Y)」、「X,Yのとき(when X,Y)」などは、先行詞が必要因果条件である場合、先行詞が十分因果条件である場合、先行詞が結果の有力な因果条件である場合などの因果関係を包含する。例えば、「条件Yが得られると状態Xが発生する」は「XはYのときのみ発生する」と「XはYおよびZのときに発生する」に対して包括的である。このような条件関係は、先行条件が得られると即座に結果が出るものに限らず、結果が遅れるものもある。また、条件文では先行条件と結果が結びついており、例えば、先行条件が結果の発生の可能性に関係している。複数の属性または機能が複数のオブジェクト(例えば、ステップA、B、C、Dを実行する1つ以上のプロセッサ)にマッピングされる記述は、別途指示がない限り、それらの属性または機能のすべてがそれらのオブジェクトのすべてにマッピングされることと、それらの属性または機能のサブセットがそれらの属性または機能のサブセットにマッピングされることの両方を包含する(例えば、すべてのプロセッサがそれぞれステップA~Dを実行する場合と、プロセッサ1がステップAを実行し、プロセッサ2がステップBとステップCの一部を実行し、プロセッサ3がステップCの一部とステップDを実行する場合の両方)。同様に、ステップAを実行する「コンピュータシステム」およびステップBを実行する「コンピュータシステム」という表現は、両方のステップを実行するコンピュータシステム内の同じコンピュータデバイスを含むことも、ステップAおよびBを実行するコンピュータシステム内の異なるコンピュータデバイスを含むこともできます。さらに、ある値または行為が別の条件または値に「基づく」という記述は、別段の指示がない限り、その条件または値が唯一の要因である場合と、その条件または値が複数の要因の中の1つの要因である場合の両方を包含する。あるコレクションの「各」インスタンスが何らかの特性を持つという記述は、別段の指示がない限り、より大きなコレクションの他の特性において同一または類似のメンバーがその特性を持たない場合を除外するように読まれるべきではない。すなわち、「各」は必ずしもすべてを意味するわけではない。例えば、「Xを実行した後、Yを実行する」のように明示的に指定されていない限り、記載されている工程の順序に関する制限を請求項に読み取るべきではない。これに対して、「アイテムにXを実行し、XされたアイテムにYを実行する」のように順序の制限を暗示していると不適切に主張される可能性がある記述は、順序を指定するのではなく、請求項を読みやすくする目的で使用される。また、「A、B、およびCのうち少なくともZ個」などの記述(「A、B、またはCのうち少なくともZ個」など)は、列挙された各カテゴリ(A、B、およびC)のうち少なくともZ個を指すものであり、各カテゴリに少なくともZ個の単位を必要とするものではない。議論から明らかなように、本明細書では、「処理」、「コンピュータ」、「計算」、「決定」などの用語を利用した議論は、特に明記しない限り、特別目的のコンピュータまたは同様の特別目的の電子処理/計算装置などの特定の装置の動作またはプロセスに言及していると理解される。「平行」、「垂直/直交」、「正方形」、「円筒形」などの幾何学的構造物に言及して記述された特徴は、その幾何学的構造物の特性を実質的に具現化するアイテムを包含すると解釈されるべきであり、例えば、「平行」な表面に言及すると、実質的に平行な表面が包含されることになる。これらの幾何学的構造物のプラトン的観念からの逸脱の許容範囲は、明細書中の範囲を参照して決定されるべきであり、そのような範囲が記載されていない場合には、使用分野における業界の規範を参照すべきであり、そのような範囲が定義されていない場合には、指定された特徴の製造分野における業界の規範を参照すべきであり、そのような範囲が定義されていない場合には、幾何学的構造物を実質的に具現化する特徴は、その幾何学的構造物の定義属性の15%以内の特徴を含むと解釈されるべきである。特許請求の範囲で使用されている「第1」、「第2」、「第3」、「所定の」などの用語は、区別するため、あるいは識別するために使用されており、連続的または数値的な限定を示すものではない。当該分野での通常の使用方法と同様に、人間にとって顕著な用途を参照して説明されたデータ構造およびフォーマットは、上記のデータ構造またはフォーマットを構成するように、人間が理解可能な形式で提示される必要はない。例えば、テキストを構成するために、テキストをレンダリングしたり、UnicodeやASCIIでエンコードしたりする必要はなく、画像、地図、データ可視化物を構成するために、画像、地図、データ可視化物をそれぞれ表示およびデコードする必要はなく、音声、音楽、その他の音声を構成するために、音声、音楽、その他の音声をそれぞれスピーカから発したり、デコードする必要はない。コンピュータに実装された命令、コマンドなどは、実行コードに限定されず、機能をもたらすデータの形態、例えば、関数やAPI呼び出しの引数の形で実装することができる。特定の目的のために作られた名詞句(およびその他の造語)がクレームで使用され、自明な解釈を欠く範囲では、そのような句の定義はクレーム自体に記載されている場合があり、その場合、そのような名詞句の使用は、明細書または外部証拠を参照して追加の制限を付与するとみなされるべきではない。
本特許明細書には、特定の米国特許、米国特許出願、または他の資料(例えば、論文)が参照により組み込まれている。ただし、かかる米国特許、米国特許出願およびその他の資料の本文は、かかる資料と本明細書に記載された記述および図面との間に矛盾が存在しない範囲においてのみ、参照により組み込まれる。そのような矛盾がある場合、本明細書の本文が優先されるものとし、本明細書の用語は、参照により組み込まれた他の資料でその用語が使用されていることを理由に、より狭い範囲で解釈されるべきではない。
本発明の技術は、以下に列挙する実施形態を参照することにより、よりよく理解されるであろう。
[実施形態1]
命令を記憶する有形かつ非一時的な機械可読媒体であって、前記命令が1つ以上のプロセッサによって実行されると、コンピュータシステムを使用して、ユーザのモバイルコンピュータデバイスによって取得された音声および画像の両方に基づいて、前記ユーザが呼吸器系疾患を有するか否かを推論するように構成されたトレーニング済み機械学習モデルが取得され、前記トレーニング済み機械学習モデルは、複数のトレーニングレコードを含むトレーニングセットを取得することによってトレーニングされ、前記トレーニングセット内の複数のトレーニングレコードの各々は、一人についての複数のパラメータおよび対応する値を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人の声の音声および前記一人の少なくとも一部の画像を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人が呼吸器系疾患と診断されたか否かを示す情報を含み、前記機械学習モデルを前記トレーニングセットで学習させ、前記音声および前記画像の両方から、前記ユーザが前記呼吸器系疾患を有するか否かを推論し、前記トレーニング済み機械学習モデルを取得した後、前記コンピュータシステムが第1のユーザの第1のユーザ記録を受信し、前記第1のユーザ記録は、前記第1のユーザの咳の音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部分の画像とを含み、前記コンピュータシステムにおいて、前記第1のユーザの咳の前記音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部の画像とに基づいて、前記第1のユーザが前記呼吸器疾患を有することを推論し、前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器疾患を有することを示す情報をメモリに記憶する、処理が実行される、機械可読媒体。
[実施形態2]
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像のうちの少なくとも2つを含む、実施形態1に記載の機械可読媒体。
[実施形態3]
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像を全て含む、実施形態1に記載の機械可読媒体。
[実施形態4]
前記複数のトレーニングレコードは、指先の動画を含み、前記機械学習モデルは、推論の基となる特徴として血中酸素濃度および心拍数を測定するべく、前記指先の動画を用いてトレーニングされる、実施形態1から3の何れか一つに記載の機械可読媒体。
[実施形態5]
前記処理は、前記機械学習モデルをトレーニングすることを更に含む、実施形態1から4の何れか一つに記載の機械可読媒体。
[実施形態6]
前記機械学習モデルをとレーニングすることは、目的関数に関する前記機械学習モデルのパラメータの偏微分係数を計算し、前記機械学習モデルを局所的に最適化されるように前記偏微分係数が示す方向に前記機械学習モデルの前記パラメータを調整することを含む、実施形態1から5の何れか一つに記載の機械可読媒体。
[実施形態7]
前記機械学習モデルは、新型コロナウイルスの感染を示す第1の出力と、新型コロナウイルスの感染段階を示す第2の出力とを出力する、実施形態1から6の何れか一つに記載の機械可読媒体。
[実施形態8]
前記機械学習モデルは、複数のサブモデルの出力を結合する手段を有する、実施形態1から7の何れか一つに記載の機械可読媒体。
[実施形態9]
前記処理は、トレーニング済み前記機械学習モデルの精度に影響を与える人間知覚不可能なデータを保存するために、前記咳の前記音声ファイルまたは前記音声ストリームの非可逆圧縮を設定することを更に含む、実施形態1から8の何れか一つに記載の機械可読媒体。
[実施形態10]
前記機械学習モデルのトレーニングは、前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器系疾患を有することを推論することを実行するコンピュータのセットとは異なるコンピュータのセットによって実行される、実施形態1から9の何れか一つに記載の機械可読媒体。
[実施形態11]
前記第1のユーザが前記呼吸器系疾患を有することを推論することは、前記コンピュータシステムの一部である前記第1のユーザのスマートフォンによって実行される、実施形態1から10の何れか一つに記載の機械可読媒体。
[実施形態12]
トレーニング済みの前記機械学習モデルは、複数のサブモデルをアンサンブルするための手段によって組み合わされた出力を有する少なくとも3つの異なるニューラルネットワークのアンサンブルで構成される、実施形態1から11の何れか一つに記載の機械可読媒体。
[実施形態13]
前記処理は、トレーニング済み前記機械学習モデルに入力する前に、音声咳サンプルをクリーニングし、トレーニング済み前記機械学習モデルに入力する前記音声咳サンプルのセグメントを選択する、前記音声咳サンプルの前処理を行うことを含む、実施形態1から12の何れか一つに記載の機械可読媒体。
[実施形態14]
前記処理は、音声咳サンプルからケプストラム係数を抽出することを含む、実施形態1から11の何れか一つに記載の機械可読媒体。
[実施形態15]
前記音声咳サンプルから前記ケプストラム係数を抽出することは、前記音声咳サンプルからスペクトログラムを構築すること、前記スペクトログラムからフレーム毎に対数パワーを計算すること、前記対数パワーの大きさにフィルタを適用すること、対数圧縮を実行して前記フィルタの出力のケプストラム領域への変換を行うこと、および、フレーム毎にケプストラム係数のベクトルを形成すること、を含む、実施形態14に記載の機械可読媒体。
[実施形態16]
前記処理は、第2のユーザの咳のサンプルの音声のパワースペクトルからメル周波数ケプストラム係数を抽出すること、を含む、実施形態1から15の何れか一つに記載の機械可読媒体。
[実施形態17]
トレーニング済み前記機械学習モデルは、少なくとも2つの非線形層を含む多層フィードフォワードニューラルネットワークを含む、実施形態1から16の何れか一つに記載の機械可読媒体。
[実施形態18]
トレーニング済み前記メル機械学習モデルは、メル周波数ケプストラム係数のベクトルを入力とする二重並列フィードフォワードニューラルネットワークを含む、実施形態1から17の何れか一つに記載の機械可読媒体。
[実施形態19]
実施形態1から18の何れか一つに記載の前記処理を備える方法。
[実施形態20]
1つ以上のプロセッサと、命令を記憶するメモリと、を備え、前記命令が1つ以上のプロセッサによって実行されると、実施形態1から12の何れか一つに記載の前記処理を含む処理が実行される、システム。
[実施形態1]
命令を記憶する有形かつ非一時的な機械可読媒体であって、前記命令が1つ以上のプロセッサによって実行されると、コンピュータシステムを使用して、ユーザのモバイルコンピュータデバイスによって取得された音声および画像の両方に基づいて、前記ユーザが呼吸器系疾患を有するか否かを推論するように構成されたトレーニング済み機械学習モデルが取得され、前記トレーニング済み機械学習モデルは、複数のトレーニングレコードを含むトレーニングセットを取得することによってトレーニングされ、前記トレーニングセット内の複数のトレーニングレコードの各々は、一人についての複数のパラメータおよび対応する値を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人の声の音声および前記一人の少なくとも一部の画像を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人が呼吸器系疾患と診断されたか否かを示す情報を含み、前記機械学習モデルを前記トレーニングセットで学習させ、前記音声および前記画像の両方から、前記ユーザが前記呼吸器系疾患を有するか否かを推論し、前記トレーニング済み機械学習モデルを取得した後、前記コンピュータシステムが第1のユーザの第1のユーザ記録を受信し、前記第1のユーザ記録は、前記第1のユーザの咳の音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部分の画像とを含み、前記コンピュータシステムにおいて、前記第1のユーザの咳の前記音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部の画像とに基づいて、前記第1のユーザが前記呼吸器疾患を有することを推論し、前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器疾患を有することを示す情報をメモリに記憶する、処理が実行される、機械可読媒体。
[実施形態2]
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像のうちの少なくとも2つを含む、実施形態1に記載の機械可読媒体。
[実施形態3]
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像を全て含む、実施形態1に記載の機械可読媒体。
[実施形態4]
前記複数のトレーニングレコードは、指先の動画を含み、前記機械学習モデルは、推論の基となる特徴として血中酸素濃度および心拍数を測定するべく、前記指先の動画を用いてトレーニングされる、実施形態1から3の何れか一つに記載の機械可読媒体。
[実施形態5]
前記処理は、前記機械学習モデルをトレーニングすることを更に含む、実施形態1から4の何れか一つに記載の機械可読媒体。
[実施形態6]
前記機械学習モデルをとレーニングすることは、目的関数に関する前記機械学習モデルのパラメータの偏微分係数を計算し、前記機械学習モデルを局所的に最適化されるように前記偏微分係数が示す方向に前記機械学習モデルの前記パラメータを調整することを含む、実施形態1から5の何れか一つに記載の機械可読媒体。
[実施形態7]
前記機械学習モデルは、新型コロナウイルスの感染を示す第1の出力と、新型コロナウイルスの感染段階を示す第2の出力とを出力する、実施形態1から6の何れか一つに記載の機械可読媒体。
[実施形態8]
前記機械学習モデルは、複数のサブモデルの出力を結合する手段を有する、実施形態1から7の何れか一つに記載の機械可読媒体。
[実施形態9]
前記処理は、トレーニング済み前記機械学習モデルの精度に影響を与える人間知覚不可能なデータを保存するために、前記咳の前記音声ファイルまたは前記音声ストリームの非可逆圧縮を設定することを更に含む、実施形態1から8の何れか一つに記載の機械可読媒体。
[実施形態10]
前記機械学習モデルのトレーニングは、前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器系疾患を有することを推論することを実行するコンピュータのセットとは異なるコンピュータのセットによって実行される、実施形態1から9の何れか一つに記載の機械可読媒体。
[実施形態11]
前記第1のユーザが前記呼吸器系疾患を有することを推論することは、前記コンピュータシステムの一部である前記第1のユーザのスマートフォンによって実行される、実施形態1から10の何れか一つに記載の機械可読媒体。
[実施形態12]
トレーニング済みの前記機械学習モデルは、複数のサブモデルをアンサンブルするための手段によって組み合わされた出力を有する少なくとも3つの異なるニューラルネットワークのアンサンブルで構成される、実施形態1から11の何れか一つに記載の機械可読媒体。
[実施形態13]
前記処理は、トレーニング済み前記機械学習モデルに入力する前に、音声咳サンプルをクリーニングし、トレーニング済み前記機械学習モデルに入力する前記音声咳サンプルのセグメントを選択する、前記音声咳サンプルの前処理を行うことを含む、実施形態1から12の何れか一つに記載の機械可読媒体。
[実施形態14]
前記処理は、音声咳サンプルからケプストラム係数を抽出することを含む、実施形態1から11の何れか一つに記載の機械可読媒体。
[実施形態15]
前記音声咳サンプルから前記ケプストラム係数を抽出することは、前記音声咳サンプルからスペクトログラムを構築すること、前記スペクトログラムからフレーム毎に対数パワーを計算すること、前記対数パワーの大きさにフィルタを適用すること、対数圧縮を実行して前記フィルタの出力のケプストラム領域への変換を行うこと、および、フレーム毎にケプストラム係数のベクトルを形成すること、を含む、実施形態14に記載の機械可読媒体。
[実施形態16]
前記処理は、第2のユーザの咳のサンプルの音声のパワースペクトルからメル周波数ケプストラム係数を抽出すること、を含む、実施形態1から15の何れか一つに記載の機械可読媒体。
[実施形態17]
トレーニング済み前記機械学習モデルは、少なくとも2つの非線形層を含む多層フィードフォワードニューラルネットワークを含む、実施形態1から16の何れか一つに記載の機械可読媒体。
[実施形態18]
トレーニング済み前記メル機械学習モデルは、メル周波数ケプストラム係数のベクトルを入力とする二重並列フィードフォワードニューラルネットワークを含む、実施形態1から17の何れか一つに記載の機械可読媒体。
[実施形態19]
実施形態1から18の何れか一つに記載の前記処理を備える方法。
[実施形態20]
1つ以上のプロセッサと、命令を記憶するメモリと、を備え、前記命令が1つ以上のプロセッサによって実行されると、実施形態1から12の何れか一つに記載の前記処理を含む処理が実行される、システム。
Claims (15)
- 命令を記憶する有形かつ非一時的な機械可読媒体であって、前記命令が1つ以上のプロセッサによって実行されると、
コンピュータシステムを使用して、ユーザのモバイルコンピュータデバイスによって取得された音声および画像の両方に基づいて、前記ユーザが呼吸器系疾患を有するか否かを推論するように構成されたトレーニング済み機械学習モデルが取得され、
前記トレーニング済み機械学習モデルは、複数のトレーニングレコードを含むトレーニングセットを取得することによってトレーニングされ、
前記トレーニングセット内の複数のトレーニングレコードはそれぞれ、異なる一人についての複数のパラメータおよび対応する値を含み、
前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人の声の音声および前記一人の少なくとも一部の画像を含み、
前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人が呼吸器系疾患を有すると診断されたか否かを示す情報を含み、
前記機械学習モデルを前記トレーニングセットで学習させ、前記音声および前記画像の両方から、前記ユーザが前記呼吸器系の病気であるか否かを推論し、
トレーニング済み前記機械学習モデルを取得した後、前記コンピュータシステムが第1のユーザの第1のユーザ記録を受信し、
前記第1のユーザ記録は、前記第1のユーザの声の音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部分の画像とを含み、
前記コンピュータシステムにおいて、前記第1のユーザの声の前記音声ファイルまたは音声ストリームと、前記第1のユーザの少なくとも一部の画像とに基づいて、前記第1のユーザが前記呼吸器疾患を有することを推論し、
前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器疾患を有することを示す情報をメモリに記憶する、処理が実行される、機械可読媒体。 - 前記複数のトレーニングレコードは、
テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、または、皮膚、便、粘液、尿もしくは嘔吐物の生体画像、のうちの少なくとも2つを含む、請求項1に記載の機械可読媒体。 - 前記複数のトレーニングレコードは、指先の動画を含み、
前記機械学習モデルは、推論の基となる特徴として血中酸素濃度および心拍数を測定するべく、前記指先の動画を用いてトレーニングされる、請求項1に記載の機械可読媒体。 - 前記機械学習モデルをとレーニングすることは、目的関数に関する前記機械学習モデルのパラメータの偏微分係数を計算し、前記機械学習モデルを局所的に最適化されるように前記偏微分係数が示す方向に前記機械学習モデルの前記パラメータを調整することを含む、請求項1に記載の機械可読媒体。
- 前記機械学習モデルは、新型コロナウイルスの感染を示す第1の出力と、新型コロナウイルスの感染段階を示す第2の出力との少なくとも2つの出力を含む、請求項1に記載の機械可読媒体。
- 前記処理は、トレーニング済み前記機械学習モデルの精度に影響を与える人間知覚不可能なデータを保存するために、前記一人の声の前記音声ファイルまたは前記音声ストリームの非可逆圧縮を設定することを更に含む、請求項1に記載の機械可読媒体。
- 前記機械学習モデルのトレーニングは、前記コンピュータシステムにおいて、前記第1のユーザが前記呼吸器系疾患を有することを推論することを実行するコンピュータのセットとは異なるコンピュータのセットによって実行される、請求項1に記載の機械可読媒体。
- トレーニング済み前記機械学習モデルは、トレーニング済みアンサンブルモデルと組み合わせた出力を有する少なくとも3つの異なる機械学習アルゴリズムのアンサンブルを含む、請求項1に記載の機械可読媒体。
- 前記処理は、
トレーニング済み前記機械学習モデルに入力する前に、音声サンプルをクリーニングし、トレーニング済み前記機械学習モデルに入力する前記音声サンプルのセグメントを選択する、前記音声咳サンプルの前処理を行うこと、を更に含む、請求項1に記載の機械可読媒体。 - 前記処理は、
前記第1のユーザの前記声の前記音声ファイルまたは前記音声ストリームからケプストラム係数を抽出することを更に含む、請求項1に記載の機械可読媒体。 - 前記ケプストラム係数を抽出することは、
前記第1のユーザの前記声の前記音声ファイルまたは前記音声ストリームからスペクトログラムを構築すること、
前記スペクトログラムからフレーム毎の対数パワーを計算すること、
前記対数パワーの大きさにフィルタを適用すること、
前記フィルタの出力の対数圧縮およびケプストラム領域への変換を行うこと、および、
フレーム毎のケプストラム係数のベクトルを形成すること、を含む、請求項10に記載の機械可読媒体。 - 前記処理は、
第2のユーザの声のサンプルの音声のパワースペクトルからメル周波数ケプストラム係数を抽出すること、を更に含む、請求項1に記載の機械可読媒体。 - トレーニング済み前記機械学習モデルは、少なくとも2つの非線形層を含む多層フィードフォワードニューラルネットワークを含み、
トレーニング済み前記機械学習モデルは、メル周波数ケプストラム係数のベクトルを入力とする二重並列フィードフォワードニューラルネットワークを含む、請求項1に記載の機械可読媒体。 - 請求項1から13の何れか一項に記載の前記処理を備える方法。
- 1つ以上のプロセッサと、命令を記憶するメモリと、を備え、
前記命令が前記1つ以上のプロセッサの少なくとも一部によって実行されると、請求項1から13の何れか一項に記載の前記処理が実行される、システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063060297P | 2020-08-03 | 2020-08-03 | |
US63/060,297 | 2020-08-03 | ||
US202063117394P | 2020-11-23 | 2020-11-23 | |
US63/117,394 | 2020-11-23 | ||
PCT/US2021/044377 WO2022031725A1 (en) | 2020-08-03 | 2021-08-03 | Ensemble machine-learning models to detect respiratory syndromes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023538287A true JP2023538287A (ja) | 2023-09-07 |
Family
ID=80004540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023508076A Pending JP2023538287A (ja) | 2020-08-03 | 2021-08-03 | 呼吸器症候群を検出するためのアンサンブル機械学習モデル |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220037022A1 (ja) |
JP (1) | JP2023538287A (ja) |
WO (1) | WO2022031725A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022139943A2 (en) * | 2020-10-23 | 2022-06-30 | Remmie, Inc. | Machine learning for ear disease diagnosis assistance |
US20220178324A1 (en) * | 2020-12-09 | 2022-06-09 | Transportation Ip Holdings, Llc | Systems and methods for diagnosing equipment |
US20230078141A1 (en) * | 2021-09-16 | 2023-03-16 | Joycelyn Cherise Adams | Abuse Alert Database (HAAD) |
US11522885B1 (en) * | 2022-02-08 | 2022-12-06 | Uab 360 It | System and method for information gain for malware detection |
TW202343476A (zh) * | 2022-03-02 | 2023-11-01 | 美商輝瑞大藥廠 | 用於呼吸病況監測及照護之電腦化決策支援工具及醫療裝置 |
WO2024076656A1 (en) * | 2022-10-06 | 2024-04-11 | Visa International Service Association | Method, system, and computer program product for multitask learning on time series data |
WO2024081343A1 (en) * | 2022-10-14 | 2024-04-18 | The Johns Hopkins University | Systems and methods for acoustic-based diagnosis |
CN117995426A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11315687B2 (en) * | 2012-06-18 | 2022-04-26 | AireHealth Inc. | Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology |
US10223838B2 (en) * | 2013-03-15 | 2019-03-05 | Derek A. Devries | Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras |
US20140378810A1 (en) * | 2013-04-18 | 2014-12-25 | Digimarc Corporation | Physiologic data acquisition and analysis |
US20150245788A1 (en) * | 2013-07-22 | 2015-09-03 | Quvium Uk Ltd | Cough detection, analysis, and communication platform |
WO2018204935A1 (en) * | 2017-05-05 | 2018-11-08 | Canary Speech, LLC | Medical assessment based on voice |
US11147459B2 (en) * | 2018-01-05 | 2021-10-19 | CareBand Inc. | Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health |
US20210219893A1 (en) * | 2018-08-26 | 2021-07-22 | Vocalis Health Ltd. | System and method for measurement of vocal biomarkers of vitality and biological aging |
US20200075165A1 (en) * | 2018-09-05 | 2020-03-05 | Daniel M. Lieberman | Machine Learning Systems and Methods For Assessing Medical Outcomes |
US20200152330A1 (en) * | 2018-11-13 | 2020-05-14 | CurieAI, Inc. | Scalable Personalized Treatment Recommendation |
-
2021
- 2021-08-03 US US17/393,113 patent/US20220037022A1/en active Pending
- 2021-08-03 WO PCT/US2021/044377 patent/WO2022031725A1/en active Application Filing
- 2021-08-03 JP JP2023508076A patent/JP2023538287A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220037022A1 (en) | 2022-02-03 |
WO2022031725A1 (en) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023538287A (ja) | 呼吸器症候群を検出するためのアンサンブル機械学習モデル | |
US20200388287A1 (en) | Intelligent health monitoring | |
US11810670B2 (en) | Intelligent health monitoring | |
Mouawad et al. | Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model | |
Muzammel et al. | End-to-end multimodal clinical depression recognition using deep neural networks: A comparative analysis | |
JP6435257B2 (ja) | 患者音を処理するための方法および装置 | |
Barata et al. | Automatic recognition, segmentation, and sex assignment of nocturnal asthmatic coughs and cough epochs in smartphone audio recordings: observational field study | |
Jayachitra et al. | A cognitive IoT-based framework for effective diagnosis of COVID-19 using multimodal data | |
Fan et al. | Transformer-based multimodal feature enhancement networks for multimodal depression detection integrating video, audio and remote photoplethysmograph signals | |
Costantini et al. | Deep learning and machine learning-based voice analysis for the detection of COVID-19: A proposal and comparison of architectures | |
Song et al. | Emotion recognition based on physiological signals using convolution neural networks | |
Aly et al. | A novel deep learning model to detect COVID-19 based on wavelet features extracted from Mel-scale spectrogram of patients’ cough and breathing sounds | |
Gomez et al. | Exploring facial expressions and action unit domains for Parkinson detection | |
Shuvo et al. | NRC-Net: Automated noise robust cardio net for detecting valvular cardiac diseases using optimum transformation method with heart sound signals | |
Dogan et al. | Multi-modal fusion learning through biosignal, audio, and visual content for detection of mental stress | |
Chen et al. | Cough detection using selected informative features from audio signals | |
Zhao et al. | Dysphagia diagnosis system with integrated speech analysis from throat vibration | |
Aluru et al. | Parkinson’s Disease Detection Using Machine Learning Techniques | |
Ahmed et al. | DeepLung: Smartphone Convolutional Neural Network-Based Inference of Lung Anomalies for Pulmonary Patients. | |
Khan et al. | Auscultation-Based Pulmonary Disease Detection through Parallel Transformation and Deep Learning | |
Yan et al. | Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data | |
Worasawate et al. | Classification of Parkinson’s disease from smartphone recording data using time-frequency analysis and convolutional neural network | |
US20230309915A1 (en) | System and method for attentional multimodal pain estimation | |
Sadiq et al. | Attention-Based Deep Learning Model for Early Detection of Parkinson’s Disease. | |
He et al. | Smartphone-based detection of early Parkinson’s disease with tapping records and a multimodal-multiscale ensemble network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240717 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20240829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241002 |