JP2023538287A

JP2023538287A - 呼吸器症候群を検出するためのアンサンブル機械学習モデル

Info

Publication number: JP2023538287A
Application number: JP2023508076A
Authority: JP
Inventors: アミルカンザダ，
Original assignee: Virutec pbc
Current assignee: Virutec pbc
Priority date: 2020-08-03
Filing date: 2021-08-03
Publication date: 2023-09-07
Also published as: US20220037022A1; WO2022031725A1

Abstract

１つ以上のプロセッサにより、複数の患者レコードを含むデータセットを取得する工程と、機械学習システムへの入力のための前記複数のパラメータのサブセットを選択する工程と、トレーニングデータおよび前記入力のための前記複数のパラメータのサブセットに基づいて、前記機械学習システムを使用して分類器を生成する工程と、１つ以上のプロセッサにより、第１のユーザの患者レコードを受信する工程と、１つ以上のプロセッサにより、分析を実行して、第１のユーザの音声サンプルから音響測定値を特定する工程と、を備えるプロセスを提供する。

Description

（関連出願の相互参照）
本出願は、米国特許仮出願第６３／０６０，２９７号、出願日：２０２０年８月３日、発明の名称「呼吸器症候群を検出するアンサンブル機械学習モデル」、および、米国特許仮出願第６３／１１７，３９４号、出願日：２０２０年１１月２３日、発明の名称：「咳から新型コロナウイルス感染症をＡＩ検出するための、クラウドソーシングによるデータセットおよび臨床データセットの大陸横断的な適用性」に基づく優先権を主張する。上記出願の全内容はあらゆる目的で参照により本明細書に組み込まれる。

本開示は、一般に、感染を検出するコンピュータモデルに関し、より具体的には、呼吸器ウイルスおよびその他の病原体に感染した個人を検出するための機械学習モデルに関する。

新型コロナウイルスが流行し、世界中で７３００万人以上の新型コロナウイルス感染症患者が発見されている。同時に、新型コロナウイルス感染症の臨床診断は、人々、特に新型コロナウイルス感染症の医療機関が少ない遠方の人々にとって、時間の浪費と経済的な負担を強いることになる。

以下は、本技術のいくつかの態様を非網羅的に列挙したものである。これらおよびその他の態様は、以降の開示に記載されている。

本発明の幾つかの態様は、コンピュータ実装される方法を提供する。方法は、１つ以上のプロセッサにより、複数の患者レコードを含むデータセットを取得する工程を備え、患者レコードはそれぞれ、患者についての複数のパラメータおよび対応する値を含み、前記患者についての複数のパラメータおよび対応する値は、咳、呼吸または発話のような患者の音声雑音の音声ファイルを含み、前記データセットは、新型コロナウイルス感染症と診断されたか否かを示す診断情報を含み、前記方法は更に、機械学習システムへの入力となる、前記複数のパラメータのサブセットを選択する工程を備え、前記複数のパラメータの前記サブセットは、前記患者についての少なくとも２つのパラメータおよび対応する値を含み、前記複数のパラメータの前記サブセットのパラメータのうちの一つは、患者の咳の前記音声ファイルであり、前記方法は、前記データセットを、トレーニングデータおよび検証データへと分割する工程と、トレーニングデータおよび前記入力のための前記複数のパラメータのサブセットに基づいて、前記機械学習システムを使用して分類器を生成する工程と、１つ以上のプロセッサにより、第１のユーザの患者レコードを受信する工程と、１つ以上のプロセッサにより、分析を実行して、第１のユーザの音声サンプルから音響測定値を特定する工程と、前記分類器を用いて、前記第１のユーザの前記音声サンプルの特定された前記音響測定値に基づいて、前記第１のユーザの新型コロナウイルス感染の可能性を決定する工程と、前記第１のユーザの新型コロナウイルス感染の前記可能性を出力する工程と、を備える。

いくつかの態様は、データ処理装置によって実行されると、データ処理装置に上述のプロセスを含む動作を実行させる命令を記憶する有形かつ非一時的な機械可読媒体を提供する。

いくつかの態様は、１つ以上のプロセッサと、命令を記憶するメモリと、を備え、前記命令が前記１つ以上のプロセッサの少なくとも一部よって実行されると、上記のプロセスの処理が実行される、システムを提供する。

本技術の上述の態様およびその他の態様は、本願を、以下の図を参照して読めば、よりよく理解されるであろう。これらの図において、同一番号は類似または同一の要素を示す。

本発明の技術の一部に従って、感染の兆候としてデータを分類するように構成されたコントローラの一実施形態を示す論理図および物理アーキテクチャ図である。

本発明の技術のいくつかに従って、機械学習モデルを用いて新型コロナウイルス感染の可能性を判断するプロセスの一例を示すフローチャートである。

本発明の技術が実装され得るコンピュータデバイスの一例を示す。

本発明の技術は、様々な変更や代替の形態が可能であるが、その具体的な実施形態が図面に例として示されており、本明細書で詳細に説明される。図面は実際の縮尺通りでない場合もある。ただし、図面およびそれに基づく詳細な説明は、開示された特定の形態に本技術を限定することを意図したものではなく、逆に、添付の請求項によって定義される本技術の趣旨および範囲内に入るすべての修正、均等物、および代替物を網羅することを意図したものであることを理解すべきである。

本書に記載されている問題を軽減するために、本発明者らは解決策を考案しなければならなかったが、場合によっては、同様に重要なこととして、機械学習分野の他の人々が見落としていた（あるいはまだ予見されていない）問題を認識しなければならなかった。実際、本発明者らは、初期段階にある問題を認識することの難しさを強調したいと考えている。これらの問題は、本発明者らが期待するように産業界の動向が継続した場合、将来的にははるかに明白になるであろう。さらに、対処する問題が複数あるため、いくつかの実施形態はいずれかの問題に特化しており、すべての実施形態が本明細書に記載されている従来のシステムの問題のすべてに対処しているわけでも、本明細書に記載されているすべての利点を提供しているわけでもないことを理解すべきである。つまり、これらの問題の様々な順列を解決する改良が以下に記載されている。

機械学習アルゴリズムは、人の新型コロナウイルス感染症の状態を事前に示すことができる強力なツールとなる可能性がある。いくつかの実施形態では、スマートフォンで取得した音声や画像から新型コロナウイルス感染を正確に推測するために、そのようなモデルを実装する。スマートフォンの使用率は高く、経済的に恵まれない地域でも継続的に上昇していることから、これらのデバイスは、呼吸器の音声記録を収集し、音声に基づく新型コロナウイルス感染症検査を実施するための汎用的で低コストの理想的なプラットフォームとなることが期待される。とはいえ、本技術は、その他のプラットフォーム、例えば、公共のキオスク、デスクトップコンピュータ、リモートクライアントデバイスから同様のデータを受信するサーバ等でも使用できる。

コンピュータに実装される新型コロナウイルス感染症音声解析のいくつかの形態は、単一チャネルの情報、例えば、もっぱら音声に限定されることが多く、より広い特徴のセットおよび適切なアンサンブルモデルで達成可能と予測される精度および特異度よりも、低い精度および特異度となる。

いくつかの実施形態では、最終的なモデルのトレーニング（トレーニング中の場合）または推論（例えば、新型コロナウイルス感染を示すものとして入力セットを分類する）の前に、ネイティブアプリケーションは、前処理、フィルタリングおよび特徴抽出を受ける生のデータまたは入力で動作してもよい。いくつかの実施形態は、複数の（場合によっては異種の）機械学習モデルをアンサンブルし、音声以外の多くのチャンネルの入力から分類をトレーニングおよび推論する。あるいは、いくつかの実施形態は、音声のみで動作してもよい。いくつかの実施形態では、機械学習モデルは、入力データの複数のチャンネルを融合して動作してもよい。音声については、例えば、いくつかの実施形態では、深層ニューラルネットワークをトレーニングするためにメル周波数セプストラル係数（ＭＦＣＣ）とメルスペクトログラムの両方を使用する。また、別の実施形態では、アンサンブル機械学習モデルにおいて画像からＣＯＶＩＤ関連特徴を推論するために、このモデルの出力を、コンピュータビジョンモデルの出力と組み合わせてもよい。

いくつかの実施形態は、スマートフォン上で実行され（例えば、専らモノリシックアプリケーションとしてまたは一部がリモートサーバ上で実行される分散アプリケーションの一部として）、ユーザに関する複数チャンネルのデータを取得する、そのような例は以下に説明される。別の例では、音声または画像はその他のソースから取得されてもよく、例えば、コールセンターに電話をかけるユーザの通話、または、音声ベースのデジタルアシスタントのスマートスピーカまたはその他のホストから取得されてもよい。そのようなソースも、本目的のユーザのモバイルコンピュータデバイスの例となる。いくつかの実施形態は、新型コロナウイルス感染症の状態（またはその他の症候群）の分類（例えば、ローカルでまたはリモートサーバによって実行）を、リアルタイム（例えば、データ取得から１分以内または１０分以内）で応答する。いくつかの実施形態では、スマートフォンに存在するセンサのハードウェアを使用する。いくつかの実施形態は、単一のモダリティテストを利用し、他の実施形態は、アンサンブル手法として様々なモダリティを組み合わせて、精度（例えば、感度、特異度、タイプ１エラー、タイプ２エラーまたはＦ２スコアによって測定）を上げる。いくつかの実施形態では、スマートフォン上のネイティブアプリケーションのユーザインターフェースを介して、アンサンブルモデルに供給する様々な上流サブモデルへの入力が取得される様々なアクションをユーザに実行するよう求めてもよい。例えば、テキストアンケートに記入する、電話のマイクに向かって呼吸するまたはせき込む、マイクの可聴範囲で話す、指、その他の付属器官、顔またはその他の身体排出物（例えば、便、唾液、血液、粘液等）の動画または写真を撮る、ウェアラブルデバイス（手首に装着するパルスオキシメータ、慣性計測装置（歩数計等）、心拍センサ、温度モニタ等）からのデータ取得を許可することが含まれる。

図１は、本技術が実施され得るコンピュータシステム１００内で動作する、コントローラ１２の一例の概略的なブロック図である。様々に異なるコンピュータアーキテクチャが考えられる。そのため、「コンピュータシステム」という用語は、単一のコンピュータデバイス（例えば、スマートフォンまたはサーバであり得る）およびコンピュータデバイスの集まり（例えば、各デバイスがコンピュータシステムによって実行されるタスクの異なるサブセットを実行する、スマートフォンおよびマイクロサービスアーキテクチャにおける複数の異なるサーバの両方を含み得る）に対する総称として使用するものとする。いくつかの実施形態では、コントローラ１２のコンポーネントの一部または全部は、異なるエンティティによってホストされてもよく、例えば、クライアント－サーバアーキテクチャにおいて、モデルのトレーニングまたは推論がサーバ側で実行され、クライアント側であるスマートフォンからデータが取得される。場合によっては、モデルはサーバ側でトレーニングが行われるが、推論は、ネイティブアプリケーションにダウンロードされたトレーニング済みモデルを使用してクライアント側で実行されてもよい。いくつかの実施形態では、コントローラ１２およびその構成要素は、例えば、モノリシックアプリケーションとして実装され、図示された様々な構成要素が、例えば、関数呼び出しを介して互いに通信する異なるソフトウェアモジュールまたはプロセスとして実装されてもよく、場合によっては、複数の構成要素の一部または全てが、単一のコンピュータデバイス上で同時に実行される異なる複数のプロセスとして実装されてもよい。いくつかの実施形態では、図示された構成要素の一部または全ては、異なるネットワークホスト上で実行される別個のサービスとして実装されてもよく、これらホストは、例えば、異なるサービスそれぞれのアプリケーションプログラムインターフェースに従って、ホスト各自のネットワークスタックを介して交換されるメッセージを介して互いに通信する。

いくつかの実施形態では、コンピュータシステム１００は、複数のソースデータセット１０を使用してモデルをトレーニングすることができ、コントローラ１２は、スマートフォンのようなコンピュータデバイスにユーザインターフェース１８を提示させてもよい。いくつかの実施形態では、コントローラ１２は、複数のモダリティ分類器１６（例えば、咳分類器、深呼吸分析、時間データ分析、顔動画、指先動画および生体画像）を有する人工知能（ＡＩ）モジュール１４（機械学習モデルを実装するもの等）を備えてもよい。分類器１６は感染していることが示されたか否かに従って入力を分類するように動作可能であってもよい、または、分類器１６のいくつかの実施形態は、アンサンブルモデルによるダウンストリーム処理のために入力から特徴を抽出してもよい。

いくつかの実施形態では、コントローラ１２は、図２を参照して以下に説明するプロセス２００を実行するように構成され得る。いくつかの実施形態では、このプロセス２００の異なる複数のサブセットがコントローラ１２の図示された構成要素によって実行されてもよく、それらの特徴は、本明細書で同時に説明される。プロセス２００の実施形態は、図１のアーキテクチャによる実装に限定されず、図１のアーキテクチャは、図２を参照して説明されるものとは異なるプロセスを実行してもよく、いずれも、本明細書のその他の説明が限定的であることを示唆するものではない。

いくつかの実施形態では、プロセス２００は、図２のブロック１０２によって示されるように、トレーニングデータの複数のデータセットを取得することを含む。トレーニングデータは、教師あり学習のためのラベル付きデータ、または教師なし学習もしくは半教師あり学習のためのラベルなしデータであってよい。例としては、推論に使用される同じチャンネルの入力データに対するラベル付きデータセットが挙げられる。場合によっては、トレーニングセットはそれぞれ、各チャンネルの入力と、その人が新型コロナウイルスを持っているかどうか、いつ新型コロナウイルスに感染したか、サンプルが採取された時点でのその人の感染の段階、その人が入院したかどうか、人口統計データ、併存疾患、感染による合併症、その人がその感染で死亡したかどうか、を示すラベルを含む。場合によっては、入院や死亡の可能性を推論するために、上述したモデルを使用することもできる。場合によっては、情報の入力チャンネルのいくつかは、ＵＩ１８を通じて提示される調査に記入する際にユーザが入力するデータのこれらのフィールドを含んでもよい。

いくつかの実施形態では、ブロック１０４によって示されるように、複数のパラメータからなるサブセット（例えば、複数のチャンネルのうちの１つ以上）が、ＡＩモジュール（例えば、機械学習モデル）への入力として選択されてもよい。いくつかの実施形態では、新型コロナウイルス予測におけるその信頼性を高めるために、テキストによるアンケートが使用されてもよい。

いくつかの実施形態では、スマートフォンまたは医療機器を使用して、新型コロナウイルス（ＳＡＲ－ＣｏＶ－２）または他の病原体による感染の可能性についてユーザを評価してもよい。モダリティの種類に応じて、スマートフォンまたは医療機器は、カメラ（高解像度（例えば、１メガピクセル以上）の相補型金属酸化膜半導体（ＣＭＯＳ）画像センサを有するもの等）、温度センサ、全地球測位システム（ＧＰＳ）センサ、加速度計、ジャイロスコープ、磁力計、周囲光センサ、マイク、タッチスクリーンインターフェース、酸素濃度センサ（Ａｐｐｌｅ（登録商標）ｗａｔｃｈシリーズ６）等を備えてもよい。

いくつかの実施形態では、新型コロナウイルス検出のための深呼吸（例えば、最大呼吸深度の８０％以上）分析を使用してもよい。このモダリティの予測精度は、信号強度が微弱であるため、現在のところ音声に劣ると考えられているが、それでもランダムな推測を大幅に上回り、アンサンブルモデルにおいて追加的に信頼度を測るメトリックとして有用であると期待される。場合によっては、異なる形態の音声入力、例えば、咳、指定されたフレーズの読み取り、音節の復唱（例えば、「ア、ア、ア…」又は「イ、イ、イ…」と５秒間言うようにユーザに求める）、及び、深呼吸はそれぞれ、異なるチャネルの入力を構成し得る。音声入力は、ユーザのスマートフォンのマイクを使用して行ってもよい。

いくつかの実施形態では、時間的データ解析が使用されてもよい。ユーザインターフェースを使用して同じ患者のデータを使用し、数日および数週間にわたって複数回データを記録することにより、アルゴリズムはユーザの新型コロナウイルス疾患における段階を推論し、疾患の発症および転帰を予測することができると期待される。新型コロナウイルス感染症から回復しても、患者の耳、鼻、喉、肺の組織が抗体の存在とともに影響を受けているケースがある。これらの変化によって生じる生物学的および物理学的な違いは、いくつかの実施形態によって検出可能であると期待され、いくつかの実施形態では、このようなデータから新型コロナウイルス免疫を推論してもよい。

いくつかの実施形態は、画像（または動画のような画像の集まり）を取得し、例えば、ユーザのスマートフォンのカメラから、顔画像解析を実行することができる。いくつかの実施形態では、新型コロナウイルス陽性患者および陰性患者の顔における明確な特徴、例えば、酸素不足により新型コロナウイルス患者では青みがかった色になる傾向がある唇の色や、肌の色／質感の変化を（例えば、クライアント装置またはサーバ側で）検出する。いくつかの実施形態では、顔の動画から、（血管の周りの血流による）顔の赤みの強さの変化に基づいて、心拍数、心拍変動、酸素飽和度、呼吸数等の様々な状態を推論する。

いくつかの実施形態では、音声による新型コロナウイルス感染症の検出も使用してもよい。また、いくつかの実施形態では、新型コロナウイルス保有者を正確に検出するシステムの有効性をさらに強化するために、話者の音声から、特徴として、年齢、性別および民族性を推論することができる。場合によっては、これらの特徴は、ＵＩ１８を介して提示される調査においてユーザによって入力され得る。

いくつかの実施形態では、血中酸素濃度や心拍数を測定および記録するために使用される指先の動画（または個々の画像）を（例えば、モバイルデバイスのカメラから）取得し、処理してもよい。新型コロナウイルス感染症患者は、呼吸器系に影響を受けて酸素摂取量の減少につながることが多く、指の血管の酸素濃度の低下を示す視覚的特徴によって（例えば、色から）検出可能であると考えられる。場合によっては、撮影時に指に光を当てるように指示してもよい。同様に、新型コロナウイルス感染症の患者は心拍数の増加または不整脈を経験することが多く、これは酸素摂取の困難性の増大に伴って発生する新型コロナウイルス感染症の合併症である。いくつかの実施形態では、スマートフォンにパルスオキシメータを実装し、フラッシュをオンにした状態でカメラレンズに１本の指をしっかりと押し付けで動画を撮影し、取り込まれた赤色画素の強度（例えば、赤色チャンネルの強度およびその時間的変動）を分析することにより、光電式血圧計（ＰＰＧ）の代わりとなり得る。さらにいくつかの実施形態において、様々な患者バイタルを推論するために、取得されたＰＰＧを心拍数についてさらに分析され得る。例えば、いくつかの実施形態は、参照によりここに組み込まれる以下の論文の技法を実装する。Ｈａｓａｎ等、ＳｍａｒｔＨｅＬＰ：人工ニューラルネットワークを用いたスマートフォンによるヘモグロビン値予測機能、ＡＭＩＡＡｎｎｕＳｙｍｐＰｒｏｃ．２０１８年１２月５日；２０１８：５３５－５４４．ｅＣｏｌｌｅｃｔｉｏｎ２０１８，ＰＭＩＤ：３０８１５０９４ＰＭＣＩＤ：ＰＭＣ６３７１３３４．

いくつかの実施形態では、新型コロナウイルス感染者を特定するために生体画像を使用することができる。新型コロナウイルスは、身体の様々な生物物理学的システムに影響を及ぼす可能性がある。いくつかの実施形態では、唾液、便、尿、嘔吐物、粘液等の様々な身体分泌物における変化を、ユーザのスマートフォンで撮影した画像を分析することによって検出することができる。新型コロナウイルス感染症と関係しているこれらの物質の画像における微妙な差異が、いくつかの実施形態によって検出されることが期待される。例えば、視野内（または指定された角度でそのような表面上）に既知の基準寸法（クレジットカードのような）を設定したブロブ検出アルゴリズムを使用して検出された複数のブロブ（小塊または小泡）の寸法（および色）の統計値は、新型コロナウイルス感染と関係する流体の粘性、表面張力またはその他の属性を示し得る。患者によって報告された表面張力及び／又は色の変化も、いくつかの実施形態によって入力特徴として使用可能である。

いくつかの実施形態において、推論を強化するようにモバイルデバイスに搭載された音声／画像圧縮を調整してもよい。本明細書に記載される機械学習モデルのいくつかの実施形態は、従来の非可逆圧縮技術によって失われてしまうことが多い人間の目や耳では区別できない信号から、新型コロナウイルス感染症を拾い上げることができると期待される。いくつかの実施形態は、そのようなモデルによる新型コロナウイルス感染症の分類に関連する特徴を保持するように、データの音声圧縮／解凍を調整してもよい。例えば、いくつかの実施形態は、人間に聞こえる周波数帯の一部について非可逆圧縮技術を適用する一方、新型コロナウイルス感染症に関連すると判断された周波数帯には相対的にデータ損失が少ない圧縮を優先させてもよい。関連する特徴を保持するために、同様の技術を、例えば、量子化マトリックスを調整することによって画像圧縮（例えば、ビデオ圧縮）に適用してもよい。場合によっては、圧縮は、その解釈可能性を高めるためにトレーニングされた機械学習モデルに技術を適用することによって調整されてもよく、例としては、Ｆ２スコアにおいてニューラルネットワークの特定の部分を削除することによる効果を測定することが挙げられる。Ｆ２スコアに対して比較的大きな効果を有するモデルの削除部分（例えば、パーセプトロン、畳み込みフィルタ、接続など）は重要であると考えられる。いくつかの実施形態では、モデルのそれらの部分によって出力される特徴に対する様々な圧縮パラメータの効果を測定し、圧縮において許容できるトレードオフを考慮しながら精度を保つパラメータ値を決定してもよい。

いくつかの実施形態は、最終的な分類を出力する下流のアンサンブルモデルにおいて組み合わされる複数の出力を生成する複数の上流サブモデルを備えてもよい。場合によっては、識別能力を有すると期待される上記モダリティの各々は、異なるサブモデルを有してもよいし、それらを組み合わせてもよい。場合によっては、サブモデルはそれぞれ、別々に独立してトレーニングされ、新型コロナウイルス感染症（または、新型コロナウイルス感染症に関して参照するのと同様に、その他の呼吸器疾患）の検出における精度について最適化される。あるいは、場合によっては、単一のグローバル最適化においてエンドツーエンドのトレーニングが適用されることがあるが、このアプローチは、複数のモデルパラメータについてメモリが同時に必要とされることから、より計算資源が集中すると考えられる。

例として、確率的勾配降下、焼きなまし法、進化的最適化アルゴリズム等の技術がある。場合によっては、アンサンブルモデルがトレーニングされる前に、サブモデルの各々がトレーニングされる。いくつかの実施形態では、モデルパラメータ値をランダムに割り当て、目的関数に関する各パラメータの偏微分係数を計算し、偏微分係数が示す方向にパラメータを調整してモデルを局所的に最適化し、イタレーション間の目的関数の変化が局所最適または全体最適を示す閾値未満になるまでこのような計算と調整を繰り返す。いくつかの実施形態では、ランダムに割り当てられた複数の異なる初期パラメータ値でこのプロセスを複数回繰り返し、これらのイタレーションのうち目的関数によって測定される最適な結果をもたらすトレーニング済みモデルのバージョンを選択してもよい。

アンサンブルモデルには、様々なアーキテクチャが考えられる。例としては、ディープニューラルネットワーク、決定木、ランダムフォレスト、回帰木、分類木、ベインジアンネットワーク等が挙げられる。初期段階での結合と共に、ソフト投票およびハード投票のような方法が実装されてもよい。場合によっては、これらのアプローチもサブモデルで使用されることがある。場合によっては、いくつかのサブモデル、例えば、時系列データ（例えば、動画または音声）を処理するものは、トランスフォーマアーキテクチャを使用することができ、例えば、マルチヘッドアテンション、長短期記憶モデル、または、その他のリカレントニューラルネットワークを有するもの等を使用することができる。特に、トレーニングデータ（またはその中の正例）が疎である場合、シャムネットワーク（Ｓｉａｍｅｓｅｎｅｔｗｏｒｋ）またはトリプレットロスネットワーク（ｔｒｉｐｌｅｔｌｏｓｓｎｅｔｗｏｒｋ）のような技法を適用してもよく、場合によっては、時系列データ用の時間比較ネットワーク（ｔｉｍｅ－ｃｏｎｔｒａｓｔｉｖｅｎｅｔｗｏｒｋ）を使用する。

いくつかの実施形態では、データ拡張（ホワイトノイズまたはガウスノイズ等の背景音声ノイズの追加、画像のぼかし等）、および、補助データ（様々な呼吸器疾患並びにその他の疾患の音声および視覚データセット等）も、アルゴリズムの効果を促進および改善するために使用することができる。

いくつかの実施形態では、データ収集は、グローバルな草の根的なクラウドソーシングの取り組みと、様々な国での臨床研究および試験を組み合わせるという多方面から行うことができる。

いくつかの実施形態では、アルゴリズムは、百日咳や喘息等の呼吸器疾患と共に、インフルエンザ、風邪、ＳＡＲＳ、ＣＯＶＩＤ－２０等の他のコロナウイルスを含む様々な疾患を検出および判別するように構成されてもよい。いくつかの実施形態では、音声によって潜在的に検出可能な他の障害（例えば、児童虐待、家庭内暴力、うつ病など）を検出してもよい。

いくつかの実施形態では、ラベル付きトレーニングデータのセットは、図２のブロック１０６に示すように、複数の異なるサブグループ（例えば、トレーニングデータセットおよび検証データセット）に分割されてもよい。場合によっては、トレーニングデータは、陽性が比較的まれであることに起因して、かなり不均衡なデータセットである可能性がある。場合によっては、よりバランスのとれたトレーニングデータセットを作成するために、データ拡張技術が適用されてもよい。ガウスノイズまたはホワイトノイズ（または上記のその他の例）を追加する、音量の調整、ピッチシフト、時間信号のシフトおよび時間信号の伸張によって、新型コロナウイルス感染症ラベル付きサンプルの数を増加させてもよい。拡張段階の前に、データは、トレーニングデータセット、検証データセットおよびテストデータセットへと分割されてもよく、分割されたデータセットに拡張が別々に適用されるようにしてもよい。場合によっては、各クラスは、分割されたサンプルの数の３分の１で表されてもよい、これは、データが全てのクラスに対して完璧にバランスよく分配されると考えられる。

いくつかの実施形態では、分類器は、図２のブロック１０８によって示されるように、機械学習技術を使用して生成（例えば、トレーニング）されてもよい。いくつかの実施形態では、Ｃｏｓｗａｒａ、Ｃｏｕｇｈｖｉｄ、およびＩａｔｏｓ等の新型コロナウイルス感染症ステータスラベルを有する、咳音の誰でも利用可能なデータセットを使用して、深層ニューラルネットワークのトレーニングが行われてもよい。

いくつかの実施形態では、モデルの性能を検証するために、ＣｏｓｗａｒａおよびＣｏｕｇｈｖｉｄクラウドソースデータを超える、より詳細なラベルを持つ追加のデータセットがコンパイルされてもよい。全てのデータは新型コロナウイルス感染症ＰＣＲラベルを有し、実世界での使用をシミュレートすることを意図した条件で取得されてもよい。音声ファイルは、データ取得のモードに応じて、圧縮ファイルと非圧縮ファイル（例：ｗａｖ、ｏｇｇ、ｆｌａｃ、ｗｅｂｍ、ｍｐ３ファイル）が混在している場合がある。潜在的なプライバシーリスクやセキュリティ脅威は、データ保護影響評価（ＤＰＩＡ）やいくつかの内部情報セキュリティポリシーと共に、地域毎のプライバシーポリシーや患者同意書を通じて対処してもよい。場合によっては、データセットは匿名化され、処理中および非処理時の両方で暗号化される。

いくつかの実施形態では、一般のスマートフォンユーザの音声からの新型コロナウイルス検出の１つの潜在的な使用例を模倣するために、モデル内で使用されるサンプルはモバイルデータ収集アプリを使用してクラウドソーシングされる。

いくつかの実施形態では、臨床設定における新型コロナウイルス検出アルゴリズムの性能を決定するために、スマートフォンを使用して病院でサンプルを収集してもよい。全ての患者に対して電子的に提示され署名される明示的な患者同意書は、事前に起草される。データは、病院の施設審査委員会（ＩＲＢ）承認の臨床研究プロトコルの下、患者から直接収集される。

いくつかの実施形態では、クラウドソーシングされたデータセットからの複数の特徴が、モデルのトレーニングに使用されてもよい。グリッドサーチを使用して様々な特徴およびアーキテクチャについて検索した後、以下に記載するようなパラメータを有する３つの特徴のアンサンブルモデルが使用されてもよい。第１の特徴は、短期パワースペクトルから得られる音声特徴であるメル周波数ケプストラム係数（ＭＦＣＣ）である。音声ファイルはそれぞれ２２．５ｋＨｚに再サンプリングされ、ｌｉｂｒｏｓａパッケージを使用して、サンプリングレート２２．５ｋＨｚ、ホップ長２３ｍｓ、ウィンドウ長９３ｍｓ、Ｈａｎｎウィンドウタイプで最初の３９個のＭＦＣＣが抽出されてもよい。出力は時間軸で平均化され、音声ファイル一つにつき平均３９個のＭＦＣＣｓ特徴を得ることができる。

いくつかの実施形態では、抽出される第２の特徴は、別のオーディオ特徴であるメル周波数スペクトログラムであってもよい。ＭＦＣＣはスペクトログラムから導出されるが、スペクトログラムは、いかなる変換も行わずに生のパワー情報をエンコードする。スペクトログラムは、ＭＦＣＣと同じパラメータでｌｉｂｒｏｓａパッケージを使用して抽出され、所定のサイズになるように補間されてもよい。

いくつかの実施形態では、音声ファイルから音声特徴を抽出する方法は、モデルの性能に影響を与える可能性がある。ネットワークをトレーニングするためのいくつかの有用な特徴があると考えられ、例えば、両方とも音声特徴であるメル周波数ケプストラム係数およびメル周波数スペクトログラムが考えられる。いくつかの実施形態では、複数の異種分類器を使用することができ、そのうちの１つはメルスペクトログラムでトレーニングされ、他の１つはＭＦＣＣでトレーニングされる。音声ファイルはそれぞれ、元の周波数の半分（２２．５ＫＨｚ）にダウンサンプリングされ、３秒の音塊に分割されてもよい。最初の１３個のＭＦＣＣは、ｐｙｔｈｏｎのｌｉｂｒｏｓａパッケージを使用して、前処理された音塊から抽出され、Ｈａｎｎｗｉｎｄｏｗｔｙｐｅはホップ長で１０ｍｓ、ウィンドウ長で２０ｍｓであってもよい。

いくつかの実施形態では、ＭＦＣＣを抽出するのに使用されるのと同じパラメータについて、ｌｉｂｒｏｓａパッケージを使用してメルスペクトログラムが抽出されてもよい。ｍｅｌ－ｓｐｅｃｔｒｏｇｒａｍカラー画像はそれぞれ、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークの元の入力サイズである（２２４，２２４，３）のサイズに再形成されてもよい。また、新型コロナウイルス感染者を予測するモデルの精度をさらに高めるために、呼吸器疾患の既往歴や発熱の症状等、ＣＯＵＧＨＶＩＤデータセットの他の有用な臨床情報を用いてもよい。この臨床情報は、症状や状態の有無を二進数で表すため、二進数の一次元ベクトルで渡すことができる。

いくつかの実施形態では、声の音塊から抽出された複数の異なるタイプの特徴は、各レコードのキーと共にハッシュテーブルに格納されてもよい。データは、８０－１０－１０の分割を使用して、トレーニング検証－テストセットにランダムに（例えば、擬似乱数的に）グループ化されてもよい。

いくつかの実施形態では、スライスベースの解析が実行され、テストデータセットを年齢及び性別に基づくグループに分割することができる。テストデータセットは年齢によって複数のグループに分割されてもよい。例えば、４つのグループの場合、第１グループは２０歳未満の患者、第２グループは２０歳から４０歳までの患者、第３グループは４０歳から６０歳までの患者、第４グループは６０歳以上であってもよい。あるいは、いくつかの実施形態では、１８～３０歳、３０～４５歳、４６～６０歳、そしてそれ以上の年齢というグループ分けをしてもよい。性別については、テストデータセットが対応するグループに分割されてもよい。

いくつかの実施形態では、モデルは、ＩｍａｇｅＮｅｔデータセットで事前にトレーニングされ、最上層（例えば、分類層）を取り除いたＲｅｓＮｅｔ－５０３Ｄ畳み込みニューラルネットワークに基づくマルチブランチアンサンブル学習アーキテクチャである。ＣＮＮの入力は、所定サイズ（２２４ピクセル、２２４ピクセル、３つのＲＧＢ層、または、これら寸法の何れかより大きいもしくは小さい）のメルスペクトログラムカラー画像であってもよく、ＣＮＮの出力は、２つの別々の並列リンクにおいてグローバル平均プーリング層とグローバル最大プーリング層の両方に渡されることがある。これらの層の後にはバッチ正規化層とドロップアウト層がそれぞれ続き、単一のｄｅｎｓｅ層（例えば、シグモイドまたは双曲線正接活性化関数を有する層のような非線形の層）において一緒に連結されて最初の分岐を作ってもよい。

いくつかの実施形態において、第２の分岐は、それぞれ８ノードおよび６４ノードである２つのｄｅｎｓｅ層を含む多層フィードフォワードニューラルネットワークであってよい。そして、各層の後に、バッチ正規化層およびドロップアウト層が続いてもよい。第１の分岐の入力は、二進数のＩＤベクトルであってもよい。二進数は、呼吸器疾患の既往歴、咳の種類、患者の発熱の有無等、患者記録に関連する臨床的特徴のうちの１つをエンコードしてもよい。この分岐により臨床情報が充実することが期待される。

いくつかの実施形態では、第３の分岐は、メル周波数ケプストラム係数のベクトルを所定サイズ（１３、１、または、これら寸法の何れかよりも大きいもしくは小さい）の入力ベクトルとする二重並列フィードフォワードニューラルネットワークであってよい。２つの並列リンクはそれぞれ、２つの層を含む多層フィードフォワードニューラルネットワークであってよく、各層の後にはバッチ正規化層およびドロップアウト層が続いてもよい。両方のリンクの高位端は、単一のｄｅｎｓｅ層で連結されてもよい。

いくつかの実施形態では、第３の分岐の高位端で抽出された高レベルの特徴は、マルチラベル分類タスクのためのソフトマックス層が続く逐次フィードフォワードニューラルネットワーク（ＳＦＦＮ）に渡される前に結合されでもよい。３つのラベルは、いくつかの実施形態では次の通りである：新型コロナウイルス感染症陰性（健康）、新型コロナウイルス感染症陰性（症候性）および新型コロナウイルス感染症陽性。他の実施形態では、確信度の低い陰性、確信度の高い陰性、確信度の低い陽性、確信度の高い陽性、および不確定というように、より多くのラベルを含むことができる。あるいは、いくつかの実施形態は、０と１の間の値のような実数スコアを出力してもよく、より高い値は、人が感染しているという推論の強さがより大きいことを示す。

いくつかの実施形態では、ネットワークアーキテクチャは、複数の異種分類器を使用してもよく、ＲｅｓＮｅｔ－５０ＣＮＮ（畳み込みニューラルネットワーク）を使用して、スペクトログラム画像から抽出された高レベル特徴、および、深層ニューラルネットワークを使用してＭＦＣＣから抽出された高レベル特徴を結合させてもよい。ネットワークアーキテクチャ、分岐に対する隠れ層の数および一層あたりのユニット数は、グリッド検索を使用して決定され得るハイパーパラメータである。モデルは、カテゴリ交差エントロピー損失、学習率ｌｅ－２および２５００の減衰ステップを有する確率的勾配降下オプティマイザを使用してトレーニングされてもよい

音声ファイル以外にも、各サンプルは、予測精度を高める可能性のある追加の豊富な情報を含み得る。いくつかの実施形態では、音声ファイル各々について、患者の臨床像を反映する２つの更なる特徴を使用してもよい。咳音の検出可能な変化は、新型コロナウイルス感染症以外の疾患でも発生することが示されている。したがって、現在の呼吸器疾患の有無に関する二値ラベルを統合して、１つの追加特徴としてアルゴリズムに投入することができる。新型コロナウイルス感染症は咳以外の症状も呈し、代表的なものに発熱や筋肉痛（筋肉痛）がある。これらの症状の有無も、新型コロナウイルス感染症を有する確率に影響を与える可能性がある。いくつかの実施形態では、発熱または筋肉痛の状態の第２の二値ラベルについても、全てのデータセットから統合し、第２の追加特徴としてモデルに供給することができる。

新型コロナウイルス感染者を検出する精度を最大化するために、様々なアーキテクチャを使用することができる。いくつかの実施形態では、１ＤＣＮＮ、２ＤＣＮＮ、ＬＳＴＭおよびＣＲＮＮアーキテクチャを、個別にまたは組み合わせて使用してもよい。

いくつかの実施形態では、３つの異なるネットワークのアンサンブルを使用することができ、アンサンブルの構造およびハイパーパラメータは、過学習を最小限に抑えるためにグリッド研削を使用して微調整されてもよい。各ネットワークからの出力は、新型コロナウイルス感染症を有する確率を予測するために統合されてもよい。

いくつかの実施形態では、第１のネットワークは入力サイズが（３９，）のＭＦＣＣ用であり、ＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ：正規化線形活性化関数）活性化を有する２つの隠れ層を含み、２つの隠れ層の後にはドロップアウト層が続いている。第２のネットワークはサイズ（６４，６４，１）の入力としてメルスペクトログラム画像を有する畳み込みニューラルネットワークであってもよい。第２のネットワークは３つの２Ｄ畳み込み層を含んでもよく、最初の畳み込み層のカーネルサイズは３、ストライドサイズは２、残りの２つの畳み込み層のカーネルサイズは３、ストライドサイズは１であり、それぞれの後に、２Ｄ平均プーリング、バッチ正規化およびＲｅＬＵ活性化が続いてもよい。第３のネットワークは、各サンプルの発熱または筋肉痛と呼吸状態との２つの追加特徴に対応する。第１のネットワークと同様に、第３のネットワークはＲｅＬＵ活性化関数を持つ２つの隠れ層を含み、それぞれドロップアウト層が続く。各ネットワークからの出力は、統合され、それぞれＲｅＬＵ活性化関数が続く２つの追加の隠れ層に供給され、最終的にシグモイド（活性化関数）出力決定層へと組み合わされてもよい。

いくつかの実施形態では、アンサンブルネットワークは、交差エントロピー損失、アダムオプティマイザおよび０．００１の学習率を用いてトレーニングされてもよい。トレーニングデータは、７０－１５－１５分割を使用して、トレーニング－検証－テストデータセットにランダムに分割されてもよい。トレーニングインスタンスはそれぞれ、異なるランダムデータ分割を使用して、それぞれ５回繰り返されてもよい。平均統計値及び９５％信頼区間は報告され、メモリに格納されてもよい。

いくつかの実施形態では、精度およびＲＯＣ（受信者動作特性）曲線下の面積（ＡＵＣ）の両方が、評価指標として使用され得る。トレーニングデータは不均衡である可能性があるため、ＡＵＣはモデルがどのように機能しているかをよりよく表現することができる。

いくつかの実施形態では、症状の発症前と新型コロナウイルス感染の経過の両方において、咳と発話（または他の形態の音声）を含む人間の呼吸音の特徴に関するより多くの情報を用いて機械学習アルゴリズムをトレーニングするために、様々な国で行われる縦断クラウドソーシング研究および臨床研究が実施され得る。ＰＣＲや進化するｉｎｖｉｔｒｏの新型コロナウイルス感染症診断法、人口統計学、および、疾患経過ラベルに関連してより多くの音声データを収集した後、多数の症状および人口統計学的グループにおけるＭＬモデルの性能を検証するためのサブ解析が実施されてもよい。

いくつかの実施形態では、機械学習アルゴリズムは、決定木学習、人工ニューラルネットワーク、深層学習ニューラルネットワーク、サポートベクターマシン、ルールに基づく機械学習、ランダムフォレスト等を含む。線形回帰またはロジスティック回帰等のアルゴリズムが、機械学習プロセスの一部として使用され得る。

いくつかの実施形態では、サポートベクターマシン（ＳＶＭ）は、分類及び回帰分析のためにデータを分析する教師あり学習モデルとして使用され得る。ＳＶＭは、ｎ次元空間（例えば、ｎは臨床パラメータの数）においてデータ点の集まりをプロットしてもよく、データ点の集まりを複数のクラスへと分離できる超平面を見つけることによって分類が実行される。いくつかの実施形態では、超平面は線形であり、他の実施形態では、超平面は非線型である。ＳＶＭは、高次元空間で有効であり、次元数がデータ点の数よりも多い場合に有効であり、一般に、分離のマージンが明確なデータセットでうまく機能する。

いくつかの実施形態では、決定木は、分類問題でも使用される教師あり学習アルゴリズムの一種として使用され得る。決定木は、データの最良の均質なセットを提供する最も重要な変数を特定するために使用され得る。決定木は、データポイントの複数のグループを１つまたは複数のサブセットに分割し、各サブセットを１つまたは複数の更なるカテゴリへと分割し、終端ノード（例えば、分割しないノード）を形成するまで、そのような分割を行うことができる。エントロピー、ジニ不純物、カイ二乗、情報利得、分散削減等、様々なアルゴリズムを使用して、分割が発生する場所を決定することができる。決定木は、多数の変数の中から最も重要な変数を迅速に特定したり、２つ以上の変数間の関係を特定するのに役立つことが多い。さらに、決定木は数値データと非数値データの両方を扱うことができる。この手法は一般的にノンパラメトリックなアプローチと考えられており、例えば、データが正規分布に適合する必要はない。

いくつかの実施形態では、ランダムフォレスト（またはランダム決定フォレスト）は、分類と回帰の両方に適したアプローチとして使用できる。いくつかの実施形態において、ランダムフォレスト法は、分散を小さくして、決定木の集合体を構築する。一般に、Ｍ個の入力変数に対して、Ｍより少ない数の変数（ｎｖａｒ）が、データポイントのグループを分割するために使用される。最適な分割が選択され、終端ノードに到達するまで処理が繰り返される。ランダムフォレストは、多数の入力変数（例えば、数千）を処理して、最も重要な変数を特定するのに特に適している。また、ランダムフォレストは欠損データの推定にも効果的である。

いくつかの実施形態では、別の機械学習技法である深層学習ニューラルネットワークを使用してもよい。これらのネットワークは、複数の隠れ層を有していてもよく、自動化された方法で操作（例えば、特徴抽出）を行うことが可能である。

いくつかの実施形態では、機械学習システムをトレーニングするために、データセットは、トレーニングデータと検証データとにランダムに分割される。トレーニングデータ、入力のサブセットおよび本明細書に記載の機械学習システムに関連するその他のパラメータに基づいて機械学習システムを使用し、分類器が生成される。分類器が、患者を正しく分類できる感度及び特異度を規定する所定の受信者演算子特性（ＲＯＣ）統計量を満たしているか否かが判断される。実施形態では、特異度及び感度の基準値は、医療機器に関するＦＤＡ及びＷＨＯの基準に沿うように最適化されてもよく、例えば、抗原検査の場合は、特異度９０％以上、感度８０％以上を指定してもよい。

分類器が所定のＲＯＣ統計量を満たさない場合、分類器が所定のＲＯＣ統計量を満たすまで、トレーニングデータ及び入力の異なるサブセットに基づいて分類器を繰り返し生成してもよい。機械学習システムが所定のＲＯＣ統計量を満たす場合、分類器の静的構成が生成されてもよい。この静的構成は、新型コロナウイルス感染症を罹患しているリスクのある患者の特定に使用するために、病院もしくは医療施設に配備される、または、病院もしくは医療施設がアクセス可能なリモートサーバに保存されてもよい。場合によっては、結果は、電子医療記録システム上の患者のファイルに書き込まれてもよい。

いくつかの実施形態では、咳の正確な性質および持続時間は、疾患ごとに異なる場合があるが、強度（強さ）、頻度（発生回数）および咳が持続する期間（発症からの時間）は、感染症（例えば新型コロナウイルス感染症）の特定および感染症を有する個人を非感染症の状態から区別するのに役立ち得る変数である。例えば、特定の急性状態（例えば、新型コロナウイルス感染症）とは異なり、感染症に起因する咳は、通常、より長い期間続く。結核などの一部の疾患では、咳が数週間続くことがある。

さらに、気道感染の１つのマーカとして、喉頭の炎症または上気道の閉塞等の要因に起因する声質の変化がある。いくつかの実施形態では、音声の振る舞いに関する情報をその他の生体パラメータ（例えば、酸素レベル）と組み合わせることによって、新型コロナウイルス感染の可能性を決定することができる。いくつかの実施形態は、感染前の音声サンプルおよび最近の音声記録を取得してもよい。いくつかの実施形態は、これら２つ音声の差（例えば、周波数）を計算し、その差を入力特徴として使用することができる。

いくつかの実施形態では、電話／マイク（例えば、携帯電話、ＶｏＩＰ、インターネット等）を介して音声ストリームを受信し、音声ストリームを短いウィンドウにセグメント化し、各ウィンドウから音響測定値を計算し（例えば、メル周波数ケプストラム係数）、連続する複数のウィンドウにわたって音響測定値を比較し、機械学習パターン認識エンジンを開発してトレーニングすることにより咳の音響パターンを識別し、特定のウィンドウ（またはウィンドウのセット）が咳のインスタンスを含む可能性を判断することにより、音声ストリームを解析する。

音声ストリームで咳（または他のターゲット音声サンプル）が検出されると、咳信号の周波数、強度またはその他の特性が抽出され、病気（例えば、新型コロナウイルス感染症と季節性風邪と）を区別するためのモデル入力特徴（または中間特徴）として使用することができる。例えば、ある疾患ではゴロゴロした声質を特徴とする「湿った」咳をもたらし、他の疾患では固い頭子音（速いアタックタイム）の後に非周期的（ノイズ）エネルギーが続くのが特徴の「乾いた」咳（例えば、新型コロナウイルス感染症患者に関連する）をもたらす場合がある。

いくつかの実施形態では、図１のコントローラ１２へのデータ入力２０として、図２のブロック１１０で示されるように、第１のユーザに自身の患者レコード（可能な範囲で完全にまたは部分的に匿名化されてもよく、場合によっては、手元の分析に関係のない個人識別情報および健康状態情報を省略してもよい）の提供を求めてもよい。いくつかの実施形態では、ユーザは、ネイティブアプリのユーザインターフェースを介して、アンサンブルモデルに供給する様々な上流サブモデルへの入力が取得される様々なアクションを実行するように求められてもよい。具体的には、テキストアンケートの記入、電話のマイクへの呼吸または咳の吹き込み、マイクの集音範囲で文章の音読、指や他の身体の部分の動画の撮影、ウェアラブルデバイス（手首に装着するパルスオキシメータ、慣性計測ユニット（ステップカウンタやユーザの歩行の特徴を抽出するように構成されたスマートフォン等）、心拍センサ、温度等）からのデータ取得の許可、が含まれる。

患者レコードに基づいて、図２のブロック１１２で示すように、複数の異なる分析（例えば、咳分類器、深呼吸分析、時間データ分析、顔動画、指先動画および生体画像）を実行して、図２のブロック１１４で示すように、第１のユーザの新型コロナウイルス感染の可能性を評価してもよい。

いくつかの実施形態では、個人の音声動作をより長い期間にわたって追跡して（例えば、記載されたサンプル取得プロセスを繰り返し、新しいデータを再処理することによって）、咳が時間とともにどのように変化するかを決定してもよい。変化およびその速度は、本明細書に記載されるモデルの特徴として機能し得る。咳（またはその他の音声）のふるまいの急激な変化または長期間にわたる悪化は、特定の疾患状態を示す可能性がある。

いくつかの実施形態において、音声サンプルは、新たな臨床的に関連する結果変数である咳覚醒指数（ＣＡＩ）および咳妨害指数（ＣＤＩ）を決定するために使用され得る。ＣＡＩは、睡眠中の各時間における脳波（ＥＥＧ）覚醒に関連する夜間咳嗽の数を反映する。また、夜間咳嗽が脳波の覚醒を伴わない場合は、覚醒を伴わない睡眠１時間あたりの咳嗽数で定義される咳嗽障害指数（ＣＤＩ）にカウントされる。これらの新しい指標は、個々の患者の医療管理だけでなく、例えば、薬理学的化合物の鎮咳作用や鎮咳作用のプロファイルを理解するための医学研究にも利用することができる。

いくつかの実施形態では、次に、例えば、スマートフォンのようなユーザのモバイルコンピュータデバイス上でそのような情報を提示するためにユーザインターフェース１８を更新することにより、図２のブロック１１６によって示されるように、ユーザインターフェースを介してユーザに新型コロナウイルス感染の可能性を通知する。いくつかの実施形態では、機械学習モデルは、特異度を８０％に設定した場合に、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９８％または９９％の感度で新型コロナウイルス感染の可能性を有する個人を分類可能であると期待される。これは、単一変数による閾値分類や複数変数による多変量ロジスティック回帰等の線形統計モデルよりも優れていると期待される。いくつかの実施形態では、従来のロジスティック回帰または多変量線形回帰等の従来の統計手法と比較して、機械学習技術を使用して、少なくとも５％の改善、少なくとも１０％の改善、少なくとも１５％の改善、少なくとも２０％の改善、少なくとも２５％の改善または少なくとも３０％の改善が達成される。

図３は、本技術の実施形態が実装され得る例示的なコンピュータシステム１０００を説明する図である。例えば、システム１０００の特徴は、スマートフォンと、上述したようなサーバの両方に存在し得る。本明細書で説明したシステムおよび方法の様々な部分は、コンピュータシステム１０００と同様の１つまたは複数のコンピュータシステムを含むか、またはそれらで実行されてもよい。さらに、本明細書で説明するプロセスおよびモジュールは、ココンピュータシステム１０００のものと同様の１つまたは複数の処理システムによって実行されてもよい。

コンピュータシステム１０００は、入力／出力（Ｉ／Ｏ）インターフェース１０５０を介して、システムメモリ１０２０と、入力／出力Ｉ／Ｏデバイスインターフェース１０３０と、ネットワークインターフェース１０４０とに結合された１つまたは複数のプロセッサ（例えば、プロセッサ１０１０ａ～１０１０ｎ）を含んでもよい。プロセッサは、単一のプロセッサまたは複数のプロセッサ（例えば、分散型プロセッサ）を含んでもよい。プロセッサは、命令を実行することができる任意の適切なプロセッサであってもよい。プロセッサは、コンピュータシステム１０００の演算、論理、入出力の動作を行うプログラム命令を実行する中央演算処理装置（ＣＰＵ）および／または画像処理装置（ＧＰＵ）を含んでもよい。プロセッサは、プログラム命令の実行環境を構築するコード（例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの組み合わせ）を実行してもよい。プロセッサは、プログラマブル・プロセッサを含んでいてもよい。プロセッサは、汎用または特殊目的のマイクロプロセッサを含んでもよい。プロセッサは、メモリ（例えば、システムメモリ１０２０）から命令およびデータを受け取ってもよい。コンピュータシステム１０００は、１つのプロセッサ（例えば、プロセッサ１０１０ａ）を含むユニプロセッサシステムであってもよいし、任意の数の適切なプロセッサ（例えば、１０１０ａ～１０１０ｎ）を含むマルチプロセッサシステムであってもよい。複数のプロセッサは、本明細書に記載された技術の一つまたは複数の部分の並列または逐次的な実行を実現するために採用されてもよい。本明細書に記載されている論理フローなどのプロセスは、一つまたは複数のコンピュータプログラムを実行する一つまたは複数のプログラマブル・プロセッサによって実行され、入力データを操作して対応する出力を生成することによって機能を実行することができる。本明細書に記載されているプロセスは、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特別な目的の論理回路によって実行されてもよく、また本明細書に記載されている装置もこれらによって実装することができる。コンピュータシステム１０００は、様々な処理機能を実装するために、複数のコンピュータデバイス（例えば、分散型コンピュータシステム）を含んでもよい。

Ｉ／Ｏデバイスインターフェース１０３０は、１つまたは複数のＩ／Ｏデバイス１０６０をコンピュータシステム１０００に接続するためのインターフェースを提供してもよい。Ｉ／Ｏデバイスは、（例えば、ユーザから）入力を受けたり、（例えば、ユーザに）情報を出力したりするデバイスを含んでもよい。Ｉ／Ｏデバイス、例えば、クライアント装置２０２は、ディスプレイ（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）またはＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）モニタ）に提示されるグラフィカルユーザインターフェース、ポインティングデバイス（例えば、コンピュータマウスまたはトラックボール）、キーボード、キーパッド、タッチパッド、スキャンデバイス、音声認識デバイス、ジェスチャー認識デバイス、プリンタ、オーディオスピーカ、マイクロフォン、カメラ等を含んでもよい。Ｉ／Ｏデバイス１０６０は、有線または無線の接続を介してコンピュータシステム１０００に接続されてもよい。Ｉ／Ｏデバイス１０６０は、遠隔地からコンピュータシステム１０００に接続されてもよい。遠隔地のコンピュータシステムに配置されたＩ／Ｏデバイス１０６０は、例えば、ネットワークおよびネットワークインターフェース１０４０を介してコンピュータシステム１０００に接続されてもよい。

ネットワークインターフェース１０４０は、コンピュータシステム１０００のネットワークへの接続を提供するネットワークアダプタを含んでもよい。ネットワークインターフェース１０４０は、コンピュータシステム１０００と、ネットワークに接続された他のデバイスとの間のデータ交換を促進してもよい。ネットワークインターフェース１０４０は、有線または無線の通信をサポートしてもよい。ネットワークは、インターネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、セルラー通信ネットワークなどの電子通信ネットワークを含んでもよい。

システムメモリ１０２０は、プログラム命令１１００またはデータ１１１０を格納するように構成されてもよい。プログラム命令１１００は、本技術の１つまたは複数の実施形態を実装するために、プロセッサ（例えば、プロセッサ１０１０ａ～１０１０ｎのうちの１つまたは複数）によって実行可能であってもよい。命令１１００は、様々な処理モジュールに関して本明細書に記載された一つまたは複数の技術を実装するためのコンピュータプログラム命令のモジュールを含んでもよい。プログラム命令は、コンピュータプログラム（特定の形態では、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとして知られている）を含んでいてもよい。コンピュータプログラムは、コンパイル言語、インタプリタ言語、宣言型言語、手続き型言語などのプログラミング言語で記述されていてもよい。コンピュータプログラムは、スタンドアロンプログラム、モジュール、コンポーネント、サブルーチンなど、コンピュータ環境で使用するのに適したユニットを含む。コンピュータプログラムは、ファイルシステム内のファイルに対応していてもいなくてもよい。プログラムは、他のプログラムやデータを格納するファイルの一部（例えば、マークアップ言語文書に格納された一つまたは複数のスクリプト）、当該プログラム専用の単一のファイル、または複数の協調的なファイル（例えば、一つまたは複数のモジュール、サブプログラム、またはコードの一部を格納するファイル）に格納されてもよい。コンピュータプログラムは、１つのサイトにローカルに配置されるか、または複数のリモートサイトに分散され、通信ネットワークによって相互に接続された一つまたは複数のコンピュータプロセッサ上で実行されるように配置されてもよい。

システムメモリ１０２０は、プログラム命令を格納する有形プログラムキャリアを含んでもよい。有形のプログラムキャリアは、非一時的なコンピュータ可読記憶媒体を含んでもよい。非一時的なコンピュータ可読記憶媒体は、機械可読記憶装置、機械可読記憶基板、記憶装置、またはそれらの任意の組み合わせを含んでもよい。非一時的なコンピュータ可読記憶媒体は、不揮発性メモリ（例えば、フラッシュメモリ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭメモリ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、シンクロナスダイナミックＲＡＭ（ＳＤＲＡＭ））、バルクストレージメモリ（例えば、ＣＤ－ＲＯＭおよび／またはＤＶＤ－ＲＯＭ、ハードドライブ）などを含んでもよい。システムメモリ１０２０は、本明細書に記載された主題および機能動作を達成するために、コンピュータプロセッサ（例えば、プロセッサ１０１０ａ～１０１０ｎのうちの１つまたは複数）によって実行可能なプログラム命令を格納する非一時的なコンピュータ可読記憶媒体を含んでもよい。メモリ（例えば、システムメモリ１０２０）は、単一のメモリデバイスおよび／または複数のメモリデバイス（例えば、分散型メモリデバイス）を含んでもよい。本明細書に記載された機能を提供する命令または他のプ対数パワーラムコードは、有形の非一時的なコンピュータ可読媒体に格納されてもよい。場合によっては、命令のセット全体が媒体上に同時に格納されてもよく、または場合によっては、命令の異なる部分が異なる時間に同じ媒体上に格納されてもよい。

Ｉ／Ｏインターフェース１０５０は、プロセッサ１０１０ａ～１０１０ｎ、システムメモリ１０２０、ネットワークインターフェース１０４０、Ｉ／Ｏデバイス１０６０、および／または他の周辺デバイス間のＩ／Ｏトラフィックを調整するように構成されてもよい。Ｉ／Ｏインターフェース１０５０は、プロトコル変換、タイミング変換、または他のデータ変換を実行して、１つのコンポーネント（例えば、システムメモリ１０２０）からのデータ信号を、別のコンポーネント（例えば、プロセッサ１０１０ａ～１０１０ｎ）による使用に適したフォーマットに変換してもよい。Ｉ／Ｏインターフェース１０５０は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス規格の変種、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格等、様々な種類の周辺バスを介して接続されたデバイスをサポートしてもよい。

本明細書で説明した技術の実施形態の実装においては、コンピュータシステム１０００の単一のインスタンスを使用してもよいし、実施形態の異なる部分またはインスタンスをホストするように構成された複数のコンピュータシステム１０００を使用してもよい。複数のコンピュータシステム１０００は、本明細書で説明した技術の１つまたは複数の部分の並列または逐次的な処理／実行を提供してもよい。

当業者であれば、コンピュータシステム１０００は単なる例示であり、本明細書に記載された技術の範囲を限定することを意図していないことを理解するであろう。コンピュータシステム１０００は、本明細書に記載された技術を実行するか、さもなければその実行を提供することができるデバイスまたはソフトウェアの任意の組み合わせを含むことができる。例えば、コンピュータシステム１０００は、クラウドコンピュータシステム、データセンター、サーバラック、サーバ、仮想サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ装置、クライアント装置、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、携帯オーディオ・ビデオプレーヤー、ゲーム機、車載コンピュータ、またはＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）などを含むか、またはそれらの組み合わせであってもよい。また、コンピュータシステム１０００は、図示されていない他の装置に接続されていてもよいし、スタンドアロンのシステムとして動作していてもよい。さらに、図示された構成要素によって提供される機能は、いくつかの実施形態では、より少ない構成要素にまとめられてもよいし、追加の構成要素に分散されてもよい。同様に、いくつかの実施形態では、図示された構成要素の一部の機能が提供されなくてもよく、または他の追加機能が利用可能であってもよい。

また、様々なアイテムが使用中にメモリまたはストレージ上に保存されるように図示されているが、当業者であれば、これらのアイテムまたはその一部は、メモリ管理およびデータの整合性の目的で、メモリと他のストレージデバイスの間で転送されてもよいことを理解できるだろう。あるいは、他の実施形態では、ソフトウェアコンポーネントの一部またはすべてが、別のデバイス上のメモリで実行され、コンピュータ間通信を介して図示されたコンピュータシステムと通信してもよい。また、システム構成要素またはデータ構造の一部または全部は、コンピュータアクセス可能な媒体、または適切なドライブによって読み取られるボータブル機器に（例えば、命令または構造化データとして）格納されてもよく、その様々な例が上述されている。いくつかの実施形態では、コンピュータシステム１０００とは別のコンピュータアクセス可能な媒体に格納された命令が、ネットワークまたは無線リンクなどの通信媒体を介して伝えられる電気信号、電磁信号、またはデジタル信号などの伝送媒体または信号として、コンピュータシステム１０００に伝送されてもよい。様々な実施形態は、前述の説明に従ってコンピュータアクセス可能な媒体上で実装された命令またはデータを、受信、送信、または保存することをさらに含むことができる。したがって、本発明の技術は、他のコンピュータシステムの構成で実施されてもよい。

ブロック図では、図示された構成要素が別々の機能ブロックとして描かれているが、実施形態は、本明細書に記載された機能が図示されたように編成されたシステムに限定されない。各構成要素によって提供される機能は、現在図示されているものとは異なる態様で編成されたソフトウェアまたはハードウェアモジュールによって提供されてもよく、例えば、そのようなソフトウェアまたはハードウェアは、混合、結合、複製、分割、分散（例えば、データセンター内または地理的に）されていてもよく、またはその他の異なる態様で編成されていてもよい。本明細書に記載されている機能は、有形の非一時的な機械可読媒体に格納されたコードを実行する１つ以上のコンピュータの１つ以上のプロセッサによって提供されてもよい。場合によっては、「媒体」という単数形の用語の使用にかかわらず、命令は異なるコンピュータデバイスに関連付けられた異なるストレージデバイス上に分散され、このとき、例えば、各コンピュータデバイスが命令の異なるサブセットを持つとしてもよい。これは、本明細書における「媒体」という単数形の用語の使用と矛盾しない実装である。場合によっては、サードパーティのコンテンツ配信ネットワークが、ネットワークを介して伝達される情報の一部または全部をホストしてもよく、その場合、情報（例えば、コンテンツ）が供給される、またはその他の方法で提供されると表現できる範囲において、コンテンツ配信ネットワークから情報を取得する命令を送信することによって、その情報が提供されることがある。

読者は、本願がいくつかの個別に有用な技術を説明していることを理解すべきである。出願人はこれらの技術を複数の独立した特許出願に分けるのではなく、１つの文書にまとめているが、これはそれらの技術の主題が関連しているために、出願プロセスの経済性につながるからである。しかし、このような技術の別個の利点や態様を混同してはならない。場合によっては、実施形態は本明細書で指摘した欠陥のすべてに対処しているが、技術は独立して有用であり、いくつかの実施形態はそのような問題の部分集合のみに対処しているか、または本開示を閲覧している当業者には明らかであろう他の言及されていない利点を提供していることを理解すべきである。コストの制約のため、本明細書に開示されているいくつかの技術は、現在は所有権を請求されていない可能性があり、継続出願などの後の出願で、または現在の請求項を補正することで所有権を請求される可能性もある。同様に、紙面の都合上、本文書の「要約」や「発明の概要」のセクションは、そのような技術のすべて、またはそのような技術のすべての態様を包括的に記載しているものとみなすべきではない。

詳細な説明および図面は、開示された特定の形態に本技術を限定することを意図したものではなく、逆に、添付の請求項によって定義される本技術の趣旨および範囲内に入るすべての修正、均等物、および代替物を網羅することを意図したものであることを理解すべきである。本技術の様々な態様のさらなる修正および代替の実施形態は、この説明を読めば当業者には明らかであろう。したがって、この説明および図面は、例示としてのみ解釈され、本技術を実施する一般的な方法を当業者に教えることを目的としている。ここに図示および説明されている本技術の形態は、実施形態の例として見なすべきものであることを理解されたい。各種要素および材料を、本明細書に図示および説明されているものに代えて使用してもよく、部品およびプロセスは逆にしてもよいし、省略してもよく、本技術の特定の特徴は独立して利用してもよいが、これらはすべて、本技術に関するこの説明の恩恵を受けた後に当業者に明らかになるであろう。以下の特許請求の範囲に記載された本技術の趣旨と範囲から逸脱することなく、本明細書に記載された要素に変更を加えることができる。本明細書で使用されている見出しは、整理を目的としたものであり、説明の範囲を限定するために使用することを意図していない。

本願を通して使用されているように、「ｍａｙ」という言葉は、必須の意味（すなわち、必ずしなければならないという意味）ではなく、許容的な意味（すなわち、する可能性があるという意味）で使用されている。「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」などの言葉は、含むがそれに限定されないことを意味する。本願では、単数形の「ａ」、「ａｎ」、「ｔｈｅ」は、内容が明示的に別の意味を示していない限り、複数のものを含む。したがって、例えば、「構成要素（ａｎｅｌｅｍｅｎｔ）」または「構成要素（ａｅｌｅｍｅｎｔ）」への言及は、「一又は複数の（ｏｎｅｏｒｍｏｒｅ）」のような１つまたは複数の構成要素に対する他の用語およびフレーズの使用にかかわらず、２つ以上の構成要素の組み合わせを含む。「または」という用語は、別の意味が明記されていない限り非排他的であり、すなわち、「および」と「または」の両方を包含する。条件関係を表す用語、例えば、「Ｘ，Ｙに応答して（ｉｎｒｅｓｐｏｎｓｅｔｏＸ，Ｙ）」、「Ｘ，Ｙすると（ｏｎＸ，Ｙ）」、「Ｘ，Ｙならば（ｉｆＸ，Ｙ）」、「Ｘ，Ｙのとき（ｗｈｅｎＸ，Ｙ）」などは、先行詞が必要因果条件である場合、先行詞が十分因果条件である場合、先行詞が結果の有力な因果条件である場合などの因果関係を包含する。例えば、「条件Ｙが得られると状態Ｘが発生する」は「ＸはＹのときのみ発生する」と「ＸはＹおよびＺのときに発生する」に対して包括的である。このような条件関係は、先行条件が得られると即座に結果が出るものに限らず、結果が遅れるものもある。また、条件文では先行条件と結果が結びついており、例えば、先行条件が結果の発生の可能性に関係している。複数の属性または機能が複数のオブジェクト（例えば、ステップＡ、Ｂ、Ｃ、Ｄを実行する１つ以上のプロセッサ）にマッピングされる記述は、別途指示がない限り、それらの属性または機能のすべてがそれらのオブジェクトのすべてにマッピングされることと、それらの属性または機能のサブセットがそれらの属性または機能のサブセットにマッピングされることの両方を包含する（例えば、すべてのプロセッサがそれぞれステップＡ～Ｄを実行する場合と、プロセッサ１がステップＡを実行し、プロセッサ２がステップＢとステップＣの一部を実行し、プロセッサ３がステップＣの一部とステップＤを実行する場合の両方）。同様に、ステップＡを実行する「コンピュータシステム」およびステップＢを実行する「コンピュータシステム」という表現は、両方のステップを実行するコンピュータシステム内の同じコンピュータデバイスを含むことも、ステップＡおよびＢを実行するコンピュータシステム内の異なるコンピュータデバイスを含むこともできます。さらに、ある値または行為が別の条件または値に「基づく」という記述は、別段の指示がない限り、その条件または値が唯一の要因である場合と、その条件または値が複数の要因の中の１つの要因である場合の両方を包含する。あるコレクションの「各」インスタンスが何らかの特性を持つという記述は、別段の指示がない限り、より大きなコレクションの他の特性において同一または類似のメンバーがその特性を持たない場合を除外するように読まれるべきではない。すなわち、「各」は必ずしもすべてを意味するわけではない。例えば、「Ｘを実行した後、Ｙを実行する」のように明示的に指定されていない限り、記載されている工程の順序に関する制限を請求項に読み取るべきではない。これに対して、「アイテムにＸを実行し、ＸされたアイテムにＹを実行する」のように順序の制限を暗示していると不適切に主張される可能性がある記述は、順序を指定するのではなく、請求項を読みやすくする目的で使用される。また、「Ａ、Ｂ、およびＣのうち少なくともＺ個」などの記述（「Ａ、Ｂ、またはＣのうち少なくともＺ個」など）は、列挙された各カテゴリ（Ａ、Ｂ、およびＣ）のうち少なくともＺ個を指すものであり、各カテゴリに少なくともＺ個の単位を必要とするものではない。議論から明らかなように、本明細書では、「処理」、「コンピュータ」、「計算」、「決定」などの用語を利用した議論は、特に明記しない限り、特別目的のコンピュータまたは同様の特別目的の電子処理／計算装置などの特定の装置の動作またはプロセスに言及していると理解される。「平行」、「垂直／直交」、「正方形」、「円筒形」などの幾何学的構造物に言及して記述された特徴は、その幾何学的構造物の特性を実質的に具現化するアイテムを包含すると解釈されるべきであり、例えば、「平行」な表面に言及すると、実質的に平行な表面が包含されることになる。これらの幾何学的構造物のプラトン的観念からの逸脱の許容範囲は、明細書中の範囲を参照して決定されるべきであり、そのような範囲が記載されていない場合には、使用分野における業界の規範を参照すべきであり、そのような範囲が定義されていない場合には、指定された特徴の製造分野における業界の規範を参照すべきであり、そのような範囲が定義されていない場合には、幾何学的構造物を実質的に具現化する特徴は、その幾何学的構造物の定義属性の１５％以内の特徴を含むと解釈されるべきである。特許請求の範囲で使用されている「第１」、「第２」、「第３」、「所定の」などの用語は、区別するため、あるいは識別するために使用されており、連続的または数値的な限定を示すものではない。当該分野での通常の使用方法と同様に、人間にとって顕著な用途を参照して説明されたデータ構造およびフォーマットは、上記のデータ構造またはフォーマットを構成するように、人間が理解可能な形式で提示される必要はない。例えば、テキストを構成するために、テキストをレンダリングしたり、ＵｎｉｃｏｄｅやＡＳＣＩＩでエンコードしたりする必要はなく、画像、地図、データ可視化物を構成するために、画像、地図、データ可視化物をそれぞれ表示およびデコードする必要はなく、音声、音楽、その他の音声を構成するために、音声、音楽、その他の音声をそれぞれスピーカから発したり、デコードする必要はない。コンピュータに実装された命令、コマンドなどは、実行コードに限定されず、機能をもたらすデータの形態、例えば、関数やＡＰＩ呼び出しの引数の形で実装することができる。特定の目的のために作られた名詞句（およびその他の造語）がクレームで使用され、自明な解釈を欠く範囲では、そのような句の定義はクレーム自体に記載されている場合があり、その場合、そのような名詞句の使用は、明細書または外部証拠を参照して追加の制限を付与するとみなされるべきではない。

本特許明細書には、特定の米国特許、米国特許出願、または他の資料（例えば、論文）が参照により組み込まれている。ただし、かかる米国特許、米国特許出願およびその他の資料の本文は、かかる資料と本明細書に記載された記述および図面との間に矛盾が存在しない範囲においてのみ、参照により組み込まれる。そのような矛盾がある場合、本明細書の本文が優先されるものとし、本明細書の用語は、参照により組み込まれた他の資料でその用語が使用されていることを理由に、より狭い範囲で解釈されるべきではない。

本発明の技術は、以下に列挙する実施形態を参照することにより、よりよく理解されるであろう。
［実施形態１］
命令を記憶する有形かつ非一時的な機械可読媒体であって、前記命令が１つ以上のプロセッサによって実行されると、コンピュータシステムを使用して、ユーザのモバイルコンピュータデバイスによって取得された音声および画像の両方に基づいて、前記ユーザが呼吸器系疾患を有するか否かを推論するように構成されたトレーニング済み機械学習モデルが取得され、前記トレーニング済み機械学習モデルは、複数のトレーニングレコードを含むトレーニングセットを取得することによってトレーニングされ、前記トレーニングセット内の複数のトレーニングレコードの各々は、一人についての複数のパラメータおよび対応する値を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人の声の音声および前記一人の少なくとも一部の画像を含み、前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人が呼吸器系疾患と診断されたか否かを示す情報を含み、前記機械学習モデルを前記トレーニングセットで学習させ、前記音声および前記画像の両方から、前記ユーザが前記呼吸器系疾患を有するか否かを推論し、前記トレーニング済み機械学習モデルを取得した後、前記コンピュータシステムが第１のユーザの第１のユーザ記録を受信し、前記第１のユーザ記録は、前記第１のユーザの咳の音声ファイルまたは音声ストリームと、前記第１のユーザの少なくとも一部分の画像とを含み、前記コンピュータシステムにおいて、前記第１のユーザの咳の前記音声ファイルまたは音声ストリームと、前記第１のユーザの少なくとも一部の画像とに基づいて、前記第１のユーザが前記呼吸器疾患を有することを推論し、前記コンピュータシステムにおいて、前記第１のユーザが前記呼吸器疾患を有することを示す情報をメモリに記憶する、処理が実行される、機械可読媒体。
［実施形態２］
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像のうちの少なくとも２つを含む、実施形態１に記載の機械可読媒体。
［実施形態３］
前記複数のトレーニングレコードは、テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、生体画像を全て含む、実施形態１に記載の機械可読媒体。
［実施形態４］
前記複数のトレーニングレコードは、指先の動画を含み、前記機械学習モデルは、推論の基となる特徴として血中酸素濃度および心拍数を測定するべく、前記指先の動画を用いてトレーニングされる、実施形態１から３の何れか一つに記載の機械可読媒体。
［実施形態５］
前記処理は、前記機械学習モデルをトレーニングすることを更に含む、実施形態１から４の何れか一つに記載の機械可読媒体。
［実施形態６］
前記機械学習モデルをとレーニングすることは、目的関数に関する前記機械学習モデルのパラメータの偏微分係数を計算し、前記機械学習モデルを局所的に最適化されるように前記偏微分係数が示す方向に前記機械学習モデルの前記パラメータを調整することを含む、実施形態１から５の何れか一つに記載の機械可読媒体。
［実施形態７］
前記機械学習モデルは、新型コロナウイルスの感染を示す第１の出力と、新型コロナウイルスの感染段階を示す第２の出力とを出力する、実施形態１から６の何れか一つに記載の機械可読媒体。
［実施形態８］
前記機械学習モデルは、複数のサブモデルの出力を結合する手段を有する、実施形態１から７の何れか一つに記載の機械可読媒体。
［実施形態９］
前記処理は、トレーニング済み前記機械学習モデルの精度に影響を与える人間知覚不可能なデータを保存するために、前記咳の前記音声ファイルまたは前記音声ストリームの非可逆圧縮を設定することを更に含む、実施形態１から８の何れか一つに記載の機械可読媒体。
［実施形態１０］
前記機械学習モデルのトレーニングは、前記コンピュータシステムにおいて、前記第１のユーザが前記呼吸器系疾患を有することを推論することを実行するコンピュータのセットとは異なるコンピュータのセットによって実行される、実施形態１から９の何れか一つに記載の機械可読媒体。
［実施形態１１］
前記第１のユーザが前記呼吸器系疾患を有することを推論することは、前記コンピュータシステムの一部である前記第１のユーザのスマートフォンによって実行される、実施形態１から１０の何れか一つに記載の機械可読媒体。
［実施形態１２］
トレーニング済みの前記機械学習モデルは、複数のサブモデルをアンサンブルするための手段によって組み合わされた出力を有する少なくとも３つの異なるニューラルネットワークのアンサンブルで構成される、実施形態１から１１の何れか一つに記載の機械可読媒体。
［実施形態１３］
前記処理は、トレーニング済み前記機械学習モデルに入力する前に、音声咳サンプルをクリーニングし、トレーニング済み前記機械学習モデルに入力する前記音声咳サンプルのセグメントを選択する、前記音声咳サンプルの前処理を行うことを含む、実施形態１から１２の何れか一つに記載の機械可読媒体。
［実施形態１４］
前記処理は、音声咳サンプルからケプストラム係数を抽出することを含む、実施形態１から１１の何れか一つに記載の機械可読媒体。
［実施形態１５］
前記音声咳サンプルから前記ケプストラム係数を抽出することは、前記音声咳サンプルからスペクトログラムを構築すること、前記スペクトログラムからフレーム毎に対数パワーを計算すること、前記対数パワーの大きさにフィルタを適用すること、対数圧縮を実行して前記フィルタの出力のケプストラム領域への変換を行うこと、および、フレーム毎にケプストラム係数のベクトルを形成すること、を含む、実施形態１４に記載の機械可読媒体。
［実施形態１６］
前記処理は、第２のユーザの咳のサンプルの音声のパワースペクトルからメル周波数ケプストラム係数を抽出すること、を含む、実施形態１から１５の何れか一つに記載の機械可読媒体。
［実施形態１７］
トレーニング済み前記機械学習モデルは、少なくとも２つの非線形層を含む多層フィードフォワードニューラルネットワークを含む、実施形態１から１６の何れか一つに記載の機械可読媒体。
［実施形態１８］
トレーニング済み前記メル機械学習モデルは、メル周波数ケプストラム係数のベクトルを入力とする二重並列フィードフォワードニューラルネットワークを含む、実施形態１から１７の何れか一つに記載の機械可読媒体。
［実施形態１９］
実施形態１から１８の何れか一つに記載の前記処理を備える方法。
［実施形態２０］
１つ以上のプロセッサと、命令を記憶するメモリと、を備え、前記命令が１つ以上のプロセッサによって実行されると、実施形態１から１２の何れか一つに記載の前記処理を含む処理が実行される、システム。

Claims

命令を記憶する有形かつ非一時的な機械可読媒体であって、前記命令が１つ以上のプロセッサによって実行されると、
コンピュータシステムを使用して、ユーザのモバイルコンピュータデバイスによって取得された音声および画像の両方に基づいて、前記ユーザが呼吸器系疾患を有するか否かを推論するように構成されたトレーニング済み機械学習モデルが取得され、
前記トレーニング済み機械学習モデルは、複数のトレーニングレコードを含むトレーニングセットを取得することによってトレーニングされ、
前記トレーニングセット内の複数のトレーニングレコードはそれぞれ、異なる一人についての複数のパラメータおよび対応する値を含み、
前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人の声の音声および前記一人の少なくとも一部の画像を含み、
前記トレーニングセット内の複数のトレーニングレコードの各々は、前記一人が呼吸器系疾患を有すると診断されたか否かを示す情報を含み、
前記機械学習モデルを前記トレーニングセットで学習させ、前記音声および前記画像の両方から、前記ユーザが前記呼吸器系の病気であるか否かを推論し、
トレーニング済み前記機械学習モデルを取得した後、前記コンピュータシステムが第１のユーザの第１のユーザ記録を受信し、
前記第１のユーザ記録は、前記第１のユーザの声の音声ファイルまたは音声ストリームと、前記第１のユーザの少なくとも一部分の画像とを含み、
前記コンピュータシステムにおいて、前記第１のユーザの声の前記音声ファイルまたは音声ストリームと、前記第１のユーザの少なくとも一部の画像とに基づいて、前記第１のユーザが前記呼吸器疾患を有することを推論し、
前記コンピュータシステムにおいて、前記第１のユーザが前記呼吸器疾患を有することを示す情報をメモリに記憶する、処理が実行される、機械可読媒体。
前記複数のトレーニングレコードは、
テキストによるアンケートの回答、呼吸を示すデータ、時間データ、顔の動画、指先の動画、または、皮膚、便、粘液、尿もしくは嘔吐物の生体画像、のうちの少なくとも２つを含む、請求項１に記載の機械可読媒体。
前記複数のトレーニングレコードは、指先の動画を含み、
前記機械学習モデルは、推論の基となる特徴として血中酸素濃度および心拍数を測定するべく、前記指先の動画を用いてトレーニングされる、請求項１に記載の機械可読媒体。
前記機械学習モデルをとレーニングすることは、目的関数に関する前記機械学習モデルのパラメータの偏微分係数を計算し、前記機械学習モデルを局所的に最適化されるように前記偏微分係数が示す方向に前記機械学習モデルの前記パラメータを調整することを含む、請求項１に記載の機械可読媒体。
前記機械学習モデルは、新型コロナウイルスの感染を示す第１の出力と、新型コロナウイルスの感染段階を示す第２の出力との少なくとも２つの出力を含む、請求項１に記載の機械可読媒体。
前記処理は、トレーニング済み前記機械学習モデルの精度に影響を与える人間知覚不可能なデータを保存するために、前記一人の声の前記音声ファイルまたは前記音声ストリームの非可逆圧縮を設定することを更に含む、請求項１に記載の機械可読媒体。
前記機械学習モデルのトレーニングは、前記コンピュータシステムにおいて、前記第１のユーザが前記呼吸器系疾患を有することを推論することを実行するコンピュータのセットとは異なるコンピュータのセットによって実行される、請求項１に記載の機械可読媒体。
トレーニング済み前記機械学習モデルは、トレーニング済みアンサンブルモデルと組み合わせた出力を有する少なくとも３つの異なる機械学習アルゴリズムのアンサンブルを含む、請求項１に記載の機械可読媒体。
前記処理は、
トレーニング済み前記機械学習モデルに入力する前に、音声サンプルをクリーニングし、トレーニング済み前記機械学習モデルに入力する前記音声サンプルのセグメントを選択する、前記音声咳サンプルの前処理を行うこと、を更に含む、請求項１に記載の機械可読媒体。
前記処理は、
前記第１のユーザの前記声の前記音声ファイルまたは前記音声ストリームからケプストラム係数を抽出することを更に含む、請求項１に記載の機械可読媒体。
前記ケプストラム係数を抽出することは、
前記第１のユーザの前記声の前記音声ファイルまたは前記音声ストリームからスペクトログラムを構築すること、
前記スペクトログラムからフレーム毎の対数パワーを計算すること、
前記対数パワーの大きさにフィルタを適用すること、
前記フィルタの出力の対数圧縮およびケプストラム領域への変換を行うこと、および、
フレーム毎のケプストラム係数のベクトルを形成すること、を含む、請求項１０に記載の機械可読媒体。
前記処理は、
第２のユーザの声のサンプルの音声のパワースペクトルからメル周波数ケプストラム係数を抽出すること、を更に含む、請求項１に記載の機械可読媒体。
トレーニング済み前記機械学習モデルは、少なくとも２つの非線形層を含む多層フィードフォワードニューラルネットワークを含み、
トレーニング済み前記機械学習モデルは、メル周波数ケプストラム係数のベクトルを入力とする二重並列フィードフォワードニューラルネットワークを含む、請求項１に記載の機械可読媒体。
請求項１から１３の何れか一項に記載の前記処理を備える方法。
１つ以上のプロセッサと、命令を記憶するメモリと、を備え、
前記命令が前記１つ以上のプロセッサの少なくとも一部によって実行されると、請求項１から１３の何れか一項に記載の前記処理が実行される、システム。