JP2022553749A

JP2022553749A - 速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル

Info

Publication number: JP2022553749A
Application number: JP2022524161A
Authority: JP
Inventors: シュリバーグ，エリザベス; ハラティネハド・トルバティ，アミール・ホセイン; ルトフスキ，トマシュ; アラトフ，ミハイル; イスラーム，マイヌル; ルー，ヤン; フレベク，ピョートル; マクール，メリッサ; リン，デイビッド
Original assignee: エリプシス・ヘルス・インコーポレイテッド
Priority date: 2019-10-25
Filing date: 2020-10-23
Publication date: 2022-12-26
Also published as: CA3155809A1; EP4048140A4; US20220328064A1; WO2021081418A1; EP4048140A1

Abstract

本開示は、対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するための音響自然言語処理（ＮＬＰ）モデルを提供する。【選択図】図６

Description

相互参照
本出願は、２０１９年１０月２５日に出願された米国仮特許出願第６２／９２６，２４５号、２０２０年５月７日に出願された米国仮特許出願第６３／０２１，６１７号、２０２０年５月７日に出願された米国仮特許出願第６３／０２１，６２５号、２０２０年５月１９日に出願された米国仮特許出願第６３／０２７，２３８号、及び２０２０年５月１９日に出願された米国仮特許出願第６３／０２７，２４０号の優先権を主張し、これらの各々は、その全体が参照により本明細書に組み込まれる。

行動的健康状態及び精神的健康状態は、集団において一般的であり、社会にとって重大な費用を有し得る。このような状態には治療法が利用可能であるが、複数の人が診断されない可能性がある。

本開示は、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測する際に使用するための改善された音響モデルを提供する。本開示はまた、そのようなモデルを訓練するための方法を提供する。本明細書に記載の音響モデルは、自動音声認識（「ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ」）システムを有し得る。ＡＳＲシステムは、エンコーダ及びデコーダを有し得る。エンコーダ及びデコーダは、行動的又は精神的健康とは無関係の転写された音声データについて訓練されてもよい。音響モデルはまた、分類器を有してもよい。ＡＳＲシステムが訓練された後、デコーダは破棄されてもよく、分類器は、対象者の行動的又は精神的健康状態を有すると判定された対象者に由来するものとして、又は由来しないものとしてラベル付けされた音声データについて訓練されてもよい。エンコーダは、分類器と共に訓練することができ、又は凍結することができる。この訓練スキームは、このタイプの音響モデルを訓練するために必要とされる行動的又は精神的健康に関連する訓練データの量を低減することができる。さらに、本明細書に記載のエンドツーエンド音響モデルは、既存の音響モデルよりも、対象者が関心のある行動的又は精神的健康状態を有するかどうかをより正確に予測することができる。特に、患者がうつ病を有するかどうかを予測する際に、本明細書に記載のエンドツーエンド音響モデルは、０．７５～０．７９の曲線下面積（「ａｒｅａ－ｕｎｄｅｒ－ｔｈｅ－ｃｕｒｖｅ：ＡＵＣ」）、０．６８の特異性、及び０．６８の感度を有することが実証されている。既存のｉベクトル及び畳み込みニューラルネットワーク（「ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ」）モデルは、ＡＵＣ、特異性、及び感度がそれぞれ０．６０、０．５８、及び０．５８、並びに０．６４、０．６０、及び０．６０しかない。

エンコーダ及び分類器に加えて、音響モデルはセグメント融合モデルも含む。音響システムは、一度に単一のオーディオセグメントを処理することができる。セグメント融合は、セグメントレベル出力からの情報を組み合わせることによってセッションレベル音響モデルスコアを出力することができる。音響システムは、分類器によって生成された各セグメントのすべての予測の平均を計算することができる。より複雑なバージョンは、分類器モジュールによって生成されたセグメントのいくつかの表現を使用し、次いで、これらの入力から最終予測を計算するために他の機械学習方法を使用することができる。これらの方法は、ＬＳＴＭ、ＲＣＮＮ、複数層パーセプトロン（「ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ：ＭＬＰ」）、ランダムフォレスト、及び他のモデルを含み得る。単純な平均に対するより複雑な組み合わせ方法は、大きな利得（例えば、ＡＵＣ０．７９対０．７５）をもたらし得る。より複雑な方法を使用しても、基礎となるセグメントのモデリングを変更することはできず、利得は、セグメント出力のより良好な融合によって純粋に得ることができる。

本開示はまた、自然言語処理（「ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ：ＮＬＰ」）モデルを使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム及び方法を提供する。本明細書に記載のＮＬＰモデルは、エンコーダ、言語モデル、及び１つ又は複数の分類器を有し得る。エンコーダは、対象者から転写された音声サンプルを受信し、エンコードされた音声サンプル（例えば、実数値ベクトル）を生成することができる。言語モデル及び分類器は、エンコードされた音声サンプルを処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す予測を生成することができる。言語モデルは、最初に、必ずしも行動的又は精神的健康状態に関連しないエンコードベースの表現で訓練されてもよい。例えば、言語モデルは、Ｗｉｋｉｐｅｄｉａの記事のコーパスで訓練されてもよい。次いで、言語モデルは、行動的又は精神的健康状態に関連するエンコードテキストで微調整することができる。その後、１つ又は複数の分類器を訓練して、対象者が行動的又は精神的健康状態を有するかどうかを予測することができる。分類器の訓練データは、複数の対象者からの複数の転写及びエンコードされた音声サンプルを含み得る。各音声サンプルは、音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられ得る。

上記の訓練プロセスは、自動化された精神衛生検出の技術分野にいくつかの改善を提供することができる。言語モデルを事前訓練して確定するための一般的かつドメイン固有のテキストコーパスの使用は、エンドツーエンドＮＬＰを訓練するために必要なラベル付き音声サンプルの数を低減することができる。さらに、事前訓練され微調整された言語モデルは、異なる行動的又は精神的健康状態を検出する異なるエンドツーエンドＮＬＰモデルで使用することができる。複数のタスクのためのそのような言語モデルの再使用は、訓練時間をさらに短縮することができる。

上述した音響モデル及びＮＬＰモデルは、互いに融合されて、より堅牢な複合モデルを生成することができる。

一態様では、本開示は、エンコーダ及び分類器を含む音響モデルを用いて対象者における行動的又は精神的健康状態を検出するための方法を提供し、本方法は、（ａ）対象者から複数の音声セグメントを含む音声サンプルを取得するステップであって、（ｂ）音声サンプルをエンコーダで処理して、音声サンプルの抽象的な特徴表現を生成するステップであって、エンコーダは、対象者における行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するように事前訓練された、ステップと、（ｃ）抽象的な特徴表現を分類器で処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、分類器は、複数の話者からの複数の音声サンプルを含む訓練データセットについて訓練されており、複数の音声サンプルの音声サンプルは、行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、を含む。いくつかの実施形態では、本方法は、（ｂ）の前に、音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。いくつかの実施形態では、第１のタスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、（ａ）は、遠隔医療セッション中に音声サンプルを取得することを含む。いくつかの実施形態では、（ａ）は、対象者のモバイルデバイスから音声サンプルを取得することを含み、（ｂ）及び（ｃ）は、モバイルデバイス上で少なくとも部分的に実行される。いくつかの実施形態では、（ｂ）及び（ｃ）は、遠隔サーバ上で少なくとも部分的に実行される。いくつかの実施形態では、本方法は、笑いモデル、呼吸モデル、又は一時停止モデルを含む非発話モデルで音声サンプルを処理するステップをさらに含む。いくつかの実施形態では、本方法は、（ｂ）の前に、音声サンプルが品質閾値を満たすかどうかを判定するステップをさらに含む。

別の態様では、本開示は、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を提供し、音響モデルは、エンコーダ及び分類器を含み、本方法は、（ａ）第１の訓練データセット上で、対象者の行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するためにエンコーダを訓練するステップを含む。（ｂ）（ａ）に続いて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、第１の訓練データセットとは異なる第２の訓練データセット上で、エンコーダ及び分類器を訓練するステップであって、第２の訓練データセットは、複数の話者からの複数の音声サンプルを含み、複数の音声サンプルの音声サンプルは、関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、を含む。いくつかの実施形態では、第１のタスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、（ｂ）は、エンコーダからの音声サンプルの抽象的な特徴表現を処理して出力を生成するように分類器を訓練することを含む。いくつかの実施形態では、（ｂ）の間、エンコーダは固定される。いくつかの実施形態では、（ｂ）の間、エンコーダは固定されない。いくつかの実施形態では、（ａ）及び（ｂ）は教師あり学習プロセスである。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。

別の態様において、本開示は、対象者における行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を提供し、本方法は、（ａ）第１の訓練データセットにおいて、音声サンプルを転写するための自動音声認識（ＡＳＲ）システムを訓練するステップであって、ＡＳＲシステムは、エンコーダ及びデコーダを備える、ステップと、（ｂ）デコーダを破棄するステップと、（ｃ）第１の訓練データセットとは異なる第２の訓練データセット上で、対象者からの音声サンプルを処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、エンコーダ及び分類器を訓練するステップであって、第２の訓練データセットは、行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、を含む。いくつかの実施形態では、本方法は、（ａ）の前に、複数のラベル化されていない音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、本方法は、（ｃ）の前に、複数のラベル付き音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、（ａ）が、音声サンプルの抽象的な特徴表現を生成するようにエンコーダを訓練するステップと、音声サンプルの抽象的な特徴表現を処理して、転写された音声サンプルを生成するようにデコーダを訓練するステップと、を含む。いくつかの実施形態では、（ｃ）は、出力を生成するためにエンコーダからの音声サンプルの抽象的な特徴表現を処理するように分類器を訓練することを含む。いくつかの実施形態では、（ｃ）の間、エンコーダは固定される。いくつかの実施形態では、（ｃ）の間、エンコーダは固定されない。いくつかの実施形態では、（ａ）及び（ｃ）は教師あり学習プロセスである。いくつかの実施形態では、本方法は、複数のラベル付き音声サンプルと、複数のラベル付き音声サンプルを生成した複数の話者に関するメタデータとを含む第３の訓練データセット上で分類器を訓練するステップをさらに含む。いくつかの実施形態では、メタデータは、複数の話者のそれぞれの年齢、人種、民族、性別（ｓｅｘ）、性（ｇｅｎｄｅｒ）、収入、教育、場所、又は病歴のうちの１つ又は複数を含む。いくつかの実施形態では、エンコーダは、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）及び長期短期記憶ネットワーク（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙｎｅｔｗｏｒｋ：ＬＳＴＭ）を備える。いくつかの実施形態では、ＣＮＮはビジュアル・ジオメトリ・グループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ：ＶＧＧ）ネットワークである。いくつかの実施形態では、分類器は、リカレント畳み込みニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＲＣＮＮ）、注意付きＬＳＴＭ、自己注意ネットワーク、及び変換器からなる群から選択されるモデルを含む。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。

別の態様では、本開示は、自然言語処理（ＮＬＰ）モデルを使用して対象者における行動的又は精神的健康状態を検出する方法を提供し、ＮＬＰモデルは言語モデル及び１つ又は複数の分類器を含み、方法は、（ａ）対象者からの複数の音声セグメントを含む音声サンプルを取得するステップと、（ｂ）音声サンプル又はその派生物を言語モデルで処理して言語モデル出力を生成するステップであって、言語モデルが第１のデータセット及び第２のデータセットで訓練されており、第１のデータセットが行動的又は精神的健康状態に関連しないテキストを含み、第２のデータセットが行動的又は精神的健康状態に関連するテキストを含み、第１のデータセットが第２のデータセットよりも実質的に大きい、ステップと、（ｃ）対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、１つ又は複数の分類器を用いて言語モデル出力を処理するステップと、を含む。いくつかの実施形態では、本方法は、（ｂ）の前に、転写された音声サンプルを生成するために音声サンプルを転写するステップと、エンコーダを使用して転写された音声サンプルの埋め込みを生成するステップと、をさらに含む。いくつかの実施形態では、言語モデルは、長期短期記憶（ＬＳＴＭ）ネットワーク又は変換器を含む。いくつかの実施形態では、１つ又は複数の分類器は、二値分類器を含み、（ｃ）は、対象者が行動的又は精神的健康状態を有するか、又は行動的又は精神的健康状態を有しないかを示す二値分類を生成することを含む。いくつかの実施形態では、１つ又は複数の分類器は回帰分類器を含み、（ｃ）は、対象者の行動的又は精神的健康状態の複数のレベル又は重大度にわたって確率分布を生成することを含む。いくつかの実施形態では、本方法は、出力を生成するために二値分類及び確率分布を融合するステップをさらに含む。いくつかの実施形態では、第１のデータセットは、公開されている利用可能なテキストコーパスを含む。

別の態様では、本開示は、行動的又は精神的健康状態を検出するために自然言語処理モデルを訓練するための方法を提供し、自然言語処理モデルは、（ｉ）言語モデル及び（ｉｉ）分類器を含み、方法は、（ａ）第１のエンコードテキストで言語モデルを訓練するステップであって、第１のエンコードテキストは、行動的又は精神的健康状態とは無関係のテキストを含む、ステップと、（ｂ）第２のエンコードテキスト、及び任意選択的にメタデータ情報で言語モデルを微調整するステップであって、第２のエンコードテキストが、行動的又は精神的健康状態に関連するテキストを含む、ステップと、（ｃ）複数の対象者からの複数のエンコードされた音声サンプル上で行動的又は精神的状態を検出するように分類器を訓練するステップであって、複数のエンコードされた音声サンプルのエンコードされた音声サンプルは、エンコードされた音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示すラベル及び任意選択のメタデータ情報と関連付けられる、ステップと、を含む。いくつかの実施形態では、言語モデルは、長期短期記憶（ＬＳＴＭ）ネットワークを含む。いくつかの実施形態では、（ａ）の訓練は、非単調確率的勾配降下プロセスを含む。いくつかの実施形態では、（ａ）の訓練は、ドロップアウト又はＤｒｏｐＣｏｎｎｅｃｔ操作を含む。いくつかの実施形態では、言語モデルは変換器を含む。いくつかの実施形態では、第２のエンコードテキストは、追加の行動的又は精神的健康状態に関連するテキストを含み、（ｂ）の微調整は、マルチタスク学習を含む。いくつかの実施形態では、本方法は、複数の対象者からの複数のエンコードされた音声サンプル上の追加の行動的又は精神的状態を検出するために追加の分類器を訓練するステップをさらに含み、複数のエンコードされた音声サンプルのエンコードされた音声サンプルは、エンコードされた音声サンプルを提供した対象者が追加の行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられる。いくつかの実施形態では、行動的又は精神的健康状態は不安症であり、追加の行動的又は精神的健康状態はうつ病である。いくつかの実施形態では、（ｂ）の微調整は、言語モデルの異なる層の識別的微調整を含む。いくつかの実施形態では、（ｂ）の微調整は、言語モデルの層を訓練するために傾斜三角形学習率を使用することを含む。いくつかの実施形態では、分類器は、二値分類器及び回帰分類器を含み、（ｃ）の訓練は、（ｉ）試験対象者が行動的又は精神的健康状態を有するか否かを予測するために二値分類器を訓練すること、及び（ｉｉ）対象者の行動的又は精神的健康状態の重症度を示す数値スコアを予測するために回帰分類器を訓練することを含む。いくつかの実施形態では、自然言語処理モデルの出力は、二値分類器の出力及び回帰分類器の出力に少なくとも部分的に基づく。いくつかの実施形態では、本方法は、（ｃ）に続いて、（ｄ）対象者から音声サンプルを得るステップと、（ｅ）自然言語処理モデルを使用して音声サンプルを処理し、試験対象者が行動的又は精神的健康状態を有するかどうかを予測するステップと、をさらに含む。いくつかの実施形態では、音声サンプルは、複数のクエリに対する複数の応答を含み、（ｅ）は、音声サンプルを複数回処理するために自然言語処理モデルを使用することを含み、複数の応答は、複数回の毎回異なる順序で配置される。いくつかの実施形態では、自然言語処理モデルは、複数の対象者からの複数の音声サンプルを転写するための自動音声認識モデルを含む。いくつかの実施形態では、自然言語処理モデルは、複数の転写された音声サンプルをエンコードするためのエンコーダを備える。いくつかの実施形態では、エンコーダは、ｎグラムモデル、スキップグラムモデル、ニューラルネットワーク、及びバイトペアエンコーダからなる群から選択される。いくつかの実施形態では、ラベルは、標準化された精神健康アンケートの結果である。

別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかを判定する方法であって、（ａ）対象者から音声データを取得するステップと、（ｂ）音声データをコンピュータ処理して、音声データ内の少なくとも１つの言語特徴及び少なくとも１つの音響特徴を識別するステップと、（ｃ）少なくとも１つの言語特徴及び少なくとも１つの音響特徴をコンピュータ処理して１つ又は複数のスコアを生成し、１つ又は複数のスコアを使用して、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかの判定を生成するステップと、（ｄ）（ｃ）で生成された判定の指示を含む電子レポートを出力するステップであって、（ｂ）～（ｄ）は５分未満で実行され、（ｃ）で生成された判定は少なくとも約０．７０の曲線下面積（ＡＵＣ）を有する、ステップと、を含む方法を提供する。いくつかの実施形態において、ＡＵＣは、少なくとも約０．７５である。いくつかの実施形態において、ＡＵＣは、少なくとも約０．８０である。いくつかの実施形態では、電子レポートは、判定が、対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いことを示す場合、行動的又は精神的健康状態に関する心理教育資料を含む。

別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いと判定する方法であって、（ａ）対象者から音声データを取得するステップと、（ｂ）音声データをコンピュータ処理して、音声データ内の少なくとも１つの音声特徴及び少なくとも１つの音響特徴を識別するステップと、（ｃ）少なくとも１つの音声特徴及び少なくとも１つの音響特徴をコンピュータ処理して、対象者が行動的又は精神的健康状態を有する、又は有する可能性があるという判定を提供するステップと、（ｄ）（ｃ）で提供された判定を示す電子レポートを出力するステップであって、（ｂ）又は（ｃ）のコンピュータ処理が、（ｃ）で提供された判定の感度又は特異性を含む少なくとも１つの性能メトリックを最適化する、ステップと、を含む方法を提供する。

別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかを判定するための方法を提供し、本方法は、（ａ）対象者と医療提供者との間の遠隔医療アプリケーションの遠隔医療セッション中に、対象者のオーディオストリーム及びビデオストリームを取得するステップと、（ｂ）音響モデル、自然言語処理モデル（ＮＬＰ）、及びビデオモデルを含む１つ又は複数のモデルを取得するステップであって、１つ又は複数のモデルが、対象者が行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを判定するように訓練される、ステップと、（ｃ）オーディオストリーム又はビデオストリームを１つ又は複数のモデルで処理して、対象者が行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを示す判定を生成するステップと、（ｄ）遠隔医療セッションが進行している間に、医療提供者のユーザデバイス上で実行されている健康アプリケーションのユーザインターフェースに決定を送信するステップと、を含む。いくつかの実施形態では、本方法は、自然言語処理モデルを使用してオーディオストリーム内の１つ又は複数のトピック又は単語を決定し、１つ又は複数のトピック又は単語をユーザインターフェースに送信するステップをさらに含む。いくつかの実施形態では、判定は、判定の信頼区間を含む。いくつかの実施形態では、本方法は、遠隔医療セッション中に（ａ）～（ｄ）を連続的に繰り返すステップをさらに含む。いくつかの実施形態では、（ｂ）は、対象者に関する人口統計学的又は病歴情報に少なくとも部分的に基づいて１つ又は複数のモデルを選択することを含む。

本開示の別の態様は、１つ又は複数のコンピュータプロセッサによって実行されると、上記又は本明細書の他の箇所に記載されたシステムを実装する機械実行可能コードを含む非一時的コンピュータ可読媒体を提供する。

本開示の別の態様は、１つ又は複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを備えるシステムを提供する。コンピュータメモリは、１つ又は複数のコンピュータプロセッサによって実行されると、上記又は本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む。

別の態様では、本開示は、１つ又は複数のコンピュータプロセッサと、１つ又は複数のコンピュータプロセッサによる実行時に、１つ又は複数のコンピュータプロセッサに、対象者からの複数のセグメントを含む入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成された音響モデルを実装させる機械実行可能命令を含むメモリであって、音響モデルは、入力音声の抽象的表現を生成するように構成されたエンコーダであって、エンコーダは、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測すること以外のタスクを実行するために、転移学習フレームワークを使用して事前訓練される、エンコーダを含む、メモリと、入力音声の抽象的表現を処理して、対象者が関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するように構成された少なくとも１つの分類器であって、少なくとも１つの分類器は、関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた音声サンプルについて訓練されている、少なくとも１つの分類器と、を備える、システムを提供する。いくつかの実施形態では、エンコーダは、ビジュアル・ジオメトリ・グループ（「ＶＧＧ」）ネットワーク及び長期短期記憶（「ＬＳＴＭ」）ネットワークのスタックを含む。いくつかの実施形態では、少なくとも１つの分類器は、リカレント畳み込みニューラルネットワーク（「ＲＣＮＮ」）、注意付きＬＳＴＭ、自己注意ネットワーク、又は変換器からなる群から選択されるモデルを含む。いくつかの実施形態では、少なくとも１つの分類器は、出力を生成するために対象者に関するメタデータを処理するようにさらに構成される。いくつかの実施形態では、メタデータは、対象者の年齢又は性別を含む。いくつかの実施形態では、エンコーダは、デコーダで転写された音声サンプルについて訓練され、デコーダはシステムの一部ではない。いくつかの実施形態では、タスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、セグメント出力は平均化される。いくつかの実施形態では、セグメント出力は、機械学習アルゴリズムを使用して融合される。いくつかの実施形態では、エンコーダはデコーダで事前訓練され、エンコーダ及びデコーダは自動音声認識（ＡＳＲ）システムを備える。いくつかの実施形態では、デコーダは、注意ユニット、長期短期記憶ネットワーク、及びビーム探索ユニットのうちの１つ又は複数を含む。いくつかの実施形態では、少なくとも１つの分類器は、二値分類器を含む。いくつかの実施形態では、少なくとも１つの分類器は、複数クラス分類器を含み、出力は、対象者における関心のある行動的又は精神的健康状態の複数の重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、入力音声の複数のセグメントの各セグメントについてのセグメント出力であり、システムは、予測された精神状態を取得するために、少なくとも１つの分類器のセグメント出力の学習された表現を融合するように構成されたセグメント融合モジュールをさらに備える。

本開示のさらなる態様及び利点は、本開示の例示的な実施形態のみが示され説明される以下の詳細な説明から当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正が可能である。したがって、図面及び説明は、本質的に例示と見なされるべきであり、限定と見なされるべきではない。

参照による組み込み
本明細書で言及されるすべての刊行物、特許、及び特許出願は、あたかも各個々の刊行物、特許、又は特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物及び特許又は特許出願が本明細書に含まれる開示と矛盾する限り、本明細書は、そのような矛盾する材料に取って代わる及び／又は優先することを意図している。

本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴及び利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、及び添付の図面（本明細書では「図」及び「図」もまた）を参照することによって得られるであろう。

対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成されたシステムを概略的に示す図である。入力音声から対象者に関するメタデータを予測するためのメタデータ部を模式的に示す図である。入力音声からｉベクトルを推定するように構成されたｉベクトル推定器を概略的に示す図である。図１のシステムを訓練するための例示的なプロセスのフローチャートである。図１のシステムを訓練するための別の例示的なプロセスのフローチャートである。対象者に関する音声データ、ビデオデータ、及び／又はメタデータを使用して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視するように構成されたシステムを概略的に示す図である。セグメント融合モジュールを概略的に示す図である。本明細書で提供される方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステムを示す図である。自然言語処理（「ＮＬＰ」）モデルを使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステムを概略的に示す図である。図９のＮＬＰモデルを訓練するための例示的なプロセスのフローチャートである。データセットにおける患者健康質問票－８（「ＰａｔｉｅｎｔＨｅａｌｔｈＱｕｅｓｔｉｏｎｎａｉｒｅ－８：ＰＨＱ－８」）及び全般性不安障害－７（「ＧｅｎｅｒａｌｉｚｅｄＡｎｘｉｅｔｙＤｉｓｏｒｄｅｒ－７：ＧＡＤ－７」）スコアの分布を示すチャートである。図１１のスコアの行列である。生のＰＨＱ－８スコア及びＧＡＤ－７スコアを予測する際の訓練済モデルの精度を示すチャートである。様々な訓練モデルのＲＯＣを示すチャートである。データの２つのコーパスにおける年齢分布を示す棒グラフである。図１５からのデータの２つのコーパスに対するＰＨＱ－８スコアの分布を示すチャートである。訓練済モデルの二値分類結果を示すチャートである。各年齢バケットのデータカウント及び各年齢バケットのＲＯＣを示すチャートである。遠隔医療システムを概略的に示す図である。音響モデルとＮＬＰモデルの性能データを示す図である。

本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、複数の変形、変更、及び置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。

「少なくとも」、「より大きい」、又は「以上」という用語が２つ以上の一連の数値の第１の数値に先行するときはいつでも、「少なくとも」、「より大きい」、又は「以上」という用語は、その一連の数値の各数値に適用される。例えば、１、２、又は３以上は、１以上、２以上、又は３以上に等しい。

「以下」、「未満」、又は「以下」という用語が２つ以上の一連の数値の第１の数値に先行するときはいつでも、「以下」、「未満」、又は「以下」という用語は、その一連の数値の各数値に適用される。例えば、３、２、又は１以下は、３以下、２以下、又は１以下と等価である。

音響モデル
図１は、対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成されたシステム１００を概略的に示す。行動的又は精神的な健康状態は、疲労、寂しさ、低い動機、ストレス、うつ病、不安症、薬物又はアルコール中毒、心的外傷後ストレス障害（「ｐｏｓｔ－ｔｒａｕｍａｔｉｃｓｔｒｅｓｓｄｉｓｏｒｄｅｒ：ＰＴＳＤ」）、統合失調症、双極性障害、認知症、自殺念慮などであり得る。行動的又は精神的健康状態は、精神障害の診断及び統計マニュアルに関連するか、又はそれと併存するか、又は定義され得る。

システム１００は、インターネット接続デバイス上にあるか、又はインターネット接続デバイス（例えば、ブルートゥース（登録商標）接続を介して）に接続されたマイクロフォン又はマイクロフォンアレイを介して入力音声を取得することができる。デバイスは、ウェアラブルデバイス（例えば、スマートウォッチ）、携帯電話、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカ、ホーム支援デバイス（例えば、ＡｍａｚｏｎＡｌｅｘａ（登録商標）デバイス又はＧｏｏｇｌｅＨｏｍｅ（登録商標）デバイス）などであってもよい。デバイスは、精神衛生アプリケーションを有してもよい。精神衛生アプリケーションは、対象者の仕事及び家庭生活、睡眠、気分、病歴などに関する質問に回答するように対象者に視覚的又は聴覚的に促すことができる。プロンプトに対する対象者の回答は、入力音声として使用されてもよい。システム１００は、モバイルアプリケーション上に実装することができ、対象者のモバイルデバイス上でローカルに入力音声を処理することができる。代替的又は追加的に、モバイルデバイスは、処理のために遠隔地に音声を送信することができる。場合によっては、処理は、部分的にローカルデバイス上で、及び部分的に遠隔サーバ上で実行されてもよい。

代替的又は追加的に、入力音声は、医療専門家との臨床的な遭遇を介して取得されてもよい。例えば、録音デバイスは、医師の予約中に対象者からの音声を取り込むことができる。医師の予約は、直接予約であっても遠隔で行われる遠隔医療予約であってもよい。

システム１００は、エンコーダ・サブシステム１１０、デコーダ・サブシステム１２０、及び分類サブシステム１３０を有し得る。システム１００及びそのサブシステムは、１つ又は複数の場所の１つ又は複数のコンピュータに実装することができる。

エンコーダ・サブシステム１１０とデコーダ・サブシステム１２０は一緒に、入力音声の書き写しを生成する自動音声認識（「ＡＳＲ」）システムを形成してもよい。一般に、エンコーダ・サブシステム１１０は、入力音声から高レベルの音響特徴を生成することができる。デコーダ・サブシステム１２０は、高レベルの音響特徴を消費して、文字列にわたる確率分布を生成することができる。システムは、確率分布からサンプリングして、入力音声の転写を生成することができる。

エンコーダ・サブシステム１１０は、最初に、行動的又は精神的健康状態の予測以外のタスクについて訓練することができる。例えば、エンコーダは、自動音声認識、感情分類、音分類などのタスクのためにデコーダと共に訓練することができる。この訓練は完全である必要はない。エンコーダの部分的な訓練であっても、エンコーダを事前訓練しない場合よりも性能を向上させることができる。エンコーダを訓練した後、最初のタスクのデコーダを破棄することができ、エンコーダを、関心のある行動的又は精神的健康状態を予測する意図されたタスクのために使用することができる。これは転移学習として知られている。

エンコーダ・サブシステム１１０は、畳み込みニューラルネットワーク（「ＣＮＮ」）１１２を有してもよい。ＣＮＮ１１２は、畳み込み層及び完全接続層を有し得る。ＣＮＮ１１２は、少なくとも約１、２、３、４、５、６、７、８、９、１０以上の畳み込み層を有してもよい。ＣＮＮは、最大で約１０、９、８、７、６、５、４、３、２、又は１つの畳み込み層を有し得る。ＣＮＮ１１２は、少なくとも約１、２、３、４、又はそれ以上の完全接続層を有し得る。ＣＮＮ１１２は、最大で約４、３、２、又は１の全結合層を有し得る。ＣＮＮ１１２への入力は、スペクトログラム特徴であってもよい。スペクトログラム特徴は、入力音声の５秒のセグメントにわたって２５ミリ秒のウィンドウ及び１０ミリ秒のフレームレートを有し得る。他の場合には、入力は他のフロントエンド特徴であってもよい。ＣＮＮ１１２は、ビジュアル・ジオメトリ・グループ（「ＶＧＧ」）ネットワークとすることができる。ＶＧＧネットワークは、高レベルの音響特徴の表現を改善することができる。

ＬＳＴＭネットワーク１１４は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１５、２０、又はそれ以上のＬＳＴＭ層を有し得る。ＬＳＴＭネットワーク１１４は、少なくとも約１、２、３、４、５、６、又はそれ以上の完全接続層を有し得る。ＬＳＴＭネットワーク１１４への入力は、ＣＮＮ１１２の出力であってもよい。ＭＦＣＣは、入力音声全体にわたって２５ミリ秒のウィンドウ及び１０ミリ秒のフレームレートを有し得る。場合によっては、ＬＳＴＭネットワーク１１４は、双方向ＬＳＴＭ（ｂｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ：ＢＬＳＴＭ）であってもよい。

デコーダ・サブシステム１２０は、エンコーダ・サブシステム１１０から高レベル音響特徴を受信する注意ユニット１２２及びＬＳＴＭネットワーク１２４を有し得る。注意ユニット１２２は、ＬＳＴＭネットワーク１２４が出力ステップごとに高レベル音響特徴のサブセットに集中する（又は「注意する」）ことを可能にし得る。注意ユニット１２２及びＬＳＴＭネットワーク１２４は、文字列にわたる確率分布を生成することができる。注意ユニット１２２及びＬＳＴＭネットワーク１２４は、コネクショニスト時系列分類（「ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ＣＴＣ」）機能を用いて訓練することができる。デコーダ・サブシステム１２０は、ＬＳＴＭネットワーク１２４から文字シーケンス上の確率分布を受信し、確率分布から生じる可能な転写をトラバースし、特定の基準に従って最良の転写を選択するビーム探索ユニット１２６をさらに有し得る。

場合によっては、デコーダ・サブシステム１２０は、システム１００の訓練中にのみ使用されてもよい。すなわち、デコーダ・サブシステム１２０は、推論中に非アクティブ化又は破棄されてもよい。システム１００の訓練は、後続の図を参照してより詳細に説明される。分類器ネットワーク１３２は、単一のセグメントに対する決定を生成することができる。（複数のセグメントからなる）セッション全体についての決定を生成するために、システムは、セグメント融合モジュール１４０に、分類器ネットワーク１３２の内部層のうちの１つ（通常は最後までの層）を供給することができる。次いで、セグメント融合モジュール１４０は、セッション全体の単一の予測を生成することができる。いくつかの実施形態では、セグメント融合モジュールは、予測のためにＭＬＰ、ＬＳＴＭ、ＲＣＮＮ、ランダムフォレスト、又は同様の手法を使用することができる。セグメント融合モジュール１４０はまた、モダリティが異なるモデル（音響、ＮＬＰ、画像処理など）を含む、異なる基礎モデルを互いに組み合わせるために使用されてもよい。

分類サブシステム１３０は、デコーダ・サブシステム１２０と同様に、エンコーダ・サブシステム１１０から高レベルの音響特徴を受信することができる。分類サブシステム１３０は、高レベルの音響特徴を処理して、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測することができる。より具体的には、分類（「セグメント出力」）サブシステム１３０の出力は、対象者の状態（例えば、うつ病又は双極性障害）を有する対象者からの音声のセグメントの事後確率であってもよい。分類サブシステム１３０は、分類器ネットワーク１３２を有し得る。分類器ネットワーク１３２は、リカレントＣＮＮ（「ｒｅｃｕｒｒｅｎｔＣＮＮ：ＲＣＮＮ」）、注意付きＬＳＴＭ、自己注意ネットワーク、又は変換器であってもよい。分類器ネットワーク１３２は、回帰、順序予測、二値分類、マルチクラス分類などを実行することができる。二値分類の場合、分類器ネットワーク１３２は、対象者が行動障害又は精神障害を有するかどうかに関する二値予測を行うことができる。マルチクラス分類の場合、分類器ネットワーク１３２は、対象者（例えば、対象者のＰＨＱ－９スコア又はＧＡＤ－７スコア）における行動又は精神衛生障害の重症度又はレベルを予測することができる。

システム１００は、メタデータ及び／又は識別ベクトル（「ｉｄｅｎｔｉｔｙｖｅｃｔｏｒ：ｉベクトル」）を使用して、対象者が関心のある行動的又は精神的健康状態を有するかどうかをより正確に予測することができる。メタデータは、対象者に関するデータ、例えば、対象者の年齢、人種、民族、性別、性、収入、教育、場所、病歴などであってもよい。そのようなメタデータは、対象者の行動的又は精神的健康状態を示し得る。システム１００は、データベースからメタデータを取得することができ、又は対象者からの入力音声からメタデータを予測することができる。図２は、そのような予測を行うように構成されたメタデータユニット２００を概略的に示す。メタデータユニット２００は、各々が対象者に関する異なる種類のメタデータを予測するように構成された複数の異なるニューラルネットワーク分類器を有し得る。例えば、メタデータユニット２００は、対象者の年齢を予測するように訓練された一方のニューラルネットワーク分類器と、対象者の場所を予測するように訓練された他方のニューラルネットワーク分類器とを有し得る。一般に、メタデータユニット２００は、人口統計データ、過去の病歴、時刻、場所などを予測することができる。音響モデルは、既知の又は推論されたメタデータを使用して、患者の行動又は精神の健康状態をより良好に予測することができる。

場合によっては、上記のメタデータを使用して、精神衛生アプリケーションにおける患者の経験を適合又はパーソナライズすることができる。例えば、患者が高齢である場合、精神衛生アプリケーションのフォントサイズを大きくすることができる。別の例として、質問の表現は、特定の地域の方言を使用するもの、又は特定のコンテキスト（例えば、システムは、学生に彼の家庭生活について尋ねるときに「ルームメイト」という単語を使用することができる）のものなど、特定の人口統計グループに対して調整することができる。

一方、ｉベクトルは、入力音声から抽出された低次元特徴であってもよい。図３は、ｉベクトルを推定するように構成されたｉベクトル推定器３００を概略的に示す。ｉベクトル推定器３００は、ガウス混合モデルを使用して、そのようなｉベクトルを推定することができる。

場合によっては、メタデータ及び／又はｉベクトルは、高レベル音響特徴が分類サブシステム１３０に渡される前に、エンコーダ・サブシステム１１０からの高レベル音響特徴に付加されてもよい。いくつかの他の場合では、メタデータ及び／又はｉベクトルは、代わりに分類器ネットワーク１３２の出力に付加され、ネットワーク１３４を通過することができる。ネットワーク１３４は、例えば、ディープ・ニューラル・ネットワーク（「ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ：ＤＮＮ」）、ランダムフォレスト分類器、又はサポート・ベクトル・マシン（「ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ：ＳＶＭ」）であってよい。

あるいは、システムは、転移学習を伴うエンドツーエンドモデルを使用することができる。このモデルの最初のいくつかの層（ＣＮＮ及びＬＳＴＭ）は、ＡＳＲタスクの助けを借りて初期化することができる。そうすることで、システムは、新しいネットワークを作成し、それを転写された音声データで訓練することができる。モデルの第１の層を事前訓練した後、システムは、分類又は予測タスクのための訓練中にそれらをフリーズするか、それらの重みを更新し続けることができる。ＣＮＮ及びＬＳＴＭの事前訓練は、システムがすべての層を最初から訓練するときよりも制限的な表現をニューラルネットワークに学習させる。

エンドツーエンドモデルは、個々のオーディオセグメントから出力を生成することができる。これらのセグメントの複数を含むオーディオセッションの場合、システムは、セッションを含むすべてのセグメントからの予測を平均化することによって全体的な精神衛生予測を生成することができる。他の実施形態では、システムは、追加のニューラルネットワークを使用して個々のセグメントを融合することができる。セグメントは、分類サブシステム出力の最後の隠れ層であるベクトルによって表されてもよい。セッションごとのセグメントのシーケンスは、最大プーリングによって単一のベクトルに投影され、次いで追加のネットワーク（例えば、ＭＬＰネットワーク）に供給され得る。次いで、分類タスク又は回帰タスクのいずれかのためにモデルを訓練することができる。

システムは、自動音声認識（ＡＳＲ）タスクを使用して、ネットワークの最初のいくつかの層を事前訓練することができる。事前訓練ステップは、ネットワークが正常に動作する特徴表現から開始することを可能にすることができる。最初の数層を予め訓練するために「弱い」（大きな文字誤り率）モデルを使用しても、著しい性能向上を達成することができる。

分類サブシステム１３０の最終層（図示せず）は、複数の出力クラス、例えば行動的又は精神的健康状態にわたって確率分布を生成するように構成されたソフトマックス層であってもよい。

上述の音響モデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の特異性を有し得る。音響モデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の感度を有し得る。音響モデルの特異性を上げるには、感度を下げる必要があり、逆もまた同様である。音響モデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の曲線下面積（「ＡＵＣ」）を有し得る。音響モデルは、従来のシステムよりも少なくとも約１％、２％、３％、４％、５％、１０％、１５％、２０％、２５％、又はそれ以上の相対性能（例えば、感度、特異性又はＡＵＣ）の改善を提供することができる。

図７は、セグメント融合モジュール１４０を概略的に示す。セグメント融合モジュール１４０は、分類サブシステムからの出力である入力を受信することができる。入力は、個々のオーディオセグメントからの分類結果を反映することができる。プロセスは、患者とのオーディオセッションを含む複数のそのようなセグメントを収集することができる。システムは、セグメントを並べ、次いで最大プーリングを使用してそれらを単一のベクトルに投影し、次いでそれらを複数層パーセプトロン（「ＭＬＰ」）ネットワークなどのディープ・ラーニング・ネットワークに供給することができる。次いで、モデルは、一連のセグメントに対して実行された機械学習分析からセッション全体の出力予測を生成することができる。セグメント融合モジュール１４０は、所与のセッションにおける音声のすべてのセグメントにわたって各セグメントの学習された表現形式（分類器の出力）を融合して、そのセッションの全体的な予測を取得することができる。その最も単純な形態では、セグメント融合モジュール１４０は、すべてのセグメントにわたる平均予測を計算するだけでよい。より複雑なバージョンでは、モジュールは、セッション内の各音声セグメントに対応する学習済み表現を受信し、機械学習モデルを使用してこれらの表現を組み合わせる（融合する）ことができる。学習された表現は、音声セグメントの分類器の内部層に対応することができる。組み合わせモデル又は融合モデルは、ＭＬＰ、ＬＳＴＭ、ＲＣＮＮ、及び他の同様のモデルを含み得る。さらに、セグメント融合モジュール１４０は、マルチモーダル入力の結果を組み合わせるために使用されてもよく、例えば、すべてのモダリティを含む最終決定のために音響セグメント、ＮＬＰ、及び視覚を組み合わせるために使用されてもよい。

図１のサブシステムは、１つ又は複数のコンピューティング・デバイス上に実装されてもよい。コンピューティング・デバイスは、サーバ、デスクトップ又はラップトップコンピュータ、電子タブレット、モバイルデバイスなどであってもよい。コンピューティング・デバイスは、１つ又は複数の場所に配置することができる。コンピューティング・デバイスは、汎用プロセッサ、グラフィックス処理装置（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＧＰＵ）、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅ－ａｒｒａｙｓ：ＦＰＧＡ）、機械学習アクセラレータなどを有し得る。コンピューティング・デバイスは、例えば、ダイナミックランダムアクセスメモリ又はスタティックランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ、ハードドライブなどのメモリをさらに有してもよい。メモリは、実行時に、コンピューティング・デバイスにシステム１００を訓練させるか、又は対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測させる命令を格納するように構成され得る。コンピューティング・デバイスは、ネットワーク通信デバイスをさらに有してもよい。ネットワーク通信デバイスは、コンピューティング・デバイスがネットワークを介して互いに、及び任意の数のユーザデバイスと通信することを可能にすることができる。例えば、ネットワーク通信デバイスは、システム１００を実装するコンピューティング・デバイスが、対象者の予測される行動的又は精神的健康状態に関して医療専門家のモバイルデバイスと通信することを可能にすることができる。ネットワークは、有線又は無線ネットワークであってもよい。例えば、ネットワークは、光ファイバネットワーク、イーサネット（登録商標）ネットワーク、衛星ネットワーク、セルラーネットワーク、Ｗｉ－Ｆｉ（登録商標）ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）ネットワークなどであってもよい。他の実装形態では、コンピューティング・デバイスは、インターネットを介してアクセス可能ないくつかの分散コンピューティング・デバイスであってもよい。そのようなコンピューティング・デバイスは、クラウドコンピューティング・デバイスと考えることができる。

訓練音響モデル
図４は、システム１００を訓練するための例示的なプロセス４００のフローチャートである。プロセス４００は、１つ又は複数の場所にある１つ又は複数のコンピュータのシステムによって実行することができる。このようなコンピュータを、図４では「訓練システム」と総称する。

動作４１０において、訓練システムは、音声データを転写するようにエンコーダ・サブシステム１１０及びデコーダ・サブシステム１２０を訓練することができる。訓練データは、生の音声データ及びその生の音声データの対応する転写を含み得る。生の音声データは、行動的又は精神的健康のトピックとは無関係であり得る。生の音声データはラベルなしであってもよい。すなわち、生の音声データは、精神状態又は行動状態が未知である話者に由来し得る。場合によっては、訓練データは、パブリック・オーディオ・コーパスに由来してもよい。動作４１０は、教師あり学習動作であり得る。

動作４１０のサブ動作４１２において、訓練システムは、生の音声データをフィルタバンク又はメル周波数ケプストラム係数（「ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ」）に変換することができる。動作４１０のサブ動作４１４において、訓練システムは、エンコーダ・サブシステム１１０に、フィルタバンク又はＭＦＣＣをロバストな抽象的な特徴表現にマッピングさせることができる。動作４１０のサブ動作４１６において、訓練システムは、デコーダ・サブシステム１２０に、出力を生成するために抽象的な特徴表現を処理させることができる。動作４１０のサブ動作４１８において、訓練システムは、デコーダ・サブシステム１２０の出力を音声データの既知の転写と比較し、エンコーダ・サブシステム１１０及びデコーダ・サブシステム１２０の重み及びバイアスを更新して差を考慮することができる。より具体的には、訓練システムは、生成された出力と既知の転写との間の差を計算するためにコスト関数を使用することができる。エンコーダ及びデコーダ・サブシステムの重み及びバイアスに関するコスト関数の導関数を計算することにより、訓練システムは、コスト関数を最小化するために複数のサイクルにわたって重み及びバイアスを反復的に調整することができる。生成された出力が、計算されたコストの大きさが小さいなどの収束条件を満たす場合、訓練は完了することができる。

動作４２０において、訓練システムは、デコーダ・サブシステム１２０を無視又は破棄することができる。言い換えれば、デコーダ・サブシステム１２０は、残りの訓練動作又は推論に使用されなくてもよい。

動作４３０において、訓練システムは、分類サブシステム１３０をラベル付き音声データについて訓練することができる。ラベル化された音声データは、関心のある行動的又は精神的健康状態を有すると判定された対象者に由来するものとして、又は由来しないものとしてラベル化された音声データであってもよい。関心のある行動的又は精神的健康状態は、本明細書に記載の任意のそのような状態であり得る。ラベルは、臨床診断、標準化された精神健康アンケート（例えば、ＰＨＱ－９）からのスコアなどであり得る。場合によっては、分類サブシステム１３０は、標準化された精神健康アンケート（例えば、ＰＨＱ－９の質問１及び２のみ）からの質問の特定のサブセットに対する回答を使用して、行動的又は精神的健康状態のサブクラスを予測するように訓練することができる。動作４１０と同様に、動作４３０は教師あり学習動作であってもよい。動作４３０のサブ動作４３２において、訓練システムは、生の音声データをフィルタバンク又はＭＦＣＣに変換することができる。サブ動作４３４において、訓練サブシステムは、以前に訓練されたエンコーダ・サブシステム１１０に、音声データの抽象的な特徴表現を生成させることができる。動作４３０のサブ動作４３６において、訓練サブシステムは、分類サブシステム１３０に、抽象的な特徴表現から、音声データの発信元である対象者の行動又は精神の健康状態を示す出力を生成させることができる。動作４３０のサブ動作４３８において、訓練システムは、出力を対象者の既知の行動的又は精神的健康状態と比較し、違いを説明するために分類サブシステム１３０内の重み及びバイアスを更新することができる。訓練システムは、分類サブシステム１３０の出力が収束条件を満たすまで、複数の音声サンプルについてこのプロセスを繰り返すことができる。

動作４３０において、エンコーダ・サブシステム１１０は固定されてもよい。すなわち、重み及びバイアスは更新されなくてもよい。あるいは、エンコーダ・サブシステム１１０の重み及びバイアスは、特に、複数のラベル化された音声データが利用可能である場合、分類サブシステム１３０の重み及びバイアスと協調して調整されてもよい。これは、より堅牢なシステムをもたらし得る。

システムがメタデータ及び／又はｉベクトルを使用して対象者の行動的又は精神的健康状態を予測する場合、訓練システムは、訓練動作４１０～４３０の間にメタデータ及び／又はｉベクトルを０に初期化することができる。動作４４０において、訓練システムは、分類サブシステム１３０の前又は分類器ネットワーク１３２の後にメタデータ及び／又はｉベクトルを追加し、訓練を継続することができる。メタデータ及び／又はｉベクトルがエンコーダ・サブシステム１１０の出力に付加されるようにシステム１００が構成されている場合、訓練システムは、そのような出力並びに付加されたメタデータ及び／又はｉベクトルについて分類サブシステム１３０全体を訓練し続けることができる。あるいは、メタデータ及び／又はｉベクトルが分類器ネットワーク１３２の出力に付加されるようにシステム１００が構成される場合、訓練システムはネットワーク１３４のみを訓練することができる。

プロセス４００は、動作４１０において、エンコーダが、第１の訓練データセットを使用して一方のタスク（すなわち、自動音声認識）を実行するように訓練され、動作４３０において、エンコーダ及び分類器が、第２の訓練データセットを使用して第２のタスク（すなわち、対象者の精神的又は行動的状態を予測すること）を実行するように訓練される、転移学習プロセスである。第１のタスクを実行するためにエンコーダを事前訓練することは、ロバストな第２の訓練データセットを有するのに十分な量の臨床的にラベル付けされた音声データを得ることが困難であり得るため、有益であり得る。図４の実施形態では、第１のタスクは自動音声認識である。しかしながら、他の実施形態では、第１のタスクは、感情分類、音分類などであってもよい。

図５は、システム１００を訓練するための例示的なプロセス５００のフローチャートである。プロセス５００は、プロセス４００の代替であってもよい。プロセス５００は、１つ又は複数の場所にある１つ又は複数のコンピュータのシステムによって実行することができる。このようなコンピュータを、図５では「訓練システム」と総称する。

動作５１０において、訓練システムは、転写された音声データについてエンコーダ・サブシステム１１０及びデコーダ・サブシステム１２０を訓練することができる。動作５１０は、図４の動作４１０と同じ又は同様であり得る。動作５２０において、訓練システムは、音声データが由来する話者の行動的又は精神的健康状態でラベル付けされた音声データについて分類サブシステム１３０を訓練しながら、エンコーダ・サブシステム１１０及びデコーダ・サブシステム１２０を訓練し続けることができる。動作５２０の間、エンコーダ及びデコーダ・サブシステムの寄与に対するコスト関数への分類サブシステム１３０の寄与は増加し得る。そのため、動作５３０において、訓練システムは、エンコーダ・サブシステム１１０を固定し、デコーダ・サブシステム１２０を無視又は破棄することによって分類サブシステム１３０を微調整することができる。

メタデータ及び／又はｉベクトルが分類器ネットワーク１３２の出力に付加されるようにシステム１００が構成される場合、訓練システムは、メタデータ及び／又はｉベクトルがそのように付加される動作５４０を実行することができ、訓練システムは、（ｉ）分類器ネットワーク１３２をフリーズしてネットワーク１３４のみを訓練するか、又は（ｉｉ）ネットワーク１３４も訓練しながら分類器ネットワーク１３２を訓練し続ける。動作５５０において、訓練システムは、セグメント融合のためのモデルを訓練する。システムは、様々なセグメントのセグメント出力のシーケンスを単一のベクトルに投影する訓練に先行してもよい。

音響モデル例１
一例では、図１の音響モデルを使用して、対象者群の不安症及びうつ病を予測した。音響モデルの分類器は、二値分類を行うように訓練された。音響モデルのエンコーダは、図４に記載されるように自動音声認識タスクを実行するように事前訓練された。２つの異なるモデル、すなわち、エンコーダ重みのみが更新されたモデル（「第１のモデル」）と、エンコーダ重みとデコーダ重みの両方が更新されたモデル（「第２のモデル」）とを事前に訓練した。対象者はそれぞれ、うつ病ラベルとしての役割を果たす対象者健康質問票－８（すなわち、自殺念慮の質問が除去されたＰＨＱ－９）及び不安症ラベルとしての役割を果たす全般不安障害－７を受けていた。第１のモデルは、０．７１の特異性、０．７１の感度、０．７９のＡＵＣ及び０．５４のＦ１でうつ病を予測した。第２のモデルは、０．７２の特異性、０．７２の感度及び０．７９のＡＵＣでうつ病を予測した。第２のモデルは、０．６８の特異性、０．６９の感度、０．７５のＡＵＣ及び０．４９のＦ１で不安症を予測した。

転移学習を使用すると、転移学習なしで訓練された音響モデルと比較して、うつ病分類についての音響モデルの性能が０．６２のＡＵＣから０．７９のＡＵＣまで２７％改善された。

自然言語処理モデル
本開示はまた、自然言語処理モデル（「ＮＬＰ」）を使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム及び方法を提供する。システムは、対象者から音声サンプルを取得することができる。対象者は、対象者の仕事又は家庭生活に関するプロンプトに応答して音声サンプルを提供することができる。システムは、対象者が行動的又は精神的健康状態を有するかどうかを予測するために、ＮＬＰモデルを使用して音声サンプルを処理することができる。ＮＬＰモデルは、一般的なテキスト、ドメイン固有のテキスト、及び複数の対象者からの音声サンプルの組み合わせに対して異なる段階で訓練されてもよい。音声サンプルは、音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示す臨床ラベルと関連付けることができる。臨床ラベルは、標準化された健康アンケート、例えば、患者健康質問表９（「ＰＨＱ－９」）の結果に基づいてもよい。場合によっては、臨床ラベルは、うつ病のサブクラスを予測するために使用され得る、ＰＨＱ－９（例えば、ＰＨＱ－９での質問１及び２に対する回答のみ）からの質問のサブセットに対する回答であり得る。あるいは、臨床ラベルは、臨床医からの診断に基づいてもよい。

図９は、ＮＬＰモデルを使用して対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム９００を概略的に示す。症状は、精神障害の診断及び統計マニュアル（「ＤｉａｇｎｏｓｔｉｃａｎｄＳｔａｔｉｓｔｉｃａｌＭａｎｕａｌｏｆＭｅｎｔａｌＤｉｓｏｒｄｅｒｓ：ＤＳＭ」）又は他の同様の信頼できる情報源で臨床的に定義されている症状であってもよく、又はＤＳＭで定義されている症状に関連する若しくは併存する症状であってもよい。例えば、状態は、疲労、寂しさ、低い動機、ストレス、うつ病、不安症、薬物又はアルコール中毒、心的外傷後ストレス状態（「ＰＴＳＤ」）、統合失調症、双極性状態、認知症、自殺念慮などであり得る。

システム９００は、自動音声認識（「ＡＳＲ」）サブシステム９０５、エンコーダ・サブシステム９１０、言語モデルサブシステム９１５、及び分類サブシステム９２５を含んでもよい。

ＡＳＲサブシステム９０５は、対象者からの入力音声の転写を生成することができる。場合によっては、ＡＳＲサブシステム９０５は、例えばＧｏｏｇｌｅＡＳＲなどの第三者ＡＳＲモデルを含み得る。サードパーティＡＳＲは、１ベスト仮説ＡＳＲであってもよいし、単語不確実性を考慮してもよいし、単語混同情報を含んでもよい。他の場合には、ＡＳＲサブシステム９０５は、カスタムＡＳＲモデルを含み得る。

システム９００は、いくつかの異なる方法で入力音声を取得することができる。システム９００は、１つ又は複数のクエリを対象者に送信することによって入力音声を取得することができる。システム９００は、オーディオフォーマット、ビジュアルフォーマット、又はオーディオビジュアルフォーマットでクエリを送信することができる。例えば、システム９００は、対象者のコンピューティング・デバイスの電子ディスプレイ及びスピーカを介してクエリを送信することができる。クエリは、対象者の気分、睡眠、食欲、エネルギーレベル、人間関係、仕事、病歴、投薬などに関連し得る。場合によっては、クエリは、標準化された質問票精神健康アンケート、例えばＰＨＱ－９又は一般不安症状７（「ＧＡＤ－７」）からの質問であってもよく、又はそれに基づいてもよい。場合によっては、システム９００は、対象者との動的会話の一部として対象者にクエリを送信することができる。すなわち、各クエリは、以前のクエリ及びそのような以前のクエリに対する対象者の応答に基づくことができる。他の場合には、クエリ及びそれらの順序を事前定義することができる。追加的又は代替的に、システム９００は、対象者を受動的に聞くことによって入力音声を取得することができる。システム９００は、例えば、通常の日常活動の間、又は医療提供者との会話の間に受動的に対象者の声を聞くことができる。クエリに対する対象者の応答は、ＡＳＲサブシステム９０５への入力音声として機能することができる。

エンコーダ・サブシステム９１０は、ＡＳＲサブシステム９０５からの転写音声を連続ベクトル空間内の実数（すなわち、埋め込み）のベクトルに変換することができる。ベクトルは、個々の単語を表すことができる。ベクトル空間内で互いに近いベクトルは、そのような単語がテキストで一緒に表示されることが多いか、そうでなければ互いに関連付けられるという点で意味的に類似している単語を表すことができる。エンコーダ・サブシステム９１０は、いくつかの異なるモデル又は技術を使用して、転写された音声をベクトルに変換することができる。例えば、エンコーダ・サブシステム９１０は、ｎグラム又はスキップグラムモデル、フィードフォワード又はリカレント・ニューラル・ネットワーク、行列因子分解、バイト対エンコード、サブワード正則化、又はそのようなモデル及び技術の任意の組み合わせを使用することができる。これらのモデル及び技術は、参照により本明細書に組み込まれる以下の論文にさらに詳細に記載されている：Ｔ．Ｍｉｋｏｌｏｖら、ＤｉｓｔｒｉｂｕｔｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆＷｏｒｄｓａｎｄＰｈｒａｓｅｓａｎｄｔｈｅｉｒＣｏｍｐｏｓｉｔｉｏｎａｌｉｔｙ，２０１３，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１３１０．４５４６．ｐｄｆ；Ｊ．Ｐｅｎｎｉｎｇｔｏｎら、ＧｌｏＶｅ：ＧｌｏｂａｌＶｅｃｔｏｒｓｆｏｒＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎ，２０１４，ｈｔｔｐｓ：／／ｎｌｐ．ｓｔａｎｆｏｒｄ．ｅｄｕ／ｐｕｂｓ／ｇｌｏｖｅ．ｐｄｆ；Ｒ．Ｓｅｎｎｒｉｃｈら、ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｏｆＲａｒｅＷｏｒｄｓｗｉｔｈＳｕｂｗｏｒｄＵｎｉｔｓ，２０１５，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５０８．０７９０９．ｐｄｆ；Ｔ．Ｋｕｄｏ，ＳｕｂｗｏｒｄＲｅｇｕｌａｒｉｚａｔｉｏｎ：ＩｍｐｒｏｖｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋＴｒａｎｓｌａｔｉｏｎＭｏｄｅｌｓｗｉｔｈＭｕｌｔｉｐｌｅＳｕｂｗｏｒｄＣａｎｄｉｄａｔｅｓ，２０１８，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１８０４．１０９５９．ｐｄｆ。エンコーダ・サブシステム９１０は、エンコーダ・サブシステム９１０が使用する特定のモデル又は技術に応じて、転写された音声から単語、音節、フェノーム、又は文字をベクトルに変換することができる。

言語モデルサブシステム９１５は、エンコーダ・サブシステム９１０によって生成されたベクトル、及び追加のメタデータ情報、例えば、発話を提供した対象者に関するメタデータ（例えば、年齢、性別、性、民族性、場所、収入、病歴などである）、又はクエリ及びそれらのクエリに対する対象者の応答に関するメタデータ（例えば、質問の順序、質問のタイプなど）を処理することができる。言語モデルサブシステム９１５は、長期短期記憶（「ＬＳＴＭ」）ネットワーク９１６を有し得る。ＬＳＴＭネットワークは、リカレント・ニューラル・ネットワーク（「ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ：ＲＮＮ」）の一種である。ＲＮＮは、時系列データ、例えば音声データにおける依存性をエンコードすることができる循環的接続を有するニューラルネットワークである。ＲＮＮは、時系列入力のシーケンスを受信するように構成された入力層を含み得る。ＲＮＮは、状態を維持する１つ又は複数の隠れたリカレント層をさらに含み得る。各時間ステップにおいて、各隠れリカレント層は、その層の出力及び次の状態を計算することができる。次の状態は、前の状態及び現在の入力に依存し得る。状態は、時間ステップにわたって維持されてもよく、入力シーケンス内の依存関係を取得してもよい。

ＬＳＴＭネットワークは、ＬＳＴＭユニットで構成され得る。ＬＳＴＭユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートを含み得る。セルは、入力シーケンス内の要素間の依存関係を追跡する役割を担うことができる。入力ゲートは、新しい値がセルに流入する程度を制御することができ、忘却ゲートは、値がセル内に残る程度を制御することができ、出力ゲートは、セル内の値がＬＳＴＭユニットの出力アクティブ化を計算するために使用される程度を制御することができる。ＬＳＴＭゲートの活性化関数は、ロジスティック関数であってもよい。

あるいは、言語モデルサブシステム９１５は、変換器９１７を有してもよい。変換器９１７は、反復接続のないモデルであってもよい。代わりに、注意機構に依存してもよい。注意機構は、他を無視しながら、特定の入力領域に焦点を合わせるか、又は「対応する」ことができる。これは、特定の入力領域があまり関連性がない可能性があるため、モデル性能を向上させることができる。各時間ステップにおいて、注意ユニットは、とりわけ、コンテキストベクトルと時間ステップにおける入力との内積を計算することができる。注意ユニットの出力は、入力シーケンス内の最も関連性の高い情報がどこに位置するかを定義することができる。変換器は、Ａ．Ｖａｓｗａｎｉｅｔａｌ．，ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ，２０１７，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１７０６．０３７６２．ｐｄｆ，にさらに詳細に記載されており、これは参照により本明細書に組み込まれ、付録Ａに再現される。変換器９１７は、どの入力領域に対応するかを決定する際に、非言語関連のメタデータ情報に依存し得る。

分類サブシステム９２５は、二値分類器９２６、回帰分類器９２７、及び逆二値分類器９２８を有し得る。３つの分類器の各々は、異なる目的のために訓練されてもよい。二値分類器９２６は、対象者を行動的若しくは精神的健康状態を有するものとして、又は行動的健康状態を有しないものとして分類するように訓練することができる。回帰分類器９２７は、ある尺度に沿って、例えばうつ病のＰＨＱ－９尺度に沿って、行動的又は精神的健康状態を予測するように訓練され得る。ソフトマックス関数を回帰分類器９２７の出力層に適用して、可能なスコア、例えばＰＨＱ－９の０から２７の２８個の可能なスコアにわたる確率分布を生成することができる。逆二値分類器９２８は、二値分類器９２６と同様に、対象者を行動的若しくは精神的状態を有するか、又は行動的健康状態を有しないと分類するように訓練することができるが、単語が反転された（例えば、「私の名前はＭｉｃｈａｅｌＪｏｒｄａｎです」から「ＪｏｒｄａｎＭｉｃｈａｅｌは私の名前です」）転写音声について訓練することができる。この手法は、システム９００が、二値分類器９２６が捕捉しない単語依存性を捕捉することを可能にすることができる。

推論は、対象者に対して最大１０回繰り返されてもよい。各反復において、システム９００は、異なる順序で対象者の応答を連結することができる。これは、応答の並べ替えによって駆動される同じセッションの様々な順列を作成する。分類器９２６，９２７及び９２８は、各反復においてわずかに異なる出力を返すことができる。次いで、システム９００は、出力を平均化するか又は他の統計分析を実行することによって結果を最適化することができる。最終的に、システム９００は、３つの分類器の出力を組み合わせて最終予測を生成することができる。システム９００は、複数のセッションに参加する対象者についてより正確な予測を行うことができる。

上記のＮＬＰモデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の特異性を有し得る。ＮＬＰモデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の感度を有し得る。音響モデルの特異性を上げるには、感度を下げる必要があり、逆もまた同様である。ＮＬＰモデルは、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上のＡＵＣを有し得る。ＮＬＰモデルは、従来のシステムよりも少なくとも約１％、２％、３％、４％、５％、１０％、１５％、２０％、２５％、又はそれ以上の相対性能（例えば、感度、特異性又はＡＵＣ）の改善を提供することができる。

図９のサブシステム及びそれらの構成要素は、１つ又は複数のコンピューティング・デバイス上に実装されてもよい。コンピューティング・デバイスは、サーバ、デスクトップ又はラップトップコンピュータ、電子タブレット、モバイルデバイスなどであってもよい。コンピューティング・デバイスは、１つ又は複数の場所に配置することができる。コンピューティング・デバイスは、汎用プロセッサ、グラフィックス処理装置（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などを有し得る。コンピューティング・デバイスは、例えば、ダイナミックランダムアクセスメモリ又はスタティックランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ、ハードドライブなどのメモリをさらに有してもよい。メモリは、実行時にコンピューティング・デバイスにサブシステムの機能を実施させる命令を格納するように構成されてもよい。コンピューティング・デバイスは、ネットワーク通信デバイスをさらに有してもよい。ネットワーク通信デバイスは、コンピューティング・デバイスがネットワークを介して互いに、及び任意の数のユーザデバイスと通信することを可能にすることができる。ネットワークは、有線又は無線ネットワークであってもよい。例えば、ネットワークは、光ファイバネットワーク、イーサネット（登録商標）ネットワーク、衛星ネットワーク、セルラーネットワーク、Ｗｉ－Ｆｉ（登録商標）ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）ネットワークなどであってもよい。他の実装形態では、コンピューティング・デバイスは、インターネットを介してアクセス可能ないくつかの分散コンピューティング・デバイスであってもよい。そのようなコンピューティング・デバイスは、クラウドコンピューティング・デバイスと考えることができる。

訓練用ＮＬＰモデル
図１０は、システム９００内のモデルを訓練するための例示的なプロセス１０００のフローチャートである。プロセス１０００は、１つ又は複数の場所にある１つ又は複数のコンピュータのシステムによって実行することができる。

システムは、公開されているデータコーパス（１００５）上でＬＳＴＭネットワーク９１６又は変換器９１７を訓練することができる。公開されているデータコーパスは、テキストコーパスであってもよい。テキストコーパスは、必ずしも行動的又は精神的健康に関連していなくてもよい。代わりに、テキストコーパスは、汎用テキストコーパスであってもよい。テキストコーパスは、大きくてもよく、テキストの言語の一般的な特性を捕捉してもよい。一例では、テキストコーパスは、Ｗｉｋｉｐｅｄｉａの記事を含み得る。動作１００５における訓練タスクは、言語モデル化、例えば、ＬＳＴＭネットワーク９１６又は変換器９１７を訓練して、単語シーケンス内の次の単語を予測することであってもよい。ＬＳＴＭネットワーク９１６又は変換器９１７の出力は、複数の単語にわたる確率分布であってもよい。

動作１００５における訓練は、ドロップアウト及びＤｒｏｐＣｏｎｎｅｃｔ操作を含み得る。ドロップアウトは、ニューラルネットワーク内のノードのランダムなサブセットが訓練中に除去されるプロセスである。訓練例ごとに異なるサブセットを除去することができる。ＤｒｏｐＣｏｎｎｅｃｔは、訓練中に重みのランダムなサブセットが除去される（すなわち、０に設定される）プロセスである。ドロップアウトと同様に、訓練例ごとに異なるサブセットを除去することができる。ドロップアウト及びＤｒｏｐＣｏｎｎｅｃｔは、過剰嵌合を防止するのに役立ち得る。

動作１００５における訓練は、非単調平均確率的勾配降下（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ：ＳＧＤ）プロセスをさらに含み得る。ＳＧＤは、スケーリングされた勾配ステップによってモデル重みを反復的に調整することによって訓練損失を低減するプロセスである。深層ネットワークの訓練は、非凸最適化問題

として提示することができ、ここで、ｆ_ｉはｉ番目のデータ点の損失関数であり、ｗはネットワークの重みであり、期待値がデータを引き継ぐ。一連の学習率γ_ｋが与えられると、ＳＧＤは、Ｗ_ｋ＋１＝Ｗ_ｋ－γｋ∇＾ｆ（ｗ_ｋ）の形式のステップを反復的に取る。平均ＳＧＤは、最後の反復を解として返す代わりに、平均ＳＧＤが

を返すことを除いて、ＳＧＤと同様であり、ここで、Ｋは反復の総数であり、Ｔ＜Ｋはユーザ指定の平均化トリガである。非単調平均ＳＧＤは、性能メトリックが複数のサイクルにわたって改善されなかった後に学習率を調整することを含み得る。Ｄｒｏｐｏｕｔ、ＤｒｏｐＣｏｎｎｅｃｔ、及び非単調ＳＧＤは、参照により本明細書に組み込まれ、付録Ａに再現されるＳ．Ｍｅｒｉｔｙｅｔａｌ．，ＲｅｇｕｌａｒｉｚｉｎｇａｎｄＯｐｔｉｍｉｚｉｎｇＬＳＴＭＬａｎｇｕａｇｅＭｏｄｅｌｓ，２０１７，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１７０８．０２１８２．ｐｄｆ，に詳細に記載されている。

動作１００５における訓練に続いて、システムは、目標タスク、すなわち、行動及び精神衛生状態の検出のためにＬＳＴＭネットワーク９１６又は変換器９１７を調整することができる（１０１０）。動作１０１０は、ドメイン固有データコーパス上でＬＳＴＭネットワーク９１６又は変換器９１７を訓練することを含み得る。ドメイン固有データコーパスは、例えば、行動的及び精神的健康状態に関するテキスト、そのような行動的及び精神的状態について試験されている患者からの転写された音声データ、並びにドメイン固有データコーパスに関する追加の非言語メタデータ情報（例えば、その供給源）を含み得る。ドメイン固有コーパスは、単一タスク学習のための特定の条件に関するテキストを含んでいてもよく、又は、マルチタスク学習のための複数の異なる条件に関するテキストを含み得る。

動作１０１０における訓練は、識別的微調整を含み得る。ＬＳＴＭネットワーク９１６又は変換器９１７の異なる層は異なる種類の情報を取り込むことができるので、異なる層は異なる学習速度を有することから利益を得ることができる。一般に、より深い層は、より高い学習率から利益を得ることができる。特定の層の学習率はまた、経時的に調整されてもよい。一例では、システムは、条件が満たされるまで学習速度を直線的に増加させ、次いで、速度を直線的に減少させる。この手法は、「斜め三角形学習率」（「ｓｌａｎｔｅｄｔｒｉａｎｇｕｌａｒｌｅａｒｎｉｎｇｒａｔｅｓ：ＳＴＬＲ」）と称され得る。このプロセスは、Ｊ．Ｈｏｗａｒｄｅｔａｌ．，ＵｎｉｖｅｒｓａｌＬａｎｇｕａｇｅＭｏｄｅｌＦｉｎｅｔｕｎｉｎｇｆｏｒＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，２０１８，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１８０１．０６１４６．ｐｄｆ，にさらに詳細に記載されており、これは参照により本明細書に組み込まれ、付録Ａに再現される。

動作１０１０における訓練は、さらに、言語モデルを徐々に解凍すること、より長い言語依存性を処理するための時間を通じた逆伝播、及びＬＳＴＭネットワーク９１６における複数回のプーリングを含み得る。

動作１０１０における微調整に続いて、システムは、それぞれのタスクを実行するように分類器９２６，９２７、及び９２８を訓練することができる（１０１５）。動作１０１５における訓練は、ＡＳＲモデル、エンコーダモデル、ＬＳＴＭネットワーク９１６若しくは変換器９１７、及び／又は分類器９２６，９２７、若しくは９２８のうちの一方などを含むエンドツーエンド・プロセスとすることができる。しかしながら、分類器９２６，９２７、及び９２８は、互いに独立して訓練されてもされなくてもよい。

訓練データは、例えば音声を提供した対象者に関するメタデータなどのいくつかのメタデータ情報に加えて、転写及びエンコードされるラベル付き音声サンプルであってもよい。音声サンプルは、図９を参照して説明した方法で、すなわち、一連のクエリを対象者に送信することによって収集することができる。システムは、訓練のためにランダムな順序で特定の対象者の応答を連結することができる。分類器９２６，９２７，９２８ごとに順序が異なっていてもよい。この技術は、音声サンプルの不足を軽減するのに役立ち得る。ＰＨＱ－９を対象者に投与することによって、音声サンプルの標識を得ることができる。

ＮＬＰ実施例１
第１の例では、本発明者らは、約１６，０００セッションにわたって約１１，０００人の固有の対象者から音声を収集した。一部の対象者は複数のセッションに参加した。対象者の年齢は１８歳から６５歳を超え、平均約３０歳であった。対象者は、ソフトウェアアプリケーションを介して提示されたプロンプトに応答して音声サンプルを提供した。プロンプトは、「仕事」及び「家庭生活」などのトピックに関連している。各セッションは４～６回のプロンプトを含み、平均４．５２回のプロンプトがあり、得られたセッションはそれぞれ平均約５分続いた。

プロンプトに回答することに加えて、各対象者は自殺念慮の質問を除いたＰＨＱ－９（「ＰＨＱ－８」）及びＧＡＤ－７を完了した。これらの標準化された質問表の結果は、音声サンプルについて、それぞれうつ病及び不安症のラベルとして役立った。ＰＨＱ－８及びＧＡＤ－７の両方について、１０を上回るスコアを症状の存在にマッピングし、１０を下回るスコアを症状の非存在にマッピングした。表１は、上記の訓練データ及び試験データの両方の統計を提供し、「－」は条件の欠如を示し、「＋」は条件の存在を示す。

表２は、訓練データと試験データの両方におけるうつ病及び不安症の同時発生に関する統計を太字テキストの訓練データと共に提供する。統計は、およそ１６，０００の訓練データセッションの１８．５％がうつ病と不安症の両方について陽性のラベルをもたらしたが、試験データセッションの１４％が両方について陽性のラベルをもたらしたことを示している。訓練データセッションの約１５％が「不一致」ラベル、すなわちうつ病又は不安症に対して陽性であったが両方ではなかったラベルをもたらした。

図１１は、訓練データセット及び試験データセットにおける生のＰＨＱ－８スコア及びＧＡＤ－７スコアの百分率分布を示す。最大の差は、ＰＨＱ－８及びＧＡＤ－７スコアが０の場合であり、５％の不一致がある。ＰＨＱ－８とＧＡＤ－７が正規化された後のＰＨＱ－８とＧＡＤ－７との間の全体的な相関は０．８０である。

図１２は、訓練及び試験データセッションからのＰＨＱ－８及びＧＡＤ－７スコアの行列である。スコア範囲の違いに留意されたい。各質問は４つの可能なスコア（すなわち、０、１、２、３）を有する。したがって、ＧＡＤ－７スコアは０から２１の範囲であり、ＰＨＱ－８スコアは０から２４の範囲である。各スケール内で、より高い値はより高い状態重症度を示す。図１２に示すように、セッションの大部分は対角線付近で発生し、２つの精神的健康状態の高い相関と一致する。また、ＧＡＤ－７ラベルごとにＰＨＱ－８ラベルのバリエーションが多く、逆ではない。すなわち、図１２の列よりも行の方がばらつきが大きい。これは、不安症がうつ病の前提条件となる傾向があるという事実を反映し得る。

図１０の動作１００５及び１０１０を参照して説明したように言語モデルを訓練し、微調整した後、本発明者らは、動作１０１５に従って分類器を訓練するために上記の訓練データを使用した。分類器の１つの群は不安症を検出するように訓練され、別の群はうつ病を検出するように訓練された。次に、試験データを使用して、訓練されたモデルを試験した。

図１３は、生のＰＨＱ－８スコア及びＧＡＤ－７スコアを予測する際の訓練済モデルの精度を示すチャートである。モデルは、低スコア及び高スコアを予測する際に最も正確であり、８から１２の間のスコアを予測する際に最も正確ではない。この範囲は、健康な個体と陽性診断された個体との間の自然な境界を表すので、これは予想される。

表３は、特異性、感度、及びＲＯＣ曲線下面積（「ＡＵＣ」）を含む、二値分類器の性能に関する統計を提供する。モデルは、うつ病に対して０．８２８及び不安症に対して０．７９２のＡＵＣを達成した。

モデルの性能は、話者が不安症とうつ病の両方を有するか、又はどちらも有さない場合に最も良好である。どちらの場合も「一貫した」セッションと呼ばれ得る。一貫したセッションのＡＵＣは、ＰＨＱ－８及びＧＡＤ－７についてそれぞれ０．８６１及び０．８４１に増加する。一致のみのデータの事前分布は、肯定的なクラスについて約０．２０から０．１６に変化する。これは、データのリバランス後には当てはまらない。改善された結果はそのままであり、リバランス後も増加し、ＰＨＱ－８及びＧＡＤ－７ではそれぞれ０．８６３及び０．８４９になった。この発見は、クラス識別が、どちらかの状態の個々のモデル化よりもうつ病及び不安症の共同モデル化の方が良好であることを示唆している。

訓練されたモデルは、各状態について陽性の症例と陰性の症例とを分けるための合図として特定の単語列及びそれらの依存性を使用するので、不安症よりも正確にうつ病を予測することができる。調査するために、本発明者らは、試験セッション中の所与の時間に利用可能な予測情報の量を推定するために、順方向にワードシーケンスをゲートした。例えば、８００ワードのセッションでは、最初のワードから開始して、一度に１つのワードを追加することにより、８００個の累積ゲートサンプルを生成した。３０７８の試験セッションについて、本発明者らは約２４０万の予測を生成した。これらの予測に基づいて、「セッション内モデル変動」と呼ばれる値を計算した。このプロセスは、各条件について別々に行った。両方の場合において、モデルは、試験セットにおけるＡＵＣについて最適化され、試験セットは、両方のモデルについて同一である。

表４は、うつ病モデルの変動性のこの尺度についての結果を提供する。セッション内の変動性は、＋、＋（すなわち、両方の条件が存在する）が最も高く、－、－（すなわち、いずれの条件も存在しない）が最も低く、混合の場合はその間である。これは、二値うつ病分類の最大ＡＵＣに合わせて調整されたモデルが、セッション内のこの尺度のより高い変動性に関連する単語シーケンスキューを使用していることを示唆している。

表５は、不安症モデルの変動性のこの尺度についての結果を提供する。しかしながら、ここでは、（１）全体的な変動性はうつ病の変動性よりも低く、（２）－、－の場合の変動性は、他の３つの値を考えると予想よりもはるかに低い。同じ試験データが両方の表に使用され、ＮＬＰモデル方法が同じであるため、これは、不安症に対する単語シーケンスキューがうつ病に対するものよりも弱いか又はあまり一般的でない可能性があることを示唆している。

図１４は、完全な試験データセット、一貫したセッションのみ（すなわち、ＰＨＱ－８及びＧＡＤ－７セッションが一貫していたセッション）、及びデータがリバランスされた一貫したセッションのＡＵＣを含む、モデルの様々なＡＵＣを示す。

ＮＬＰ実施例２
第２の例では、同じ約１６，０００セッションの音声、各話者の年齢、及び対応するＰＨＱ－８うつ病ラベルを使用した。表６は、訓練データと試験データの両方の統計を、訓練データを斜体で示している。「ＧＰ」は、一般母集団コーパスを示し、「ＳＰ」は、シニア母集団コーパスを示す。「うつ病＋／」は、ＰＨＱ－８（すなわち、別々のセッションで１０超及び１０未満の両方をスコアリングすることによって）に一貫して応答しなかった２つ以上のセッションを有する対象者を示す。

ＧＰコーパスとＳＰコーパスとの主な違いは、年齢分布である。２つのコーパスの年齢分布を図１５に示す。ＧＰコーパスとＳＰコーパスの対象者の年齢は重複しておらず、ＳＰコーパスの対象者の６７％が６０歳以上である。２つのコーパスの間にはさらなる違いがある。ＳＰコーパスの対象者が短い回答を返したとき、それらは追加の質問を尋ねられた。一方、ＧＰコーパスの対象者は、４～６個の質問に限定された。ＳＰコーパスにおける対象者の収集時間は５分に制限され、その後セッションは終了した。ほとんどの対象者は、週に１回の頻度で５回プロセスを繰り返すことも予想された。一方、複数のセッションを完了したＧＰコーパスの対象者は、セッション間で少なくとも３ヶ月待機し、単一のセッション内では、構造化されたスケジュールの対象者ではなかった。

南カリフォルニア州でＳＰコーパスを収集した。ＳＰコーパスにおけるセッションは、ＧＰコーパスにおけるセッションよりも平均して短く、ＳＰコーパスについてはセッションあたり平均４５０ワード、ＧＰコーパスについてはセッションあたり平均８００ワードである。ＳＰコーパスにおけるセッションあたりの応答の平均数もまた、ＧＰコーパスにおける応答の平均数よりも高かった（６．１）。ＳＰコーパスのサイズを考えると、この例では試験データにのみ使用される。ＧＰコーパスとＳＰコーパスとの間の性別分布は同様であり、ＳＰコーパスの対象者の６２％が女性であり、ＧＰコーパスの対象者の５８％が女性である。

図１６は、２つのコーパスに対するＰＨＱ－８スコアの分布を示すチャートである。分布は、特により高いＰＨＱ－８スコアについて同様である。うつ病の有病率は、ＳＰコーパスでは３０％であり、ＧＰコーパスでは２６．７％である。

この例では、分類器は、図１０の動作１０１５に従ってのみＧＰ訓練コーパスで訓練された。表７は、本明細書に記載のモデル及びＦ．Ｒｉｎｇｅｖａｌら、ＡＶＥＣ２０１９ＷｏｒｋｓｈｏｐａｎｄＣｈａｌｌｅｎｇｅ：Ｓｔａｔｅ－ｏｆ－Ｍｉｎｄ，ＤｅｔｅｃｔｉｎｇＤｅｐｒｅｓｓｉｏｎｗｉｔｈＡＩ、及びＣｒｏｓｓ－ＣｕｌｔｕｒａｌＡｆｆｅｃｔＲｅｃｏｇｎｉｔｉｏｎ，２０１９，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９０７．１１５１０．ｐｄｆ，に記載されているＡＶＥＣ２０１９モデルの性能統計を提供し、これは参照により本明細書に組み込まれ、付録Ａに再現される。ＲＭＳＥは、性能と逆相関するエラーメトリックであり、ＣＣＣは、性能と正に相関する相関メトリックである。本明細書に記載のモデルは、ＧＰコーパスで試験した場合、ＡＶＥＣモデルよりも低いＲＭＳＥと高いＣＣＣの両方を有していた。

図１７は、ＧＰ試験コーパスとＳＰ試験コーパスの両方について、本明細書に記載のモデルの二値分類結果を示すチャートである。ＧＰコーパスのＡＵＣは０．８２８であったが、ＳＰコーパスのＡＵＣは０．７６１であった。主要年齢分布の違いを含むコーパスの違いを考慮すると、訓練されたモデルは予想外に携帯可能であった。ＳＰ試験コーパスでは、患者は上記のように縦断試験に参加した。ＧＰ訓練モデルの分類性能は、複数セッション収集にわたる患者の自己報告ＰＨＱ－８スコアの一貫性に強く依存する。ＳＰコーパスの１６１人の独特な患者のうち、１１９人は、複数のセッションにわたって常にうつ病－又は常にうつ病＋（「ＳＰ一貫」）であるＰＨＱ－８スコアを有していた。残りの４２人の患者は、複数のセッションにわたって一貫しないＰＨＱ－８結果（「ＳＰ不一致」）を有していた。全体として、一貫して報告する患者は、一貫性のない患者よりも簡潔であり、応答が少ない傾向があった。図１７は、セッションが一度に１つずつ実行され、対象者が自分のスコアを知らなかったとしても、ユーザの一貫性の関数としてモデル性能に顕著な差があることを示している。ＳＰコーパスのモデルのＡＵＣは、一貫した患者では０．８２であり、一貫性のない患者では０．６１である。２つのコーパスにおける年齢及び他の要因の大きな不一致にもかかわらず、モデルは、ＧＰコーパスの場合と同様にＳＰコーパスの一貫したユーザに対しても実行された。このデータは、特に一貫した患者について良好な可搬性を示す。

表８は、年齢群によるモデル性能に関する統計を提供する。ＳＰコーパスにおける５０歳未満の対象者の数は、設計上少ない。ＧＰ試験コーパス上のモデルの性能は、ＧＰ訓練コーパスの年齢分布の性能と強く相関している。非常に低いデータサンプルが結果の堅牢性に影響を及ぼすが、ＳＰ試験コーパスについても同じことが当てはまる。

ＳＰ試験コーパスについては、実年齢での性能も調べた。各年齢閾値（例えば、３０、３５、４０、４５など）について、本発明者らは、その閾値未満のすべての対象者及びその閾値を上回る（「超えて」）すべての対象者を組み合わせた。図１８は、各年齢バケットのデータカウント（実線）及び各年齢バケットのＡＵＣを示すチャートである。図１８は、年齢閾値が増加するにつれて、すなわち、ますますより高齢の対象者がバケットに追加されるにつれて、モデル性能が低下することを示す。モデル性能もまた、より若い対象者がバケットから除去されるにつれてわずかに低下する。

表９は、年齢群によるモデル性能に関する統計を提供する。

表１０は、民族性によるモデル性能に関する統計を提供する。モデルは、他の群と比較して、ヒスパニック系対象者についてあまり良好に機能しなかった。これは、集団からのサンプルに訓練においてより高い重みを割り当てることによって、この集団に特にモデルを訓練することができた場合である。すべてではないが複数のサブグループについて、１つのサイズはすべてのモデルに適合し、良好に機能する。いくつかのサブグループでは、同じ発明を使用するが、訓練においてそのグループからのデータを主に重み付け又は含めることを使用して、そのサブグループに合わせたモデルを作成するためにより複数の注意を払う必要があり得る。

追加データ
図２０及び表１１は、ＮＬＰ実施例１及び２で使用されたのと同じ音声データで訓練及び試験されたときの二値うつ病予測を行う際の音響モデル及びＮＬＰモデルの両方の追加の性能データを示す。

表１１は、音響モデル及びＮＬＰモデルの両方が０．８０に近い又はそれを超えるＡＵＣを達成することを示す。モデル融合は、ＡＵＣ性能においてさらに２～３％を与える。これらのシステムは、音声サンプル自体以外の情報を使用しない。すなわち、メタデータ、患者履歴、又は他の情報（視覚情報など）は、音響及びＮＬＰ結果に使用されない。ＮＬＰモデルは、音響システムよりも全体的に良好に機能するが、両方のシステムは、図２０に示すように、プライマリケア提供者（ＰＣＰ）の参照研究に沿った、又はそれよりも良好な強い結果を示す。しかし、設定とデータが異なるため、ＰＣＰ試験との比較は間接的である。

複合モデル
図６は、対象者に関する音声データ、ビデオデータ、及び／又はメタデータを使用して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視するように構成されたシステム６００を概略的に示す。図１のシステム１００は、システム６００の構成部分であってもよい。例えば、システム１００は、システム６００の音響モデル６１７として使用されてもよい。図９のシステムはまた、システム６００の構成要素部分であってもよい。例えば、システム９００は、システム６００のＮＬＰモデル６１６として使用されてもよい。

システム６００は、対象者からの音声及びビデオデータを前処理することができる信号プリプロセッサ６０５を有し得る。例えば、信号プリプロセッサ６０５は、音声データ内のノイズをセグメント化して低減し、又はビームフォーミング、音響エコー除去、エコー抑制、残響除去、又はノイズ注入さえも実行することができる。信号プリプロセッサ６０５はまた、オーディオ及びビデオ品質信頼値を生成することもできる。オーディオ及びビデオ品質信頼値は、例えば、それぞれのオーディオ及びビデオ信号の品質並びにオーディオ及びビデオサンプルの長さを考慮に入れることができる。

さらに、信号プリプロセッサ６０５は、音声及びビデオデータにメタデータを付加することができる。このデータは、モデル６１５による消費のためにそのような前処理された形態でバス６１０に供給されてもよく、サードパーティ又はカスタムＡＳＲシステム６２０にかけられてもよい。ＡＳＲシステム６２０は、入力音声の機械可読転写及び転写信頼度を生成することができる。信号プリプロセッサ６０５と同様に、ＡＳＲシステム６２０は、他の構成要素による後の消費のためにその出力をバス６１０に供給することができる。

モデルリーダ６２２は、モデルリポジトリ６２３からモデル６１５にアクセスすることができる。モデル６１５は、自然言語処理モデル６１６、音響モデル６１７、ビデオモデル６１８、及びメタデータモデル６１９を含み得る。自然言語処理モデル６１６は、対象者からの入力音声の語彙内容を考慮することができる。音響モデル６１７は、入力音声の非語彙内容を考慮してもよい。音響モデル６１７は、例えば、図１のシステム１００であってもよい。ビデオモデル６１８は、例えば、対象者の表情の映像を考慮してもよい。また、メタデータモデル６１９は、対象者の年齢、人種、民族性、性別、性、収入、教育、場所、病歴などの対象者に関する他の要因を考慮することができる。モデル６１５は、バス６１０からの前処理された入力データを消費して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視することができる。各モデルは、別個の出力を生成することができる。しかしながら、モデルは相互依存的であってもよい。すなわち、あるモデルは、別のモデルの出力を消費してそれ自体の出力を生成することができる。

各モデルの出力は、較正、信頼度、及び所望の記述子モジュール６２５に提供することができる。このモジュール６２５は、モデルの出力を較正して、スケーリングされたスコアを生成し、スコアの信頼性尺度を生成することができる。モジュール６２５は、人間が読めるラベルをスコアに割り当てることができる。モジュール６２５は、その出力をモデル重量及び融合エンジン６３０に提供することができる。エンジン６３０は、モデル出力を、入力データの起源となった対象者の行動又は精神の健康状態の統合された分類に組み合わせることができる。エンジン６３０は、モデル６１５に静的重みを適用することができる。あるいは、重みは動的であってもよい。例えば、所与のモデル出力の重みは、いくつかの実施形態では、モデルによる分類の信頼性レベルに基づいて修正することができる。例えば、ＮＬＰモデル６１６が個人を０．５６の信頼度で押し下げられていないと分類するが、音響モデル６１７が０．９７の信頼度で押し下げられた分類をレンダリングする場合、エンジン６３０は音響モデル６１７により大きな重みを適用することができる。

場合によっては、所与のモデルの重みは、その信頼性レベルによって線形にスケーリングされ、モデルの基本重みが乗算されてもよい。場合によっては、モデル出力重みは時間ベースであってもよい。例えば、エンジン６３０は、対象者が話しているときには一般にＮＬＰモデル６１６１により大きな重みを割り当てることができるが、対象者が話していないときにはビデオモデル６１８により大きな重みを割り当てることができる。同様に、音響モデル６１７及びビデオモデル６１８が、対象者が真実でないことを示唆する場合（例えば、頻繁な視線移動、ピッチ変調、又は発話速度の増加に起因して）、エンジン６３０は、ＮＬＰモデル６１６のより低い重みを適用することができる。

エンジン６３０は、その融合及び重み付けされた出力を多重出力モジュール６３５に提供することができ、多重出力モジュールは、融合及び重み付けされた出力を他の情報と組み合わせて、最終結果、例えば、対象者の行動的又は精神的健康状態の予測を生成することができる。

融合は、モデル入力だけでなく、モデルに異なる影響を与える情報の範囲を考慮することができる。モデルに異なる影響を与える情報の例には、状態の広がり、ラベル値の分布（データスキューのパターン）、メタデータ、サンプル長、サンプルデータ品質などが含まれる。

システム６００は、単一のセッション又は複数の異なるセッションを介してクエリ又はクエリのシーケンスを対象者に提示する自動クエリモジュールと共に使用することができる。自動クエリモジュールは、評価されるべき１つ又は複数の標的精神状態に部分的に基づいてクエリを提示及び／又は定式化することができる。クエリは、対象者から少なくとも１つの応答を引き出すように構成され得る。自動クエリモジュールは、少なくとも１つの応答を引き出すために、オーディオ、ビジュアル、又はテキスト形式でクエリを対象者に送信することができる。自動クエリモジュールは、対象者から少なくとも１つの応答を含むデータを受信することができる。データは、対象者からの音声及び映像データを含み得る。システム６００は、単一のセッションについて、複数の異なるセッションの各々について、又は複数の異なるセッションのうちの１つ若しくは複数のセッションの完了時に、音声データ、ビデオデータ、及び対象者に関するメタデータを使用して、対象者と関連付けられた精神状態の１つ若しくは複数の査定を生成することができる。

うつ病について患者をスクリーニングするように設計されている患者健康アンケート９（「ＰＨＱ－９」）などの従来のスクリーニングツールと比較すると、システム６００はより魅力的であり得、より高いレベルの採用をもたらし得る。システム６００（例えば、複合音響及びＮＬＰモデル）は、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の特異性を有し得る。システム６００は、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の感度を有し得る。システム６００は、少なくとも約６０％、６５％、７０％、８０％、８５％、９０％、９５％、又はそれ以上の曲線下面積（ＡＵＣ）を有し得る。システムは、従来のシステムよりも少なくとも約１％、２％、３％、４％、５％、１０％、１５％、２０％、２５％、又はそれ以上の相対性能（例えば、感度、特異性又はＡＵＣ）の改善を提供することができる。

システム６００はまた、ＰＨＱ－９のような書面によるアンケートと比較して、対象者からのより忠実で完全な応答を促すことができる。同様のシステムは、参照により本明細書に完全に組み込まれるＰＣＴ／ＵＳ２０１９／０３７９５３に記載されている。

長手方向モデリング
本明細書に記載のシステムは、経時的な患者の進行を追跡するために使用することができ、これは長手方向分析と呼ぶことができる。長期分析では、現在のセッションからの入力音声を１つ又は複数の過去のセッションからの入力音声で補足して予測を生成することができる。現在及び過去の音声データは、応答行列内のベクトルとして表すことができる。モデルは、行列内の各ベクトルの予測を生成することができる。長手方向ハンドラは、過去の音声データと現在のデータとの間の任意の相関関係を探すことができる。これは、現在のデータに対してより正確な予測を返すのに役立ち得る。長手方向分析は、複数の行動健康状態について事前値に影響を及ぼし得る時刻、曜日、月、場所の天気などの要因を考慮に入れることができる。モデルは、より良い予測性能のためにこの情報で訓練することができる。

システム出力
図６のシステム６００は、患者が精神的状態又は生理学的状態のリスクがあるかどうかを識別する電子レポートを出力することができる。電子レポートは、ユーザの電子デバイスのグラフィカル・ユーザ・インターフェースに表示されるように構成され得る。ユーザは、患者自身であっても、患者の医療提供者であってもよい。電子レポートは、精神的又は生理学的状態のリスクの定量化、例えば、正規化されたスコアを含み得る。スコアは、母集団全体又は関心対象者の部分母集団に対して正規化することができる。電子レポートはまた、正規化されたスコアの信頼性レベルを含み得る。信頼性レベルは、正規化されたスコア（すなわち、正規化されたスコアが信頼できる程度）の信頼性を示し得る。

電子レポートは、視覚的グラフィック要素を含み得る。例えば、患者がいくつかの異なる時間に発生した複数のスクリーニング又は監視セッションからの複数のスコアを有する場合、視覚的グラフィック要素は、経時的な患者のスコアの進行を示すグラフであり得る。

システム６００は、患者又は患者に関連する連絡担当者、医療提供者、医療支払者、又は別の第三者に電子レポートを出力することができる。システム６００は、スクリーニング、監視、又は診断が進行中であっても、実質的にリアルタイムで電子レポートを出力することができる。スクリーニング、監視、又は診断の過程での正規化されたスコア又は信頼度の変化に応じて、電子レポートを実質的にリアルタイムで更新し、ユーザに再送信することができる。

場合によっては、電子レポートは、患者の精神状態に関する１つ又は複数の記述子を含み得る。記述子は、患者の精神状態（例えば、「軽度のうつ病」）の定性的尺度とすることができる。代替的又は追加的に、記述子は、スクリーニング中に患者が言及したトピックであり得る。記述子は、グラフィック、例えばワードクラウドに表示することができる。

本明細書に記載のモデルは、特定の目的のために、又はシステムの出力を受信することができるエンティティに基づいて最適化することができる。例えば、モデルは、患者が精神状態を有するかどうかを推定する際の感度のために最適化されてもよい。保険会社などの医療保険支払者は、偽陽性診断を有する患者に行われる保険金支払の回数を最小限に抑えることができるように、そのようなモデルを好む場合がある。他の場合では、モデルは、患者が精神状態を有するかどうかを推定する際の特異性のために最適化されてもよい。医療提供者は、そのようなモデルを好む場合がある。システムは、出力が送信される関係者に基づいて適切なモデルを選択することができる。処理後、システムは出力を関係者に送信することができる。

あるいは、本明細書に記載のモデルは、臨床医、医療提供者、保険会社、又は政府規制機関によって決定された所望のレベルの感度又は所望のレベルの特異性に従って音声及び他のデータを処理するように調整又は構成され得る。代替的又は追加的に、モデルは、精度、リコール、Ｆ１、等価エラー率（「ｅｑｕａｌｅｒｒｏｒｒａｔｅ：ＥＥＲ」）、陽性予測値（「ｐｏｓｉｔｉｖｅｐｒｅｄｉｃｔｉｖｅｖａｌｕｅ：ＰＰＶ」）、陰性予測値（「ｎｅｇａｔｉｖｅｐｒｅｄｉｃｔｉｖｅｖａｌｕｅ：ＮＰＶ」）、陽性尤度比（「ＬＲ＋」）、陰性尤度比（「ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏｎｅｇａｔｉｖｅ：ＬＲ－」）、一致相関係数（「ｃｏｎｃｏｒｄａｎｃｅｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ：ＣＣＣ」）、ピアソン相関係数（「Ｐｅａｒｓｏｎｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ：ＰＣＣ」）、二乗平均平方根誤差（「ｒｏｏｔｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ：ＲＭＳＥ」）、平均絶対誤差（「ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ：ＭＡＥ」）、又は任意の他の関連する性能メトリックを最適化するように調整、構成、又は訓練することができる。

電子レポートは、患者の音声のテキスト転写物から抽出された「ワードクラウド」又は「トピッククラウド」を含み得る。ワードクラウドは、より大きなフォントサイズ、異なる色、異なるフォント、異なる書体、又はそれらの任意の組み合わせを使用して最も頻繁に指定される単語及び句を用いて、個々の単語又は句の視覚的表現であってもよい。このように単語又は句の頻度を描写することは、一般に、うつ病患者が、非うつ病患者よりも高い頻度で特定の単語又は句を言うので、有用であり得る。例えば、うつ病患者は、暗い、黒い、又は病的な気分を示す単語又は語句を使用し得る。彼らは、価値がないと感じたり、失敗したように感じたりすることについて話したり、「常に」、「決して」、又は「完全に」などの絶対的な言葉を使用したりすることがある。うつ病患者はまた、一般集団と比較して、より高い頻度の一人称（例えば、「Ｉ」、「ｍｅ」）及びより低い頻度の二人称又は三人称代名詞を使用し得る。システムは、機械学習アルゴリズムを訓練して、落ち込んでいる人と落ち込んでいない人の単語群の意味解析を実行し、単語群に基づいて人を落ち込んでいるか落ち込んでいないかに分類することができる。単語クラウド分析は、教師なし学習を使用して実行することもできる。例えば、システムは、ラベル化されていない単語群を分析し、パターンを検索して、人々を精神状態に基づいてグループに分離することができる。生成された単語は、うつ病のリスクの減少又は増加を示し得る（すなわち、うつ病のリスクの増加又は減少に関連する）。

同様に、電子レポートは、患者の予測された性格特性を含み得る。性格特性（例えば、内向性又は外向性）は、発話長から推測することができる。

電子レポートは、さらに、証拠ベースの心理教育資料及び支援戦略を含み得る。材料及び支持戦略は、患者のスコアに合わせて調整することができる。材料及び支援戦略は、映像、テキスト、及び割り当ての形態で患者に直接提供されてもよく、又は材料及び支援戦略は、心理教育プロセスを導くことができる患者の医療提供者に提供されてもよい。

使用例
本明細書に記載の音響及びＮＬＰモデルは、うつ病について１０代の若者を監視するために使用され得る。モデルは、十代の若者をうつ病のリスクがあると独自に分類することができる音声ベースのバイオマーカを決定するために、十代の若者のグループに対して機械学習分析を実行することができる。１０代のうつ病は、成人とは異なる原因を有し得る。ホルモンの変化はまた、成人にとって非典型的であるはずの１０代の若者の行動を導入し得る。十代の若者をスクリーニング又は監視するためのシステムは、これらの固有の挙動を認識するように調整されたモデルを使用する必要がある。例えば、落ち込んでいる又は動揺している１０代の若者は、動揺したときに引っ込む可能性がある成人よりも、怒り及び被刺激性になりやすい可能性がある。したがって、評価からの質問は、成人とは異なる音声ベースのバイオマーカを１０代の若者から誘発し得る。十代の若者をうつ病について試験するとき、又は十代の若者の精神状態を研究するとき、成人をスクリーニング又はモニタリングするために使用されるものとは異なるスクリーニング又はモニタリング方法を使用することができる。臨床医は、１０代のうつ病に特異的な音声ベースのバイオマーカを特に誘発するように評価を修正することができる。システムは、これらの評価を使用して訓練され、精神状態を予測するための１０代特有のモデルを決定することができる。１０代の若者は、さらに、家庭（フォスターケア、養子親（複数可）、２人の生物学的親、１人の生物学的親、保護者／親戚によるケアなど）、病歴、性別、年齢及び社会経済状態によってセグメント化されてもよく、これらのセグメントはモデルの予測に組み込まれてもよい。

本明細書に記載のモデルはまた、うつ病及び認知症について高齢者を監視するために使用され得る。高齢者はまた、若年成人が有し得ない特定の音声ベースのバイオマーカを有し得る。例えば、高齢者は、加齢のために、緊張した声又は細い声を有することがある。高齢者は、失語症又は構音障害を呈することがあり、調査質問、フォローアップ、又は会話音声を理解するのに問題があり、反復言語を使用することがある。臨床医は、高齢患者から特定の音声ベースのバイオマーカを引き出すための調査を開発するか、又はアルゴリズムを使用して開発することができる。高齢患者の精神状態を予測するために、具体的には患者を年齢で区分することによって、機械学習アルゴリズムを開発することができる。性別の役割、モラル、及び文化的規範について異なる見解を有する可能性がある異なる世代の高齢患者には違いが存在し得る。モデルは、高齢ブラケット、性別、人種、社会経済的状態、身体的な医学的状態、及び家族の関与を組み込むように訓練され得る。

システムは、精神的健康のために航空会社パイロットを試験するために使用され得る。航空会社のパイロットは、厄介な仕事を抱えており、長時間のフライトで大量のストレス及び疲労を経験する可能性がある。臨床医又はアルゴリズムを使用して、これらの状態に対するスクリーニング又はモニタリング方法を開発することができる。例えば、システムは、ミネソタ多相性パーソナリティ質問表（ＭｉｎｎｅｓｏｔａＭｕｌｔｉｐｈａｓｉｃＰｅｒｓｏｎａｌｉｔｙＩｎｖｅｎｔｏｒｙ：ＭＭＰＩ）及びＭＭＰＩ－２で試験されたものと同様のクエリの評価に基づいてもよい。

システムはまた、精神的健康のために軍人をスクリーニングするために使用され得る。例えば、システムは、ＰＴＳＤを検査するために、一次ケア外傷後ストレス障害の診断及び統計マニュアル（ＤＳＭ）－５（ＰＣ－ＰＴＳＤ－５）で尋ねられたものと同様の主題を有するクエリを使用する評価を実施し得る。ＰＴＳＤに加えて、システムは、うつ病、パニック障害、恐怖症性障害、不安症、及び敵対性について軍人をスクリーニングすることができる。システムは、展開前及び展開後に軍人をスクリーニングするために異なる調査を使用することができる。システムは、職業のためにセグメント化することによって軍人をセグメント化することができ、支部、役員又は下請人、性別、年齢、民族、旅行／配備の回数、配偶者の状態、病歴、及び他の要因によって軍人をセグメント化することができる。

システムは、例えばバックグラウンドチェックを実施することによって、見込みのある銃購入者を評価するために使用され得る。評価は、小火器を所有するための精神的適応性について有望な購入者を評価するために、臨床医によって又はアルゴリズム的に設計され得る。調査は、質問及びフォローアップ質問を使用して、有望な銃購入者が、裁判所又は他の当局によって、彼又は他者に対する危険性として認定され得るかどうかを決定するための要件を有し得る。

スコアリング
本明細書に記載のモデルは、精神的又は行動的健康評価の様々な段階でスコアを生成することができる。生成されるスコアは、スケーリングされたスコア又は二値スコアであってもよい。スケーリングされたスコアは、複数の値に及ぶ可能性があり、二値スコアは、２つの離散値のうちの１つであり得る。モデルは、異なる精神状態を監視するために、又は評価の過程にわたって特定の精神状態について特定の二値スコア及び特定のスケーリングされたスコアを更新するために、評価の様々な段階で二値スコア及びスケーリングされたスコアを交換することができる。

二値又はスケーリングされたシステムによって生成されたスコアは、評価における各クエリに対する各応答の後に生成されてもよく、又は以前のクエリに部分的に基づいて定式化されてもよい。後者の場合、各限界スコアは、うつ病又は別の精神状態の予測を微調整し、予測をよりロバストにするように作用する。周縁部の予測は、（特定の中間精神状態と相関する）特定の数のクエリ及び応答の後に、このようにして精神状態の予測のための信頼尺度を増加させることができる。

スケーリングされたスコアの場合、スコアの改善により、臨床医は、患者が経験している１つ又は複数の精神状態の重大度をより高い精度で決定することが可能になり得る。例えば、スケーリングされたスコアの改善は、複数の中間的なうつ病状態を観察する場合、臨床医が患者が軽度、中程度、又は重度のうつ病を有するかどうかを判定することを可能にし得る。複数のスコアリング反復を実行することはまた、冗長性を追加し、堅牢性を追加することによって、臨床医及び管理者が偽陰性を除去するのを助けることができる。例えば、初期の精神状態の予測は、分析に利用できる音声セグメントが比較的少なく、ＮＬＰアルゴリズムは、患者の記録された音声の意味的コンテキストを決定するのに十分な情報を持たない可能性があるため、ノイズが多い可能性がある。単一の周辺予測自体がノイズの多い推定値であっても、より複数の測定値を追加することによって予測を精緻化すると、システムの全体的な分散が減少し、より正確な予測が得られる。本明細書に記載の予測は、人々が自分の状態について横たわる動機を有する可能性があるため、単に調査を行うことによって得られ得る予測よりも実用的であり得る。調査を実施すると、複数の偽陽性及び偽陰性の結果が得られ、治療を必要とする患者が割れ目をすり抜けることが可能になる。さらに、訓練を受けた臨床医は、音声及び顔ベースのバイオマーカに気付くことができるが、本明細書に開示されたモデルが分析することができる大量のデータを分析することができない可能性がある。

スケーリングされたスコアは、精神状態の重症度を記述するために使用され得る。スケーリングされたスコアは、例えば、１から５の間、又は０から１００の間の数であってもよく、より大きな数は、患者の経験した精神状態のより重度又は急性の形態を示す。スケーリングされたスコアは、整数、パーセンテージ、又は小数を含み得る。スケーリングされたスコアが重症度を表し得る症状としては、うつ病、不安症、ストレス、ＰＴＳＤ、恐怖症性障害、統合失調症、及びパニック障害が挙げられ得るが、これらに限定されない。一例では、評価のうつ病関連側面のスコア０は、うつ病がないことを示し得、スコア５０は中程度のうつ病を示し得、スコア１００は重度のうつ病を示し得る。スケーリングされたスコアは、複数のスコアの合成であってもよい。精神状態は、精神的サブ状態の組成として表現されてもよく、患者の複合的精神状態は、精神的サブ状態からの個々のスコアの加重平均であってもよい。例えば、うつ病の組成スコアは、怒り、悲しみ、自己像、自己価値、ストレス、寂しさ、孤立、及び不安症の個々のスコアの加重平均であり得る。

スケーリングされたスコアは、マルチラベル分類器を使用するモデルを使用して生成され得る。この分類器は、例えば、決定木分類器、ｋ近傍分類器、又はニューラルネットワークに基づく分類器であってもよい。分類器は、評価の中間段階又は最終段階で特定の患者のための複数のラベルを生成することができ、ラベルは特定の精神状態の重大度又は程度を示す。例えば、マルチラベル分類器は、ソフトマックス層を使用して確率に正規化され得る複数の数を出力し得る。最大の確率を有するラベルは、患者が経験した精神状態の重症度を示し得る。

スケーリングされたスコアはまた、回帰モデルを使用して決定されてもよい。回帰モデルは、重み付き変数の和として表される訓練例から適合を決定することができる。適合は、既知の体重を有する患者からのスコアを外挿するために使用され得る。重みは、視聴覚信号（例えば、音声ベースのバイオマーカ）から部分的に導出され、患者人口統計などの患者情報から部分的に導出され得る特徴に部分的に基づいてもよい。最終スコア又は中間スコアを予測するために使用される重みは、以前の中間スコアから取得することができる。

スケーリングされたスコアは、信頼尺度に基づいてスケーリングされてもよい。信頼尺度は、録音品質、録音からの患者の音声を分析するために使用されたモデルのタイプ（例えば、オーディオ、ビジュアル、セマンティック）、特定の期間中にどのモデルが最も多く使用されたかに関連する時間分析、及び視聴覚サンプル内の特定の音声ベースのバイオマーカの時点に基づいて決定することができる。中間スコアを決定するために複数の信頼尺度を採用することができる。評価中の信頼性尺度は、特定のスケーリングされたスコアに対する重み付けを決定するために平均化されてもよい。

二値スコアは、システムからの二値結果を反映することができる。例えば、システムは、ユーザが落ち込んでいるか落ち込んでいないかを分類することができる。システムは、ニューラルネットワーク又はアンサンブル法などの分類アルゴリズムを使用してこれを行うことができる。二値分類器は、０と１との間の数を出力することができる。患者のスコアが閾値を上回る場合（例えば、０．５）、患者は「うつ病」として分類され得る。患者のスコアが閾値を下回る場合、患者は「うつ病ではない」と分類され得る。システムは、評価の複数の中間状態について複数の二値スコアを生成することができる。システムは、評価のための全体的な二値スコアを生成するために、評価の中間状態からの二値スコアを重み付けして合計することができる。

本明細書に記載のモデルの出力は、較正されたスコア、例えば単位範囲を有するスコアに変換することができる。本明細書に記載のモデルの出力は、追加的又は代替的に、臨床的価値を有するスコアに変換することができる。臨床的価値を有するスコアは、定性診断（例えば、重度のうつ病の高いリスク）であり得る。あるいは、臨床値を有するスコアは、一般集団又は患者の特定の部分集団に関して正規化された正規化された定性的スコアであり得る。正規化された定性的スコアは、一般集団又は亜集団に対するリスクパーセンテージを示し得る。

本明細書に記載のシステムは、標準化された精神健康アンケート又は検査ツールよりも少ない誤差（例えば、１０％未満）又はより高い精度（例えば、１０％以上）で対象者の精神状態（例えば、精神障害又は行動障害）を識別することが可能であり得る。エラー率又は精度は、精神状態を含む１つ又は複数の医学的状態を識別又は評価するためにエンティティによって使用可能なベンチマーク基準に対して確立することができる。エンティティは、臨床医、医療提供者、保険会社、又は政府規制機関であってもよい。ベンチマーク基準は、独立して検証された臨床診断であり得る。

信頼尺度
本明細書に記載のモデルは、信頼尺度を使用することができる。信頼尺度は、うつ病などの精神状態を正確に予測するために、機械学習アルゴリズムによって生成されたスコアがどの程度効果的であり得るかの尺度であり得る。信頼尺度は、スコアが取得された条件に依存し得る。信頼尺度は、整数、小数、又はパーセンテージとして表すことができる。条件は、記録装置の種類、信号が取得された周囲空間、背景雑音、患者の発話の癖、話者の言語流暢性、患者の反応の長さ、患者の反応の評価された真実性、及び理解できない単語及び句の頻度を含み得る。信号又は音声の品質が音声を分析することをより困難にする条件下では、信頼尺度はより小さい値を有し得る。いくつかの実施形態では、計算された二値又はスケーリングされたスコアを信頼度で重み付けすることによって、信頼度をスコア計算に追加することができる。他の実施形態では、信頼性尺度は別個に提供されてもよい。例えば、システムは、患者が７５％の信頼で０．９３のうつ病スコアを有することを臨床医に伝えることができる。

信頼性レベルはまた、患者の発話を分析するモデルを訓練するために使用される訓練データのラベルの品質に基づいてもよい。例えば、ラベルが正式な臨床診断ではなく、患者によって完了された調査又はアンケートに基づく場合、ラベルの品質はより低いと判定され得、したがってスコアの信頼性レベルはより低くなり得る。場合によっては、調査又はアンケートが一定レベルの不正を有すると判定されてもよい。そのような場合、ラベルの品質はより低いと判定され得、したがってスコアの信頼性レベルはより低くなり得る。

特に信頼性尺度が評価が行われる環境によって影響を受ける場合、信頼性尺度を改善するために、システムによって様々な尺度がとられてもよい。例えば、システムは、１つ又は複数の信号処理アルゴリズムを使用して背景ノイズを除去するか、又はインパルス応答測定を使用して、音声サンプルが記録された環境のオブジェクト及び特徴によって引き起こされる残響の影響を除去する方法を決定することができる。システムはまた、意味解析を使用して、欠けている又は理解できない単語の同一性を判定するためのコンテキストの手がかりを見つけることができる。

さらに、システムは、ユーザプロファイルを使用して、挙動、民族的背景、性別、年齢、又は他のカテゴリに基づいて人々をグループ化することができる。類似のグループからの人々は類似の音声ベースのバイオマーカを有し得るので、類似の音声ベースのバイオマーカを示す人々は類似の方法でうつ病を示し得るので、システムはより高い信頼性でうつ病を予測することが可能であり得る。

例えば、異なる背景を有するうつ病の人々は、ゆっくりとした発話、単調なピッチ又は低いピッチの変動性、過度の立ち止まり、声の音色（ざらざらした又は騒がしい音声）、一貫性のない発話、集中力の散漫又は喪失、無言応答、及び意識の流れの物語によって様々に分類され得る。これらの音声ベースのバイオマーカは、分析された患者の１つ又は複数のセグメントに属し得る。

臨床シナリオ
本明細書に記載のモデルは、プライマリケアと健康との相互作用からの音声を分析することができる。例えば、システムを使用して、訓練された医療提供者個人がとる患者の精神的健康に関する推測を増強することができる。システムはまた、予備スクリーニング又はモニタリングコール（例えば、訓練された精神医療専門家との医療予約をセットアップする目的で、有望な患者によって医療提供者組織に行われるコール）から精神的健康を評価するために使用され得る。一次スクリーニングのために、医療専門家は、患者の精神的健康治療の必要性を確認するために、特定の順序で患者に特定の質問をすることができる。記録装置は、これらの質問のうちの１つ又は複数に対する有望な患者応答を記録することができる。これが行われる前に、有望な患者の同意を得ることができる。本明細書に記載のモデルは、有望な患者から収集された音声スニペットを処理することができる。

システムは、音声バイオマーカモデルを訓練するために標準的な臨床的遭遇を使用することができる。システムは、身体的愁訴についての臨床的遭遇の記録を収集することができる。愁訴は、傷害、病気、又は慢性状態に関するものであり得る。システムは、患者の許可を得て、予約中に患者が医療提供者と行った会話を記録することができる。身体的愁訴は、患者の健康状態に関する感情を示し得る。場合によっては、身体的愁訴は、患者に著しい苦痛を引き起こし、患者の全体的な性質に影響を及ぼし、場合によってはうつ病を引き起こす可能性がある。

音声ベースのバイオマーカは、実験値又は生理学的測定値と関連付けられ得る。音声ベースのバイオマーカは、精神健康関連の測定値と関連付けられ得る。例えば、それらは、精神医学的治療の効果、又は療法士などの医療専門家によって採取されたログと比較され得る。それらは、音声ベースの分析が現場で一般的に行われる査定と一致するかどうかを確認するために、調査質問に対する回答と比較され得る。

音声ベースのバイオマーカは、身体的健康関連測定と関連付けられ得る。例えば、病気などの発声の問題は、実施可能な予測を生成するために考慮される必要がある発声音を生成する患者に寄与し得る。さらに、患者が病気又は怪我から回復している時間スケールにわたるうつ病予測を、その時間スケールにわたる患者の健康転帰と比較して、治療が患者のうつ病又はうつ病関連症状を改善しているかどうかを確認することができる。音声ベースのバイオマーカは、システムの臨床的有効性を判定するために、複数の時点の間に収集された脳活動に関するデータと比較することができる。

モデルの訓練は、オーディオデータが収集されている間にモデルが継続的に実行されるように、継続的であってもよい。音声ベースのバイオマーカをシステムに継続的に追加し、複数のエポックの間の訓練に使用することができる。モデルは、収集されるときにデータを使用して更新することができる。

システムは、強化学習メカニズムを使用することができ、このメカニズムでは、信頼性の高いうつ病予測をもたらす音声ベースのバイオマーカを誘発するために、調査質問を動的に変更することができる。例えば、強化学習メカニズムは、グループから質問を選択することができてもよい。以前の質問又は以前の質問のシーケンスに基づいて、強化機構は、うつ病の高信頼性予測をもたらし得る質問を選択し得る。

システムは、どの質問又は質問のシーケンスが患者からの特定の誘発をもたらし得るかを決定することができる。システムは、機械学習を使用して、例えば確率を生成することによって、特定の誘発を予測することができる。システムはまた、ソフトマックス層を使用して、複数の誘発の確率を生成することができる。システムは、特定の質問、並びにこれらの質問がいつ尋ねられるか、質問された調査までの時間、質問された時刻、及び質問された治療コース内の時点を特徴として使用することができる。

システムは、治療の経過に動的に影響を及ぼすために音声ベースのバイオマーカを使用する方法を含み得る。システムは、一定期間にわたるユーザの誘発を記録し、記録された誘発から、治療が有効であったか否かを判定することができる。例えば、音声ベースのバイオマーカが長期間にわたってうつ病をあまり示さなくなった場合、これは処方された治療が有効であるという証拠となり得る。一方、音声ベースのバイオマーカが長期間にわたってうつ病をより示すようになると、システムは、医療提供者に治療の変更を追求するように促し、又は現在の治療過程をより積極的に追求するように促し得る。

システムは、治療の変更を自発的に推奨することができる。システムがデータを継続的に処理及び分析している実施形態では、システムは、うつ病（又は別の精神障害若しくは行動障害）を示す音声ベースのバイオマーカの突然の増加を検出することができる。これは、処置の過程で比較的短い時間枠にわたって起こり得る。システムはまた、一連の治療が特定の期間（例えば、６ヶ月、１年）無効であった場合、変更を自発的に推奨することができる。

システムは、薬剤に対する特定の応答の確率を追跡することができる場合がある。例えば、システムは、一連の治療の前、治療中、及び治療後に採取された音声ベースのバイオマーカを追跡し、精神障害又は行動障害を示すスコアの変化を分析することができる。

システムは、同様の患者について訓練されていることによって、特定の患者の薬剤に対する応答確率を追跡することができる。システムは、このデータを使用して、同様の人口統計学からの患者の応答に基づいて患者の応答を予測することができる。これらの人口統計は、年齢、性別、体重、身長、病歴、又はそれらの組み合わせを含み得る。

さらに、システムは、質問を調査することに基づいて、患者が自分のバイオマーカを分析することによって治療を続けているかどうかを伝えることができる。例えば、患者は、防御的になり、長い間立ち止まり、詰め込み、又は患者が治療計画に忠実に横たわっているように行動することができる。患者はまた、治療計画に従わなかったことに関する悲しみ、恥心、又は悲しみを表すことができる。

システムは、患者が一連の治療又は投薬に従うかどうかを予測することができる。システムは、患者が一連の治療を続けるかどうかに関する予測を行うために、複数の患者からの音声ベースのバイオマーカからの訓練データを使用することができる。システムは、順守を予測するものとして特定の音声ベースのバイオマーカを特定することができる。例えば、不正を示す音声ベースのバイオマーカを有する患者は、治療計画を順守する可能性が低いと指定され得る。

システムは、個々の患者ごとにベースラインプロファイルを確立することができる。個々の患者は、特定の発話スタイルを有することができ、特定の音声ベースのバイオマーカは、幸福、悲しみ、怒り、及び悲しみなどの感情を示す。例えば、一部の人々は、フラストレーションを感じるときには笑ったり、幸せなときには叫ぶことがある。一部の人々は、大きな声又は穏やかな声で話す、はっきりと話す又はつぶやく、大語彙又は小語彙を有する、自由に又はより躊躇して話すことがある。一部の人々は、外向的な性格を有し得るが、他の人々は、より内向的であり得る。

一部の人々は、他の人々よりも話すのをためらうことがある。一部の人々は、自分の感情を表現することについてより慎重になり得る。一部の人々は、外傷及び乱用を経験したことがある。一部の人々は、自分の感情について否定しているかもしれない。

人のベースラインの気分又は精神状態、したがって人の音声ベースのバイオマーカは、経時的に変化し得る。モデルは、これを説明するために継続的に訓練されてもよい。このモデルはまた、うつ病をあまり頻繁に予測しなくてもよい。経時的なモデルの予測は、精神医療専門家によって記録され得る。これらの結果は、患者のうつ病状態からの進行を示すために使用され得る。

システムは、様々なタイプの個人を考慮するために特定の数のプロファイルを作成することができる場合がある。これらのプロファイルは、例えば、個人の性別、年齢、民族、使用言語、及び職業に関連し得る。

特定のプロファイルは、同様の音声ベースのバイオマーカを有し得る。例えば、高齢者は、若年者よりも細くて息を吸う声を有することがある。それらの弱い声は、マイクロフォンが特定のバイオマーカを拾い上げるのをより困難にする可能性があり、彼らは若年者よりもゆっくり話す可能性がある。さらに、高齢者は行動療法を汚す可能性があり、したがって、若年者ほど複数の情報を共有しない可能性がある。

男性と女性は自分自身を異なるように表現することがあり、これは異なるバイオマーカをもたらし得る。例えば、男性はより積極的又は激しく否定的な感情を表現することができ、女性は自分の感情をよりうまくアーティキュレートさせることができる。

加えて、異なる文化の人々は、感情に対処し、又は感情を表現する異なる方法を有することがあり、又は否定的な感情を表現するときに自責感及び恥心を感じることがある。特異な音声ベースのバイオマーカの取得に関してシステムをより効果的にするために、文化的背景に基づいて人々をセグメント化することが必要な場合がある。

システムは、性格タイプによってセグメント化及びクラスタリングすることによって、異なる性格タイプを有する人々を考慮することができる。これは、臨床医が性格タイプに精通している可能性があり、それらのタイプの人々がどのようにうつ病感を表出する可能性があるため、手動で行うことができる。臨床医は、これらのセグメント化された群の人々から特定の音声ベースのバイオマーカを引き出すための特定の調査質問を開発することができる。

音声ベースのバイオマーカは、人が情報を隠しているか、又は試験方法を越えようとしている場合であっても、その人が落ち込んでいるかどうかを判定するために使用することができる。これは、音声ベースのバイオマーカの多くが不随意発話であり得るためである。例えば、患者は曖昧にすることができ、又は患者の声は震えることができる。

特定の音声ベースのバイオマーカは、うつ病の特定の原因と相関し得る。例えば、うつ病を示す特定の単語、句、又はそれらの配列を見つけるために、複数の患者に対して意味解析が行われる。システムはまた、ユーザの有効性を決定するために、ユーザに対する治療オプションの効果を追跡することができる。最後に、システムは、利用可能なより良い治療方法を決定するために強化学習を使用することができる。

追加の使用例
本明細書に開示されるシステムは、医療提供者によって提供されるケアを強化するために使用され得る。例えば、開示されたシステムの１つ又は複数は、患者の患者ケア提供者への受け渡しを容易にするために使用され得る。システムが評価後に特定の精神状態の閾値を上回るスコアを生成する場合、システムは、さらなる調査及び分析のために患者を専門家に紹介することができる。例えば、患者が遠隔医療システムで治療を受けている場合、又は専門家が患者と同じ場所にいる場合、評価が完了する前に患者を紹介することができる。例えば、患者は、１人又は複数の専門家と共に診療所で治療を受けていてもよい。

開示されるシステムは、スコアリング後に患者の臨床プロセスを指示することができる。例えば、患者がクライアントデバイスを使用して評価を受けていた場合、患者は、評価の完了後に、認知行動療法（ｃｏｇｎｉｔｉｖｅｂｅｈａｖｉｏｒａｌｔｈｅｒａｐｙ：ＣＢＴ）サービスを参照することができる。それらはまた、医療提供者と呼ばれてもよく、又はシステムによって行われる医療提供者との予約を有してもよい。開示されるシステムは、１つ又は複数の医薬品を提案することができる。システムは、特定の食事療法又は運動療法をさらに提案することができる。推奨される運動レジメンは、少なくとも部分的に、患者の人口統計（例えば、年齢及び性別）、過去の病歴、又は患者生成の健康データ（例えば、体重、心臓血管又は肺の健康など）に基づいてもよい。

本明細書に記載のシステム及びモデルは、正確な事例管理に使用することができる。第１の手術では、患者が症例管理者と会話する。第２の動作では、１つ又は複数のエンティティが、患者の同意を得て会話を受動的に記録する。会話は、対面での会話であってもよい。別の実施形態では、事件マネージャは、遠隔で会話を実行することができる。例えば、会話は、遠隔医療プラットフォームを使用する会話であってもよい。第３の動作では、本明細書に記載されたモデルは、記録された会話を処理し、リアルタイムの結果を支払人に送信することができる。リアルタイム結果は、精神状態に対応するスコアを含み得る。第４のステップにおいて、症例管理者は、リアルタイム結果に基づいてケア計画を更新することができる。例えば、特定の閾値を超える特定のスコアは、介護提供者と患者との間の将来の相互作用に影響を及ぼす可能性があり、提供者に患者の異なる質問をさせる可能性がある。スコアは、スコアに関連する特定の質問を提案するようにシステムをトリガすることさえできる。会話は、更新されたケア計画で繰り返されてもよい。

本明細書に記載のシステム及びモデルは、プライマリケアのスクリーニング又はモニタリングに使用することができる。第１の手術では、患者は一次医療提供者を訪問する。第２の動作では、音声は、電子転写のためのプライマリケア提供者の組織によって捕捉されてもよく、システムは、分析のためのコピーを提供してもよい。第３のステップにおいて、プライマリケア提供者は、分析から、ケア経路を知らせるリアルタイムのバイタルサインを受信することができる。これは、行動健康の専門家への温かい受け渡しを容易にし得るか、又は特定のケア経路上でプライマリケア提供者に指示するために使用され得る。

本明細書に記載のシステム及びモデルは、強化された従業員支援計画（ｅｍｐｌｏｙｅｅａｓｓｉｓｔａｎｃｅｐｌａｎ：ＥＡＰ）ナビゲーション及びトリアージに使用することができる。第１の動作では、患者はＥＡＰ回線を呼び出すことができる。第２のステップにおいて、システムは、視聴覚データを記録し、患者をスクリーニングすることができる。リアルタイムのスクリーニング又はモニタリング結果は、リアルタイムで提供者に配信することができる。提供者は、収集されたリアルタイムの結果に基づいて、高リスクトピックについて患者を適応的にスクリーニングすることができる。リアルタイムスクリーニング又はモニタリングデータはまた、他のエンティティに提供されてもよい。例えば、リアルタイムのスクリーニング又はモニタリングデータは、臨床医にオンコールで提供されてもよく、紹介をスケジュールするために使用されてもよく、教育目的で使用されてもよく、又は他の目的で使用されてもよい。患者とＥＡＰとの間の相互作用は、直接であっても遠隔であってもよい。ＥＡＰラインを担当する人は、患者が肯定的な画面を有し、患者を適切なレベルの治療に導くのを助けることができることをリアルタイムで警告され得る。ＥＡＰはまた、患者に施された評価の結果、例えば、患者の精神状態に対応するスコアに基づいて質問するように指示されてもよい。本明細書で説明される音声データは、リアルタイムで収集及び分析されてもよく、又は記録され、後で分析されるデータであってもよい。

遠隔医療
場合によっては、本明細書に記載のモデルは、患者と医療提供者（ｈｅａｌｔｈｃａｒｅｐｒｏｖｉｄｅｒ：ＨＣＰ）との間の１つ又は複数の遠隔医療セッションからのオーディオ及びビデオを処理することができる。図１９は、遠隔医療システム１９００を示す。遠隔医療システム１９００は、患者及びＨＣＰが患者の健康に関する遠隔医療セッションを行うことを可能にすることができる。遠隔医療システム１９００は、患者デバイス１９０５、ＨＣＰデバイス１９１０、遠隔医療サーバ１９１５、及び遠隔医療データベース１９２０を含み得る。患者デバイス１９０５、ＨＣＰデバイス１９１０、及び遠隔医療サーバ１９１５は、ネットワーク１９３０を介して通信することができる。患者デバイス１９０５及びＨＣＰデバイス１９０５は、モバイルデバイス（例えば、スマートフォン）、電子タブレット、ラップトップ又はデスクトップコンピュータなどであってもよい。

患者デバイス１９０５及びＨＣＰデバイス１９１０は、遠隔医療アプリケーション１９２５のインスタンスを実行することができる。遠隔医療アプリケーション１９２５は、スタンドアロンのデスクトップアプリケーション、ウェブアプリケーション、モバイルアプリケーションなどであってもよい。遠隔医療アプリケーション１９２５の各インスタンスは、そのインスタンスのユーザ（例えば、患者）が別のユーザ（例えば、医療提供者）とのセキュアな通信リンクを確立することを可能にするユーザインターフェースを有し得る。ユーザインターフェースは、ユーザがユーザのデバイス（例えば、患者デバイス１９０５は）上のカメラ及びマイクロフォンを使用してオーディオ及びビデオを記録し、他のユーザのデバイス（例えば、ＨＣＰデバイス１９０５）を使用して他のユーザによって記録されたオーディオ及びビデオを消費することを可能にすることができる。２つのデバイスは、安全な通信リンクを介してオーディオストリーム及びビデオストリームを継続的に交換することができ、２人のユーザ間のリアルタイムのビデオ会議を容易にする。遠隔医療アプリケーション１９２５の各インスタンスは、オーディオストリーム及びビデオストリームを圧縮及び解凍するオーディオコーデック及びビデオコーデックを有してもよい。場合によっては、ユーザインターフェースは、患者に関する人口統計情報又は臨床情報をＨＣＰにさらに表示することができる。このような情報は、遠隔医療サーバ１９１５によって遠隔医療データベース１９２０から検索されてもよい。

遠隔医療システム１９００は、テレビ会議からの音声及び映像を遠隔医療データベース１９０２に記憶することができる。その後、本明細書に記載の音響、ＮＬＰ、及びビデオモデルは、オーディオ及びビデオを処理して、例えば、ビデオ会議の参加者のうちの１人（例えば、患者）が行動又は精神の健康障害を有するかどうかを判定することができる。

追加的又は代替的に、遠隔医療システム１９００は、テレビ会議が行われているときにリアルタイムで患者からのオーディオ及びビデオを処理することができる。そのような場合、遠隔医療データベース１９２０は、本明細書に記載の音響、ＮＬＰ、及びビデオモデルを格納することができる。遠隔医療サーバ１９１５は、患者デバイス１９０５からオーディオ及びビデオストリームを取得し、遠隔医療データベース１９２０から適切なモデルを取得し、モデルを使用してオーディオ及びビデオストリームを処理して、患者が行動障害又は精神障害を有するかどうかを判定することができる。遠隔医療サーバ１９１５は、モデルの出力をリアルタイムでＨＣＰデバイス１９０５のユーザインターフェースに提供することができる。出力は、定性的又は定量的スコア、信頼区間、ワードクラウドなどを含む、本明細書に記載の出力のいずれかであってもよい。出力は、患者とのビデオ会議を案内する際にＨＣＰを支援することができる。遠隔医療サーバ１９１５は、出力に基づいて患者のユーザインターフェースをさらに変更することができる。例えば、出力が、患者が落ち込んでいることを示す場合、遠隔医療サーバ１９１５は、認知行動療法オプションをユーザインターフェースに追加することができる。

上述のリアルタイム処理の場合、遠隔医療サーバ１９１５は、患者に関する利用可能な人口統計データ又は臨床データを使用することによって、遠隔医療データベース１９２０から適切なモデルを選択することができる。例えば、遠隔医療サーバ１９１５は、患者が青年である場合、青年モデル（例えば、主に青年からのオーディオ及びビデオについて訓練されたモデル）を選択することができる。追加的又は代替的に、遠隔医療サーバ１９１５は、そのような人口統計情報がまだ知られていない場合、画像認識プロセスを使用して患者に関する人口統計情報を決定することができる。例えば、遠隔医療サーバ１９１５は、画像認識プロセスを使用して、患者の性別、年齢、人種などを判定することができる。

場合によっては、患者の発話は、遠隔医療セッションの直前に本明細書に記載のモデルによって分析することができ、その結果、セッション中、医療提供者は、患者の予測される状態を評価する質問をすることができる。他の場合には、遠隔医療セッションの直後に患者の発話を分析することができる。

遠隔医療又は対面臨床での遭遇では、患者の音声特性を医療提供者の音声特性と一致させることが有益であり得る。そうすることにより、患者との親密さを達成する可能性を向上させることができる。

場合によっては、遠隔医療システム１９００は、患者を「介護バディ」に接続することができる。介護士は、場所、年齢、行動的又は精神的状態、性格特性などに少なくとも部分的に基づいて割り当てられてもよい。患者と彼の介護士との間の連絡は、遠隔医療システム１９００を介して行われてもよい。介護バディには、連絡用のテンプレートが提供されてもよく、これには、週間チェックインの電話及び電話中に互いに尋ねる質問が含まれてもよい。

品質管理
患者によって提供された入力音声が許容できない状況が生じ得る。そのような場合、本明細書に記載のシステムは、入力音声にリアルタイムでフラグを立てることができる。一例では、対応するユーザは、音声を生成することができないか、又は最適以下の品質又は量で音声を生成することができる。音響品質検出器は、収集された音声を分析し、音声の品質（例えば、その体積）が低すぎる場合にリアルタイムで警告を生成することができる。システムはまた、リアルタイムで総単語数を判定することができ、単語数が十分に高くない場合、新しいプロンプトのセットを供給することができる。新しいプロンプトは、より長い又はより複数の応答を引き出すように設計されてもよい。別の例では、ユーザは、システムをゲームしようと試みることができる（例えば、インセンティブを得るため、又は診断を回避するために）。そのようなユーザの場合、ＡＳＲモデルは、音声が「良い」ユーザからの音声と大きく異なるかどうかを判定するために音声を処理することができる。次いで、試験ユーザからの入力をこのモデルとリアルタイムで比較して、単語パターンが良好なユーザから期待されるものから遠すぎるかどうかを確認する。この手法は、システムに生で話すのではなく、別のソースからオーディオを再生するユーザ、又は尋ねられた質問について話すが話すことを試みないユーザを捕捉することができる。そして、システムは、ユーザに警告を提示するか、又は音声ファイルにタグ付けすることができる。

非発話モデル
場合によっては、本明細書に記載のシステムは、呼吸モデル、笑いモデル、及び一時停止モデルを含む非発話モデルを含み得る。呼吸のモデル化は、不安症又は躁病の予測に有用であり得る。笑いのモデル化（又はその欠如）は、うつ病を予測するのに有用であり得る。一時停止はまた、特定の行動的又は精神的健康状態を示し得る。非発話モデルの出力は、音響モデルの出力と融合することができる。

ニューラルネットワーク
本開示では、各種のニューラルネットワークについて説明する。ニューラルネットワークは、１つ又は複数の出力、例えば対象者の血糖値を予測するために、複数層の演算を使用することができる。ニューラルネットワークは、入力層と出力層との間に位置する１つ又は複数の隠れ層を含み得る。各層の出力は、別の層、例えば次の隠れ層又は出力層への入力として使用することができる。ニューラルネットワークの各層は、層への入力に対して実行されるべき１つ又は複数の変換演算を指定することができる。そのような変換動作は、ニューロンと呼ばれ得る。特定のニューロンの出力は、バイアスで調整され、活性化関数、例えば、正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ：ＲｅＬＵ）又はシグモイド関数で乗算された、ニューロンへの入力の加重和であり得る。

ニューラルネットワークを訓練するステップは、予測出力を生成するために訓練されていないニューラルネットワークに入力を提供するステップと、予測出力を予測出力と比較するステップと、予測出力と予測出力との間の差を考慮するためにアルゴリズムの重み及びバイアスを更新するステップと、を含み得る。具体的には、コスト関数を使用して、予測出力と予測出力との間の差を計算することができる。ネットワークの重み及びバイアスに関するコスト関数の導関数を計算することによって、重み及びバイアスは、コスト関数を最小化するために複数のサイクルにわたって反復的に調整することができる。訓練は、予測出力が収束条件、例えば、コスト関数によって決定されるような計算されたコストの大きさが小さいことを満たすときに完了することができる。

本開示は、畳み込みニューラルネットワーク（ＣＮＮ）を説明する。ＣＮＮは、畳み込み層と呼ばれるいくつかの層のニューロンが入力データセットのごく一部（例えば、音声データの短い時間セグメント）から入力を受け取るニューラルネットワークである。これらの小さな部分は、ニューロンの受容野と呼ばれ得る。そのような畳み込み層内の各ニューロンは、同じ重みを有し得る。このようにして、畳み込み層は、入力データセットの任意の部分における特定の特徴を検出することができる。ＣＮＮはまた、畳み込み層のニューロンクラスタの出力と、フィードフォワードニューラルネットワークの従来の層と同様の完全接続層とを組み合わせるプーリング層を有し得る。

本開示は、リカレント・ニューラル・ネットワーク（ＲＮＮ）について説明する。ＲＮＮは、時系列データ、例えば音声データにおける依存性をエンコードすることができる循環的接続を有するニューラルネットワークである。ＲＮＮは、時系列入力のシーケンスを受信するように構成された入力層を含み得る。ＲＮＮはまた、状態を維持する１つ又は複数の隠れたリカレント層を含み得る。各時間ステップにおいて、各隠れリカレント層は、その層の出力及び次の状態を計算することができる。次の状態は、前の状態及び現在の入力に依存することができる。状態は、時間ステップにわたって維持することができ、入力シーケンス内の依存関係を捕捉することができる。

ＲＮＮの一例はＬＳＴＭであり、ＬＳＴＭユニットで構成され得る。ＬＳＴＭ部は、セル、入力ゲート、出力ゲート、及び忘却ゲートで構成することができる。セルは、入力シーケンス内の要素間の依存関係を追跡する役割を担うことができる。入力ゲートは、新しい値がセルに流入する程度を制御することができ、忘却ゲートは、値がセル内に残る程度を制御することができ、出力ゲートは、セル内の値がＬＳＴＭユニットの出力アクティブ化を計算するために使用される程度を制御することができる。ＬＳＴＭゲートの活性化関数は、ロジスティック関数であり得る。ＬＳＴＭは双方向であってもよい。

コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図８は、図１のシステム１００を実装するか、又は図４及び図５の訓練プロセスを実行するようにプログラムされるか、又は他の方法で構成されるコンピュータシステム８０１を示す。

コンピュータシステム８０１は、シングルコア若しくはマルチコアプロセッサ、又は並列処理のための複数のプロセッサとすることができる中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ、本明細書では「プロセッサ」及び「コンピュータプロセッサ」）８０５を含む。コンピュータシステム８０１はまた、メモリ又はメモリ位置８１０（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）と、電子記憶ユニット８１５（例えば、ハードディスク）と、１つ又は複数の他のシステムと通信するための通信インターフェース８２０（例えば、ネットワークアダプタ）と、キャッシュ、他のメモリ、データストレージ、及び／又は電子ディスプレイアダプタなどの周辺装置８２５とを含む。メモリ８１０、記憶ユニット８１５、インターフェース８２０及び周辺装置８２５は、マザーボードなどの通信バス（実線）を介してＣＰＵ８０５と通信する。記憶ユニット８１５は、データを記憶するためのデータ記憶ユニット（又はデータリポジトリ）であってもよい。コンピュータシステム８０１は、通信インターフェース８２０の助けを借りてコンピュータネットワーク（「ネットワーク」）８３０に動作可能に結合することができる。ネットワーク８３０は、インターネット、インターネット及び／若しくはエクストラネット、又はインターネットと通信するイントラネット及び／若しくはエクストラネットとすることができる。ネットワーク８３０は、場合によっては、電気通信及び／又はデータネットワークである。ネットワーク８３０は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる１つ又は複数のコンピュータサーバを含み得る。ネットワーク８３０は、場合によっては、コンピュータシステム８０１の助けを借りて、コンピュータシステム８０１に結合されたデバイスがクライアント又はサーバとして動作することを可能にすることができるピアツーピアネットワークを実装することができる。

ＣＰＵ８０５は、プログラム又はソフトウェアに組み込まれ得る一連の機械可読命令を実行することができる。命令は、メモリ８１０などのメモリ位置に格納することができる。命令は、ＣＰＵ８０５を対象者とすることができ、ＣＰＵ８０５は、その後、本開示の方法を実施するようにＣＰＵをプログラム又は構成することができる。ＣＰＵ８０５によって実行される動作の例は、フェッチ、デコード、実行、及びライトバックを含み得る。

ＣＰＵ８０５は、集積回路などの回路の一部であってもよい。システム８０１の１つ又は複数の他の構成要素が回路に含まれてもよい。場合によっては、回路は特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット８１５は、ドライバ、ライブラリ及び保存されたプログラムなどのファイルを記憶することができる。記憶ユニット８１５は、ユーザデータ、例えば、ユーザプレファレンス及びユーザプログラムを記憶することができる。コンピュータシステム８０１は、場合によっては、イントラネット又はインターネットを介してコンピュータシステム８０１と通信する遠隔サーバ上に位置するなど、コンピュータシステム８０１の外部にある１つ又は複数の追加のデータ記憶装置を含み得る。

コンピュータシステム８０１は、ネットワーク８３０を介して１つ又は複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム８０１は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレート若しくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）Ｇａｌａｘｙタブ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、又は携帯情報端末が含まれる。ユーザは、ネットワーク８３０を介してコンピュータシステム８０１にアクセスすることができる。

本明細書に記載の方法は、例えばメモリ８１０又は電子記憶ユニット８１５などのコンピュータシステム８０１の電子記憶場所に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。機械実行可能コード又は機械可読コードは、ソフトウェアの形態で提供されてもよい。使用中、コードはプロセッサ８０５によって実行することができる。場合によっては、コードは、記憶ユニット８１５から取得され、プロセッサ８０５による容易なアクセスのためにメモリ８１０に記憶され得る。いくつかの状況では、電子記憶ユニット８１５を除外することができ、機械実行可能命令がメモリ８１０に記憶される。

コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイル及び構成することができ、又はランタイム中にコンパイルすることができる。コードは、コードが予めコンパイルされた方法又はコンパイルされた方法で実行することを可能にするように選択することができるプログラミング言語で供給することができる。

コンピュータシステム８０１など、本明細書で提供されるシステム及び方法の態様は、プログラミングにおいて具現化され得る。本技術の様々な態様は、典型的には機械（又はプロセッサ）実行可能コード及び／又はある種の機械可読媒体上に担持されるか又はそれに具体化される関連データの形態の「製品」又は「製品」と考えることができる。機械実行可能コードは、メモリ（例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）又はハードディスクなどの電子記憶装置に記憶することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサなどの有形メモリ、又は様々な半導体メモリ、テープドライブ、ディスクドライブなどの関連モジュールのいずれか又はすべてを含んでいてもよく、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供し得る。ソフトウェアの全部又は一部は、インターネット又は様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサへの、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にすることができる。したがって、ソフトウェア要素を担持することができる別のタイプの媒体は、ローカルデバイス間の物理インターフェースにわたって、有線及び光の地上ネットワークを介して、及び様々なエアリンクを介して使用されるような、光波、電気波、及び電磁波を含む。有線又は無線リンク、光リンクなど、そのような波を搬送する物理的要素もまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータ又は機械の「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。

したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理伝送媒体を含むがこれらに限定されない複数の形態をとることができる。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用され得る任意のコンピュータなどの記憶装置のいずれかなどの光学又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形伝送媒体は同軸ケーブルを含む；コンピュータシステム内にバスを備えるワイヤを含む、銅ワイヤ及び光ファイバ。搬送波伝送媒体は、電気信号若しくは電磁信号、又は無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ：ＲＦ）及び赤外線（ｉｎｆｒａｒｅｄ：ＩＲ）データ通信中に生成されるような音波若しくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ又はＤＶＤ－ＲＯＭ、Ｂｌｕ－ｒａｙ（登録商標）、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ及びＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、データ又は命令を搬送する搬送波、そのような搬送波を搬送するケーブル又はリンク、あるいはコンピュータがプログラミングコード及び／又はデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のために１つ又は複数の命令の１つ又は複数のシーケンスをプロセッサに搬送することに関与することができる。

コンピュータシステム８０１は、例えば、ユーザから発話を誘発し得るユーザに１つ以上のクエリを提供するためのユーザインターフェース（ｕｓｅｒｉｎｔｅｒｆａｃｅ：ＵＩ）８４０を備える電子ディスプレイ８３５を含むか、又はそれと通信することができる。ＵＩの例には、グラフィカル・ユーザ・インターフェース（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ：ＧＵＩ）及びウェブベースのユーザインターフェースが含まれるが、これらに限定されない。

本開示の方法及びシステムは、１つ又は複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置８０５による実行時にソフトウェアによって実施されてもよい。アルゴリズムは、例えば、本明細書に記載の音響モデル、機械学習モデル、又は訓練プロセスのいずれかであってもよい。

本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明は、本明細書内で提供される特定の例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明及び例示は、限定的な意味で解釈されることを意味しない。本発明から逸脱することなく、当業者には複数の変形、変更、及び置換が思い浮かぶであろう。さらに、本発明のすべての態様は、様々な条件及び変数に依存する本明細書に記載の特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、任意のそのような代替形態、修正形態、変形形態又は均等物も包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法及び構造並びにそれらの均等物がそれによって包含されることが意図される。

Claims

エンコーダ及び分類器を含む音響モデルを用いて対象者における行動的又は精神的健康状態を検出するための方法であって、
（ａ）前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
（ｂ）前記音声サンプルを前記エンコーダで処理して、前記音声サンプルの抽象的な特徴表現を生成するステップであって、前記エンコーダは、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するように事前訓練されている、ステップと、
（ｃ）前記抽象的な特徴表現を前記分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、前記分類器は、複数の話者からの複数の音声サンプルを含む訓練データセット上で訓練されており、前記複数の音声サンプルの音声サンプルは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
を含む、方法。
（ｂ）の前に、前記音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項１に記載の方法。
前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項１に記載の方法。
前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項１に記載の方法。
前記出力は、前記対象者からの前記音声サンプルの前記複数のセグメントの各セグメントに対するセグメント出力を含み、前記方法は、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項１に記載の方法。
前記第１のタスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項１に記載の方法。
（ａ）が、遠隔医療セッション中に前記音声サンプルを取得するステップを含む、請求項１に記載の方法。
（ａ）が、前記対象者のモバイルデバイスから前記音声サンプルを取得するステップを含み、（ｂ）及び（ｃ）が前記モバイルデバイス上で少なくとも部分的に実行される、請求項１に記載の方法。
（ｂ）及び（ｃ）が、遠隔サーバ上で少なくとも部分的に実行される、請求項８に記載の方法。
前記音声サンプルを、笑いモデル、呼吸モデル、又は一時停止モデルを含む非発話モデルで処理するステップをさらに含む、請求項１に記載の方法。
（ｂ）の前に、前記音声サンプルが品質閾値を満たすかどうかを判定するステップをさらに含む、請求項１に記載の方法。
１つ又は複数のコンピュータプロセッサによって実行されると、対象者の行動的又は精神的健康状態を検出するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記方法が、
（ａ）前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
（ｂ）前記音声サンプルをエンコーダで処理して、前記音声サンプルの抽象的な特徴表現を生成するステップであって、前記エンコーダは、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するように事前訓練されている、ステップと、
（ｃ）前記抽象的な特徴表現を分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、前記分類器は、複数の話者からの複数の音声サンプルを含む訓練データセット上で訓練されており、前記複数の音声サンプルの音声サンプルは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
を含む、方法。
対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法であって、前記音響モデルがエンコーダ及び分類器を含み、前記方法が、
（ａ）第１の訓練データセット上で、前記エンコーダを、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するように訓練するステップと、
（ｂ）（ａ）に続いて、前記第１の訓練データセットとは異なる第２の訓練データセット上で、前記エンコーダ及び前記分類器を訓練するステップであって、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成し、前記第２の訓練データセットは、複数の話者からの複数の音声サンプルを含み、前記複数の音声サンプルの音声サンプルは、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
を含む、方法。
前記第１のタスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項１３に記載の方法。
（ｂ）が、前記出力を生成するために、前記エンコーダからの前記音声サンプルの抽象的な特徴表現を処理するように前記分類器を訓練するステップを含む、請求項１３に記載の方法。
（ｂ）の間、前記エンコーダが固定される、請求項１３に記載の方法。
（ｂ）の間、前記エンコーダが固定されない、請求項１３に記載の方法。
（ａ）及び（ｂ）が教師あり学習プロセスである、請求項１３に記載の方法。
前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項１３に記載の方法。
前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項１３に記載の方法。
前記出力が、前記対象者からの前記音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、前記方法が、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項１３に記載の方法。
１つ又は複数のコンピュータプロセッサによる実行時に、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記音響モデルがエンコーダ及び分類器を含み、前記方法が、
（ａ）第１の訓練データセット上で、前記エンコーダを、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第１のタスクを実行するように訓練するステップと、
（ｂ）（ａ）に続いて、前記第１の訓練データセットとは異なる第２の訓練データセット上で、前記エンコーダ及び前記分類器を訓練するステップであって、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成し、前記第２の訓練データセットは、複数の話者からの複数の音声サンプルを含み、前記複数の音声サンプルの音声サンプルが、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
を含む、方法。
対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法であって、
（ａ）音声サンプルを転写するために、第１の訓練データセット上で、自動音声認識（ＡＳＲ）システムを訓練するステップであって、前記ＡＳＲシステムは、エンコーダ及びデコーダを備える、ステップと、
（ｂ）前記デコーダを破棄するステップと、
（ｃ）前記対象者からの音声サンプルを処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、前記第１の訓練データセットとは異なる第２の訓練データセット上で、前記エンコーダ及び分類器を訓練するステップであって、前記第２の訓練データセットは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、
を含む、方法。
（ａ）の前に、前記複数のラベルなし音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項２３に記載の方法。
（ｃ）の前に、前記複数のラベル付き音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項２３に記載の方法。
（ａ）が、前記エンコーダを、前記音声サンプルの抽象的な特徴表現を生成するように訓練し、前記デコーダを、前記音声サンプルの前記抽象的な特徴表現を処理して、転写された音声サンプルを生成するように訓練するステップを含む、請求項２３に記載の方法。
（ｃ）が、前記出力を生成するために、前記エンコーダからの前記音声サンプルの抽象的な特徴表現を処理するように前記分類器を訓練するステップを含む、請求項２３に記載の方法。
（ｃ）の間、前記エンコーダが固定される、請求項２３に記載の方法。
（ｃ）の間、前記エンコーダが固定されない、請求項２３に記載の方法。
（ａ）及び（ｃ）が教師あり学習プロセスである、請求項２３に記載の方法。
複数のラベル化音声サンプルと、前記複数のラベル化音声サンプルを生成した複数の話者に関するメタデータとを含む第３の訓練データセット上で前記分類器を訓練するステップをさらに含む、請求項２３に記載の方法。
前記メタデータが、前記複数の話者の各々の年齢、人種、民族、性別、収入、教育、場所、又は病歴のうちの１つ又は複数を含む、請求項３１に記載の方法。
前記エンコーダが、畳み込みニューラルネットワーク（ＣＮＮ）及び長期短期記憶ネットワーク（ＬＳＴＭ）を含む、請求項２３に記載の方法。
前記ＣＮＮがビジュアル・ジオメトリ・グループ（ＶＧＧ）ネットワークである、請求項２３に記載の方法。
前記分類器が、リカレント畳み込みニューラルネットワーク（ＲＣＮＮ）、注意付きＬＳＴＭ、自己注意ネットワーク、及び変換器からなる群から選択されるモデルを含む、請求項２３に記載の方法。
前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項２３に記載の方法。
前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項２３に記載の方法。
前記出力が、前記対象者からの前記音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、前記方法は、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項２３に記載の方法。
１つ又は複数のコンピュータプロセッサによる実行時に、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記方法が、
（ａ）音声サンプルを転写するために、第１の訓練データセット上で、自動音声認識（ＡＳＲ）システムを訓練するステップであって、前記ＡＳＲシステムは、エンコーダ及びデコーダを備える、ステップと、
（ｂ）前記デコーダを破棄するステップと、
（ｃ）前記対象者からの音声サンプルを処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、前記第１の訓練データセットとは異なる第２の訓練データセット上で、前記エンコーダ及び分類器を訓練するステップであって、前記第２の訓練データセットは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、
を含む、非一時的コンピュータ可読媒体。
システムであって、
１つ又は複数のコンピュータプロセッサと、
前記１つ又は複数のコンピュータプロセッサによる実行時に、前記１つ又は複数のコンピュータプロセッサに、前記対象者からの複数のセグメントを含む入力音声に少なくとも部分的に基づいて、前記対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成された音響モデルを実装させる機械実行可能命令を含むメモリであって、前記音響モデルが、
前記入力音声の抽象的な表現を生成するように構成されたエンコーダであって、前記エンコーダは、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを予測すること以外のタスクを実行するために、転移学習フレームワークを使用して事前訓練される、エンコーダと、
前記入力音声の前記抽象的な表現を処理して、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するように構成された少なくとも１つの分類器であって、前記少なくとも１つの分類器は、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた音声サンプルについて訓練されている、少なくとも１つの分類器と、
を含む、メモリと、
を備える、システム。
前記エンコーダが、ビジュアル・ジオメトリ・グループ（「ＶＧＧ」）ネットワーク及び長期短期記憶（「ＬＳＴＭ」）ネットワークのスタックを含む、請求項４０に記載のシステム。
前記少なくとも１つの分類器が、リカレント畳み込みニューラルネットワーク（「ＲＣＮＮ」）、注意付きＬＳＴＭ、自己注意ネットワーク、又は変換器からなる群から選択されるモデルを含む、請求項４０に記載のシステム。
前記少なくとも１つの分類器が、前記出力を生成するために前記対象者に関するメタデータを処理するようにさらに構成される、請求項４０に記載のシステム。
前記メタデータが、前記対象者の年齢又は性別を含む、請求項４３に記載のシステム。
前記エンコーダが、デコーダを用いて前記転写された音声サンプルについて訓練され、前記デコーダは前記システムの一部ではない、請求項４０に記載のシステム。
前記タスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項４０に記載のシステム。
前記セグメント出力が平均化される、請求項４０に記載のシステム。
前記セグメント出力が、機械学習アルゴリズムを使用して融合される、請求項４０に記載のシステム。
前記エンコーダがデコーダで事前訓練され、前記エンコーダ及びデコーダが自動音声認識（ＡＳＲ）システムを備える、請求項４０に記載のシステム。
前記デコーダが、注意ユニット、長期短期記憶ネットワーク、及びビーム探索ユニットのうちの１つ又は複数を含む、請求項４９に記載のシステム。
前記少なくとも１つの分類器が、二値分類器を含む、請求項４０に記載のシステム。
前記少なくとも１つの分類器が複数クラス分類器を含み、前記出力が、前記対象者における行動的又は精神的健康状態の複数の重大度にわたる確率分布を含む、請求項４０に記載のシステム。
前記出力が、前記入力音声の前記複数のセグメントの各セグメントについてのセグメント出力であり、前記システムが、予測された精神状態を得るために、前記少なくとも１つの分類器の前記セグメント出力の学習された表現を融合するように構成されたセグメント融合モジュールをさらに備える、請求項４０に記載のシステム。
自然言語処理（ＮＬＰ）モデルを使用して対象者の行動的又は精神的健康状態を検出する方法であって、前記ＮＬＰモデルが言語モデル及び１つ又は複数の分類器を含み、前記方法が、
（ａ）前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
（ｂ）言語モデル出力を生成するために前記音声サンプル又はその派生物を前記言語モデルで処理するステップであって、前記言語モデルは第１のデータセット及び第２のデータセットで訓練されており、前記第１のデータセットは前記行動的又は精神的健康状態に関連しないテキストを含み、前記第２のデータセットは前記行動的又は精神的健康状態に関連するテキストを含み、前記第１のデータセットは前記第２のデータセットよりも実質的に大きい、処理するステップと、
（ｃ）前記言語モデル出力を前記１つ又は複数の分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップと、
を含む、方法。
（ｂ）の前に、転写された音声サンプルを生成するために前記音声サンプルを転写するステップと、エンコーダを使用して前記転写された音声サンプルの埋め込みを生成するステップとをさらに含む、請求項５４に記載の方法。
前記言語モデルが、長期短期記憶（ＬＳＴＭ）ネットワーク又は変換器を含む、請求項５４に記載の方法。
前記１つ又は複数の分類器が、二値分類器を含み、（ｃ）が、前記対象者が前記行動的又は精神的健康状態を有するか、又は前記行動的又は精神的健康状態を有しないかを示す二値分類を生成するステップを含む、請求項５４に記載の方法。
前記１つ又は複数の分類器が回帰分類器を含み、（ｃ）が、前記対象者の前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を生成するステップを含む、請求項５７に記載の方法。
前記出力を生成するために前記二値分類及び前記確率分布を融合するステップをさらに含む、請求項５８に記載の方法。
前記第１のデータセットが、公開されているテキストコーパスを含む、請求項５４に記載の方法。
１つ又は複数のコンピュータプロセッサによって実行されると、自然言語処理（ＮＬＰ）モデルを使用して対象者における行動的又は精神的健康状態を検出するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記ＮＬＰモデルは言語モデル及び１つ又は複数の分類器を含み、前記方法が、
（ａ）前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
（ｂ）言語モデル出力を生成するために前記音声サンプル又はその派生物を前記言語モデルで処理するステップであって、前記言語モデルが第１のデータセット及び第２のデータセットで訓練されており、前記第１のデータセットが前記行動的又は精神的健康状態に関連しないテキストを含み、前記第２のデータセットが前記行動的又は精神的健康状態に関連するテキストを含み、前記第１のデータセットが前記第２のデータセットよりも実質的に大きい、ステップと、
（ｃ）前記言語モデル出力を前記１つ又は複数の分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップと、
を含む、方法。
行動的又は精神的健康状態を検出するために自然言語処理モデルを訓練するための方法であって、前記自然言語処理モデルは、（ｉ）言語モデル及び（ｉｉ）分類器を含み、前記方法が、
（ａ）第１のエンコードテキストで前記言語モデルを訓練するステップであって、前記第１のエンコードテキストが、前記行動的又は精神的健康状態とは無関係のテキストを含む、ステップと、
（ｂ）前記言語モデルを、第２のエンコードテキスト、及び任意選択的にメタデータ情報上で微調整するステップであって、前記第２のエンコードテキストが、前記行動的又は精神的健康状態に関連するテキストを含む、ステップと、
（ｃ）複数の対象者からの複数のエンコードされた音声サンプル上で前記行動的又は精神的状態を検出するように前記分類器を訓練するステップであって、前記複数のエンコードされた音声サンプルのエンコードされた音声サンプルが、前記エンコードされた音声サンプルを提供した対象者が前記行動的又は精神的健康状態を有するかどうかを示すラベル及び任意選択のメタデータ情報と関連付けられる、ステップと、
を含む、方法。
前記言語モデルが、長期短期記憶（ＬＳＴＭ）ネットワークを含む、請求項６２に記載の方法。
前記（ａ）の訓練が、非単調確率的勾配降下プロセスを含む、請求項６３に記載の方法。
前記（ａ）の訓練が、ドロップアウト又はＤｒｏｐＣｏｎｎｅｃｔ操作を含む、請求項６３に記載の方法。
前記言語モデルが変換器を含む、請求項６２に記載の方法。
前記第２のエンコードテキストが、追加の行動的又は精神的健康状態に関連するテキストを含み、前記（ｂ）の微調整が、マルチタスク学習を含む、請求項６２に記載の方法。
前記複数の対象者からの前記複数のエンコードされた音声サンプル上で前記追加の行動的又は精神的状態を検出するために追加の分類器を訓練するステップであって、前記複数のエンコードされた音声サンプルのうちのエンコードされた音声サンプルが、前記エンコードされた音声サンプルを提供した対象者が前記追加の行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられる、ステップ、をさらに含む、請求項６７に記載の方法。
前記行動的又は精神的健康状態が不安症であり、前記さらなる行動的又は精神的健康状態がうつ病である、請求項６８に記載の方法。
（ｂ）における前記微調整が、前記言語モデルにおける異なる層の識別的微調整を含む、請求項６２に記載の方法。
（ｂ）における前記微調整が、前記言語モデルの層を訓練するために傾斜三角形学習率を使用するステップを含む、請求項６２に記載の方法。
前記分類器が、二値分類器及び回帰分類器を含み、（ｃ）の前記訓練が、（ｉ）試験対象者が前記行動的又は精神的健康状態を有するかどうかを予測するように前記二値分類器を訓練すること、及び（ｉｉ）前記対象者における前記行動的又は精神的健康状態の重症度を示す数値スコアを予測するように前記回帰分類器を訓練するステップを含む、請求項６２に記載の方法。
前記自然言語処理モデルの出力は、前記二値分類器の出力及び前記回帰分類器の出力に少なくとも部分的に基づく、請求項７２に記載の方法。
（ｃ）に続いて、
（ｄ）対象者から音声サンプルを取得するステップと、
（ｅ）前記自然言語処理モデルを使用して前記音声サンプルを処理し、前記試験対象者が前記行動的又は精神的健康状態を有するかどうかを予測するステップと、
をさらに含む、請求項６２に記載の方法。
前記音声サンプルが、複数のクエリに対する複数の応答を含み、（ｅ）が、前記自然言語処理モデルを使用して前記音声サンプルを複数回処理するステップを含み、前記複数の応答が、前記複数回の毎回異なる順序で配置される、請求項７４に記載の方法。
前記自然言語処理モデルが、前記複数の対象者からの前記複数の音声サンプルを転写するための自動音声認識モデルを含む、請求項６２に記載の方法。
前記自然言語処理モデルが、前記複数の転写された音声サンプルをエンコードするためのエンコーダを備える、請求項７６に記載の方法。
前記エンコーダが、ｎグラムモデル、スキップグラムモデル、ニューラルネットワーク、及びバイトペアエンコーダからなる群から選択される、請求項７７に記載の方法。
前記ラベルが、標準化された精神健康アンケートの結果である、請求項６２に記載の方法。
対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いかどうかを判定するための方法であって、
（ａ）前記対象者から音声データを取得するステップと、
（ｂ）前記音声データ内の少なくとも１つの言語特徴及び少なくとも１つの音響特徴を識別するために前記音声データを処理するコンピュータ処理のステップと、
（ｃ）前記少なくとも１つの言語特徴及び前記少なくとも１つの音響特徴をコンピュータ処理して１つ又は複数のスコアを生成し、前記１つ又は複数のスコアを使用して、前記対象者が前記行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかの判定を生成するステップと、
（ｄ）（ｃ）で生成された前記判定の指示を含む電子レポートを出力するステップであって、（ｂ）～（ｄ）が５分未満で実行され、（ｃ）で生成された前記判定が少なくとも約０．７０の曲線下面積（ＡＵＣ）を有する、ステップと、
を含む、方法。
前記ＡＵＣが少なくとも約０．７５である、請求項８０に記載の方法。
前記ＡＵＣが少なくとも約０．８０である、請求項８１に記載の方法。
前記電子レポートは、前記判定が、前記対象者が前記行動的又は精神的健康状態を有する、又は有する可能性が高いことを示す場合、前記行動的又は精神的健康状態に関連する心理教育資料を含む、請求項８０に記載の方法。
対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いと判定するための方法であって、
（ａ）前記対象者から音声データを取得するステップと、
（ｂ）前記音声データ内の少なくとも１つの音声特徴及び少なくとも１つの音響特徴を識別するために前記音声データを処理するコンピュータ処理のステップと、
（ｃ）前記少なくとも１つの音声特徴及び前記少なくとも１つの音響特徴をコンピュータ処理して、前記対象者が前記行動的又は精神的健康状態を有するか、又は有する可能性があるかという判定を提供するステップと、
（ｄ）（ｃ）で提供された前記判定を示す電子レポートを出力するステップと、を含み、
（ｂ）又は（ｃ）の前記コンピュータ処理が、（ｃ）で提供される前記判定の感度又は特異性を含む少なくとも１つの性能メトリックを最適化する、方法。
対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いかどうかを判定するための方法であって、
（ａ）前記対象者と医療提供者との間の遠隔医療アプリケーションの遠隔医療セッション中に、前記対象者のオーディオストリーム及びビデオストリームを取得するステップと、
（ｂ）音響モデル、自然言語処理モデル（ＮＬＰ）、及びビデオモデルを含む１つ又は複数のモデルを取得するステップであって、前記対象者が前記行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを判定するように１つ又は複数のモデルが訓練される、取得するステップと、
（ｃ）前記オーディオストリーム又は前記ビデオストリームを前記１つ又は複数のモデルで処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを示す判定を生成するステップと、
（ｄ）前記遠隔医療セッションが進行している間に、前記決定を、前記医療提供者のユーザデバイス上で実行されている前記健康アプリケーションのユーザインターフェースに送信するステップと、
を含む、方法。
前記自然言語処理モデルを使用して前記オーディオストリーム内の１つ又は複数のトピック又は単語を決定し、前記１つ又は複数のトピック又は単語を前記ユーザインターフェースに送信するステップをさらに含む、請求項８５に記載の方法。
前記判定が前記判定の信頼区間を含む、請求項８５に記載の方法。
前記遠隔医療セッション中に（ａ）～（ｄ）を連続的に繰り返すステップをさらに含む、請求項８５に記載の方法。
（ｂ）が、前記対象者に関する人口統計学的又は病歴情報に少なくとも部分的に基づいて前記１つ又は複数のモデルを選択するステップを含む、請求項８５に記載の方法。