JP2022553749A - 速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル - Google Patents

速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル Download PDF

Info

Publication number
JP2022553749A
JP2022553749A JP2022524161A JP2022524161A JP2022553749A JP 2022553749 A JP2022553749 A JP 2022553749A JP 2022524161 A JP2022524161 A JP 2022524161A JP 2022524161 A JP2022524161 A JP 2022524161A JP 2022553749 A JP2022553749 A JP 2022553749A
Authority
JP
Japan
Prior art keywords
behavioral
subject
mental health
health condition
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022524161A
Other languages
English (en)
Other versions
JPWO2021081418A5 (ja
Inventor
シュリバーグ,エリザベス
ハラティネハド・トルバティ,アミール・ホセイン
ルトフスキ,トマシュ
アラトフ,ミハイル
イスラーム,マイヌル
ルー,ヤン
フレベク,ピョートル
マクール,メリッサ
リン,デイビッド
Original Assignee
エリプシス・ヘルス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エリプシス・ヘルス・インコーポレイテッド filed Critical エリプシス・ヘルス・インコーポレイテッド
Publication of JP2022553749A publication Critical patent/JP2022553749A/ja
Publication of JPWO2021081418A5 publication Critical patent/JPWO2021081418A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0204Acoustic sensors

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Psychiatry (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Informatics (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychology (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Epidemiology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本開示は、対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するための音響自然言語処理(NLP)モデルを提供する。【選択図】図6

Description

相互参照
本出願は、2019年10月25日に出願された米国仮特許出願第62/926,245号、2020年5月7日に出願された米国仮特許出願第63/021,617号、2020年5月7日に出願された米国仮特許出願第63/021,625号、2020年5月19日に出願された米国仮特許出願第63/027,238号、及び2020年5月19日に出願された米国仮特許出願第63/027,240号の優先権を主張し、これらの各々は、その全体が参照により本明細書に組み込まれる。
行動的健康状態及び精神的健康状態は、集団において一般的であり、社会にとって重大な費用を有し得る。このような状態には治療法が利用可能であるが、複数の人が診断されない可能性がある。
本開示は、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測する際に使用するための改善された音響モデルを提供する。本開示はまた、そのようなモデルを訓練するための方法を提供する。本明細書に記載の音響モデルは、自動音声認識(「automatic speech recognition:ASR」)システムを有し得る。ASRシステムは、エンコーダ及びデコーダを有し得る。エンコーダ及びデコーダは、行動的又は精神的健康とは無関係の転写された音声データについて訓練されてもよい。音響モデルはまた、分類器を有してもよい。ASRシステムが訓練された後、デコーダは破棄されてもよく、分類器は、対象者の行動的又は精神的健康状態を有すると判定された対象者に由来するものとして、又は由来しないものとしてラベル付けされた音声データについて訓練されてもよい。エンコーダは、分類器と共に訓練することができ、又は凍結することができる。この訓練スキームは、このタイプの音響モデルを訓練するために必要とされる行動的又は精神的健康に関連する訓練データの量を低減することができる。さらに、本明細書に記載のエンドツーエンド音響モデルは、既存の音響モデルよりも、対象者が関心のある行動的又は精神的健康状態を有するかどうかをより正確に予測することができる。特に、患者がうつ病を有するかどうかを予測する際に、本明細書に記載のエンドツーエンド音響モデルは、0.75~0.79の曲線下面積(「area-under-the-curve:AUC」)、0.68の特異性、及び0.68の感度を有することが実証されている。既存のiベクトル及び畳み込みニューラルネットワーク(「convolutional neural network:CNN」)モデルは、AUC、特異性、及び感度がそれぞれ0.60、0.58、及び0.58、並びに0.64、0.60、及び0.60しかない。
エンコーダ及び分類器に加えて、音響モデルはセグメント融合モデルも含む。音響システムは、一度に単一のオーディオセグメントを処理することができる。セグメント融合は、セグメントレベル出力からの情報を組み合わせることによってセッションレベル音響モデルスコアを出力することができる。音響システムは、分類器によって生成された各セグメントのすべての予測の平均を計算することができる。より複雑なバージョンは、分類器モジュールによって生成されたセグメントのいくつかの表現を使用し、次いで、これらの入力から最終予測を計算するために他の機械学習方法を使用することができる。これらの方法は、LSTM、RCNN、複数層パーセプトロン(「multi-layer perceptron:MLP」)、ランダムフォレスト、及び他のモデルを含み得る。単純な平均に対するより複雑な組み合わせ方法は、大きな利得(例えば、AUC 0.79対0.75)をもたらし得る。より複雑な方法を使用しても、基礎となるセグメントのモデリングを変更することはできず、利得は、セグメント出力のより良好な融合によって純粋に得ることができる。
本開示はまた、自然言語処理(「natural language processing:NLP」)モデルを使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム及び方法を提供する。本明細書に記載のNLPモデルは、エンコーダ、言語モデル、及び1つ又は複数の分類器を有し得る。エンコーダは、対象者から転写された音声サンプルを受信し、エンコードされた音声サンプル(例えば、実数値ベクトル)を生成することができる。言語モデル及び分類器は、エンコードされた音声サンプルを処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す予測を生成することができる。言語モデルは、最初に、必ずしも行動的又は精神的健康状態に関連しないエンコードベースの表現で訓練されてもよい。例えば、言語モデルは、Wikipediaの記事のコーパスで訓練されてもよい。次いで、言語モデルは、行動的又は精神的健康状態に関連するエンコードテキストで微調整することができる。その後、1つ又は複数の分類器を訓練して、対象者が行動的又は精神的健康状態を有するかどうかを予測することができる。分類器の訓練データは、複数の対象者からの複数の転写及びエンコードされた音声サンプルを含み得る。各音声サンプルは、音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられ得る。
上記の訓練プロセスは、自動化された精神衛生検出の技術分野にいくつかの改善を提供することができる。言語モデルを事前訓練して確定するための一般的かつドメイン固有のテキストコーパスの使用は、エンドツーエンドNLPを訓練するために必要なラベル付き音声サンプルの数を低減することができる。さらに、事前訓練され微調整された言語モデルは、異なる行動的又は精神的健康状態を検出する異なるエンドツーエンドNLPモデルで使用することができる。複数のタスクのためのそのような言語モデルの再使用は、訓練時間をさらに短縮することができる。
上述した音響モデル及びNLPモデルは、互いに融合されて、より堅牢な複合モデルを生成することができる。
一態様では、本開示は、エンコーダ及び分類器を含む音響モデルを用いて対象者における行動的又は精神的健康状態を検出するための方法を提供し、本方法は、(a)対象者から複数の音声セグメントを含む音声サンプルを取得するステップであって、(b)音声サンプルをエンコーダで処理して、音声サンプルの抽象的な特徴表現を生成するステップであって、エンコーダは、対象者における行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するように事前訓練された、ステップと、(c)抽象的な特徴表現を分類器で処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、分類器は、複数の話者からの複数の音声サンプルを含む訓練データセットについて訓練されており、複数の音声サンプルの音声サンプルは、行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、を含む。いくつかの実施形態では、本方法は、(b)の前に、音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。いくつかの実施形態では、第1のタスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、(a)は、遠隔医療セッション中に音声サンプルを取得することを含む。いくつかの実施形態では、(a)は、対象者のモバイルデバイスから音声サンプルを取得することを含み、(b)及び(c)は、モバイルデバイス上で少なくとも部分的に実行される。いくつかの実施形態では、(b)及び(c)は、遠隔サーバ上で少なくとも部分的に実行される。いくつかの実施形態では、本方法は、笑いモデル、呼吸モデル、又は一時停止モデルを含む非発話モデルで音声サンプルを処理するステップをさらに含む。いくつかの実施形態では、本方法は、(b)の前に、音声サンプルが品質閾値を満たすかどうかを判定するステップをさらに含む。
別の態様では、本開示は、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を提供し、音響モデルは、エンコーダ及び分類器を含み、本方法は、(a)第1の訓練データセット上で、対象者の行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するためにエンコーダを訓練するステップを含む。(b)(a)に続いて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、第1の訓練データセットとは異なる第2の訓練データセット上で、エンコーダ及び分類器を訓練するステップであって、第2の訓練データセットは、複数の話者からの複数の音声サンプルを含み、複数の音声サンプルの音声サンプルは、関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、を含む。いくつかの実施形態では、第1のタスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、(b)は、エンコーダからの音声サンプルの抽象的な特徴表現を処理して出力を生成するように分類器を訓練することを含む。いくつかの実施形態では、(b)の間、エンコーダは固定される。いくつかの実施形態では、(b)の間、エンコーダは固定されない。いくつかの実施形態では、(a)及び(b)は教師あり学習プロセスである。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。
別の態様において、本開示は、対象者における行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を提供し、本方法は、(a)第1の訓練データセットにおいて、音声サンプルを転写するための自動音声認識(ASR)システムを訓練するステップであって、ASRシステムは、エンコーダ及びデコーダを備える、ステップと、(b)デコーダを破棄するステップと、(c)第1の訓練データセットとは異なる第2の訓練データセット上で、対象者からの音声サンプルを処理して、対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、エンコーダ及び分類器を訓練するステップであって、第2の訓練データセットは、行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、を含む。いくつかの実施形態では、本方法は、(a)の前に、複数のラベル化されていない音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、本方法は、(c)の前に、複数のラベル付き音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む。いくつかの実施形態では、(a)が、音声サンプルの抽象的な特徴表現を生成するようにエンコーダを訓練するステップと、音声サンプルの抽象的な特徴表現を処理して、転写された音声サンプルを生成するようにデコーダを訓練するステップと、を含む。いくつかの実施形態では、(c)は、出力を生成するためにエンコーダからの音声サンプルの抽象的な特徴表現を処理するように分類器を訓練することを含む。いくつかの実施形態では、(c)の間、エンコーダは固定される。いくつかの実施形態では、(c)の間、エンコーダは固定されない。いくつかの実施形態では、(a)及び(c)は教師あり学習プロセスである。いくつかの実施形態では、本方法は、複数のラベル付き音声サンプルと、複数のラベル付き音声サンプルを生成した複数の話者に関するメタデータとを含む第3の訓練データセット上で分類器を訓練するステップをさらに含む。いくつかの実施形態では、メタデータは、複数の話者のそれぞれの年齢、人種、民族、性別(sex)、性(gender)、収入、教育、場所、又は病歴のうちの1つ又は複数を含む。いくつかの実施形態では、エンコーダは、畳み込みニューラルネットワーク(convolutional neural network:CNN)及び長期短期記憶ネットワーク(long short-term memory network:LSTM)を備える。いくつかの実施形態では、CNNはビジュアル・ジオメトリ・グループ(Visual Geometry Group:VGG)ネットワークである。いくつかの実施形態では、分類器は、リカレント畳み込みニューラルネットワーク(recurrent convolutional neural network:RCNN)、注意付きLSTM、自己注意ネットワーク、及び変換器からなる群から選択されるモデルを含む。いくつかの実施形態では、分類器は二値分類器であり、出力は、対象者が行動的又は精神的健康状態を有するか否かを示す二値出力である。いくつかの実施形態では、分類器は複数クラス分類器であり、出力は、対象者における行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、対象者からの音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、方法は、セグメント出力を融合して対象者の行動的又は精神的健康状態を検出することをさらに含む。
別の態様では、本開示は、自然言語処理(NLP)モデルを使用して対象者における行動的又は精神的健康状態を検出する方法を提供し、NLPモデルは言語モデル及び1つ又は複数の分類器を含み、方法は、(a)対象者からの複数の音声セグメントを含む音声サンプルを取得するステップと、(b)音声サンプル又はその派生物を言語モデルで処理して言語モデル出力を生成するステップであって、言語モデルが第1のデータセット及び第2のデータセットで訓練されており、第1のデータセットが行動的又は精神的健康状態に関連しないテキストを含み、第2のデータセットが行動的又は精神的健康状態に関連するテキストを含み、第1のデータセットが第2のデータセットよりも実質的に大きい、ステップと、(c)対象者が行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、1つ又は複数の分類器を用いて言語モデル出力を処理するステップと、を含む。いくつかの実施形態では、本方法は、(b)の前に、転写された音声サンプルを生成するために音声サンプルを転写するステップと、エンコーダを使用して転写された音声サンプルの埋め込みを生成するステップと、をさらに含む。いくつかの実施形態では、言語モデルは、長期短期記憶(LSTM)ネットワーク又は変換器を含む。いくつかの実施形態では、1つ又は複数の分類器は、二値分類器を含み、(c)は、対象者が行動的又は精神的健康状態を有するか、又は行動的又は精神的健康状態を有しないかを示す二値分類を生成することを含む。いくつかの実施形態では、1つ又は複数の分類器は回帰分類器を含み、(c)は、対象者の行動的又は精神的健康状態の複数のレベル又は重大度にわたって確率分布を生成することを含む。いくつかの実施形態では、本方法は、出力を生成するために二値分類及び確率分布を融合するステップをさらに含む。いくつかの実施形態では、第1のデータセットは、公開されている利用可能なテキストコーパスを含む。
別の態様では、本開示は、行動的又は精神的健康状態を検出するために自然言語処理モデルを訓練するための方法を提供し、自然言語処理モデルは、(i)言語モデル及び(ii)分類器を含み、方法は、(a)第1のエンコードテキストで言語モデルを訓練するステップであって、第1のエンコードテキストは、行動的又は精神的健康状態とは無関係のテキストを含む、ステップと、(b)第2のエンコードテキスト、及び任意選択的にメタデータ情報で言語モデルを微調整するステップであって、第2のエンコードテキストが、行動的又は精神的健康状態に関連するテキストを含む、ステップと、(c)複数の対象者からの複数のエンコードされた音声サンプル上で行動的又は精神的状態を検出するように分類器を訓練するステップであって、複数のエンコードされた音声サンプルのエンコードされた音声サンプルは、エンコードされた音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示すラベル及び任意選択のメタデータ情報と関連付けられる、ステップと、を含む。いくつかの実施形態では、言語モデルは、長期短期記憶(LSTM)ネットワークを含む。いくつかの実施形態では、(a)の訓練は、非単調確率的勾配降下プロセスを含む。いくつかの実施形態では、(a)の訓練は、ドロップアウト又はDropConnect操作を含む。いくつかの実施形態では、言語モデルは変換器を含む。いくつかの実施形態では、第2のエンコードテキストは、追加の行動的又は精神的健康状態に関連するテキストを含み、(b)の微調整は、マルチタスク学習を含む。いくつかの実施形態では、本方法は、複数の対象者からの複数のエンコードされた音声サンプル上の追加の行動的又は精神的状態を検出するために追加の分類器を訓練するステップをさらに含み、複数のエンコードされた音声サンプルのエンコードされた音声サンプルは、エンコードされた音声サンプルを提供した対象者が追加の行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられる。いくつかの実施形態では、行動的又は精神的健康状態は不安症であり、追加の行動的又は精神的健康状態はうつ病である。いくつかの実施形態では、(b)の微調整は、言語モデルの異なる層の識別的微調整を含む。いくつかの実施形態では、(b)の微調整は、言語モデルの層を訓練するために傾斜三角形学習率を使用することを含む。いくつかの実施形態では、分類器は、二値分類器及び回帰分類器を含み、(c)の訓練は、(i)試験対象者が行動的又は精神的健康状態を有するか否かを予測するために二値分類器を訓練すること、及び(ii)対象者の行動的又は精神的健康状態の重症度を示す数値スコアを予測するために回帰分類器を訓練することを含む。いくつかの実施形態では、自然言語処理モデルの出力は、二値分類器の出力及び回帰分類器の出力に少なくとも部分的に基づく。いくつかの実施形態では、本方法は、(c)に続いて、(d)対象者から音声サンプルを得るステップと、(e)自然言語処理モデルを使用して音声サンプルを処理し、試験対象者が行動的又は精神的健康状態を有するかどうかを予測するステップと、をさらに含む。いくつかの実施形態では、音声サンプルは、複数のクエリに対する複数の応答を含み、(e)は、音声サンプルを複数回処理するために自然言語処理モデルを使用することを含み、複数の応答は、複数回の毎回異なる順序で配置される。いくつかの実施形態では、自然言語処理モデルは、複数の対象者からの複数の音声サンプルを転写するための自動音声認識モデルを含む。いくつかの実施形態では、自然言語処理モデルは、複数の転写された音声サンプルをエンコードするためのエンコーダを備える。いくつかの実施形態では、エンコーダは、nグラムモデル、スキップグラムモデル、ニューラルネットワーク、及びバイトペアエンコーダからなる群から選択される。いくつかの実施形態では、ラベルは、標準化された精神健康アンケートの結果である。
別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかを判定する方法であって、(a)対象者から音声データを取得するステップと、(b)音声データをコンピュータ処理して、音声データ内の少なくとも1つの言語特徴及び少なくとも1つの音響特徴を識別するステップと、(c)少なくとも1つの言語特徴及び少なくとも1つの音響特徴をコンピュータ処理して1つ又は複数のスコアを生成し、1つ又は複数のスコアを使用して、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかの判定を生成するステップと、(d)(c)で生成された判定の指示を含む電子レポートを出力するステップであって、(b)~(d)は5分未満で実行され、(c)で生成された判定は少なくとも約0.70の曲線下面積(AUC)を有する、ステップと、を含む方法を提供する。いくつかの実施形態において、AUCは、少なくとも約0.75である。いくつかの実施形態において、AUCは、少なくとも約0.80である。いくつかの実施形態では、電子レポートは、判定が、対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いことを示す場合、行動的又は精神的健康状態に関する心理教育資料を含む。
別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いと判定する方法であって、(a)対象者から音声データを取得するステップと、(b)音声データをコンピュータ処理して、音声データ内の少なくとも1つの音声特徴及び少なくとも1つの音響特徴を識別するステップと、(c)少なくとも1つの音声特徴及び少なくとも1つの音響特徴をコンピュータ処理して、対象者が行動的又は精神的健康状態を有する、又は有する可能性があるという判定を提供するステップと、(d)(c)で提供された判定を示す電子レポートを出力するステップであって、(b)又は(c)のコンピュータ処理が、(c)で提供された判定の感度又は特異性を含む少なくとも1つの性能メトリックを最適化する、ステップと、を含む方法を提供する。
別の態様では、本開示は、対象者が行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかを判定するための方法を提供し、本方法は、(a)対象者と医療提供者との間の遠隔医療アプリケーションの遠隔医療セッション中に、対象者のオーディオストリーム及びビデオストリームを取得するステップと、(b)音響モデル、自然言語処理モデル(NLP)、及びビデオモデルを含む1つ又は複数のモデルを取得するステップであって、1つ又は複数のモデルが、対象者が行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを判定するように訓練される、ステップと、(c)オーディオストリーム又はビデオストリームを1つ又は複数のモデルで処理して、対象者が行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを示す判定を生成するステップと、(d)遠隔医療セッションが進行している間に、医療提供者のユーザデバイス上で実行されている健康アプリケーションのユーザインターフェースに決定を送信するステップと、を含む。いくつかの実施形態では、本方法は、自然言語処理モデルを使用してオーディオストリーム内の1つ又は複数のトピック又は単語を決定し、1つ又は複数のトピック又は単語をユーザインターフェースに送信するステップをさらに含む。いくつかの実施形態では、判定は、判定の信頼区間を含む。いくつかの実施形態では、本方法は、遠隔医療セッション中に(a)~(d)を連続的に繰り返すステップをさらに含む。いくつかの実施形態では、(b)は、対象者に関する人口統計学的又は病歴情報に少なくとも部分的に基づいて1つ又は複数のモデルを選択することを含む。
本開示の別の態様は、1つ又は複数のコンピュータプロセッサによって実行されると、上記又は本明細書の他の箇所に記載されたシステムを実装する機械実行可能コードを含む非一時的コンピュータ可読媒体を提供する。
本開示の別の態様は、1つ又は複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを備えるシステムを提供する。コンピュータメモリは、1つ又は複数のコンピュータプロセッサによって実行されると、上記又は本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む。
別の態様では、本開示は、1つ又は複数のコンピュータプロセッサと、1つ又は複数のコンピュータプロセッサによる実行時に、1つ又は複数のコンピュータプロセッサに、対象者からの複数のセグメントを含む入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成された音響モデルを実装させる機械実行可能命令を含むメモリであって、音響モデルは、入力音声の抽象的表現を生成するように構成されたエンコーダであって、エンコーダは、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測すること以外のタスクを実行するために、転移学習フレームワークを使用して事前訓練される、エンコーダを含む、メモリと、入力音声の抽象的表現を処理して、対象者が関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するように構成された少なくとも1つの分類器であって、少なくとも1つの分類器は、関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた音声サンプルについて訓練されている、少なくとも1つの分類器と、を備える、システムを提供する。いくつかの実施形態では、エンコーダは、ビジュアル・ジオメトリ・グループ(「VGG」)ネットワーク及び長期短期記憶(「LSTM」)ネットワークのスタックを含む。いくつかの実施形態では、少なくとも1つの分類器は、リカレント畳み込みニューラルネットワーク(「RCNN」)、注意付きLSTM、自己注意ネットワーク、又は変換器からなる群から選択されるモデルを含む。いくつかの実施形態では、少なくとも1つの分類器は、出力を生成するために対象者に関するメタデータを処理するようにさらに構成される。いくつかの実施形態では、メタデータは、対象者の年齢又は性別を含む。いくつかの実施形態では、エンコーダは、デコーダで転写された音声サンプルについて訓練され、デコーダはシステムの一部ではない。いくつかの実施形態では、タスクは、自動音声認識、話者認識、感情分類、又は音分類である。いくつかの実施形態では、セグメント出力は平均化される。いくつかの実施形態では、セグメント出力は、機械学習アルゴリズムを使用して融合される。いくつかの実施形態では、エンコーダはデコーダで事前訓練され、エンコーダ及びデコーダは自動音声認識(ASR)システムを備える。いくつかの実施形態では、デコーダは、注意ユニット、長期短期記憶ネットワーク、及びビーム探索ユニットのうちの1つ又は複数を含む。いくつかの実施形態では、少なくとも1つの分類器は、二値分類器を含む。いくつかの実施形態では、少なくとも1つの分類器は、複数クラス分類器を含み、出力は、対象者における関心のある行動的又は精神的健康状態の複数の重大度にわたる確率分布を含む。いくつかの実施形態では、出力は、入力音声の複数のセグメントの各セグメントについてのセグメント出力であり、システムは、予測された精神状態を取得するために、少なくとも1つの分類器のセグメント出力の学習された表現を融合するように構成されたセグメント融合モジュールをさらに備える。
本開示のさらなる態様及び利点は、本開示の例示的な実施形態のみが示され説明される以下の詳細な説明から当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正が可能である。したがって、図面及び説明は、本質的に例示と見なされるべきであり、限定と見なされるべきではない。
参照による組み込み
本明細書で言及されるすべての刊行物、特許、及び特許出願は、あたかも各個々の刊行物、特許、又は特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物及び特許又は特許出願が本明細書に含まれる開示と矛盾する限り、本明細書は、そのような矛盾する材料に取って代わる及び/又は優先することを意図している。
本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴及び利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、及び添付の図面(本明細書では「図」及び「図」もまた)を参照することによって得られるであろう。
対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成されたシステムを概略的に示す図である。 入力音声から対象者に関するメタデータを予測するためのメタデータ部を模式的に示す図である。 入力音声からiベクトルを推定するように構成されたiベクトル推定器を概略的に示す図である。 図1のシステムを訓練するための例示的なプロセスのフローチャートである。 図1のシステムを訓練するための別の例示的なプロセスのフローチャートである。 対象者に関する音声データ、ビデオデータ、及び/又はメタデータを使用して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視するように構成されたシステムを概略的に示す図である。 セグメント融合モジュールを概略的に示す図である。 本明細書で提供される方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステムを示す図である。 自然言語処理(「NLP」)モデルを使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステムを概略的に示す図である。 図9のNLPモデルを訓練するための例示的なプロセスのフローチャートである。 データセットにおける患者健康質問票-8(「Patient Health Questionnaire-8:PHQ-8」)及び全般性不安障害-7(「Generalized Anxiety Disorder-7:GAD-7」)スコアの分布を示すチャートである。 図11のスコアの行列である。 生のPHQ-8スコア及びGAD-7スコアを予測する際の訓練済モデルの精度を示すチャートである。 様々な訓練モデルのROCを示すチャートである。 データの2つのコーパスにおける年齢分布を示す棒グラフである。 図15からのデータの2つのコーパスに対するPHQ-8スコアの分布を示すチャートである。 訓練済モデルの二値分類結果を示すチャートである。 各年齢バケットのデータカウント及び各年齢バケットのROCを示すチャートである。 遠隔医療システムを概略的に示す図である。 音響モデルとNLPモデルの性能データを示す図である。
本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、複数の変形、変更、及び置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。
「少なくとも」、「より大きい」、又は「以上」という用語が2つ以上の一連の数値の第1の数値に先行するときはいつでも、「少なくとも」、「より大きい」、又は「以上」という用語は、その一連の数値の各数値に適用される。例えば、1、2、又は3以上は、1以上、2以上、又は3以上に等しい。
「以下」、「未満」、又は「以下」という用語が2つ以上の一連の数値の第1の数値に先行するときはいつでも、「以下」、「未満」、又は「以下」という用語は、その一連の数値の各数値に適用される。例えば、3、2、又は1以下は、3以下、2以下、又は1以下と等価である。
音響モデル
図1は、対象者からの入力音声に少なくとも部分的に基づいて、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成されたシステム100を概略的に示す。行動的又は精神的な健康状態は、疲労、寂しさ、低い動機、ストレス、うつ病、不安症、薬物又はアルコール中毒、心的外傷後ストレス障害(「post-traumatic stress disorder:PTSD」)、統合失調症、双極性障害、認知症、自殺念慮などであり得る。行動的又は精神的健康状態は、精神障害の診断及び統計マニュアルに関連するか、又はそれと併存するか、又は定義され得る。
システム100は、インターネット接続デバイス上にあるか、又はインターネット接続デバイス(例えば、ブルートゥース(登録商標)接続を介して)に接続されたマイクロフォン又はマイクロフォンアレイを介して入力音声を取得することができる。デバイスは、ウェアラブルデバイス(例えば、スマートウォッチ)、携帯電話、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカ、ホーム支援デバイス(例えば、Amazon Alexa(登録商標)デバイス又はGoogle Home(登録商標)デバイス)などであってもよい。デバイスは、精神衛生アプリケーションを有してもよい。精神衛生アプリケーションは、対象者の仕事及び家庭生活、睡眠、気分、病歴などに関する質問に回答するように対象者に視覚的又は聴覚的に促すことができる。プロンプトに対する対象者の回答は、入力音声として使用されてもよい。システム100は、モバイルアプリケーション上に実装することができ、対象者のモバイルデバイス上でローカルに入力音声を処理することができる。代替的又は追加的に、モバイルデバイスは、処理のために遠隔地に音声を送信することができる。場合によっては、処理は、部分的にローカルデバイス上で、及び部分的に遠隔サーバ上で実行されてもよい。
代替的又は追加的に、入力音声は、医療専門家との臨床的な遭遇を介して取得されてもよい。例えば、録音デバイスは、医師の予約中に対象者からの音声を取り込むことができる。医師の予約は、直接予約であっても遠隔で行われる遠隔医療予約であってもよい。
システム100は、エンコーダ・サブシステム110、デコーダ・サブシステム120、及び分類サブシステム130を有し得る。システム100及びそのサブシステムは、1つ又は複数の場所の1つ又は複数のコンピュータに実装することができる。
エンコーダ・サブシステム110とデコーダ・サブシステム120は一緒に、入力音声の書き写しを生成する自動音声認識(「ASR」)システムを形成してもよい。一般に、エンコーダ・サブシステム110は、入力音声から高レベルの音響特徴を生成することができる。デコーダ・サブシステム120は、高レベルの音響特徴を消費して、文字列にわたる確率分布を生成することができる。システムは、確率分布からサンプリングして、入力音声の転写を生成することができる。
エンコーダ・サブシステム110は、最初に、行動的又は精神的健康状態の予測以外のタスクについて訓練することができる。例えば、エンコーダは、自動音声認識、感情分類、音分類などのタスクのためにデコーダと共に訓練することができる。この訓練は完全である必要はない。エンコーダの部分的な訓練であっても、エンコーダを事前訓練しない場合よりも性能を向上させることができる。エンコーダを訓練した後、最初のタスクのデコーダを破棄することができ、エンコーダを、関心のある行動的又は精神的健康状態を予測する意図されたタスクのために使用することができる。これは転移学習として知られている。
エンコーダ・サブシステム110は、畳み込みニューラルネットワーク(「CNN」)112を有してもよい。CNN112は、畳み込み層及び完全接続層を有し得る。CNN112は、少なくとも約1、2、3、4、5、6、7、8、9、10以上の畳み込み層を有してもよい。CNNは、最大で約10、9、8、7、6、5、4、3、2、又は1つの畳み込み層を有し得る。CNN112は、少なくとも約1、2、3、4、又はそれ以上の完全接続層を有し得る。CNN112は、最大で約4、3、2、又は1の全結合層を有し得る。CNN112への入力は、スペクトログラム特徴であってもよい。スペクトログラム特徴は、入力音声の5秒のセグメントにわたって25ミリ秒のウィンドウ及び10ミリ秒のフレームレートを有し得る。他の場合には、入力は他のフロントエンド特徴であってもよい。CNN112は、ビジュアル・ジオメトリ・グループ(「VGG」)ネットワークとすることができる。VGGネットワークは、高レベルの音響特徴の表現を改善することができる。
LSTMネットワーク114は、少なくとも約1、2、3、4、5、6、7、8、9、10、15、20、又はそれ以上のLSTM層を有し得る。LSTMネットワーク114は、少なくとも約1、2、3、4、5、6、又はそれ以上の完全接続層を有し得る。LSTMネットワーク114への入力は、CNN112の出力であってもよい。MFCCは、入力音声全体にわたって25ミリ秒のウィンドウ及び10ミリ秒のフレームレートを有し得る。場合によっては、LSTMネットワーク114は、双方向LSTM(bidirectional LSTM:BLSTM)であってもよい。
デコーダ・サブシステム120は、エンコーダ・サブシステム110から高レベル音響特徴を受信する注意ユニット122及びLSTMネットワーク124を有し得る。注意ユニット122は、LSTMネットワーク124が出力ステップごとに高レベル音響特徴のサブセットに集中する(又は「注意する」)ことを可能にし得る。注意ユニット122及びLSTMネットワーク124は、文字列にわたる確率分布を生成することができる。注意ユニット122及びLSTMネットワーク124は、コネクショニスト時系列分類(「connectionist temporal classification:CTC」)機能を用いて訓練することができる。デコーダ・サブシステム120は、LSTMネットワーク124から文字シーケンス上の確率分布を受信し、確率分布から生じる可能な転写をトラバースし、特定の基準に従って最良の転写を選択するビーム探索ユニット126をさらに有し得る。
場合によっては、デコーダ・サブシステム120は、システム100の訓練中にのみ使用されてもよい。すなわち、デコーダ・サブシステム120は、推論中に非アクティブ化又は破棄されてもよい。システム100の訓練は、後続の図を参照してより詳細に説明される。分類器ネットワーク132は、単一のセグメントに対する決定を生成することができる。(複数のセグメントからなる)セッション全体についての決定を生成するために、システムは、セグメント融合モジュール140に、分類器ネットワーク132の内部層のうちの1つ(通常は最後までの層)を供給することができる。次いで、セグメント融合モジュール140は、セッション全体の単一の予測を生成することができる。いくつかの実施形態では、セグメント融合モジュールは、予測のためにMLP、LSTM、RCNN、ランダムフォレスト、又は同様の手法を使用することができる。セグメント融合モジュール140はまた、モダリティが異なるモデル(音響、NLP、画像処理など)を含む、異なる基礎モデルを互いに組み合わせるために使用されてもよい。
分類サブシステム130は、デコーダ・サブシステム120と同様に、エンコーダ・サブシステム110から高レベルの音響特徴を受信することができる。分類サブシステム130は、高レベルの音響特徴を処理して、対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測することができる。より具体的には、分類(「セグメント出力」)サブシステム130の出力は、対象者の状態(例えば、うつ病又は双極性障害)を有する対象者からの音声のセグメントの事後確率であってもよい。分類サブシステム130は、分類器ネットワーク132を有し得る。分類器ネットワーク132は、リカレントCNN(「recurrent CNN:RCNN」)、注意付きLSTM、自己注意ネットワーク、又は変換器であってもよい。分類器ネットワーク132は、回帰、順序予測、二値分類、マルチクラス分類などを実行することができる。二値分類の場合、分類器ネットワーク132は、対象者が行動障害又は精神障害を有するかどうかに関する二値予測を行うことができる。マルチクラス分類の場合、分類器ネットワーク132は、対象者(例えば、対象者のPHQ-9スコア又はGAD-7スコア)における行動又は精神衛生障害の重症度又はレベルを予測することができる。
システム100は、メタデータ及び/又は識別ベクトル(「identity vector:iベクトル」)を使用して、対象者が関心のある行動的又は精神的健康状態を有するかどうかをより正確に予測することができる。メタデータは、対象者に関するデータ、例えば、対象者の年齢、人種、民族、性別、性、収入、教育、場所、病歴などであってもよい。そのようなメタデータは、対象者の行動的又は精神的健康状態を示し得る。システム100は、データベースからメタデータを取得することができ、又は対象者からの入力音声からメタデータを予測することができる。図2は、そのような予測を行うように構成されたメタデータユニット200を概略的に示す。メタデータユニット200は、各々が対象者に関する異なる種類のメタデータを予測するように構成された複数の異なるニューラルネットワーク分類器を有し得る。例えば、メタデータユニット200は、対象者の年齢を予測するように訓練された一方のニューラルネットワーク分類器と、対象者の場所を予測するように訓練された他方のニューラルネットワーク分類器とを有し得る。一般に、メタデータユニット200は、人口統計データ、過去の病歴、時刻、場所などを予測することができる。音響モデルは、既知の又は推論されたメタデータを使用して、患者の行動又は精神の健康状態をより良好に予測することができる。
場合によっては、上記のメタデータを使用して、精神衛生アプリケーションにおける患者の経験を適合又はパーソナライズすることができる。例えば、患者が高齢である場合、精神衛生アプリケーションのフォントサイズを大きくすることができる。別の例として、質問の表現は、特定の地域の方言を使用するもの、又は特定のコンテキスト(例えば、システムは、学生に彼の家庭生活について尋ねるときに「ルームメイト」という単語を使用することができる)のものなど、特定の人口統計グループに対して調整することができる。
一方、iベクトルは、入力音声から抽出された低次元特徴であってもよい。図3は、iベクトルを推定するように構成されたiベクトル推定器300を概略的に示す。iベクトル推定器300は、ガウス混合モデルを使用して、そのようなiベクトルを推定することができる。
場合によっては、メタデータ及び/又はiベクトルは、高レベル音響特徴が分類サブシステム130に渡される前に、エンコーダ・サブシステム110からの高レベル音響特徴に付加されてもよい。いくつかの他の場合では、メタデータ及び/又はiベクトルは、代わりに分類器ネットワーク132の出力に付加され、ネットワーク134を通過することができる。ネットワーク134は、例えば、ディープ・ニューラル・ネットワーク(「deep neural network:DNN」)、ランダムフォレスト分類器、又はサポート・ベクトル・マシン(「support vector machine:SVM」)であってよい。
あるいは、システムは、転移学習を伴うエンドツーエンドモデルを使用することができる。このモデルの最初のいくつかの層(CNN及びLSTM)は、ASRタスクの助けを借りて初期化することができる。そうすることで、システムは、新しいネットワークを作成し、それを転写された音声データで訓練することができる。モデルの第1の層を事前訓練した後、システムは、分類又は予測タスクのための訓練中にそれらをフリーズするか、それらの重みを更新し続けることができる。CNN及びLSTMの事前訓練は、システムがすべての層を最初から訓練するときよりも制限的な表現をニューラルネットワークに学習させる。
エンドツーエンドモデルは、個々のオーディオセグメントから出力を生成することができる。これらのセグメントの複数を含むオーディオセッションの場合、システムは、セッションを含むすべてのセグメントからの予測を平均化することによって全体的な精神衛生予測を生成することができる。他の実施形態では、システムは、追加のニューラルネットワークを使用して個々のセグメントを融合することができる。セグメントは、分類サブシステム出力の最後の隠れ層であるベクトルによって表されてもよい。セッションごとのセグメントのシーケンスは、最大プーリングによって単一のベクトルに投影され、次いで追加のネットワーク(例えば、MLPネットワーク)に供給され得る。次いで、分類タスク又は回帰タスクのいずれかのためにモデルを訓練することができる。
システムは、自動音声認識(ASR)タスクを使用して、ネットワークの最初のいくつかの層を事前訓練することができる。事前訓練ステップは、ネットワークが正常に動作する特徴表現から開始することを可能にすることができる。最初の数層を予め訓練するために「弱い」(大きな文字誤り率)モデルを使用しても、著しい性能向上を達成することができる。
分類サブシステム130の最終層(図示せず)は、複数の出力クラス、例えば行動的又は精神的健康状態にわたって確率分布を生成するように構成されたソフトマックス層であってもよい。
上述の音響モデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の特異性を有し得る。音響モデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の感度を有し得る。音響モデルの特異性を上げるには、感度を下げる必要があり、逆もまた同様である。音響モデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の曲線下面積(「AUC」)を有し得る。音響モデルは、従来のシステムよりも少なくとも約1%、2%、3%、4%、5%、10%、15%、20%、25%、又はそれ以上の相対性能(例えば、感度、特異性又はAUC)の改善を提供することができる。
図7は、セグメント融合モジュール140を概略的に示す。セグメント融合モジュール140は、分類サブシステムからの出力である入力を受信することができる。入力は、個々のオーディオセグメントからの分類結果を反映することができる。プロセスは、患者とのオーディオセッションを含む複数のそのようなセグメントを収集することができる。システムは、セグメントを並べ、次いで最大プーリングを使用してそれらを単一のベクトルに投影し、次いでそれらを複数層パーセプトロン(「MLP」)ネットワークなどのディープ・ラーニング・ネットワークに供給することができる。次いで、モデルは、一連のセグメントに対して実行された機械学習分析からセッション全体の出力予測を生成することができる。セグメント融合モジュール140は、所与のセッションにおける音声のすべてのセグメントにわたって各セグメントの学習された表現形式(分類器の出力)を融合して、そのセッションの全体的な予測を取得することができる。その最も単純な形態では、セグメント融合モジュール140は、すべてのセグメントにわたる平均予測を計算するだけでよい。より複雑なバージョンでは、モジュールは、セッション内の各音声セグメントに対応する学習済み表現を受信し、機械学習モデルを使用してこれらの表現を組み合わせる(融合する)ことができる。学習された表現は、音声セグメントの分類器の内部層に対応することができる。組み合わせモデル又は融合モデルは、MLP、LSTM、RCNN、及び他の同様のモデルを含み得る。さらに、セグメント融合モジュール140は、マルチモーダル入力の結果を組み合わせるために使用されてもよく、例えば、すべてのモダリティを含む最終決定のために音響セグメント、NLP、及び視覚を組み合わせるために使用されてもよい。
図1のサブシステムは、1つ又は複数のコンピューティング・デバイス上に実装されてもよい。コンピューティング・デバイスは、サーバ、デスクトップ又はラップトップコンピュータ、電子タブレット、モバイルデバイスなどであってもよい。コンピューティング・デバイスは、1つ又は複数の場所に配置することができる。コンピューティング・デバイスは、汎用プロセッサ、グラフィックス処理装置(graphics processing units:GPU)、特定用途向け集積回路(application-specific integrated circuits:ASIC)、フィールドプログラマブルゲートアレイ(field-programmable gate-arrays:FPGA)、機械学習アクセラレータなどを有し得る。コンピューティング・デバイスは、例えば、ダイナミックランダムアクセスメモリ又はスタティックランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ、ハードドライブなどのメモリをさらに有してもよい。メモリは、実行時に、コンピューティング・デバイスにシステム100を訓練させるか、又は対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測させる命令を格納するように構成され得る。コンピューティング・デバイスは、ネットワーク通信デバイスをさらに有してもよい。ネットワーク通信デバイスは、コンピューティング・デバイスがネットワークを介して互いに、及び任意の数のユーザデバイスと通信することを可能にすることができる。例えば、ネットワーク通信デバイスは、システム100を実装するコンピューティング・デバイスが、対象者の予測される行動的又は精神的健康状態に関して医療専門家のモバイルデバイスと通信することを可能にすることができる。ネットワークは、有線又は無線ネットワークであってもよい。例えば、ネットワークは、光ファイバネットワーク、イーサネット(登録商標)ネットワーク、衛星ネットワーク、セルラーネットワーク、Wi-Fi(登録商標)ネットワーク、Bluetooth(登録商標)ネットワークなどであってもよい。他の実装形態では、コンピューティング・デバイスは、インターネットを介してアクセス可能ないくつかの分散コンピューティング・デバイスであってもよい。そのようなコンピューティング・デバイスは、クラウドコンピューティング・デバイスと考えることができる。
訓練音響モデル
図4は、システム100を訓練するための例示的なプロセス400のフローチャートである。プロセス400は、1つ又は複数の場所にある1つ又は複数のコンピュータのシステムによって実行することができる。このようなコンピュータを、図4では「訓練システム」と総称する。
動作410において、訓練システムは、音声データを転写するようにエンコーダ・サブシステム110及びデコーダ・サブシステム120を訓練することができる。訓練データは、生の音声データ及びその生の音声データの対応する転写を含み得る。生の音声データは、行動的又は精神的健康のトピックとは無関係であり得る。生の音声データはラベルなしであってもよい。すなわち、生の音声データは、精神状態又は行動状態が未知である話者に由来し得る。場合によっては、訓練データは、パブリック・オーディオ・コーパスに由来してもよい。動作410は、教師あり学習動作であり得る。
動作410のサブ動作412において、訓練システムは、生の音声データをフィルタバンク又はメル周波数ケプストラム係数(「mel-frequency cepstrum coefficients:MFCC」)に変換することができる。動作410のサブ動作414において、訓練システムは、エンコーダ・サブシステム110に、フィルタバンク又はMFCCをロバストな抽象的な特徴表現にマッピングさせることができる。動作410のサブ動作416において、訓練システムは、デコーダ・サブシステム120に、出力を生成するために抽象的な特徴表現を処理させることができる。動作410のサブ動作418において、訓練システムは、デコーダ・サブシステム120の出力を音声データの既知の転写と比較し、エンコーダ・サブシステム110及びデコーダ・サブシステム120の重み及びバイアスを更新して差を考慮することができる。より具体的には、訓練システムは、生成された出力と既知の転写との間の差を計算するためにコスト関数を使用することができる。エンコーダ及びデコーダ・サブシステムの重み及びバイアスに関するコスト関数の導関数を計算することにより、訓練システムは、コスト関数を最小化するために複数のサイクルにわたって重み及びバイアスを反復的に調整することができる。生成された出力が、計算されたコストの大きさが小さいなどの収束条件を満たす場合、訓練は完了することができる。
動作420において、訓練システムは、デコーダ・サブシステム120を無視又は破棄することができる。言い換えれば、デコーダ・サブシステム120は、残りの訓練動作又は推論に使用されなくてもよい。
動作430において、訓練システムは、分類サブシステム130をラベル付き音声データについて訓練することができる。ラベル化された音声データは、関心のある行動的又は精神的健康状態を有すると判定された対象者に由来するものとして、又は由来しないものとしてラベル化された音声データであってもよい。関心のある行動的又は精神的健康状態は、本明細書に記載の任意のそのような状態であり得る。ラベルは、臨床診断、標準化された精神健康アンケート(例えば、PHQ-9)からのスコアなどであり得る。場合によっては、分類サブシステム130は、標準化された精神健康アンケート(例えば、PHQ-9の質問1及び2のみ)からの質問の特定のサブセットに対する回答を使用して、行動的又は精神的健康状態のサブクラスを予測するように訓練することができる。動作410と同様に、動作430は教師あり学習動作であってもよい。動作430のサブ動作432において、訓練システムは、生の音声データをフィルタバンク又はMFCCに変換することができる。サブ動作434において、訓練サブシステムは、以前に訓練されたエンコーダ・サブシステム110に、音声データの抽象的な特徴表現を生成させることができる。動作430のサブ動作436において、訓練サブシステムは、分類サブシステム130に、抽象的な特徴表現から、音声データの発信元である対象者の行動又は精神の健康状態を示す出力を生成させることができる。動作430のサブ動作438において、訓練システムは、出力を対象者の既知の行動的又は精神的健康状態と比較し、違いを説明するために分類サブシステム130内の重み及びバイアスを更新することができる。訓練システムは、分類サブシステム130の出力が収束条件を満たすまで、複数の音声サンプルについてこのプロセスを繰り返すことができる。
動作430において、エンコーダ・サブシステム110は固定されてもよい。すなわち、重み及びバイアスは更新されなくてもよい。あるいは、エンコーダ・サブシステム110の重み及びバイアスは、特に、複数のラベル化された音声データが利用可能である場合、分類サブシステム130の重み及びバイアスと協調して調整されてもよい。これは、より堅牢なシステムをもたらし得る。
システムがメタデータ及び/又はiベクトルを使用して対象者の行動的又は精神的健康状態を予測する場合、訓練システムは、訓練動作410~430の間にメタデータ及び/又はiベクトルを0に初期化することができる。動作440において、訓練システムは、分類サブシステム130の前又は分類器ネットワーク132の後にメタデータ及び/又はiベクトルを追加し、訓練を継続することができる。メタデータ及び/又はiベクトルがエンコーダ・サブシステム110の出力に付加されるようにシステム100が構成されている場合、訓練システムは、そのような出力並びに付加されたメタデータ及び/又はiベクトルについて分類サブシステム130全体を訓練し続けることができる。あるいは、メタデータ及び/又はiベクトルが分類器ネットワーク132の出力に付加されるようにシステム100が構成される場合、訓練システムはネットワーク134のみを訓練することができる。
プロセス400は、動作410において、エンコーダが、第1の訓練データセットを使用して一方のタスク(すなわち、自動音声認識)を実行するように訓練され、動作430において、エンコーダ及び分類器が、第2の訓練データセットを使用して第2のタスク(すなわち、対象者の精神的又は行動的状態を予測すること)を実行するように訓練される、転移学習プロセスである。第1のタスクを実行するためにエンコーダを事前訓練することは、ロバストな第2の訓練データセットを有するのに十分な量の臨床的にラベル付けされた音声データを得ることが困難であり得るため、有益であり得る。図4の実施形態では、第1のタスクは自動音声認識である。しかしながら、他の実施形態では、第1のタスクは、感情分類、音分類などであってもよい。
図5は、システム100を訓練するための例示的なプロセス500のフローチャートである。プロセス500は、プロセス400の代替であってもよい。プロセス500は、1つ又は複数の場所にある1つ又は複数のコンピュータのシステムによって実行することができる。このようなコンピュータを、図5では「訓練システム」と総称する。
動作510において、訓練システムは、転写された音声データについてエンコーダ・サブシステム110及びデコーダ・サブシステム120を訓練することができる。動作510は、図4の動作410と同じ又は同様であり得る。動作520において、訓練システムは、音声データが由来する話者の行動的又は精神的健康状態でラベル付けされた音声データについて分類サブシステム130を訓練しながら、エンコーダ・サブシステム110及びデコーダ・サブシステム120を訓練し続けることができる。動作520の間、エンコーダ及びデコーダ・サブシステムの寄与に対するコスト関数への分類サブシステム130の寄与は増加し得る。そのため、動作530において、訓練システムは、エンコーダ・サブシステム110を固定し、デコーダ・サブシステム120を無視又は破棄することによって分類サブシステム130を微調整することができる。
メタデータ及び/又はiベクトルが分類器ネットワーク132の出力に付加されるようにシステム100が構成される場合、訓練システムは、メタデータ及び/又はiベクトルがそのように付加される動作540を実行することができ、訓練システムは、(i)分類器ネットワーク132をフリーズしてネットワーク134のみを訓練するか、又は(ii)ネットワーク134も訓練しながら分類器ネットワーク132を訓練し続ける。動作550において、訓練システムは、セグメント融合のためのモデルを訓練する。システムは、様々なセグメントのセグメント出力のシーケンスを単一のベクトルに投影する訓練に先行してもよい。
音響モデル例1
一例では、図1の音響モデルを使用して、対象者群の不安症及びうつ病を予測した。音響モデルの分類器は、二値分類を行うように訓練された。音響モデルのエンコーダは、図4に記載されるように自動音声認識タスクを実行するように事前訓練された。2つの異なるモデル、すなわち、エンコーダ重みのみが更新されたモデル(「第1のモデル」)と、エンコーダ重みとデコーダ重みの両方が更新されたモデル(「第2のモデル」)とを事前に訓練した。対象者はそれぞれ、うつ病ラベルとしての役割を果たす対象者健康質問票-8(すなわち、自殺念慮の質問が除去されたPHQ-9)及び不安症ラベルとしての役割を果たす全般不安障害-7を受けていた。第1のモデルは、0.71の特異性、0.71の感度、0.79のAUC及び0.54のF1でうつ病を予測した。第2のモデルは、0.72の特異性、0.72の感度及び0.79のAUCでうつ病を予測した。第2のモデルは、0.68の特異性、0.69の感度、0.75のAUC及び0.49のF1で不安症を予測した。
転移学習を使用すると、転移学習なしで訓練された音響モデルと比較して、うつ病分類についての音響モデルの性能が0.62のAUCから0.79のAUCまで27%改善された。
自然言語処理モデル
本開示はまた、自然言語処理モデル(「NLP」)を使用して、対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム及び方法を提供する。システムは、対象者から音声サンプルを取得することができる。対象者は、対象者の仕事又は家庭生活に関するプロンプトに応答して音声サンプルを提供することができる。システムは、対象者が行動的又は精神的健康状態を有するかどうかを予測するために、NLPモデルを使用して音声サンプルを処理することができる。NLPモデルは、一般的なテキスト、ドメイン固有のテキスト、及び複数の対象者からの音声サンプルの組み合わせに対して異なる段階で訓練されてもよい。音声サンプルは、音声サンプルを提供した対象者が行動的又は精神的健康状態を有するかどうかを示す臨床ラベルと関連付けることができる。臨床ラベルは、標準化された健康アンケート、例えば、患者健康質問表9(「PHQ-9」)の結果に基づいてもよい。場合によっては、臨床ラベルは、うつ病のサブクラスを予測するために使用され得る、PHQ-9(例えば、PHQ-9での質問1及び2に対する回答のみ)からの質問のサブセットに対する回答であり得る。あるいは、臨床ラベルは、臨床医からの診断に基づいてもよい。
図9は、NLPモデルを使用して対象者が行動的又は精神的健康状態を有するかどうかを予測するためのシステム900を概略的に示す。症状は、精神障害の診断及び統計マニュアル(「Diagnostic and Statistical Manual of Mental Disorders:DSM」)又は他の同様の信頼できる情報源で臨床的に定義されている症状であってもよく、又はDSMで定義されている症状に関連する若しくは併存する症状であってもよい。例えば、状態は、疲労、寂しさ、低い動機、ストレス、うつ病、不安症、薬物又はアルコール中毒、心的外傷後ストレス状態(「PTSD」)、統合失調症、双極性状態、認知症、自殺念慮などであり得る。
システム900は、自動音声認識(「ASR」)サブシステム905、エンコーダ・サブシステム910、言語モデルサブシステム915、及び分類サブシステム925を含んでもよい。
ASRサブシステム905は、対象者からの入力音声の転写を生成することができる。場合によっては、ASRサブシステム905は、例えばGoogle ASRなどの第三者ASRモデルを含み得る。サードパーティASRは、1ベスト仮説ASRであってもよいし、単語不確実性を考慮してもよいし、単語混同情報を含んでもよい。他の場合には、ASRサブシステム905は、カスタムASRモデルを含み得る。
システム900は、いくつかの異なる方法で入力音声を取得することができる。システム900は、1つ又は複数のクエリを対象者に送信することによって入力音声を取得することができる。システム900は、オーディオフォーマット、ビジュアルフォーマット、又はオーディオビジュアルフォーマットでクエリを送信することができる。例えば、システム900は、対象者のコンピューティング・デバイスの電子ディスプレイ及びスピーカを介してクエリを送信することができる。クエリは、対象者の気分、睡眠、食欲、エネルギーレベル、人間関係、仕事、病歴、投薬などに関連し得る。場合によっては、クエリは、標準化された質問票精神健康アンケート、例えばPHQ-9又は一般不安症状7(「GAD-7」)からの質問であってもよく、又はそれに基づいてもよい。場合によっては、システム900は、対象者との動的会話の一部として対象者にクエリを送信することができる。すなわち、各クエリは、以前のクエリ及びそのような以前のクエリに対する対象者の応答に基づくことができる。他の場合には、クエリ及びそれらの順序を事前定義することができる。追加的又は代替的に、システム900は、対象者を受動的に聞くことによって入力音声を取得することができる。システム900は、例えば、通常の日常活動の間、又は医療提供者との会話の間に受動的に対象者の声を聞くことができる。クエリに対する対象者の応答は、ASRサブシステム905への入力音声として機能することができる。
エンコーダ・サブシステム910は、ASRサブシステム905からの転写音声を連続ベクトル空間内の実数(すなわち、埋め込み)のベクトルに変換することができる。ベクトルは、個々の単語を表すことができる。ベクトル空間内で互いに近いベクトルは、そのような単語がテキストで一緒に表示されることが多いか、そうでなければ互いに関連付けられるという点で意味的に類似している単語を表すことができる。エンコーダ・サブシステム910は、いくつかの異なるモデル又は技術を使用して、転写された音声をベクトルに変換することができる。例えば、エンコーダ・サブシステム910は、nグラム又はスキップグラムモデル、フィードフォワード又はリカレント・ニューラル・ネットワーク、行列因子分解、バイト対エンコード、サブワード正則化、又はそのようなモデル及び技術の任意の組み合わせを使用することができる。これらのモデル及び技術は、参照により本明細書に組み込まれる以下の論文にさらに詳細に記載されている:T.Mikolovら、Distributed Representations of Words and Phrases and their Compositionality,2013,https://arxiv.org/pdf/1310.4546.pdf;J.Penningtonら、GloVe:Global Vectors for Word Representation,2014,https://nlp.stanford.edu/pubs/glove.pdf;R.Sennrichら、Neural Machine Translation of Rare Words with Subword Units,2015,https://arxiv.org/pdf/1508.07909.pdf;T.Kudo,Subword Regularization:Improving Neural Network Translation Models with Multiple Subword Candidates,2018,https://arxiv.org/pdf/1804.10959.pdf。エンコーダ・サブシステム910は、エンコーダ・サブシステム910が使用する特定のモデル又は技術に応じて、転写された音声から単語、音節、フェノーム、又は文字をベクトルに変換することができる。
言語モデルサブシステム915は、エンコーダ・サブシステム910によって生成されたベクトル、及び追加のメタデータ情報、例えば、発話を提供した対象者に関するメタデータ(例えば、年齢、性別、性、民族性、場所、収入、病歴などである)、又はクエリ及びそれらのクエリに対する対象者の応答に関するメタデータ(例えば、質問の順序、質問のタイプなど)を処理することができる。言語モデルサブシステム915は、長期短期記憶(「LSTM」)ネットワーク916を有し得る。LSTMネットワークは、リカレント・ニューラル・ネットワーク(「recurrent neural network:RNN」)の一種である。RNNは、時系列データ、例えば音声データにおける依存性をエンコードすることができる循環的接続を有するニューラルネットワークである。RNNは、時系列入力のシーケンスを受信するように構成された入力層を含み得る。RNNは、状態を維持する1つ又は複数の隠れたリカレント層をさらに含み得る。各時間ステップにおいて、各隠れリカレント層は、その層の出力及び次の状態を計算することができる。次の状態は、前の状態及び現在の入力に依存し得る。状態は、時間ステップにわたって維持されてもよく、入力シーケンス内の依存関係を取得してもよい。
LSTMネットワークは、LSTMユニットで構成され得る。LSTMユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートを含み得る。セルは、入力シーケンス内の要素間の依存関係を追跡する役割を担うことができる。入力ゲートは、新しい値がセルに流入する程度を制御することができ、忘却ゲートは、値がセル内に残る程度を制御することができ、出力ゲートは、セル内の値がLSTMユニットの出力アクティブ化を計算するために使用される程度を制御することができる。LSTMゲートの活性化関数は、ロジスティック関数であってもよい。
あるいは、言語モデルサブシステム915は、変換器917を有してもよい。変換器917は、反復接続のないモデルであってもよい。代わりに、注意機構に依存してもよい。注意機構は、他を無視しながら、特定の入力領域に焦点を合わせるか、又は「対応する」ことができる。これは、特定の入力領域があまり関連性がない可能性があるため、モデル性能を向上させることができる。各時間ステップにおいて、注意ユニットは、とりわけ、コンテキストベクトルと時間ステップにおける入力との内積を計算することができる。注意ユニットの出力は、入力シーケンス内の最も関連性の高い情報がどこに位置するかを定義することができる。変換器は、A.Vaswani et al.,Attention is All You Need,2017,https://arxiv.org/pdf/1706.03762.pdf,にさらに詳細に記載されており、これは参照により本明細書に組み込まれ、付録Aに再現される。変換器917は、どの入力領域に対応するかを決定する際に、非言語関連のメタデータ情報に依存し得る。
分類サブシステム925は、二値分類器926、回帰分類器927、及び逆二値分類器928を有し得る。3つの分類器の各々は、異なる目的のために訓練されてもよい。二値分類器926は、対象者を行動的若しくは精神的健康状態を有するものとして、又は行動的健康状態を有しないものとして分類するように訓練することができる。回帰分類器927は、ある尺度に沿って、例えばうつ病のPHQ-9尺度に沿って、行動的又は精神的健康状態を予測するように訓練され得る。ソフトマックス関数を回帰分類器927の出力層に適用して、可能なスコア、例えばPHQ-9の0から27の28個の可能なスコアにわたる確率分布を生成することができる。逆二値分類器928は、二値分類器926と同様に、対象者を行動的若しくは精神的状態を有するか、又は行動的健康状態を有しないと分類するように訓練することができるが、単語が反転された(例えば、「私の名前はMichael Jordanです」から「Jordan Michaelは私の名前です」)転写音声について訓練することができる。この手法は、システム900が、二値分類器926が捕捉しない単語依存性を捕捉することを可能にすることができる。
推論は、対象者に対して最大10回繰り返されてもよい。各反復において、システム900は、異なる順序で対象者の応答を連結することができる。これは、応答の並べ替えによって駆動される同じセッションの様々な順列を作成する。分類器926,927及び928は、各反復においてわずかに異なる出力を返すことができる。次いで、システム900は、出力を平均化するか又は他の統計分析を実行することによって結果を最適化することができる。最終的に、システム900は、3つの分類器の出力を組み合わせて最終予測を生成することができる。システム900は、複数のセッションに参加する対象者についてより正確な予測を行うことができる。
上記のNLPモデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の特異性を有し得る。NLPモデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の感度を有し得る。音響モデルの特異性を上げるには、感度を下げる必要があり、逆もまた同様である。NLPモデルは、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上のAUCを有し得る。NLPモデルは、従来のシステムよりも少なくとも約1%、2%、3%、4%、5%、10%、15%、20%、25%、又はそれ以上の相対性能(例えば、感度、特異性又はAUC)の改善を提供することができる。
図9のサブシステム及びそれらの構成要素は、1つ又は複数のコンピューティング・デバイス上に実装されてもよい。コンピューティング・デバイスは、サーバ、デスクトップ又はラップトップコンピュータ、電子タブレット、モバイルデバイスなどであってもよい。コンピューティング・デバイスは、1つ又は複数の場所に配置することができる。コンピューティング・デバイスは、汎用プロセッサ、グラフィックス処理装置(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などを有し得る。コンピューティング・デバイスは、例えば、ダイナミックランダムアクセスメモリ又はスタティックランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ、ハードドライブなどのメモリをさらに有してもよい。メモリは、実行時にコンピューティング・デバイスにサブシステムの機能を実施させる命令を格納するように構成されてもよい。コンピューティング・デバイスは、ネットワーク通信デバイスをさらに有してもよい。ネットワーク通信デバイスは、コンピューティング・デバイスがネットワークを介して互いに、及び任意の数のユーザデバイスと通信することを可能にすることができる。ネットワークは、有線又は無線ネットワークであってもよい。例えば、ネットワークは、光ファイバネットワーク、イーサネット(登録商標)ネットワーク、衛星ネットワーク、セルラーネットワーク、Wi-Fi(登録商標)ネットワーク、Bluetooth(登録商標)ネットワークなどであってもよい。他の実装形態では、コンピューティング・デバイスは、インターネットを介してアクセス可能ないくつかの分散コンピューティング・デバイスであってもよい。そのようなコンピューティング・デバイスは、クラウドコンピューティング・デバイスと考えることができる。
訓練用NLPモデル
図10は、システム900内のモデルを訓練するための例示的なプロセス1000のフローチャートである。プロセス1000は、1つ又は複数の場所にある1つ又は複数のコンピュータのシステムによって実行することができる。
システムは、公開されているデータコーパス(1005)上でLSTMネットワーク916又は変換器917を訓練することができる。公開されているデータコーパスは、テキストコーパスであってもよい。テキストコーパスは、必ずしも行動的又は精神的健康に関連していなくてもよい。代わりに、テキストコーパスは、汎用テキストコーパスであってもよい。テキストコーパスは、大きくてもよく、テキストの言語の一般的な特性を捕捉してもよい。一例では、テキストコーパスは、Wikipediaの記事を含み得る。動作1005における訓練タスクは、言語モデル化、例えば、LSTMネットワーク916又は変換器917を訓練して、単語シーケンス内の次の単語を予測することであってもよい。LSTMネットワーク916又は変換器917の出力は、複数の単語にわたる確率分布であってもよい。
動作1005における訓練は、ドロップアウト及びDropConnect操作を含み得る。ドロップアウトは、ニューラルネットワーク内のノードのランダムなサブセットが訓練中に除去されるプロセスである。訓練例ごとに異なるサブセットを除去することができる。DropConnectは、訓練中に重みのランダムなサブセットが除去される(すなわち、0に設定される)プロセスである。ドロップアウトと同様に、訓練例ごとに異なるサブセットを除去することができる。ドロップアウト及びDropConnectは、過剰嵌合を防止するのに役立ち得る。
動作1005における訓練は、非単調平均確率的勾配降下(stochastic gradient descent:SGD)プロセスをさらに含み得る。SGDは、スケーリングされた勾配ステップによってモデル重みを反復的に調整することによって訓練損失を低減するプロセスである。深層ネットワークの訓練は、非凸最適化問題
Figure 2022553749000002
として提示することができ、ここで、fはi番目のデータ点の損失関数であり、wはネットワークの重みであり、期待値がデータを引き継ぐ。一連の学習率γが与えられると、SGDは、Wk+1=Wk-γk∇^f(w)の形式のステップを反復的に取る。平均SGDは、最後の反復を解として返す代わりに、平均SGDが
Figure 2022553749000003
を返すことを除いて、SGDと同様であり、ここで、Kは反復の総数であり、T<Kはユーザ指定の平均化トリガである。非単調平均SGDは、性能メトリックが複数のサイクルにわたって改善されなかった後に学習率を調整することを含み得る。Dropout、DropConnect、及び非単調SGDは、参照により本明細書に組み込まれ、付録Aに再現されるS.Merity et al.,Regularizing and Optimizing LSTM Language Models,2017,https://arxiv.org/pdf/1708.02182.pdf,に詳細に記載されている。
動作1005における訓練に続いて、システムは、目標タスク、すなわち、行動及び精神衛生状態の検出のためにLSTMネットワーク916又は変換器917を調整することができる(1010)。動作1010は、ドメイン固有データコーパス上でLSTMネットワーク916又は変換器917を訓練することを含み得る。ドメイン固有データコーパスは、例えば、行動的及び精神的健康状態に関するテキスト、そのような行動的及び精神的状態について試験されている患者からの転写された音声データ、並びにドメイン固有データコーパスに関する追加の非言語メタデータ情報(例えば、その供給源)を含み得る。ドメイン固有コーパスは、単一タスク学習のための特定の条件に関するテキストを含んでいてもよく、又は、マルチタスク学習のための複数の異なる条件に関するテキストを含み得る。
動作1010における訓練は、識別的微調整を含み得る。LSTMネットワーク916又は変換器917の異なる層は異なる種類の情報を取り込むことができるので、異なる層は異なる学習速度を有することから利益を得ることができる。一般に、より深い層は、より高い学習率から利益を得ることができる。特定の層の学習率はまた、経時的に調整されてもよい。一例では、システムは、条件が満たされるまで学習速度を直線的に増加させ、次いで、速度を直線的に減少させる。この手法は、「斜め三角形学習率」(「slanted triangular learning rates:STLR」)と称され得る。このプロセスは、J.Howard et al.,Universal Language Model Finetuning for Text Classification,2018,https://arxiv.org/pdf/1801.06146.pdf,にさらに詳細に記載されており、これは参照により本明細書に組み込まれ、付録Aに再現される。
動作1010における訓練は、さらに、言語モデルを徐々に解凍すること、より長い言語依存性を処理するための時間を通じた逆伝播、及びLSTMネットワーク916における複数回のプーリングを含み得る。
動作1010における微調整に続いて、システムは、それぞれのタスクを実行するように分類器926,927、及び928を訓練することができる(1015)。動作1015における訓練は、ASRモデル、エンコーダモデル、LSTMネットワーク916若しくは変換器917、及び/又は分類器926,927、若しくは928のうちの一方などを含むエンドツーエンド・プロセスとすることができる。しかしながら、分類器926,927、及び928は、互いに独立して訓練されてもされなくてもよい。
訓練データは、例えば音声を提供した対象者に関するメタデータなどのいくつかのメタデータ情報に加えて、転写及びエンコードされるラベル付き音声サンプルであってもよい。音声サンプルは、図9を参照して説明した方法で、すなわち、一連のクエリを対象者に送信することによって収集することができる。システムは、訓練のためにランダムな順序で特定の対象者の応答を連結することができる。分類器926,927,928ごとに順序が異なっていてもよい。この技術は、音声サンプルの不足を軽減するのに役立ち得る。PHQ-9を対象者に投与することによって、音声サンプルの標識を得ることができる。
NLP実施例1
第1の例では、本発明者らは、約16,000セッションにわたって約11,000人の固有の対象者から音声を収集した。一部の対象者は複数のセッションに参加した。対象者の年齢は18歳から65歳を超え、平均約30歳であった。対象者は、ソフトウェアアプリケーションを介して提示されたプロンプトに応答して音声サンプルを提供した。プロンプトは、「仕事」及び「家庭生活」などのトピックに関連している。各セッションは4~6回のプロンプトを含み、平均4.52回のプロンプトがあり、得られたセッションはそれぞれ平均約5分続いた。
プロンプトに回答することに加えて、各対象者は自殺念慮の質問を除いたPHQ-9(「PHQ-8」)及びGAD-7を完了した。これらの標準化された質問表の結果は、音声サンプルについて、それぞれうつ病及び不安症のラベルとして役立った。PHQ-8及びGAD-7の両方について、10を上回るスコアを症状の存在にマッピングし、10を下回るスコアを症状の非存在にマッピングした。表1は、上記の訓練データ及び試験データの両方の統計を提供し、「-」は条件の欠如を示し、「+」は条件の存在を示す。
Figure 2022553749000004
表2は、訓練データと試験データの両方におけるうつ病及び不安症の同時発生に関する統計を太字テキストの訓練データと共に提供する。統計は、およそ16,000の訓練データセッションの18.5%がうつ病と不安症の両方について陽性のラベルをもたらしたが、試験データセッションの14%が両方について陽性のラベルをもたらしたことを示している。訓練データセッションの約15%が「不一致」ラベル、すなわちうつ病又は不安症に対して陽性であったが両方ではなかったラベルをもたらした。
Figure 2022553749000005
図11は、訓練データセット及び試験データセットにおける生のPHQ-8スコア及びGAD-7スコアの百分率分布を示す。最大の差は、PHQ-8及びGAD-7スコアが0の場合であり、5%の不一致がある。PHQ-8とGAD-7が正規化された後のPHQ-8とGAD-7との間の全体的な相関は0.80である。
図12は、訓練及び試験データセッションからのPHQ-8及びGAD-7スコアの行列である。スコア範囲の違いに留意されたい。各質問は4つの可能なスコア(すなわち、0、1、2、3)を有する。したがって、GAD-7スコアは0から21の範囲であり、PHQ-8スコアは0から24の範囲である。各スケール内で、より高い値はより高い状態重症度を示す。図12に示すように、セッションの大部分は対角線付近で発生し、2つの精神的健康状態の高い相関と一致する。また、GAD-7ラベルごとにPHQ-8ラベルのバリエーションが多く、逆ではない。すなわち、図12の列よりも行の方がばらつきが大きい。これは、不安症がうつ病の前提条件となる傾向があるという事実を反映し得る。
図10の動作1005及び1010を参照して説明したように言語モデルを訓練し、微調整した後、本発明者らは、動作1015に従って分類器を訓練するために上記の訓練データを使用した。分類器の1つの群は不安症を検出するように訓練され、別の群はうつ病を検出するように訓練された。次に、試験データを使用して、訓練されたモデルを試験した。
図13は、生のPHQ-8スコア及びGAD-7スコアを予測する際の訓練済モデルの精度を示すチャートである。モデルは、低スコア及び高スコアを予測する際に最も正確であり、8から12の間のスコアを予測する際に最も正確ではない。この範囲は、健康な個体と陽性診断された個体との間の自然な境界を表すので、これは予想される。
表3は、特異性、感度、及びROC曲線下面積(「AUC」)を含む、二値分類器の性能に関する統計を提供する。モデルは、うつ病に対して0.828及び不安症に対して0.792のAUCを達成した。
Figure 2022553749000006
モデルの性能は、話者が不安症とうつ病の両方を有するか、又はどちらも有さない場合に最も良好である。どちらの場合も「一貫した」セッションと呼ばれ得る。一貫したセッションのAUCは、PHQ-8及びGAD-7についてそれぞれ0.861及び0.841に増加する。一致のみのデータの事前分布は、肯定的なクラスについて約0.20から0.16に変化する。これは、データのリバランス後には当てはまらない。改善された結果はそのままであり、リバランス後も増加し、PHQ-8及びGAD-7ではそれぞれ0.863及び0.849になった。この発見は、クラス識別が、どちらかの状態の個々のモデル化よりもうつ病及び不安症の共同モデル化の方が良好であることを示唆している。
訓練されたモデルは、各状態について陽性の症例と陰性の症例とを分けるための合図として特定の単語列及びそれらの依存性を使用するので、不安症よりも正確にうつ病を予測することができる。調査するために、本発明者らは、試験セッション中の所与の時間に利用可能な予測情報の量を推定するために、順方向にワードシーケンスをゲートした。例えば、800ワードのセッションでは、最初のワードから開始して、一度に1つのワードを追加することにより、800個の累積ゲートサンプルを生成した。3078の試験セッションについて、本発明者らは約240万の予測を生成した。これらの予測に基づいて、「セッション内モデル変動」と呼ばれる値を計算した。このプロセスは、各条件について別々に行った。両方の場合において、モデルは、試験セットにおけるAUCについて最適化され、試験セットは、両方のモデルについて同一である。
表4は、うつ病モデルの変動性のこの尺度についての結果を提供する。セッション内の変動性は、+、+(すなわち、両方の条件が存在する)が最も高く、-、-(すなわち、いずれの条件も存在しない)が最も低く、混合の場合はその間である。これは、二値うつ病分類の最大AUCに合わせて調整されたモデルが、セッション内のこの尺度のより高い変動性に関連する単語シーケンスキューを使用していることを示唆している。
Figure 2022553749000007
表5は、不安症モデルの変動性のこの尺度についての結果を提供する。しかしながら、ここでは、(1)全体的な変動性はうつ病の変動性よりも低く、(2)-、-の場合の変動性は、他の3つの値を考えると予想よりもはるかに低い。同じ試験データが両方の表に使用され、NLPモデル方法が同じであるため、これは、不安症に対する単語シーケンスキューがうつ病に対するものよりも弱いか又はあまり一般的でない可能性があることを示唆している。
Figure 2022553749000008
図14は、完全な試験データセット、一貫したセッションのみ(すなわち、PHQ-8及びGAD-7セッションが一貫していたセッション)、及びデータがリバランスされた一貫したセッションのAUCを含む、モデルの様々なAUCを示す。
NLP実施例2
第2の例では、同じ約16,000セッションの音声、各話者の年齢、及び対応するPHQ-8うつ病ラベルを使用した。表6は、訓練データと試験データの両方の統計を、訓練データを斜体で示している。「GP」は、一般母集団コーパスを示し、「SP」は、シニア母集団コーパスを示す。「うつ病+/」は、PHQ-8(すなわち、別々のセッションで10超及び10未満の両方をスコアリングすることによって)に一貫して応答しなかった2つ以上のセッションを有する対象者を示す。
Figure 2022553749000009
GPコーパスとSPコーパスとの主な違いは、年齢分布である。2つのコーパスの年齢分布を図15に示す。GPコーパスとSPコーパスの対象者の年齢は重複しておらず、SPコーパスの対象者の67%が60歳以上である。2つのコーパスの間にはさらなる違いがある。SPコーパスの対象者が短い回答を返したとき、それらは追加の質問を尋ねられた。一方、GPコーパスの対象者は、4~6個の質問に限定された。SPコーパスにおける対象者の収集時間は5分に制限され、その後セッションは終了した。ほとんどの対象者は、週に1回の頻度で5回プロセスを繰り返すことも予想された。一方、複数のセッションを完了したGPコーパスの対象者は、セッション間で少なくとも3ヶ月待機し、単一のセッション内では、構造化されたスケジュールの対象者ではなかった。
南カリフォルニア州でSPコーパスを収集した。SPコーパスにおけるセッションは、GPコーパスにおけるセッションよりも平均して短く、SPコーパスについてはセッションあたり平均450ワード、GPコーパスについてはセッションあたり平均800ワードである。SPコーパスにおけるセッションあたりの応答の平均数もまた、GPコーパスにおける応答の平均数よりも高かった(6.1)。SPコーパスのサイズを考えると、この例では試験データにのみ使用される。GPコーパスとSPコーパスとの間の性別分布は同様であり、SPコーパスの対象者の62%が女性であり、GPコーパスの対象者の58%が女性である。
図16は、2つのコーパスに対するPHQ-8スコアの分布を示すチャートである。分布は、特により高いPHQ-8スコアについて同様である。うつ病の有病率は、SPコーパスでは30%であり、GPコーパスでは26.7%である。
この例では、分類器は、図10の動作1015に従ってのみGP訓練コーパスで訓練された。表7は、本明細書に記載のモデル及びF.Ringevalら、AVEC 2019 Workshop and Challenge:State-of-Mind,Detecting Depression with AI、及びCross-Cultural Affect Recognition,2019,https://arxiv.org/pdf/1907.11510.pdf,に記載されているAVEC 2019モデルの性能統計を提供し、これは参照により本明細書に組み込まれ、付録Aに再現される。RMSEは、性能と逆相関するエラーメトリックであり、CCCは、性能と正に相関する相関メトリックである。本明細書に記載のモデルは、GPコーパスで試験した場合、AVECモデルよりも低いRMSEと高いCCCの両方を有していた。
Figure 2022553749000010
図17は、GP試験コーパスとSP試験コーパスの両方について、本明細書に記載のモデルの二値分類結果を示すチャートである。GPコーパスのAUCは0.828であったが、SPコーパスのAUCは0.761であった。主要年齢分布の違いを含むコーパスの違いを考慮すると、訓練されたモデルは予想外に携帯可能であった。SP試験コーパスでは、患者は上記のように縦断試験に参加した。GP訓練モデルの分類性能は、複数セッション収集にわたる患者の自己報告PHQ-8スコアの一貫性に強く依存する。SPコーパスの161人の独特な患者のうち、119人は、複数のセッションにわたって常にうつ病-又は常にうつ病+(「SP一貫」)であるPHQ-8スコアを有していた。残りの42人の患者は、複数のセッションにわたって一貫しないPHQ-8結果(「SP不一致」)を有していた。全体として、一貫して報告する患者は、一貫性のない患者よりも簡潔であり、応答が少ない傾向があった。図17は、セッションが一度に1つずつ実行され、対象者が自分のスコアを知らなかったとしても、ユーザの一貫性の関数としてモデル性能に顕著な差があることを示している。SPコーパスのモデルのAUCは、一貫した患者では0.82であり、一貫性のない患者では0.61である。2つのコーパスにおける年齢及び他の要因の大きな不一致にもかかわらず、モデルは、GPコーパスの場合と同様にSPコーパスの一貫したユーザに対しても実行された。このデータは、特に一貫した患者について良好な可搬性を示す。
表8は、年齢群によるモデル性能に関する統計を提供する。SPコーパスにおける50歳未満の対象者の数は、設計上少ない。GP試験コーパス上のモデルの性能は、GP訓練コーパスの年齢分布の性能と強く相関している。非常に低いデータサンプルが結果の堅牢性に影響を及ぼすが、SP試験コーパスについても同じことが当てはまる。
Figure 2022553749000011
SP試験コーパスについては、実年齢での性能も調べた。各年齢閾値(例えば、30、35、40、45など)について、本発明者らは、その閾値未満のすべての対象者及びその閾値を上回る(「超えて」)すべての対象者を組み合わせた。図18は、各年齢バケットのデータカウント(実線)及び各年齢バケットのAUCを示すチャートである。図18は、年齢閾値が増加するにつれて、すなわち、ますますより高齢の対象者がバケットに追加されるにつれて、モデル性能が低下することを示す。モデル性能もまた、より若い対象者がバケットから除去されるにつれてわずかに低下する。
表9は、年齢群によるモデル性能に関する統計を提供する。
Figure 2022553749000012
表10は、民族性によるモデル性能に関する統計を提供する。モデルは、他の群と比較して、ヒスパニック系対象者についてあまり良好に機能しなかった。これは、集団からのサンプルに訓練においてより高い重みを割り当てることによって、この集団に特にモデルを訓練することができた場合である。すべてではないが複数のサブグループについて、1つのサイズはすべてのモデルに適合し、良好に機能する。いくつかのサブグループでは、同じ発明を使用するが、訓練においてそのグループからのデータを主に重み付け又は含めることを使用して、そのサブグループに合わせたモデルを作成するためにより複数の注意を払う必要があり得る。
Figure 2022553749000013
追加データ
図20及び表11は、NLP実施例1及び2で使用されたのと同じ音声データで訓練及び試験されたときの二値うつ病予測を行う際の音響モデル及びNLPモデルの両方の追加の性能データを示す。
Figure 2022553749000014
表11は、音響モデル及びNLPモデルの両方が0.80に近い又はそれを超えるAUCを達成することを示す。モデル融合は、AUC性能においてさらに2~3%を与える。これらのシステムは、音声サンプル自体以外の情報を使用しない。すなわち、メタデータ、患者履歴、又は他の情報(視覚情報など)は、音響及びNLP結果に使用されない。NLPモデルは、音響システムよりも全体的に良好に機能するが、両方のシステムは、図20に示すように、プライマリケア提供者(PCP)の参照研究に沿った、又はそれよりも良好な強い結果を示す。しかし、設定とデータが異なるため、PCP試験との比較は間接的である。
複合モデル
図6は、対象者に関する音声データ、ビデオデータ、及び/又はメタデータを使用して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視するように構成されたシステム600を概略的に示す。図1のシステム100は、システム600の構成部分であってもよい。例えば、システム100は、システム600の音響モデル617として使用されてもよい。図9のシステムはまた、システム600の構成要素部分であってもよい。例えば、システム900は、システム600のNLPモデル616として使用されてもよい。
システム600は、対象者からの音声及びビデオデータを前処理することができる信号プリプロセッサ605を有し得る。例えば、信号プリプロセッサ605は、音声データ内のノイズをセグメント化して低減し、又はビームフォーミング、音響エコー除去、エコー抑制、残響除去、又はノイズ注入さえも実行することができる。信号プリプロセッサ605はまた、オーディオ及びビデオ品質信頼値を生成することもできる。オーディオ及びビデオ品質信頼値は、例えば、それぞれのオーディオ及びビデオ信号の品質並びにオーディオ及びビデオサンプルの長さを考慮に入れることができる。
さらに、信号プリプロセッサ605は、音声及びビデオデータにメタデータを付加することができる。このデータは、モデル615による消費のためにそのような前処理された形態でバス610に供給されてもよく、サードパーティ又はカスタムASRシステム620にかけられてもよい。ASRシステム620は、入力音声の機械可読転写及び転写信頼度を生成することができる。信号プリプロセッサ605と同様に、ASRシステム620は、他の構成要素による後の消費のためにその出力をバス610に供給することができる。
モデルリーダ622は、モデルリポジトリ623からモデル615にアクセスすることができる。モデル615は、自然言語処理モデル616、音響モデル617、ビデオモデル618、及びメタデータモデル619を含み得る。自然言語処理モデル616は、対象者からの入力音声の語彙内容を考慮することができる。音響モデル617は、入力音声の非語彙内容を考慮してもよい。音響モデル617は、例えば、図1のシステム100であってもよい。ビデオモデル618は、例えば、対象者の表情の映像を考慮してもよい。また、メタデータモデル619は、対象者の年齢、人種、民族性、性別、性、収入、教育、場所、病歴などの対象者に関する他の要因を考慮することができる。モデル615は、バス610からの前処理された入力データを消費して、対象者の行動的又は精神的健康状態を評価、スクリーニング、予測、又は監視することができる。各モデルは、別個の出力を生成することができる。しかしながら、モデルは相互依存的であってもよい。すなわち、あるモデルは、別のモデルの出力を消費してそれ自体の出力を生成することができる。
各モデルの出力は、較正、信頼度、及び所望の記述子モジュール625に提供することができる。このモジュール625は、モデルの出力を較正して、スケーリングされたスコアを生成し、スコアの信頼性尺度を生成することができる。モジュール625は、人間が読めるラベルをスコアに割り当てることができる。モジュール625は、その出力をモデル重量及び融合エンジン630に提供することができる。エンジン630は、モデル出力を、入力データの起源となった対象者の行動又は精神の健康状態の統合された分類に組み合わせることができる。エンジン630は、モデル615に静的重みを適用することができる。あるいは、重みは動的であってもよい。例えば、所与のモデル出力の重みは、いくつかの実施形態では、モデルによる分類の信頼性レベルに基づいて修正することができる。例えば、NLPモデル616が個人を0.56の信頼度で押し下げられていないと分類するが、音響モデル617が0.97の信頼度で押し下げられた分類をレンダリングする場合、エンジン630は音響モデル617により大きな重みを適用することができる。
場合によっては、所与のモデルの重みは、その信頼性レベルによって線形にスケーリングされ、モデルの基本重みが乗算されてもよい。場合によっては、モデル出力重みは時間ベースであってもよい。例えば、エンジン630は、対象者が話しているときには一般にNLPモデル6161により大きな重みを割り当てることができるが、対象者が話していないときにはビデオモデル618により大きな重みを割り当てることができる。同様に、音響モデル617及びビデオモデル618が、対象者が真実でないことを示唆する場合(例えば、頻繁な視線移動、ピッチ変調、又は発話速度の増加に起因して)、エンジン630は、NLPモデル616のより低い重みを適用することができる。
エンジン630は、その融合及び重み付けされた出力を多重出力モジュール635に提供することができ、多重出力モジュールは、融合及び重み付けされた出力を他の情報と組み合わせて、最終結果、例えば、対象者の行動的又は精神的健康状態の予測を生成することができる。
融合は、モデル入力だけでなく、モデルに異なる影響を与える情報の範囲を考慮することができる。モデルに異なる影響を与える情報の例には、状態の広がり、ラベル値の分布(データスキューのパターン)、メタデータ、サンプル長、サンプルデータ品質などが含まれる。
システム600は、単一のセッション又は複数の異なるセッションを介してクエリ又はクエリのシーケンスを対象者に提示する自動クエリモジュールと共に使用することができる。自動クエリモジュールは、評価されるべき1つ又は複数の標的精神状態に部分的に基づいてクエリを提示及び/又は定式化することができる。クエリは、対象者から少なくとも1つの応答を引き出すように構成され得る。自動クエリモジュールは、少なくとも1つの応答を引き出すために、オーディオ、ビジュアル、又はテキスト形式でクエリを対象者に送信することができる。自動クエリモジュールは、対象者から少なくとも1つの応答を含むデータを受信することができる。データは、対象者からの音声及び映像データを含み得る。システム600は、単一のセッションについて、複数の異なるセッションの各々について、又は複数の異なるセッションのうちの1つ若しくは複数のセッションの完了時に、音声データ、ビデオデータ、及び対象者に関するメタデータを使用して、対象者と関連付けられた精神状態の1つ若しくは複数の査定を生成することができる。
うつ病について患者をスクリーニングするように設計されている患者健康アンケート9(「PHQ-9」)などの従来のスクリーニングツールと比較すると、システム600はより魅力的であり得、より高いレベルの採用をもたらし得る。システム600(例えば、複合音響及びNLPモデル)は、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の特異性を有し得る。システム600は、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の感度を有し得る。システム600は、少なくとも約60%、65%、70%、80%、85%、90%、95%、又はそれ以上の曲線下面積(AUC)を有し得る。システムは、従来のシステムよりも少なくとも約1%、2%、3%、4%、5%、10%、15%、20%、25%、又はそれ以上の相対性能(例えば、感度、特異性又はAUC)の改善を提供することができる。
システム600はまた、PHQ-9のような書面によるアンケートと比較して、対象者からのより忠実で完全な応答を促すことができる。同様のシステムは、参照により本明細書に完全に組み込まれるPCT/US2019/037953に記載されている。
長手方向モデリング
本明細書に記載のシステムは、経時的な患者の進行を追跡するために使用することができ、これは長手方向分析と呼ぶことができる。長期分析では、現在のセッションからの入力音声を1つ又は複数の過去のセッションからの入力音声で補足して予測を生成することができる。現在及び過去の音声データは、応答行列内のベクトルとして表すことができる。モデルは、行列内の各ベクトルの予測を生成することができる。長手方向ハンドラは、過去の音声データと現在のデータとの間の任意の相関関係を探すことができる。これは、現在のデータに対してより正確な予測を返すのに役立ち得る。長手方向分析は、複数の行動健康状態について事前値に影響を及ぼし得る時刻、曜日、月、場所の天気などの要因を考慮に入れることができる。モデルは、より良い予測性能のためにこの情報で訓練することができる。
システム出力
図6のシステム600は、患者が精神的状態又は生理学的状態のリスクがあるかどうかを識別する電子レポートを出力することができる。電子レポートは、ユーザの電子デバイスのグラフィカル・ユーザ・インターフェースに表示されるように構成され得る。ユーザは、患者自身であっても、患者の医療提供者であってもよい。電子レポートは、精神的又は生理学的状態のリスクの定量化、例えば、正規化されたスコアを含み得る。スコアは、母集団全体又は関心対象者の部分母集団に対して正規化することができる。電子レポートはまた、正規化されたスコアの信頼性レベルを含み得る。信頼性レベルは、正規化されたスコア(すなわち、正規化されたスコアが信頼できる程度)の信頼性を示し得る。
電子レポートは、視覚的グラフィック要素を含み得る。例えば、患者がいくつかの異なる時間に発生した複数のスクリーニング又は監視セッションからの複数のスコアを有する場合、視覚的グラフィック要素は、経時的な患者のスコアの進行を示すグラフであり得る。
システム600は、患者又は患者に関連する連絡担当者、医療提供者、医療支払者、又は別の第三者に電子レポートを出力することができる。システム600は、スクリーニング、監視、又は診断が進行中であっても、実質的にリアルタイムで電子レポートを出力することができる。スクリーニング、監視、又は診断の過程での正規化されたスコア又は信頼度の変化に応じて、電子レポートを実質的にリアルタイムで更新し、ユーザに再送信することができる。
場合によっては、電子レポートは、患者の精神状態に関する1つ又は複数の記述子を含み得る。記述子は、患者の精神状態(例えば、「軽度のうつ病」)の定性的尺度とすることができる。代替的又は追加的に、記述子は、スクリーニング中に患者が言及したトピックであり得る。記述子は、グラフィック、例えばワードクラウドに表示することができる。
本明細書に記載のモデルは、特定の目的のために、又はシステムの出力を受信することができるエンティティに基づいて最適化することができる。例えば、モデルは、患者が精神状態を有するかどうかを推定する際の感度のために最適化されてもよい。保険会社などの医療保険支払者は、偽陽性診断を有する患者に行われる保険金支払の回数を最小限に抑えることができるように、そのようなモデルを好む場合がある。他の場合では、モデルは、患者が精神状態を有するかどうかを推定する際の特異性のために最適化されてもよい。医療提供者は、そのようなモデルを好む場合がある。システムは、出力が送信される関係者に基づいて適切なモデルを選択することができる。処理後、システムは出力を関係者に送信することができる。
あるいは、本明細書に記載のモデルは、臨床医、医療提供者、保険会社、又は政府規制機関によって決定された所望のレベルの感度又は所望のレベルの特異性に従って音声及び他のデータを処理するように調整又は構成され得る。代替的又は追加的に、モデルは、精度、リコール、F1、等価エラー率(「equal error rate:EER」)、陽性予測値(「positive predictive value:PPV」)、陰性予測値(「negative predictive value:NPV」)、陽性尤度比(「LR+」)、陰性尤度比(「likelihood ratio negative:LR-」)、一致相関係数(「concordance correlation coefficient:CCC」)、ピアソン相関係数(「Pearson correlation coefficient:PCC」)、二乗平均平方根誤差(「root mean squared error:RMSE」)、平均絶対誤差(「mean absolute error:MAE」)、又は任意の他の関連する性能メトリックを最適化するように調整、構成、又は訓練することができる。
電子レポートは、患者の音声のテキスト転写物から抽出された「ワードクラウド」又は「トピッククラウド」を含み得る。ワードクラウドは、より大きなフォントサイズ、異なる色、異なるフォント、異なる書体、又はそれらの任意の組み合わせを使用して最も頻繁に指定される単語及び句を用いて、個々の単語又は句の視覚的表現であってもよい。このように単語又は句の頻度を描写することは、一般に、うつ病患者が、非うつ病患者よりも高い頻度で特定の単語又は句を言うので、有用であり得る。例えば、うつ病患者は、暗い、黒い、又は病的な気分を示す単語又は語句を使用し得る。彼らは、価値がないと感じたり、失敗したように感じたりすることについて話したり、「常に」、「決して」、又は「完全に」などの絶対的な言葉を使用したりすることがある。うつ病患者はまた、一般集団と比較して、より高い頻度の一人称(例えば、「I」、「me」)及びより低い頻度の二人称又は三人称代名詞を使用し得る。システムは、機械学習アルゴリズムを訓練して、落ち込んでいる人と落ち込んでいない人の単語群の意味解析を実行し、単語群に基づいて人を落ち込んでいるか落ち込んでいないかに分類することができる。単語クラウド分析は、教師なし学習を使用して実行することもできる。例えば、システムは、ラベル化されていない単語群を分析し、パターンを検索して、人々を精神状態に基づいてグループに分離することができる。生成された単語は、うつ病のリスクの減少又は増加を示し得る(すなわち、うつ病のリスクの増加又は減少に関連する)。
同様に、電子レポートは、患者の予測された性格特性を含み得る。性格特性(例えば、内向性又は外向性)は、発話長から推測することができる。
電子レポートは、さらに、証拠ベースの心理教育資料及び支援戦略を含み得る。材料及び支持戦略は、患者のスコアに合わせて調整することができる。材料及び支援戦略は、映像、テキスト、及び割り当ての形態で患者に直接提供されてもよく、又は材料及び支援戦略は、心理教育プロセスを導くことができる患者の医療提供者に提供されてもよい。
使用例
本明細書に記載の音響及びNLPモデルは、うつ病について10代の若者を監視するために使用され得る。モデルは、十代の若者をうつ病のリスクがあると独自に分類することができる音声ベースのバイオマーカを決定するために、十代の若者のグループに対して機械学習分析を実行することができる。10代のうつ病は、成人とは異なる原因を有し得る。ホルモンの変化はまた、成人にとって非典型的であるはずの10代の若者の行動を導入し得る。十代の若者をスクリーニング又は監視するためのシステムは、これらの固有の挙動を認識するように調整されたモデルを使用する必要がある。例えば、落ち込んでいる又は動揺している10代の若者は、動揺したときに引っ込む可能性がある成人よりも、怒り及び被刺激性になりやすい可能性がある。したがって、評価からの質問は、成人とは異なる音声ベースのバイオマーカを10代の若者から誘発し得る。十代の若者をうつ病について試験するとき、又は十代の若者の精神状態を研究するとき、成人をスクリーニング又はモニタリングするために使用されるものとは異なるスクリーニング又はモニタリング方法を使用することができる。臨床医は、10代のうつ病に特異的な音声ベースのバイオマーカを特に誘発するように評価を修正することができる。システムは、これらの評価を使用して訓練され、精神状態を予測するための10代特有のモデルを決定することができる。10代の若者は、さらに、家庭(フォスターケア、養子親(複数可)、2人の生物学的親、1人の生物学的親、保護者/親戚によるケアなど)、病歴、性別、年齢及び社会経済状態によってセグメント化されてもよく、これらのセグメントはモデルの予測に組み込まれてもよい。
本明細書に記載のモデルはまた、うつ病及び認知症について高齢者を監視するために使用され得る。高齢者はまた、若年成人が有し得ない特定の音声ベースのバイオマーカを有し得る。例えば、高齢者は、加齢のために、緊張した声又は細い声を有することがある。高齢者は、失語症又は構音障害を呈することがあり、調査質問、フォローアップ、又は会話音声を理解するのに問題があり、反復言語を使用することがある。臨床医は、高齢患者から特定の音声ベースのバイオマーカを引き出すための調査を開発するか、又はアルゴリズムを使用して開発することができる。高齢患者の精神状態を予測するために、具体的には患者を年齢で区分することによって、機械学習アルゴリズムを開発することができる。性別の役割、モラル、及び文化的規範について異なる見解を有する可能性がある異なる世代の高齢患者には違いが存在し得る。モデルは、高齢ブラケット、性別、人種、社会経済的状態、身体的な医学的状態、及び家族の関与を組み込むように訓練され得る。
システムは、精神的健康のために航空会社パイロットを試験するために使用され得る。航空会社のパイロットは、厄介な仕事を抱えており、長時間のフライトで大量のストレス及び疲労を経験する可能性がある。臨床医又はアルゴリズムを使用して、これらの状態に対するスクリーニング又はモニタリング方法を開発することができる。例えば、システムは、ミネソタ多相性パーソナリティ質問表(Minnesota Multiphasic Personality Inventory:MMPI)及びMMPI-2で試験されたものと同様のクエリの評価に基づいてもよい。
システムはまた、精神的健康のために軍人をスクリーニングするために使用され得る。例えば、システムは、PTSDを検査するために、一次ケア外傷後ストレス障害の診断及び統計マニュアル(DSM)-5(PC-PTSD-5)で尋ねられたものと同様の主題を有するクエリを使用する評価を実施し得る。PTSDに加えて、システムは、うつ病、パニック障害、恐怖症性障害、不安症、及び敵対性について軍人をスクリーニングすることができる。システムは、展開前及び展開後に軍人をスクリーニングするために異なる調査を使用することができる。システムは、職業のためにセグメント化することによって軍人をセグメント化することができ、支部、役員又は下請人、性別、年齢、民族、旅行/配備の回数、配偶者の状態、病歴、及び他の要因によって軍人をセグメント化することができる。
システムは、例えばバックグラウンドチェックを実施することによって、見込みのある銃購入者を評価するために使用され得る。評価は、小火器を所有するための精神的適応性について有望な購入者を評価するために、臨床医によって又はアルゴリズム的に設計され得る。調査は、質問及びフォローアップ質問を使用して、有望な銃購入者が、裁判所又は他の当局によって、彼又は他者に対する危険性として認定され得るかどうかを決定するための要件を有し得る。
スコアリング
本明細書に記載のモデルは、精神的又は行動的健康評価の様々な段階でスコアを生成することができる。生成されるスコアは、スケーリングされたスコア又は二値スコアであってもよい。スケーリングされたスコアは、複数の値に及ぶ可能性があり、二値スコアは、2つの離散値のうちの1つであり得る。モデルは、異なる精神状態を監視するために、又は評価の過程にわたって特定の精神状態について特定の二値スコア及び特定のスケーリングされたスコアを更新するために、評価の様々な段階で二値スコア及びスケーリングされたスコアを交換することができる。
二値又はスケーリングされたシステムによって生成されたスコアは、評価における各クエリに対する各応答の後に生成されてもよく、又は以前のクエリに部分的に基づいて定式化されてもよい。後者の場合、各限界スコアは、うつ病又は別の精神状態の予測を微調整し、予測をよりロバストにするように作用する。周縁部の予測は、(特定の中間精神状態と相関する)特定の数のクエリ及び応答の後に、このようにして精神状態の予測のための信頼尺度を増加させることができる。
スケーリングされたスコアの場合、スコアの改善により、臨床医は、患者が経験している1つ又は複数の精神状態の重大度をより高い精度で決定することが可能になり得る。例えば、スケーリングされたスコアの改善は、複数の中間的なうつ病状態を観察する場合、臨床医が患者が軽度、中程度、又は重度のうつ病を有するかどうかを判定することを可能にし得る。複数のスコアリング反復を実行することはまた、冗長性を追加し、堅牢性を追加することによって、臨床医及び管理者が偽陰性を除去するのを助けることができる。例えば、初期の精神状態の予測は、分析に利用できる音声セグメントが比較的少なく、NLPアルゴリズムは、患者の記録された音声の意味的コンテキストを決定するのに十分な情報を持たない可能性があるため、ノイズが多い可能性がある。単一の周辺予測自体がノイズの多い推定値であっても、より複数の測定値を追加することによって予測を精緻化すると、システムの全体的な分散が減少し、より正確な予測が得られる。本明細書に記載の予測は、人々が自分の状態について横たわる動機を有する可能性があるため、単に調査を行うことによって得られ得る予測よりも実用的であり得る。調査を実施すると、複数の偽陽性及び偽陰性の結果が得られ、治療を必要とする患者が割れ目をすり抜けることが可能になる。さらに、訓練を受けた臨床医は、音声及び顔ベースのバイオマーカに気付くことができるが、本明細書に開示されたモデルが分析することができる大量のデータを分析することができない可能性がある。
スケーリングされたスコアは、精神状態の重症度を記述するために使用され得る。スケーリングされたスコアは、例えば、1から5の間、又は0から100の間の数であってもよく、より大きな数は、患者の経験した精神状態のより重度又は急性の形態を示す。スケーリングされたスコアは、整数、パーセンテージ、又は小数を含み得る。スケーリングされたスコアが重症度を表し得る症状としては、うつ病、不安症、ストレス、PTSD、恐怖症性障害、統合失調症、及びパニック障害が挙げられ得るが、これらに限定されない。一例では、評価のうつ病関連側面のスコア0は、うつ病がないことを示し得、スコア50は中程度のうつ病を示し得、スコア100は重度のうつ病を示し得る。スケーリングされたスコアは、複数のスコアの合成であってもよい。精神状態は、精神的サブ状態の組成として表現されてもよく、患者の複合的精神状態は、精神的サブ状態からの個々のスコアの加重平均であってもよい。例えば、うつ病の組成スコアは、怒り、悲しみ、自己像、自己価値、ストレス、寂しさ、孤立、及び不安症の個々のスコアの加重平均であり得る。
スケーリングされたスコアは、マルチラベル分類器を使用するモデルを使用して生成され得る。この分類器は、例えば、決定木分類器、k近傍分類器、又はニューラルネットワークに基づく分類器であってもよい。分類器は、評価の中間段階又は最終段階で特定の患者のための複数のラベルを生成することができ、ラベルは特定の精神状態の重大度又は程度を示す。例えば、マルチラベル分類器は、ソフトマックス層を使用して確率に正規化され得る複数の数を出力し得る。最大の確率を有するラベルは、患者が経験した精神状態の重症度を示し得る。
スケーリングされたスコアはまた、回帰モデルを使用して決定されてもよい。回帰モデルは、重み付き変数の和として表される訓練例から適合を決定することができる。適合は、既知の体重を有する患者からのスコアを外挿するために使用され得る。重みは、視聴覚信号(例えば、音声ベースのバイオマーカ)から部分的に導出され、患者人口統計などの患者情報から部分的に導出され得る特徴に部分的に基づいてもよい。最終スコア又は中間スコアを予測するために使用される重みは、以前の中間スコアから取得することができる。
スケーリングされたスコアは、信頼尺度に基づいてスケーリングされてもよい。信頼尺度は、録音品質、録音からの患者の音声を分析するために使用されたモデルのタイプ(例えば、オーディオ、ビジュアル、セマンティック)、特定の期間中にどのモデルが最も多く使用されたかに関連する時間分析、及び視聴覚サンプル内の特定の音声ベースのバイオマーカの時点に基づいて決定することができる。中間スコアを決定するために複数の信頼尺度を採用することができる。評価中の信頼性尺度は、特定のスケーリングされたスコアに対する重み付けを決定するために平均化されてもよい。
二値スコアは、システムからの二値結果を反映することができる。例えば、システムは、ユーザが落ち込んでいるか落ち込んでいないかを分類することができる。システムは、ニューラルネットワーク又はアンサンブル法などの分類アルゴリズムを使用してこれを行うことができる。二値分類器は、0と1との間の数を出力することができる。患者のスコアが閾値を上回る場合(例えば、0.5)、患者は「うつ病」として分類され得る。患者のスコアが閾値を下回る場合、患者は「うつ病ではない」と分類され得る。システムは、評価の複数の中間状態について複数の二値スコアを生成することができる。システムは、評価のための全体的な二値スコアを生成するために、評価の中間状態からの二値スコアを重み付けして合計することができる。
本明細書に記載のモデルの出力は、較正されたスコア、例えば単位範囲を有するスコアに変換することができる。本明細書に記載のモデルの出力は、追加的又は代替的に、臨床的価値を有するスコアに変換することができる。臨床的価値を有するスコアは、定性診断(例えば、重度のうつ病の高いリスク)であり得る。あるいは、臨床値を有するスコアは、一般集団又は患者の特定の部分集団に関して正規化された正規化された定性的スコアであり得る。正規化された定性的スコアは、一般集団又は亜集団に対するリスクパーセンテージを示し得る。
本明細書に記載のシステムは、標準化された精神健康アンケート又は検査ツールよりも少ない誤差(例えば、10%未満)又はより高い精度(例えば、10%以上)で対象者の精神状態(例えば、精神障害又は行動障害)を識別することが可能であり得る。エラー率又は精度は、精神状態を含む1つ又は複数の医学的状態を識別又は評価するためにエンティティによって使用可能なベンチマーク基準に対して確立することができる。エンティティは、臨床医、医療提供者、保険会社、又は政府規制機関であってもよい。ベンチマーク基準は、独立して検証された臨床診断であり得る。
信頼尺度
本明細書に記載のモデルは、信頼尺度を使用することができる。信頼尺度は、うつ病などの精神状態を正確に予測するために、機械学習アルゴリズムによって生成されたスコアがどの程度効果的であり得るかの尺度であり得る。信頼尺度は、スコアが取得された条件に依存し得る。信頼尺度は、整数、小数、又はパーセンテージとして表すことができる。条件は、記録装置の種類、信号が取得された周囲空間、背景雑音、患者の発話の癖、話者の言語流暢性、患者の反応の長さ、患者の反応の評価された真実性、及び理解できない単語及び句の頻度を含み得る。信号又は音声の品質が音声を分析することをより困難にする条件下では、信頼尺度はより小さい値を有し得る。いくつかの実施形態では、計算された二値又はスケーリングされたスコアを信頼度で重み付けすることによって、信頼度をスコア計算に追加することができる。他の実施形態では、信頼性尺度は別個に提供されてもよい。例えば、システムは、患者が75%の信頼で0.93のうつ病スコアを有することを臨床医に伝えることができる。
信頼性レベルはまた、患者の発話を分析するモデルを訓練するために使用される訓練データのラベルの品質に基づいてもよい。例えば、ラベルが正式な臨床診断ではなく、患者によって完了された調査又はアンケートに基づく場合、ラベルの品質はより低いと判定され得、したがってスコアの信頼性レベルはより低くなり得る。場合によっては、調査又はアンケートが一定レベルの不正を有すると判定されてもよい。そのような場合、ラベルの品質はより低いと判定され得、したがってスコアの信頼性レベルはより低くなり得る。
特に信頼性尺度が評価が行われる環境によって影響を受ける場合、信頼性尺度を改善するために、システムによって様々な尺度がとられてもよい。例えば、システムは、1つ又は複数の信号処理アルゴリズムを使用して背景ノイズを除去するか、又はインパルス応答測定を使用して、音声サンプルが記録された環境のオブジェクト及び特徴によって引き起こされる残響の影響を除去する方法を決定することができる。システムはまた、意味解析を使用して、欠けている又は理解できない単語の同一性を判定するためのコンテキストの手がかりを見つけることができる。
さらに、システムは、ユーザプロファイルを使用して、挙動、民族的背景、性別、年齢、又は他のカテゴリに基づいて人々をグループ化することができる。類似のグループからの人々は類似の音声ベースのバイオマーカを有し得るので、類似の音声ベースのバイオマーカを示す人々は類似の方法でうつ病を示し得るので、システムはより高い信頼性でうつ病を予測することが可能であり得る。
例えば、異なる背景を有するうつ病の人々は、ゆっくりとした発話、単調なピッチ又は低いピッチの変動性、過度の立ち止まり、声の音色(ざらざらした又は騒がしい音声)、一貫性のない発話、集中力の散漫又は喪失、無言応答、及び意識の流れの物語によって様々に分類され得る。これらの音声ベースのバイオマーカは、分析された患者の1つ又は複数のセグメントに属し得る。
臨床シナリオ
本明細書に記載のモデルは、プライマリケアと健康との相互作用からの音声を分析することができる。例えば、システムを使用して、訓練された医療提供者個人がとる患者の精神的健康に関する推測を増強することができる。システムはまた、予備スクリーニング又はモニタリングコール(例えば、訓練された精神医療専門家との医療予約をセットアップする目的で、有望な患者によって医療提供者組織に行われるコール)から精神的健康を評価するために使用され得る。一次スクリーニングのために、医療専門家は、患者の精神的健康治療の必要性を確認するために、特定の順序で患者に特定の質問をすることができる。記録装置は、これらの質問のうちの1つ又は複数に対する有望な患者応答を記録することができる。これが行われる前に、有望な患者の同意を得ることができる。本明細書に記載のモデルは、有望な患者から収集された音声スニペットを処理することができる。
システムは、音声バイオマーカモデルを訓練するために標準的な臨床的遭遇を使用することができる。システムは、身体的愁訴についての臨床的遭遇の記録を収集することができる。愁訴は、傷害、病気、又は慢性状態に関するものであり得る。システムは、患者の許可を得て、予約中に患者が医療提供者と行った会話を記録することができる。身体的愁訴は、患者の健康状態に関する感情を示し得る。場合によっては、身体的愁訴は、患者に著しい苦痛を引き起こし、患者の全体的な性質に影響を及ぼし、場合によってはうつ病を引き起こす可能性がある。
音声ベースのバイオマーカは、実験値又は生理学的測定値と関連付けられ得る。音声ベースのバイオマーカは、精神健康関連の測定値と関連付けられ得る。例えば、それらは、精神医学的治療の効果、又は療法士などの医療専門家によって採取されたログと比較され得る。それらは、音声ベースの分析が現場で一般的に行われる査定と一致するかどうかを確認するために、調査質問に対する回答と比較され得る。
音声ベースのバイオマーカは、身体的健康関連測定と関連付けられ得る。例えば、病気などの発声の問題は、実施可能な予測を生成するために考慮される必要がある発声音を生成する患者に寄与し得る。さらに、患者が病気又は怪我から回復している時間スケールにわたるうつ病予測を、その時間スケールにわたる患者の健康転帰と比較して、治療が患者のうつ病又はうつ病関連症状を改善しているかどうかを確認することができる。音声ベースのバイオマーカは、システムの臨床的有効性を判定するために、複数の時点の間に収集された脳活動に関するデータと比較することができる。
モデルの訓練は、オーディオデータが収集されている間にモデルが継続的に実行されるように、継続的であってもよい。音声ベースのバイオマーカをシステムに継続的に追加し、複数のエポックの間の訓練に使用することができる。モデルは、収集されるときにデータを使用して更新することができる。
システムは、強化学習メカニズムを使用することができ、このメカニズムでは、信頼性の高いうつ病予測をもたらす音声ベースのバイオマーカを誘発するために、調査質問を動的に変更することができる。例えば、強化学習メカニズムは、グループから質問を選択することができてもよい。以前の質問又は以前の質問のシーケンスに基づいて、強化機構は、うつ病の高信頼性予測をもたらし得る質問を選択し得る。
システムは、どの質問又は質問のシーケンスが患者からの特定の誘発をもたらし得るかを決定することができる。システムは、機械学習を使用して、例えば確率を生成することによって、特定の誘発を予測することができる。システムはまた、ソフトマックス層を使用して、複数の誘発の確率を生成することができる。システムは、特定の質問、並びにこれらの質問がいつ尋ねられるか、質問された調査までの時間、質問された時刻、及び質問された治療コース内の時点を特徴として使用することができる。
システムは、治療の経過に動的に影響を及ぼすために音声ベースのバイオマーカを使用する方法を含み得る。システムは、一定期間にわたるユーザの誘発を記録し、記録された誘発から、治療が有効であったか否かを判定することができる。例えば、音声ベースのバイオマーカが長期間にわたってうつ病をあまり示さなくなった場合、これは処方された治療が有効であるという証拠となり得る。一方、音声ベースのバイオマーカが長期間にわたってうつ病をより示すようになると、システムは、医療提供者に治療の変更を追求するように促し、又は現在の治療過程をより積極的に追求するように促し得る。
システムは、治療の変更を自発的に推奨することができる。システムがデータを継続的に処理及び分析している実施形態では、システムは、うつ病(又は別の精神障害若しくは行動障害)を示す音声ベースのバイオマーカの突然の増加を検出することができる。これは、処置の過程で比較的短い時間枠にわたって起こり得る。システムはまた、一連の治療が特定の期間(例えば、6ヶ月、1年)無効であった場合、変更を自発的に推奨することができる。
システムは、薬剤に対する特定の応答の確率を追跡することができる場合がある。例えば、システムは、一連の治療の前、治療中、及び治療後に採取された音声ベースのバイオマーカを追跡し、精神障害又は行動障害を示すスコアの変化を分析することができる。
システムは、同様の患者について訓練されていることによって、特定の患者の薬剤に対する応答確率を追跡することができる。システムは、このデータを使用して、同様の人口統計学からの患者の応答に基づいて患者の応答を予測することができる。これらの人口統計は、年齢、性別、体重、身長、病歴、又はそれらの組み合わせを含み得る。
さらに、システムは、質問を調査することに基づいて、患者が自分のバイオマーカを分析することによって治療を続けているかどうかを伝えることができる。例えば、患者は、防御的になり、長い間立ち止まり、詰め込み、又は患者が治療計画に忠実に横たわっているように行動することができる。患者はまた、治療計画に従わなかったことに関する悲しみ、恥心、又は悲しみを表すことができる。
システムは、患者が一連の治療又は投薬に従うかどうかを予測することができる。システムは、患者が一連の治療を続けるかどうかに関する予測を行うために、複数の患者からの音声ベースのバイオマーカからの訓練データを使用することができる。システムは、順守を予測するものとして特定の音声ベースのバイオマーカを特定することができる。例えば、不正を示す音声ベースのバイオマーカを有する患者は、治療計画を順守する可能性が低いと指定され得る。
システムは、個々の患者ごとにベースラインプロファイルを確立することができる。個々の患者は、特定の発話スタイルを有することができ、特定の音声ベースのバイオマーカは、幸福、悲しみ、怒り、及び悲しみなどの感情を示す。例えば、一部の人々は、フラストレーションを感じるときには笑ったり、幸せなときには叫ぶことがある。一部の人々は、大きな声又は穏やかな声で話す、はっきりと話す又はつぶやく、大語彙又は小語彙を有する、自由に又はより躊躇して話すことがある。一部の人々は、外向的な性格を有し得るが、他の人々は、より内向的であり得る。
一部の人々は、他の人々よりも話すのをためらうことがある。一部の人々は、自分の感情を表現することについてより慎重になり得る。一部の人々は、外傷及び乱用を経験したことがある。一部の人々は、自分の感情について否定しているかもしれない。
人のベースラインの気分又は精神状態、したがって人の音声ベースのバイオマーカは、経時的に変化し得る。モデルは、これを説明するために継続的に訓練されてもよい。このモデルはまた、うつ病をあまり頻繁に予測しなくてもよい。経時的なモデルの予測は、精神医療専門家によって記録され得る。これらの結果は、患者のうつ病状態からの進行を示すために使用され得る。
システムは、様々なタイプの個人を考慮するために特定の数のプロファイルを作成することができる場合がある。これらのプロファイルは、例えば、個人の性別、年齢、民族、使用言語、及び職業に関連し得る。
特定のプロファイルは、同様の音声ベースのバイオマーカを有し得る。例えば、高齢者は、若年者よりも細くて息を吸う声を有することがある。それらの弱い声は、マイクロフォンが特定のバイオマーカを拾い上げるのをより困難にする可能性があり、彼らは若年者よりもゆっくり話す可能性がある。さらに、高齢者は行動療法を汚す可能性があり、したがって、若年者ほど複数の情報を共有しない可能性がある。
男性と女性は自分自身を異なるように表現することがあり、これは異なるバイオマーカをもたらし得る。例えば、男性はより積極的又は激しく否定的な感情を表現することができ、女性は自分の感情をよりうまくアーティキュレートさせることができる。
加えて、異なる文化の人々は、感情に対処し、又は感情を表現する異なる方法を有することがあり、又は否定的な感情を表現するときに自責感及び恥心を感じることがある。特異な音声ベースのバイオマーカの取得に関してシステムをより効果的にするために、文化的背景に基づいて人々をセグメント化することが必要な場合がある。
システムは、性格タイプによってセグメント化及びクラスタリングすることによって、異なる性格タイプを有する人々を考慮することができる。これは、臨床医が性格タイプに精通している可能性があり、それらのタイプの人々がどのようにうつ病感を表出する可能性があるため、手動で行うことができる。臨床医は、これらのセグメント化された群の人々から特定の音声ベースのバイオマーカを引き出すための特定の調査質問を開発することができる。
音声ベースのバイオマーカは、人が情報を隠しているか、又は試験方法を越えようとしている場合であっても、その人が落ち込んでいるかどうかを判定するために使用することができる。これは、音声ベースのバイオマーカの多くが不随意発話であり得るためである。例えば、患者は曖昧にすることができ、又は患者の声は震えることができる。
特定の音声ベースのバイオマーカは、うつ病の特定の原因と相関し得る。例えば、うつ病を示す特定の単語、句、又はそれらの配列を見つけるために、複数の患者に対して意味解析が行われる。システムはまた、ユーザの有効性を決定するために、ユーザに対する治療オプションの効果を追跡することができる。最後に、システムは、利用可能なより良い治療方法を決定するために強化学習を使用することができる。
追加の使用例
本明細書に開示されるシステムは、医療提供者によって提供されるケアを強化するために使用され得る。例えば、開示されたシステムの1つ又は複数は、患者の患者ケア提供者への受け渡しを容易にするために使用され得る。システムが評価後に特定の精神状態の閾値を上回るスコアを生成する場合、システムは、さらなる調査及び分析のために患者を専門家に紹介することができる。例えば、患者が遠隔医療システムで治療を受けている場合、又は専門家が患者と同じ場所にいる場合、評価が完了する前に患者を紹介することができる。例えば、患者は、1人又は複数の専門家と共に診療所で治療を受けていてもよい。
開示されるシステムは、スコアリング後に患者の臨床プロセスを指示することができる。例えば、患者がクライアントデバイスを使用して評価を受けていた場合、患者は、評価の完了後に、認知行動療法(cognitive behavioral therapy:CBT)サービスを参照することができる。それらはまた、医療提供者と呼ばれてもよく、又はシステムによって行われる医療提供者との予約を有してもよい。開示されるシステムは、1つ又は複数の医薬品を提案することができる。システムは、特定の食事療法又は運動療法をさらに提案することができる。推奨される運動レジメンは、少なくとも部分的に、患者の人口統計(例えば、年齢及び性別)、過去の病歴、又は患者生成の健康データ(例えば、体重、心臓血管又は肺の健康など)に基づいてもよい。
本明細書に記載のシステム及びモデルは、正確な事例管理に使用することができる。第1の手術では、患者が症例管理者と会話する。第2の動作では、1つ又は複数のエンティティが、患者の同意を得て会話を受動的に記録する。会話は、対面での会話であってもよい。別の実施形態では、事件マネージャは、遠隔で会話を実行することができる。例えば、会話は、遠隔医療プラットフォームを使用する会話であってもよい。第3の動作では、本明細書に記載されたモデルは、記録された会話を処理し、リアルタイムの結果を支払人に送信することができる。リアルタイム結果は、精神状態に対応するスコアを含み得る。第4のステップにおいて、症例管理者は、リアルタイム結果に基づいてケア計画を更新することができる。例えば、特定の閾値を超える特定のスコアは、介護提供者と患者との間の将来の相互作用に影響を及ぼす可能性があり、提供者に患者の異なる質問をさせる可能性がある。スコアは、スコアに関連する特定の質問を提案するようにシステムをトリガすることさえできる。会話は、更新されたケア計画で繰り返されてもよい。
本明細書に記載のシステム及びモデルは、プライマリケアのスクリーニング又はモニタリングに使用することができる。第1の手術では、患者は一次医療提供者を訪問する。第2の動作では、音声は、電子転写のためのプライマリケア提供者の組織によって捕捉されてもよく、システムは、分析のためのコピーを提供してもよい。第3のステップにおいて、プライマリケア提供者は、分析から、ケア経路を知らせるリアルタイムのバイタルサインを受信することができる。これは、行動健康の専門家への温かい受け渡しを容易にし得るか、又は特定のケア経路上でプライマリケア提供者に指示するために使用され得る。
本明細書に記載のシステム及びモデルは、強化された従業員支援計画(employee assistance plan:EAP)ナビゲーション及びトリアージに使用することができる。第1の動作では、患者はEAP回線を呼び出すことができる。第2のステップにおいて、システムは、視聴覚データを記録し、患者をスクリーニングすることができる。リアルタイムのスクリーニング又はモニタリング結果は、リアルタイムで提供者に配信することができる。提供者は、収集されたリアルタイムの結果に基づいて、高リスクトピックについて患者を適応的にスクリーニングすることができる。リアルタイムスクリーニング又はモニタリングデータはまた、他のエンティティに提供されてもよい。例えば、リアルタイムのスクリーニング又はモニタリングデータは、臨床医にオンコールで提供されてもよく、紹介をスケジュールするために使用されてもよく、教育目的で使用されてもよく、又は他の目的で使用されてもよい。患者とEAPとの間の相互作用は、直接であっても遠隔であってもよい。EAPラインを担当する人は、患者が肯定的な画面を有し、患者を適切なレベルの治療に導くのを助けることができることをリアルタイムで警告され得る。EAPはまた、患者に施された評価の結果、例えば、患者の精神状態に対応するスコアに基づいて質問するように指示されてもよい。本明細書で説明される音声データは、リアルタイムで収集及び分析されてもよく、又は記録され、後で分析されるデータであってもよい。
遠隔医療
場合によっては、本明細書に記載のモデルは、患者と医療提供者(health care provider:HCP)との間の1つ又は複数の遠隔医療セッションからのオーディオ及びビデオを処理することができる。図19は、遠隔医療システム1900を示す。遠隔医療システム1900は、患者及びHCPが患者の健康に関する遠隔医療セッションを行うことを可能にすることができる。遠隔医療システム1900は、患者デバイス1905、HCPデバイス1910、遠隔医療サーバ1915、及び遠隔医療データベース1920を含み得る。患者デバイス1905、HCPデバイス1910、及び遠隔医療サーバ1915は、ネットワーク1930を介して通信することができる。患者デバイス1905及びHCPデバイス1905は、モバイルデバイス(例えば、スマートフォン)、電子タブレット、ラップトップ又はデスクトップコンピュータなどであってもよい。
患者デバイス1905及びHCPデバイス1910は、遠隔医療アプリケーション1925のインスタンスを実行することができる。遠隔医療アプリケーション1925は、スタンドアロンのデスクトップアプリケーション、ウェブアプリケーション、モバイルアプリケーションなどであってもよい。遠隔医療アプリケーション1925の各インスタンスは、そのインスタンスのユーザ(例えば、患者)が別のユーザ(例えば、医療提供者)とのセキュアな通信リンクを確立することを可能にするユーザインターフェースを有し得る。ユーザインターフェースは、ユーザがユーザのデバイス(例えば、患者デバイス1905は)上のカメラ及びマイクロフォンを使用してオーディオ及びビデオを記録し、他のユーザのデバイス(例えば、HCPデバイス1905)を使用して他のユーザによって記録されたオーディオ及びビデオを消費することを可能にすることができる。2つのデバイスは、安全な通信リンクを介してオーディオストリーム及びビデオストリームを継続的に交換することができ、2人のユーザ間のリアルタイムのビデオ会議を容易にする。遠隔医療アプリケーション1925の各インスタンスは、オーディオストリーム及びビデオストリームを圧縮及び解凍するオーディオコーデック及びビデオコーデックを有してもよい。場合によっては、ユーザインターフェースは、患者に関する人口統計情報又は臨床情報をHCPにさらに表示することができる。このような情報は、遠隔医療サーバ1915によって遠隔医療データベース1920から検索されてもよい。
遠隔医療システム1900は、テレビ会議からの音声及び映像を遠隔医療データベース1902に記憶することができる。その後、本明細書に記載の音響、NLP、及びビデオモデルは、オーディオ及びビデオを処理して、例えば、ビデオ会議の参加者のうちの1人(例えば、患者)が行動又は精神の健康障害を有するかどうかを判定することができる。
追加的又は代替的に、遠隔医療システム1900は、テレビ会議が行われているときにリアルタイムで患者からのオーディオ及びビデオを処理することができる。そのような場合、遠隔医療データベース1920は、本明細書に記載の音響、NLP、及びビデオモデルを格納することができる。遠隔医療サーバ1915は、患者デバイス1905からオーディオ及びビデオストリームを取得し、遠隔医療データベース1920から適切なモデルを取得し、モデルを使用してオーディオ及びビデオストリームを処理して、患者が行動障害又は精神障害を有するかどうかを判定することができる。遠隔医療サーバ1915は、モデルの出力をリアルタイムでHCPデバイス1905のユーザインターフェースに提供することができる。出力は、定性的又は定量的スコア、信頼区間、ワードクラウドなどを含む、本明細書に記載の出力のいずれかであってもよい。出力は、患者とのビデオ会議を案内する際にHCPを支援することができる。遠隔医療サーバ1915は、出力に基づいて患者のユーザインターフェースをさらに変更することができる。例えば、出力が、患者が落ち込んでいることを示す場合、遠隔医療サーバ1915は、認知行動療法オプションをユーザインターフェースに追加することができる。
上述のリアルタイム処理の場合、遠隔医療サーバ1915は、患者に関する利用可能な人口統計データ又は臨床データを使用することによって、遠隔医療データベース1920から適切なモデルを選択することができる。例えば、遠隔医療サーバ1915は、患者が青年である場合、青年モデル(例えば、主に青年からのオーディオ及びビデオについて訓練されたモデル)を選択することができる。追加的又は代替的に、遠隔医療サーバ1915は、そのような人口統計情報がまだ知られていない場合、画像認識プロセスを使用して患者に関する人口統計情報を決定することができる。例えば、遠隔医療サーバ1915は、画像認識プロセスを使用して、患者の性別、年齢、人種などを判定することができる。
場合によっては、患者の発話は、遠隔医療セッションの直前に本明細書に記載のモデルによって分析することができ、その結果、セッション中、医療提供者は、患者の予測される状態を評価する質問をすることができる。他の場合には、遠隔医療セッションの直後に患者の発話を分析することができる。
遠隔医療又は対面臨床での遭遇では、患者の音声特性を医療提供者の音声特性と一致させることが有益であり得る。そうすることにより、患者との親密さを達成する可能性を向上させることができる。
場合によっては、遠隔医療システム1900は、患者を「介護バディ」に接続することができる。介護士は、場所、年齢、行動的又は精神的状態、性格特性などに少なくとも部分的に基づいて割り当てられてもよい。患者と彼の介護士との間の連絡は、遠隔医療システム1900を介して行われてもよい。介護バディには、連絡用のテンプレートが提供されてもよく、これには、週間チェックインの電話及び電話中に互いに尋ねる質問が含まれてもよい。
品質管理
患者によって提供された入力音声が許容できない状況が生じ得る。そのような場合、本明細書に記載のシステムは、入力音声にリアルタイムでフラグを立てることができる。一例では、対応するユーザは、音声を生成することができないか、又は最適以下の品質又は量で音声を生成することができる。音響品質検出器は、収集された音声を分析し、音声の品質(例えば、その体積)が低すぎる場合にリアルタイムで警告を生成することができる。システムはまた、リアルタイムで総単語数を判定することができ、単語数が十分に高くない場合、新しいプロンプトのセットを供給することができる。新しいプロンプトは、より長い又はより複数の応答を引き出すように設計されてもよい。別の例では、ユーザは、システムをゲームしようと試みることができる(例えば、インセンティブを得るため、又は診断を回避するために)。そのようなユーザの場合、ASRモデルは、音声が「良い」ユーザからの音声と大きく異なるかどうかを判定するために音声を処理することができる。次いで、試験ユーザからの入力をこのモデルとリアルタイムで比較して、単語パターンが良好なユーザから期待されるものから遠すぎるかどうかを確認する。この手法は、システムに生で話すのではなく、別のソースからオーディオを再生するユーザ、又は尋ねられた質問について話すが話すことを試みないユーザを捕捉することができる。そして、システムは、ユーザに警告を提示するか、又は音声ファイルにタグ付けすることができる。
非発話モデル
場合によっては、本明細書に記載のシステムは、呼吸モデル、笑いモデル、及び一時停止モデルを含む非発話モデルを含み得る。呼吸のモデル化は、不安症又は躁病の予測に有用であり得る。笑いのモデル化(又はその欠如)は、うつ病を予測するのに有用であり得る。一時停止はまた、特定の行動的又は精神的健康状態を示し得る。非発話モデルの出力は、音響モデルの出力と融合することができる。
ニューラルネットワーク
本開示では、各種のニューラルネットワークについて説明する。ニューラルネットワークは、1つ又は複数の出力、例えば対象者の血糖値を予測するために、複数層の演算を使用することができる。ニューラルネットワークは、入力層と出力層との間に位置する1つ又は複数の隠れ層を含み得る。各層の出力は、別の層、例えば次の隠れ層又は出力層への入力として使用することができる。ニューラルネットワークの各層は、層への入力に対して実行されるべき1つ又は複数の変換演算を指定することができる。そのような変換動作は、ニューロンと呼ばれ得る。特定のニューロンの出力は、バイアスで調整され、活性化関数、例えば、正規化線形ユニット(rectified linear unit:ReLU)又はシグモイド関数で乗算された、ニューロンへの入力の加重和であり得る。
ニューラルネットワークを訓練するステップは、予測出力を生成するために訓練されていないニューラルネットワークに入力を提供するステップと、予測出力を予測出力と比較するステップと、予測出力と予測出力との間の差を考慮するためにアルゴリズムの重み及びバイアスを更新するステップと、を含み得る。具体的には、コスト関数を使用して、予測出力と予測出力との間の差を計算することができる。ネットワークの重み及びバイアスに関するコスト関数の導関数を計算することによって、重み及びバイアスは、コスト関数を最小化するために複数のサイクルにわたって反復的に調整することができる。訓練は、予測出力が収束条件、例えば、コスト関数によって決定されるような計算されたコストの大きさが小さいことを満たすときに完了することができる。
本開示は、畳み込みニューラルネットワーク(CNN)を説明する。CNNは、畳み込み層と呼ばれるいくつかの層のニューロンが入力データセットのごく一部(例えば、音声データの短い時間セグメント)から入力を受け取るニューラルネットワークである。これらの小さな部分は、ニューロンの受容野と呼ばれ得る。そのような畳み込み層内の各ニューロンは、同じ重みを有し得る。このようにして、畳み込み層は、入力データセットの任意の部分における特定の特徴を検出することができる。CNNはまた、畳み込み層のニューロンクラスタの出力と、フィードフォワードニューラルネットワークの従来の層と同様の完全接続層とを組み合わせるプーリング層を有し得る。
本開示は、リカレント・ニューラル・ネットワーク(RNN)について説明する。RNNは、時系列データ、例えば音声データにおける依存性をエンコードすることができる循環的接続を有するニューラルネットワークである。RNNは、時系列入力のシーケンスを受信するように構成された入力層を含み得る。RNNはまた、状態を維持する1つ又は複数の隠れたリカレント層を含み得る。各時間ステップにおいて、各隠れリカレント層は、その層の出力及び次の状態を計算することができる。次の状態は、前の状態及び現在の入力に依存することができる。状態は、時間ステップにわたって維持することができ、入力シーケンス内の依存関係を捕捉することができる。
RNNの一例はLSTMであり、LSTMユニットで構成され得る。LSTM部は、セル、入力ゲート、出力ゲート、及び忘却ゲートで構成することができる。セルは、入力シーケンス内の要素間の依存関係を追跡する役割を担うことができる。入力ゲートは、新しい値がセルに流入する程度を制御することができ、忘却ゲートは、値がセル内に残る程度を制御することができ、出力ゲートは、セル内の値がLSTMユニットの出力アクティブ化を計算するために使用される程度を制御することができる。LSTMゲートの活性化関数は、ロジスティック関数であり得る。LSTMは双方向であってもよい。
コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図8は、図1のシステム100を実装するか、又は図4及び図5の訓練プロセスを実行するようにプログラムされるか、又は他の方法で構成されるコンピュータシステム801を示す。
コンピュータシステム801は、シングルコア若しくはマルチコアプロセッサ、又は並列処理のための複数のプロセッサとすることができる中央処理装置(central processing unit:CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」)805を含む。コンピュータシステム801はまた、メモリ又はメモリ位置810(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)と、電子記憶ユニット815(例えば、ハードディスク)と、1つ又は複数の他のシステムと通信するための通信インターフェース820(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データストレージ、及び/又は電子ディスプレイアダプタなどの周辺装置825とを含む。メモリ810、記憶ユニット815、インターフェース820及び周辺装置825は、マザーボードなどの通信バス(実線)を介してCPU805と通信する。記憶ユニット815は、データを記憶するためのデータ記憶ユニット(又はデータリポジトリ)であってもよい。コンピュータシステム801は、通信インターフェース820の助けを借りてコンピュータネットワーク(「ネットワーク」)830に動作可能に結合することができる。ネットワーク830は、インターネット、インターネット及び/若しくはエクストラネット、又はインターネットと通信するイントラネット及び/若しくはエクストラネットとすることができる。ネットワーク830は、場合によっては、電気通信及び/又はデータネットワークである。ネットワーク830は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる1つ又は複数のコンピュータサーバを含み得る。ネットワーク830は、場合によっては、コンピュータシステム801の助けを借りて、コンピュータシステム801に結合されたデバイスがクライアント又はサーバとして動作することを可能にすることができるピアツーピアネットワークを実装することができる。
CPU805は、プログラム又はソフトウェアに組み込まれ得る一連の機械可読命令を実行することができる。命令は、メモリ810などのメモリ位置に格納することができる。命令は、CPU805を対象者とすることができ、CPU805は、その後、本開示の方法を実施するようにCPUをプログラム又は構成することができる。CPU805によって実行される動作の例は、フェッチ、デコード、実行、及びライトバックを含み得る。
CPU805は、集積回路などの回路の一部であってもよい。システム801の1つ又は複数の他の構成要素が回路に含まれてもよい。場合によっては、回路は特定用途向け集積回路(ASIC)である。
記憶ユニット815は、ドライバ、ライブラリ及び保存されたプログラムなどのファイルを記憶することができる。記憶ユニット815は、ユーザデータ、例えば、ユーザプレファレンス及びユーザプログラムを記憶することができる。コンピュータシステム801は、場合によっては、イントラネット又はインターネットを介してコンピュータシステム801と通信する遠隔サーバ上に位置するなど、コンピュータシステム801の外部にある1つ又は複数の追加のデータ記憶装置を含み得る。
コンピュータシステム801は、ネットワーク830を介して1つ又は複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム801は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレート若しくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxyタブ)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android(登録商標)対応デバイス、Blackberry(登録商標))、又は携帯情報端末が含まれる。ユーザは、ネットワーク830を介してコンピュータシステム801にアクセスすることができる。
本明細書に記載の方法は、例えばメモリ810又は電子記憶ユニット815などのコンピュータシステム801の電子記憶場所に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。機械実行可能コード又は機械可読コードは、ソフトウェアの形態で提供されてもよい。使用中、コードはプロセッサ805によって実行することができる。場合によっては、コードは、記憶ユニット815から取得され、プロセッサ805による容易なアクセスのためにメモリ810に記憶され得る。いくつかの状況では、電子記憶ユニット815を除外することができ、機械実行可能命令がメモリ810に記憶される。
コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイル及び構成することができ、又はランタイム中にコンパイルすることができる。コードは、コードが予めコンパイルされた方法又はコンパイルされた方法で実行することを可能にするように選択することができるプログラミング言語で供給することができる。
コンピュータシステム801など、本明細書で提供されるシステム及び方法の態様は、プログラミングにおいて具現化され得る。本技術の様々な態様は、典型的には機械(又はプロセッサ)実行可能コード及び/又はある種の機械可読媒体上に担持されるか又はそれに具体化される関連データの形態の「製品」又は「製品」と考えることができる。機械実行可能コードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスクなどの電子記憶装置に記憶することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサなどの有形メモリ、又は様々な半導体メモリ、テープドライブ、ディスクドライブなどの関連モジュールのいずれか又はすべてを含んでいてもよく、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供し得る。ソフトウェアの全部又は一部は、インターネット又は様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサへの、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にすることができる。したがって、ソフトウェア要素を担持することができる別のタイプの媒体は、ローカルデバイス間の物理インターフェースにわたって、有線及び光の地上ネットワークを介して、及び様々なエアリンクを介して使用されるような、光波、電気波、及び電磁波を含む。有線又は無線リンク、光リンクなど、そのような波を搬送する物理的要素もまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータ又は機械の「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理伝送媒体を含むがこれらに限定されない複数の形態をとることができる。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用され得る任意のコンピュータなどの記憶装置のいずれかなどの光学又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形伝送媒体は同軸ケーブルを含む;コンピュータシステム内にバスを備えるワイヤを含む、銅ワイヤ及び光ファイバ。搬送波伝送媒体は、電気信号若しくは電磁信号、又は無線周波数(radio frequency:RF)及び赤外線(infrared:IR)データ通信中に生成されるような音波若しくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD又はDVD-ROM、Blu-ray(登録商標)、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROM及びEPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップ又はカートリッジ、データ又は命令を搬送する搬送波、そのような搬送波を搬送するケーブル又はリンク、あるいはコンピュータがプログラミングコード及び/又はデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のために1つ又は複数の命令の1つ又は複数のシーケンスをプロセッサに搬送することに関与することができる。
コンピュータシステム801は、例えば、ユーザから発話を誘発し得るユーザに1つ以上のクエリを提供するためのユーザインターフェース(user interface:UI)840を備える電子ディスプレイ835を含むか、又はそれと通信することができる。UIの例には、グラフィカル・ユーザ・インターフェース(graphical user interface:GUI)及びウェブベースのユーザインターフェースが含まれるが、これらに限定されない。
本開示の方法及びシステムは、1つ又は複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置805による実行時にソフトウェアによって実施されてもよい。アルゴリズムは、例えば、本明細書に記載の音響モデル、機械学習モデル、又は訓練プロセスのいずれかであってもよい。
本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明は、本明細書内で提供される特定の例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明及び例示は、限定的な意味で解釈されることを意味しない。本発明から逸脱することなく、当業者には複数の変形、変更、及び置換が思い浮かぶであろう。さらに、本発明のすべての態様は、様々な条件及び変数に依存する本明細書に記載の特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、任意のそのような代替形態、修正形態、変形形態又は均等物も包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法及び構造並びにそれらの均等物がそれによって包含されることが意図される。

Claims (89)

  1. エンコーダ及び分類器を含む音響モデルを用いて対象者における行動的又は精神的健康状態を検出するための方法であって、
    (a)前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
    (b)前記音声サンプルを前記エンコーダで処理して、前記音声サンプルの抽象的な特徴表現を生成するステップであって、前記エンコーダは、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するように事前訓練されている、ステップと、
    (c)前記抽象的な特徴表現を前記分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、前記分類器は、複数の話者からの複数の音声サンプルを含む訓練データセット上で訓練されており、前記複数の音声サンプルの音声サンプルは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
    を含む、方法。
  2. (b)の前に、前記音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項1に記載の方法。
  3. 前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項1に記載の方法。
  4. 前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項1に記載の方法。
  5. 前記出力は、前記対象者からの前記音声サンプルの前記複数のセグメントの各セグメントに対するセグメント出力を含み、前記方法は、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項1に記載の方法。
  6. 前記第1のタスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項1に記載の方法。
  7. (a)が、遠隔医療セッション中に前記音声サンプルを取得するステップを含む、請求項1に記載の方法。
  8. (a)が、前記対象者のモバイルデバイスから前記音声サンプルを取得するステップを含み、(b)及び(c)が前記モバイルデバイス上で少なくとも部分的に実行される、請求項1に記載の方法。
  9. (b)及び(c)が、遠隔サーバ上で少なくとも部分的に実行される、請求項8に記載の方法。
  10. 前記音声サンプルを、笑いモデル、呼吸モデル、又は一時停止モデルを含む非発話モデルで処理するステップをさらに含む、請求項1に記載の方法。
  11. (b)の前に、前記音声サンプルが品質閾値を満たすかどうかを判定するステップをさらに含む、請求項1に記載の方法。
  12. 1つ又は複数のコンピュータプロセッサによって実行されると、対象者の行動的又は精神的健康状態を検出するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記方法が、
    (a)前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
    (b)前記音声サンプルをエンコーダで処理して、前記音声サンプルの抽象的な特徴表現を生成するステップであって、前記エンコーダは、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するように事前訓練されている、ステップと、
    (c)前記抽象的な特徴表現を分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップであって、前記分類器は、複数の話者からの複数の音声サンプルを含む訓練データセット上で訓練されており、前記複数の音声サンプルの音声サンプルは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
    を含む、方法。
  13. 対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法であって、前記音響モデルがエンコーダ及び分類器を含み、前記方法が、
    (a)第1の訓練データセット上で、前記エンコーダを、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するように訓練するステップと、
    (b)(a)に続いて、前記第1の訓練データセットとは異なる第2の訓練データセット上で、前記エンコーダ及び前記分類器を訓練するステップであって、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成し、前記第2の訓練データセットは、複数の話者からの複数の音声サンプルを含み、前記複数の音声サンプルの音声サンプルは、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
    を含む、方法。
  14. 前記第1のタスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項13に記載の方法。
  15. (b)が、前記出力を生成するために、前記エンコーダからの前記音声サンプルの抽象的な特徴表現を処理するように前記分類器を訓練するステップを含む、請求項13に記載の方法。
  16. (b)の間、前記エンコーダが固定される、請求項13に記載の方法。
  17. (b)の間、前記エンコーダが固定されない、請求項13に記載の方法。
  18. (a)及び(b)が教師あり学習プロセスである、請求項13に記載の方法。
  19. 前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項13に記載の方法。
  20. 前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項13に記載の方法。
  21. 前記出力が、前記対象者からの前記音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、前記方法が、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項13に記載の方法。
  22. 1つ又は複数のコンピュータプロセッサによる実行時に、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記音響モデルがエンコーダ及び分類器を含み、前記方法が、
    (a)第1の訓練データセット上で、前記エンコーダを、前記対象者における前記行動的又は精神的健康状態を検出すること以外の第1のタスクを実行するように訓練するステップと、
    (b)(a)に続いて、前記第1の訓練データセットとは異なる第2の訓練データセット上で、前記エンコーダ及び前記分類器を訓練するステップであって、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成し、前記第2の訓練データセットは、複数の話者からの複数の音声サンプルを含み、前記複数の音声サンプルの音声サンプルが、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされる、ステップと、
    を含む、方法。
  23. 対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練する方法であって、
    (a)音声サンプルを転写するために、第1の訓練データセット上で、自動音声認識(ASR)システムを訓練するステップであって、前記ASRシステムは、エンコーダ及びデコーダを備える、ステップと、
    (b)前記デコーダを破棄するステップと、
    (c)前記対象者からの音声サンプルを処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、前記第1の訓練データセットとは異なる第2の訓練データセット上で、前記エンコーダ及び分類器を訓練するステップであって、前記第2の訓練データセットは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、
    を含む、方法。
  24. (a)の前に、前記複数のラベルなし音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項23に記載の方法。
  25. (c)の前に、前記複数のラベル付き音声サンプルをフィルタバンク又はメル周波数ケプストラム係数に変換するステップをさらに含む、請求項23に記載の方法。
  26. (a)が、前記エンコーダを、前記音声サンプルの抽象的な特徴表現を生成するように訓練し、前記デコーダを、前記音声サンプルの前記抽象的な特徴表現を処理して、転写された音声サンプルを生成するように訓練するステップを含む、請求項23に記載の方法。
  27. (c)が、前記出力を生成するために、前記エンコーダからの前記音声サンプルの抽象的な特徴表現を処理するように前記分類器を訓練するステップを含む、請求項23に記載の方法。
  28. (c)の間、前記エンコーダが固定される、請求項23に記載の方法。
  29. (c)の間、前記エンコーダが固定されない、請求項23に記載の方法。
  30. (a)及び(c)が教師あり学習プロセスである、請求項23に記載の方法。
  31. 複数のラベル化音声サンプルと、前記複数のラベル化音声サンプルを生成した複数の話者に関するメタデータとを含む第3の訓練データセット上で前記分類器を訓練するステップをさらに含む、請求項23に記載の方法。
  32. 前記メタデータが、前記複数の話者の各々の年齢、人種、民族、性別、収入、教育、場所、又は病歴のうちの1つ又は複数を含む、請求項31に記載の方法。
  33. 前記エンコーダが、畳み込みニューラルネットワーク(CNN)及び長期短期記憶ネットワーク(LSTM)を含む、請求項23に記載の方法。
  34. 前記CNNがビジュアル・ジオメトリ・グループ(VGG)ネットワークである、請求項23に記載の方法。
  35. 前記分類器が、リカレント畳み込みニューラルネットワーク(RCNN)、注意付きLSTM、自己注意ネットワーク、及び変換器からなる群から選択されるモデルを含む、請求項23に記載の方法。
  36. 前記分類器が二値分類器であり、前記出力は、前記対象者が前記行動的又は精神的健康状態を有するか否かを示す二値出力である、請求項23に記載の方法。
  37. 前記分類器が複数クラス分類器であり、前記出力が、前記対象者における前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を含む、請求項23に記載の方法。
  38. 前記出力が、前記対象者からの前記音声サンプルの複数のセグメントの各セグメントについてのセグメント出力を含み、前記方法は、前記セグメント出力を融合して前記対象者における前記行動的又は精神的健康状態を検出するステップをさらに含む、請求項23に記載の方法。
  39. 1つ又は複数のコンピュータプロセッサによる実行時に、対象者の行動的又は精神的健康状態を検出するために音響モデルを訓練するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記方法が、
    (a)音声サンプルを転写するために、第1の訓練データセット上で、自動音声認識(ASR)システムを訓練するステップであって、前記ASRシステムは、エンコーダ及びデコーダを備える、ステップと、
    (b)前記デコーダを破棄するステップと、
    (c)前記対象者からの音声サンプルを処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するために、前記第1の訓練データセットとは異なる第2の訓練データセット上で、前記エンコーダ及び分類器を訓練するステップであって、前記第2の訓練データセットは、前記行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた複数のラベル付けされた音声サンプルを含む、ステップと、
    を含む、非一時的コンピュータ可読媒体。
  40. システムであって、
    1つ又は複数のコンピュータプロセッサと、
    前記1つ又は複数のコンピュータプロセッサによる実行時に、前記1つ又は複数のコンピュータプロセッサに、前記対象者からの複数のセグメントを含む入力音声に少なくとも部分的に基づいて、前記対象者が関心のある行動的又は精神的健康状態を有するかどうかを予測するように構成された音響モデルを実装させる機械実行可能命令を含むメモリであって、前記音響モデルが、
    前記入力音声の抽象的な表現を生成するように構成されたエンコーダであって、前記エンコーダは、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを予測すること以外のタスクを実行するために、転移学習フレームワークを使用して事前訓練される、エンコーダと、
    前記入力音声の前記抽象的な表現を処理して、前記対象者が前記関心のある行動的又は精神的健康状態を有するかどうかを示す出力を生成するように構成された少なくとも1つの分類器であって、前記少なくとも1つの分類器は、前記関心のある行動的又は精神的健康状態を有する話者に由来するものとして、又は由来しないものとしてラベル付けされた音声サンプルについて訓練されている、少なくとも1つの分類器と、
    を含む、メモリと、
    を備える、システム。
  41. 前記エンコーダが、ビジュアル・ジオメトリ・グループ(「VGG」)ネットワーク及び長期短期記憶(「LSTM」)ネットワークのスタックを含む、請求項40に記載のシステム。
  42. 前記少なくとも1つの分類器が、リカレント畳み込みニューラルネットワーク(「RCNN」)、注意付きLSTM、自己注意ネットワーク、又は変換器からなる群から選択されるモデルを含む、請求項40に記載のシステム。
  43. 前記少なくとも1つの分類器が、前記出力を生成するために前記対象者に関するメタデータを処理するようにさらに構成される、請求項40に記載のシステム。
  44. 前記メタデータが、前記対象者の年齢又は性別を含む、請求項43に記載のシステム。
  45. 前記エンコーダが、デコーダを用いて前記転写された音声サンプルについて訓練され、前記デコーダは前記システムの一部ではない、請求項40に記載のシステム。
  46. 前記タスクが、自動音声認識、話者認識、感情分類、又は音分類である、請求項40に記載のシステム。
  47. 前記セグメント出力が平均化される、請求項40に記載のシステム。
  48. 前記セグメント出力が、機械学習アルゴリズムを使用して融合される、請求項40に記載のシステム。
  49. 前記エンコーダがデコーダで事前訓練され、前記エンコーダ及びデコーダが自動音声認識(ASR)システムを備える、請求項40に記載のシステム。
  50. 前記デコーダが、注意ユニット、長期短期記憶ネットワーク、及びビーム探索ユニットのうちの1つ又は複数を含む、請求項49に記載のシステム。
  51. 前記少なくとも1つの分類器が、二値分類器を含む、請求項40に記載のシステム。
  52. 前記少なくとも1つの分類器が複数クラス分類器を含み、前記出力が、前記対象者における行動的又は精神的健康状態の複数の重大度にわたる確率分布を含む、請求項40に記載のシステム。
  53. 前記出力が、前記入力音声の前記複数のセグメントの各セグメントについてのセグメント出力であり、前記システムが、予測された精神状態を得るために、前記少なくとも1つの分類器の前記セグメント出力の学習された表現を融合するように構成されたセグメント融合モジュールをさらに備える、請求項40に記載のシステム。
  54. 自然言語処理(NLP)モデルを使用して対象者の行動的又は精神的健康状態を検出する方法であって、前記NLPモデルが言語モデル及び1つ又は複数の分類器を含み、前記方法が、
    (a)前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
    (b)言語モデル出力を生成するために前記音声サンプル又はその派生物を前記言語モデルで処理するステップであって、前記言語モデルは第1のデータセット及び第2のデータセットで訓練されており、前記第1のデータセットは前記行動的又は精神的健康状態に関連しないテキストを含み、前記第2のデータセットは前記行動的又は精神的健康状態に関連するテキストを含み、前記第1のデータセットは前記第2のデータセットよりも実質的に大きい、処理するステップと、
    (c)前記言語モデル出力を前記1つ又は複数の分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップと、
    を含む、方法。
  55. (b)の前に、転写された音声サンプルを生成するために前記音声サンプルを転写するステップと、エンコーダを使用して前記転写された音声サンプルの埋め込みを生成するステップとをさらに含む、請求項54に記載の方法。
  56. 前記言語モデルが、長期短期記憶(LSTM)ネットワーク又は変換器を含む、請求項54に記載の方法。
  57. 前記1つ又は複数の分類器が、二値分類器を含み、(c)が、前記対象者が前記行動的又は精神的健康状態を有するか、又は前記行動的又は精神的健康状態を有しないかを示す二値分類を生成するステップを含む、請求項54に記載の方法。
  58. 前記1つ又は複数の分類器が回帰分類器を含み、(c)が、前記対象者の前記行動的又は精神的健康状態の複数のレベル又は重大度にわたる確率分布を生成するステップを含む、請求項57に記載の方法。
  59. 前記出力を生成するために前記二値分類及び前記確率分布を融合するステップをさらに含む、請求項58に記載の方法。
  60. 前記第1のデータセットが、公開されているテキストコーパスを含む、請求項54に記載の方法。
  61. 1つ又は複数のコンピュータプロセッサによって実行されると、自然言語処理(NLP)モデルを使用して対象者における行動的又は精神的健康状態を検出するための方法を実施する機械実行可能命令を含む非一時的コンピュータ可読媒体であって、前記NLPモデルは言語モデル及び1つ又は複数の分類器を含み、前記方法が、
    (a)前記対象者から複数の音声セグメントを含む音声サンプルを取得するステップと、
    (b)言語モデル出力を生成するために前記音声サンプル又はその派生物を前記言語モデルで処理するステップであって、前記言語モデルが第1のデータセット及び第2のデータセットで訓練されており、前記第1のデータセットが前記行動的又は精神的健康状態に関連しないテキストを含み、前記第2のデータセットが前記行動的又は精神的健康状態に関連するテキストを含み、前記第1のデータセットが前記第2のデータセットよりも実質的に大きい、ステップと、
    (c)前記言語モデル出力を前記1つ又は複数の分類器で処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうかを示す出力を生成するステップと、
    を含む、方法。
  62. 行動的又は精神的健康状態を検出するために自然言語処理モデルを訓練するための方法であって、前記自然言語処理モデルは、(i)言語モデル及び(ii)分類器を含み、前記方法が、
    (a)第1のエンコードテキストで前記言語モデルを訓練するステップであって、前記第1のエンコードテキストが、前記行動的又は精神的健康状態とは無関係のテキストを含む、ステップと、
    (b)前記言語モデルを、第2のエンコードテキスト、及び任意選択的にメタデータ情報上で微調整するステップであって、前記第2のエンコードテキストが、前記行動的又は精神的健康状態に関連するテキストを含む、ステップと、
    (c)複数の対象者からの複数のエンコードされた音声サンプル上で前記行動的又は精神的状態を検出するように前記分類器を訓練するステップであって、前記複数のエンコードされた音声サンプルのエンコードされた音声サンプルが、前記エンコードされた音声サンプルを提供した対象者が前記行動的又は精神的健康状態を有するかどうかを示すラベル及び任意選択のメタデータ情報と関連付けられる、ステップと、
    を含む、方法。
  63. 前記言語モデルが、長期短期記憶(LSTM)ネットワークを含む、請求項62に記載の方法。
  64. 前記(a)の訓練が、非単調確率的勾配降下プロセスを含む、請求項63に記載の方法。
  65. 前記(a)の訓練が、ドロップアウト又はDropConnect操作を含む、請求項63に記載の方法。
  66. 前記言語モデルが変換器を含む、請求項62に記載の方法。
  67. 前記第2のエンコードテキストが、追加の行動的又は精神的健康状態に関連するテキストを含み、前記(b)の微調整が、マルチタスク学習を含む、請求項62に記載の方法。
  68. 前記複数の対象者からの前記複数のエンコードされた音声サンプル上で前記追加の行動的又は精神的状態を検出するために追加の分類器を訓練するステップであって、前記複数のエンコードされた音声サンプルのうちのエンコードされた音声サンプルが、前記エンコードされた音声サンプルを提供した対象者が前記追加の行動的又は精神的健康状態を有するかどうかを示すラベルと関連付けられる、ステップ、をさらに含む、請求項67に記載の方法。
  69. 前記行動的又は精神的健康状態が不安症であり、前記さらなる行動的又は精神的健康状態がうつ病である、請求項68に記載の方法。
  70. (b)における前記微調整が、前記言語モデルにおける異なる層の識別的微調整を含む、請求項62に記載の方法。
  71. (b)における前記微調整が、前記言語モデルの層を訓練するために傾斜三角形学習率を使用するステップを含む、請求項62に記載の方法。
  72. 前記分類器が、二値分類器及び回帰分類器を含み、(c)の前記訓練が、(i)試験対象者が前記行動的又は精神的健康状態を有するかどうかを予測するように前記二値分類器を訓練すること、及び(ii)前記対象者における前記行動的又は精神的健康状態の重症度を示す数値スコアを予測するように前記回帰分類器を訓練するステップを含む、請求項62に記載の方法。
  73. 前記自然言語処理モデルの出力は、前記二値分類器の出力及び前記回帰分類器の出力に少なくとも部分的に基づく、請求項72に記載の方法。
  74. (c)に続いて、
    (d)対象者から音声サンプルを取得するステップと、
    (e)前記自然言語処理モデルを使用して前記音声サンプルを処理し、前記試験対象者が前記行動的又は精神的健康状態を有するかどうかを予測するステップと、
    をさらに含む、請求項62に記載の方法。
  75. 前記音声サンプルが、複数のクエリに対する複数の応答を含み、(e)が、前記自然言語処理モデルを使用して前記音声サンプルを複数回処理するステップを含み、前記複数の応答が、前記複数回の毎回異なる順序で配置される、請求項74に記載の方法。
  76. 前記自然言語処理モデルが、前記複数の対象者からの前記複数の音声サンプルを転写するための自動音声認識モデルを含む、請求項62に記載の方法。
  77. 前記自然言語処理モデルが、前記複数の転写された音声サンプルをエンコードするためのエンコーダを備える、請求項76に記載の方法。
  78. 前記エンコーダが、nグラムモデル、スキップグラムモデル、ニューラルネットワーク、及びバイトペアエンコーダからなる群から選択される、請求項77に記載の方法。
  79. 前記ラベルが、標準化された精神健康アンケートの結果である、請求項62に記載の方法。
  80. 対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いかどうかを判定するための方法であって、
    (a)前記対象者から音声データを取得するステップと、
    (b)前記音声データ内の少なくとも1つの言語特徴及び少なくとも1つの音響特徴を識別するために前記音声データを処理するコンピュータ処理のステップと、
    (c)前記少なくとも1つの言語特徴及び前記少なくとも1つの音響特徴をコンピュータ処理して1つ又は複数のスコアを生成し、前記1つ又は複数のスコアを使用して、前記対象者が前記行動的又は精神的健康状態を有するか、又は有する可能性が高いかどうかの判定を生成するステップと、
    (d)(c)で生成された前記判定の指示を含む電子レポートを出力するステップであって、(b)~(d)が5分未満で実行され、(c)で生成された前記判定が少なくとも約0.70の曲線下面積(AUC)を有する、ステップと、
    を含む、方法。
  81. 前記AUCが少なくとも約0.75である、請求項80に記載の方法。
  82. 前記AUCが少なくとも約0.80である、請求項81に記載の方法。
  83. 前記電子レポートは、前記判定が、前記対象者が前記行動的又は精神的健康状態を有する、又は有する可能性が高いことを示す場合、前記行動的又は精神的健康状態に関連する心理教育資料を含む、請求項80に記載の方法。
  84. 対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いと判定するための方法であって、
    (a)前記対象者から音声データを取得するステップと、
    (b)前記音声データ内の少なくとも1つの音声特徴及び少なくとも1つの音響特徴を識別するために前記音声データを処理するコンピュータ処理のステップと、
    (c)前記少なくとも1つの音声特徴及び前記少なくとも1つの音響特徴をコンピュータ処理して、前記対象者が前記行動的又は精神的健康状態を有するか、又は有する可能性があるかという判定を提供するステップと、
    (d)(c)で提供された前記判定を示す電子レポートを出力するステップと、を含み、
    (b)又は(c)の前記コンピュータ処理が、(c)で提供される前記判定の感度又は特異性を含む少なくとも1つの性能メトリックを最適化する、方法。
  85. 対象者が行動的又は精神的健康状態を有するか又は有する可能性が高いかどうかを判定するための方法であって、
    (a)前記対象者と医療提供者との間の遠隔医療アプリケーションの遠隔医療セッション中に、前記対象者のオーディオストリーム及びビデオストリームを取得するステップと、
    (b)音響モデル、自然言語処理モデル(NLP)、及びビデオモデルを含む1つ又は複数のモデルを取得するステップであって、前記対象者が前記行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを判定するように1つ又は複数のモデルが訓練される、取得するステップと、
    (c)前記オーディオストリーム又は前記ビデオストリームを前記1つ又は複数のモデルで処理して、前記対象者が前記行動的又は精神的健康状態を有するかどうか、又は有する可能性が高いかどうかを示す判定を生成するステップと、
    (d)前記遠隔医療セッションが進行している間に、前記決定を、前記医療提供者のユーザデバイス上で実行されている前記健康アプリケーションのユーザインターフェースに送信するステップと、
    を含む、方法。
  86. 前記自然言語処理モデルを使用して前記オーディオストリーム内の1つ又は複数のトピック又は単語を決定し、前記1つ又は複数のトピック又は単語を前記ユーザインターフェースに送信するステップをさらに含む、請求項85に記載の方法。
  87. 前記判定が前記判定の信頼区間を含む、請求項85に記載の方法。
  88. 前記遠隔医療セッション中に(a)~(d)を連続的に繰り返すステップをさらに含む、請求項85に記載の方法。
  89. (b)が、前記対象者に関する人口統計学的又は病歴情報に少なくとも部分的に基づいて前記1つ又は複数のモデルを選択するステップを含む、請求項85に記載の方法。
JP2022524161A 2019-10-25 2020-10-23 速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル Pending JP2022553749A (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962926245P 2019-10-25 2019-10-25
US62/926,245 2019-10-25
US202063021617P 2020-05-07 2020-05-07
US202063021625P 2020-05-07 2020-05-07
US63/021,625 2020-05-07
US63/021,617 2020-05-07
US202063027240P 2020-05-19 2020-05-19
US202063027238P 2020-05-19 2020-05-19
US63/027,240 2020-05-19
US63/027,238 2020-05-19
PCT/US2020/057182 WO2021081418A1 (en) 2019-10-25 2020-10-23 Acoustic and natural language processing models for speech-based screening and monitoring of behavioral health conditions

Publications (2)

Publication Number Publication Date
JP2022553749A true JP2022553749A (ja) 2022-12-26
JPWO2021081418A5 JPWO2021081418A5 (ja) 2024-02-14

Family

ID=75620854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022524161A Pending JP2022553749A (ja) 2019-10-25 2020-10-23 速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル

Country Status (5)

Country Link
US (1) US20220328064A1 (ja)
EP (1) EP4048140A4 (ja)
JP (1) JP2022553749A (ja)
CA (1) CA3155809A1 (ja)
WO (1) WO2021081418A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11741986B2 (en) 2019-11-05 2023-08-29 Samsung Electronics Co., Ltd. System and method for passive subject specific monitoring
US11257486B2 (en) * 2020-02-28 2022-02-22 Intuit Inc. Machine learning to propose actions in response to natural language questions
CN112233664B (zh) * 2020-10-15 2021-11-09 北京百度网讯科技有限公司 语义预测网络的训练方法、装置、设备以及存储介质
US20220392637A1 (en) * 2021-06-02 2022-12-08 Neumora Therapeutics, Inc. Multimodal dynamic attention fusion
CN113297575B (zh) * 2021-06-11 2022-05-17 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
EP4358830A1 (en) * 2021-06-25 2024-05-01 The Regents of the University of California A new doping strategy for layered oxide electrode materials used in lithium-ion batteries
WO2023009647A1 (en) * 2021-07-28 2023-02-02 Kevin Carr Handsfree communication system and method
WO2023018325A1 (en) * 2021-08-09 2023-02-16 Naluri Hidup Sdn Bhd Systems and methods for conducting and assessing remote psychotherapy sessions
CN113850291B (zh) * 2021-08-18 2023-11-24 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质
US20230072242A1 (en) * 2021-09-07 2023-03-09 Canary Speech, LLC Paired neural networks for diagnosing health conditions via speech
GB202116425D0 (en) * 2021-11-15 2021-12-29 Limbic Ltd User triage diagnosis method and system
KR102494422B1 (ko) * 2022-06-24 2023-02-06 주식회사 액션파워 Ars 음성이 포함된 오디오 데이터에서 발화 음성을 검출하는 방법
CN114903443B (zh) * 2022-07-15 2022-12-13 北京大学第三医院(北京大学第三临床医学院) 表征衰老的表观生物学分析方法、系统、设备及存储介质
CN115862875B (zh) * 2023-02-27 2024-02-09 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统
CN116631446B (zh) * 2023-07-26 2023-11-03 上海迎智正能文化发展有限公司 一种基于言语分析的行为方式分析方法及系统
CN117122289B (zh) * 2023-09-12 2024-03-19 中国人民解放军总医院第一医学中心 一种疼痛评定方法
CN117116489A (zh) * 2023-10-25 2023-11-24 光大宏远(天津)技术有限公司 一种心理测评数据管理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8784311B2 (en) * 2010-10-05 2014-07-22 University Of Florida Research Foundation, Incorporated Systems and methods of screening for medical states using speech and other vocal behaviors
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9685174B2 (en) * 2014-05-02 2017-06-20 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
JP2021529382A (ja) * 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法

Also Published As

Publication number Publication date
CA3155809A1 (en) 2021-04-29
EP4048140A4 (en) 2024-02-28
US20220328064A1 (en) 2022-10-13
WO2021081418A1 (en) 2021-04-29
EP4048140A1 (en) 2022-08-31

Similar Documents

Publication Publication Date Title
US20220328064A1 (en) Acoustic and natural language processing models for speech-based screening and monitoring of behavioral health conditions
US11120895B2 (en) Systems and methods for mental health assessment
US11942194B2 (en) Systems and methods for mental health assessment
US11545173B2 (en) Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
Schuller et al. A review on five recent and near-future developments in computational processing of emotion in the human voice
EP4193235A1 (en) Multimodal analysis combining monitoring modalities to elicit cognitive states and perform screening for mental disorders
Girard et al. Computational analysis of spoken language in acute psychosis and mania
Yadav et al. Review of automated depression detection: Social posts, audio and video, open challenges and future direction
Yagi et al. Predicting multimodal presentation skills based on instance weighting domain adaptation
Cohen et al. A multimodal dialog approach to mental state characterization in clinically depressed, anxious, and suicidal populations
US20240087752A1 (en) Systems and methods for multi-language adaptive mental health risk assessment from spoken and written language
Bose Continuous emotion prediction from speech: Modelling ambiguity in emotion
Iliev Perspective Chapter: Emotion Detection Using Speech Analysis and Deep Learning
Rai et al. Multimodal mental state analysis
Gaikwad et al. Speech Recognition-Based Prediction for Mental Health and Depression: A Review
US20230320642A1 (en) Systems and methods for techniques to process, analyze and model interactive verbal data for multiple individuals
US20230377749A1 (en) Systems and methods for assessing speech, language, and social skills
Krishna et al. Tackling Depression Detection With Deep Learning: A Hybrid Model
Teferra Correlates and Prediction of Generalized Anxiety Disorder from Acoustic and Linguistic Features of Impromptu Speech
Verkholyak Automatic Recognition of Speaker’s Emotional States Based on Audio and Text
Jaisharma et al. An Automated Model for Child Language Impairment Prediction Using Hybrid Optimal BiLSTM
Brueckner et al. Audio-Based Detection of Anxiety and Depression via Vocal Biomarkers
Quintana Aguasca Joint learning of depression and anxiety severity directly from speech signals
Baki A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder
Gupta Computational Methods for Modeling Nonverbal Communication in Human Interaction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240205