JP2017532082A

JP2017532082A - 患者の精神状態のスピーチベース評価のためのシステム

Info

Publication number: JP2017532082A
Application number: JP2017509749A
Authority: JP
Inventors: ブルースノス，; ディミトラヴェルギリ，; エリザベスシベルク，; ヴィクラムジトミトラ，; ミッチェルマクラーレン，; アンドレアスカソール，; コーレンリチェリー，; マーティングラシアレナ，
Original assignee: SRI International Inc
Current assignee: SRI International Inc
Priority date: 2014-08-22
Filing date: 2015-08-05
Publication date: 2017-11-02
Also published as: WO2016028495A1; US20180214061A1; EP3160334B1; EP3160334A1; US10478111B2; EP3160334A4

Abstract

コンピューター実施方法は、患者からスピーチパターンを収集するスピーチ収集モジュールと、収集されたスピーチパターンから、少なくとも１つのスピーチ特徴を算出するスピーチ特徴算出モジュールと、少なくとも１つの算出されたスピーチ特徴の少なくとも一部に基づいて、患者の精神状態を判別するメンタルヘルス判別モジュールと、患者が鬱病や心的外傷後ストレス障害（ＰＴＳＤ）のような特定の疾患に苦しんでいる可能性についての診断の表示を提供する出力モジュールと、を含む。
【選択図】図５

Description

関連出願への相互参照
本出願は、２０１４年８月２２日出願の米国仮特許出願番号第６２／０４０，９６５号（発明の名称「ＰＴＳＤおよび鬱病の検出および測定のための方法」）に基づく優先権を主張し、該米国仮特許出願の内容の全ては、参照によりここに組み込まれる。

連邦政府によって支援された研究および開発に関する声明（ステートメント）
本発明は、米国陸軍医療研究収集活動契約（United states Army Medical Research Acquisition Activity contract）第Ｗ８１ＸＷＨ−１１−Ｃ−０００４号および全米科学財団許諾（National Science Foundation grand）第ＩＩＳ−１１６２０４６号に基づく米国政府支援によりなされたものである。米国政府は、本発明についての一定の権利を有する。

スピーチ（発話）は、メンタルヘルス（精神衛生）モニタリングのための重要な手助け（利益）を提供するものである。特に、鬱病のような特定の疾患は、人間社会に非常に大きな影響を与える一般的なメンタルヘルス問題であるが、発見されないことが多い。スピーチ分析は、非侵入性（noninvasive）、自然的（natural）、および安価であり、さらに、例えば、遠隔評価のための遠隔医療応用のような数多くの新興領域において用いられることができる。

心理言語学の文献において、スピーチは、重要な情報を含み、臨床評価において精神科医の役に立ち得るというエビデンスが存在する。喉頭音、咽頭音、および鼻声の構造の中枢制御は、情緒的ストレス（emotional stress）の複数の客観的な測定可能表現を生成する傾向にある。例えば、統合失調症、鬱病、精神病質を含む多くのメンタルヘルス問題は、一般的に、韻律（prosody：発話のリズム、強弱、イントネーション等の音声的要素のうち、文法によって定められているものを除き、発話者の感情や発話の文脈によって変化するもの）に影響を与える。すなわち、心理的健康性は、複数の特定の種類のスピーチ特徴の生成に密接に関連していると思われている。

重要な課題は、個人差である。個人差は、典型的には、大きく、さらに、メンタルヘルスに関連する話者間（inter-speaker）効果を曖昧なものとしてしまう。長期的な話者状態モデリングに対する多大な尽力の一部として、患者の自殺リスクについての臨床評価と相関するスピーチ特性が特定されている。

自殺のリスクのため、患者が病院に入院させられたときに記録される実際の患者−臨床医の交流、意思疎通の新たな言語資料（corpus）は、分析され、さらに、患者が退院するときにも再度分析される。プライバシー上の理由のため、典型的には、非語彙（non-lexical）特徴のみが用いられる。患者の鬱状態の臨床評価に相関するスピーチ特徴を自動的に抽出するための複数の特定の変化を特定することができる。

すなわち、様々な従来の研究が、それぞれ異なる精神疾患を検出可能なスピーチ特徴を特定しようと試みている。

図１は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価システムの例を示すブロック図である。図２は、開示の技術の特定の実施形態に係る臨床研究データ収集および分析システムの例を示すブロック図である。図３は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価および収集システムの例を示すブロック図である。図４は、開示の技術の特定の実施形態に係る機械学習システムの例を示すブロック図である。図５は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価のコンピューター実施方法の例を示すフローチャートである。図６Ａおよび図６Ｂは、２人の話者がストレス状態からよりリラックスした状態に変化した時に、２人の話者のピッチ分布がどの程度変化するのかを示すための例を示す図である。図７Ａおよび図７Ｂは、２人の話者がストレス状態からよりリラックスした状態に変化した時に、２人の話者の調波状態分布がどの程度変化するのかを示すための例を示す図である。図８は、開示の技術の特定の実施形態に係るスピーチ収集システムの例を示すブロック図である。図９は、開示の技術の複数の実施形態が実施されるネットワークシステムの例を示すブロック図である。

スピーチ分析および機械学習（machine learning）の分野における進歩は、人々（すなわち、患者）のスピーチにおける複数の複雑なパターンを用いて、話者の精神状態（例えば、様々な臨床手続きにおいて定められている精神状態）を予測することを可能としている。このような、スピーチを用いて、精神状態を予測するシステムおよび方法は、一般的に、話者（すなわち、患者）から、スピーチデータを収集することから始まる。その後、該システムまたは方法は、収集されたスピーチデータから、数学的パラメーター（スピーチ特徴とも称される）を導出する。その後、該システムまたは方法は、例えば、話者の見込み状態（likely status）を判別するため、これらの値と、特徴の事前定義セット内のデータおよび関連する精神状態とを比較する。その後、この結果は、例えば、必要に応じて、話者および／または臨床医に提供される。

患者のスピーチデータを収集することは、歴史的に、テープレコーダー、最近では、デジタル音声レコーダーを用いて、被験者に対する臨床医主導のインタビューを記録することによって実行されてきた。しかしながら、このようなインタビューの記録処理は、手間と時間がかかる。例えば、特別な設備が必要であり、そのような設備を適切に設定しなければならず、典型的には、インタビュー実施者とインタビュー受け者はマイクを着用し、さらに、インタビュー実施者は、インタビューを主導しなければならない。

これに対し、開示の技術の特定の実施形態は、アプリケーションベースの自動化されたスピーチ誘導プログラムを含む。このようなプログラムは、スピーチデータの収集にのみ焦点を合わせている。複数の代替実施もまた、収集されたスピーチの分析および／またはデータの提供を自動化する。

特定の実施形態において、患者のスピーチデータは、例えば、スマートフォンやタブレットのようなモバイル電子デバイスの音声ハードウェアを用いて収集される。デバイス上にインストールされたアプリケーションは、デバイスに、ユーザーに対して複数のオープンエンド質問（user open-ended questions）、すなわち、最近の出来事に関する複数の質問をさせる。また、デバイスは、複数の質問に対するユーザーの応答を記録する。患者に提供される複数の質問は、患者が周期的（例えば、毎週）に応えることができ、および／または、拡張回答（例えば、質問に対する「はい」または「いいえ」ではない回答）で答えることができるように、設計されている。なお、このような質問は、話者の精神状態を直接的に探索することや、話者の感情を深く掘り下げることを意図的に避けていることに留意されたい。

質問の順番は、患者毎および／またはセッション毎にランダム化されており、例えば、話者がアプリケーションを使用する際、毎回異なった質問を受けることができる。なお、この順番はランダムなため、被験者が前のセッションと同じ質問を繰り返し受けることもあり得ることに留意されたい。

特定の実施において、各セッション中において、特定の量のスピーチが記録される（例えば、所与のセッションの間に合計２分記録する）。患者がそのような特定の合計時間の間に複数の質問に答えると、アプリケーションは、被験者に対し、セッションに参加し、セッションを完了してくれたことに感謝を述べる。また、アプリケーションは、応答をサーバー、例えば、ローカルサーバーまたは遠隔サーバー上にアップロードしてもよい。

特定の実施は、一般的に、患者のメンタルヘルス評価を実行するために患者のスピーチ特徴を分析するシステムおよび方法に関し、例えば、患者が苦しんでいる心的外傷後ストレス障害（ＰＴＳＤ）または鬱病に対応するスコアを判別するために患者のスピーチ特徴を分析するシステムおよび方法に関する。すなわち、患者のスピーチ特徴は、例えば、患者のＰＴＳＤまたは鬱状態の検出を容易にするために利用可能な重要な情報を含んでいる。

特定の実施において、スピーチ特徴は、例えば、人のＰＴＳＤや鬱病の診断に一般的に相関する記録されたカウンセリングおよび心理的サービス（ＣＡＰＳ： Counseling and Psychological Services）インタビューから導出された個人のスピーチ特徴として、患者のＰＴＳＤまたは鬱状態の評価のために用いられる。患者集団から得られたインタビュー記録は、患者のＰＴＳＤまたは鬱状態を示す、または、患者のＰＴＳＤまたは鬱状態に関する評価スコアを最終的に提供するための客観的スコアリングシステムの改良（発展）およびテストのために用いられる。

開示の技術の特定の実施は、ＰＴＳＤまたは鬱病のためにスクリーニングされた患者集団から得られたインタビュー記録を選択、準備、および分析するためのプロトコル（手順）の使用を含む。該集団は、ＰＴＳＤ陰性（ネガティブ）患者およびＰＴＳＤ陽性（ポジティブ）患者の双方を含む。例えば、該プロトコルは、適切なインフォームド・コンセント（informed-consent：医師が患者に対して十分な情報提供を行ったうえでの治療同意）手続き、および、例えば、医療保険の相互運用性と責任に関する法律（18 ＨＩＰＡＡ：18 Health Insurance Portability and Accountability Act）識別子（45 C.F.R. §164.512(b)(2)(i)(A)-(R)）を除外するために、データを匿名化（非特定化）するための手続きを含む。インタビューは文字に書き起こされ、さらに、記録が、それぞれ独立したインタビュー実施者ユニットとインタビュー受け者ユニットにセグメント化される。

特定の実施において、韻律特徴（prosodic features）が定義され、各インタビュー受け者の記録セグメントから、韻律特徴が抽出される。これら特徴は、音声的およびポーズ期間（phonetic and pause durations）に加え、様々な抽出領域に渡るピッチおよびエネルギーの測定値のような多数の様々なパラメーターのうちの任意のものを含んでいる。多数の確立されている自動スピーチ認識技術のうちの任意のものを、これらセグメントを文字に書き起こすために用いることができる。

特定の実施において、メル周波数ケプストラム係数（ＭＦＣＣｓ： Mel Frequency Cepstral Coefficients）、並びに、ピッチおよびエネルギー特徴が、患者インタビューから抽出される。その他の特徴は、新規ケプストラム特徴（novel cepstral features）、一時的変動パラメーター（temporal variation parameters）（例えば、発声速度、期間内におけるプロミネンス（prominence：発話中の特定の部分を強く言う等により、目立たせること）ピークの分布、ポーズの長さおよび周期、音節期間等）、スピーチ周期性、ピッチ変動、および音声／無音声比（voiced/voiceless ratios）を含む。開示の技術の特定の実施は、例えば、患者プライバシーおよび実用上の理由により、単語（words）に依存しない自動抽出可能特徴（automatically extractable features）に制限されていてもよい。

患者チャンネル（patient channel）内の手動により注釈が付されたセグメントのそれぞれ用に、潜在的なＰＴＳＤまたは鬱病マーカーを取得することを目的としたスピーチ特徴タイプの様々な特徴が、算出される。このような特徴は、２つのカテゴリー、すなわち、短いスピーチサンプル（例えば、２０ミリ秒長）から算出された低レベル特徴および長いスピーチサンプル（例えば、発話（utterance）レベル）から算出された高レベル一時的特徴に分割される。

低レベル特徴は、減衰振動ケプストラム係数（ＤＯＣＣ： Damped Oscillator Cepstral Coefficients）、正規化変調ケプストラム係数（ＮＭＣＣｓ： Normalized Modulation Cepstral Coefficients）、媒体期間スピーチ振幅（ＭＭｅＤｕＳＡ： Medium Duration Speech Amplitudes）特徴、ガンマトーンケプストラム係数（ＧＣＣｓ： Gammatone Cepstral Coefficients）、ディープＴＶ（DeepTVs）、音声表音的（ＡＰ： Acoustic Phonetic）特徴のうちの任意の１つまたはこれらの組み合わせを含む。

減衰振動ケプストラム係数（ＤＯＣＣ）は、人間の耳内の有毛細胞の運動状態をモデル化することを目的としている。これら有毛細胞は、一般的に、入ってくる音波のモーションを検出し、さらに、聴覚神経のニューロンを活性化させる。ＤＯＣＣ処理において、入ってくるスピーチ信号は、一般に信号を帯域制限された複数のサブ帯域信号に分割するガンマトーンフィルターバンク（例えば、等価矩形帯域幅（ＥＲＢ： Equivalent Rectangular Bandwidth）スケール上で均等に離れて配置された４０個のガンマトーンフィルターのバンク）によって分析される。次に、これらサブ帯域信号が、その応答が音声特徴として利用される減衰振動アレイに対する強制関数（forcing functions）として使用される。

正規化変調ケプストラム係数（ＮＭＣＣｓ）は、例えば、離散エネルギー分離アルゴリズム（ＤＥＳＡ： Discrete Energy Separation Algorithm）と共にハミング窓を用いることにより、一般的に人間のスピーチ認知および認識において重要な役割を果たす時間領域（time-domain）サブ帯域スピーチ信号の振幅変調（ＡＭ： Amplitude Modulation）軌跡を追跡する。

媒体期間スピーチ振幅（ＭＭｅＤｕＳＡ）特徴の変調は、例えば、媒体期間分析窓（medium-duration analysis window）を用いて、サブ帯域ＡＭ信号およびスピーチの総括変調（overall summary modulation）を追跡するために用いられる。総括変調は、母音プロミネンス／アクセントのような出来事の位置特定およびスピーチ活動追跡において重要な役割を果たす。

ガンマトーンケプストラム係数（ＧＣＣｓ）は、知覚的に刺激を受けたガンマトーンフィルターバンク（perceptually motivated gammatone filterbank）を用いて、スピーチシグナルを分析する。ＧＣＣｓ用アルゴリズムは、離散コサイン変換をルート圧縮フィルターバンクエネルギーに実行した後、ガンマトーンスペクトルを抽出し、さらに、ケプストラム特徴を抽出する。ＧＣＣ処理において、スピーチは、例えば、ＥＲＢスケール上で等間隔に離れて配置された４０個のガンマトーンフィルターのバンクを用いて、分析される。

ディープＴＶは、声道（vocal tract）の様々な部分における収縮位置および収縮度を推定するディープニューラルネットワークから取得される構音（articulatory）特徴のセットである。これら特徴は、８次元であり、さらに、一般的に声門および軟口蓋の開閉、口唇収縮、円唇化、舌尖および舌圧子の収縮のような情報を取得する。

音声表音的（ＡＰ）特徴は、一般的に、音声表音情報（例えば、フォルマント（formant）情報、平均ヒルベルト包絡線、サブ帯域における周期的および非周期的エネルギー等）を表し、さらに、１０ミリ秒分析窓を用いて、５ミリ秒フレームレートで分析される。

カルディピッチ追跡子（Kaldi Pitch tracker）は、２次元出力、例えば、ピッチ追跡と、音声情報についての指標を提供する正規化相互相関関数とを提供するために用いられる。

高レベル特徴は、傾き特徴、Ｄｅｖ特徴、エネルギー等高線（Ｅｎ−ｃｏｎ）特徴、ピッチ関連特徴、および強度関連特徴のうちの任意の１つまたはこれらの組み合わせを含む。

傾き特徴は、一般的に、音声エフォート所与外因性セッション変動（vocal effort given extrinsic session variability）を取得することを目的としている。特徴が音声フレームのために抽出される。例えば、傾き特徴の５つの成分は、複数の室内条件においてマイクに対して入力された低次の調波およびフォルマントを反映する３つ（Ｈ２−Ｈ１、Ｆ１−Ｈ１、およびＦ２−Ｈ１）を含む。残りの２つの特徴は、例えば、フレーム毎のスペクトル傾き、および、ログパワースペクトルの最大と２ｋＨｚ−３ｋＨｚの範囲の最大との間の差である測定値を含んでいる。

ＤＬＥ特徴は、スパース特徴（例えば、音声−無音声移行毎に一度だけの出力）を用いて、セッション正規化音声エフォート検出（session-normalized vocal effort detection）を目的としている。この特徴は、一般的に、移行におけるログエネルギーにおける差である。ＤＬＥオンセット特徴は、典型的には、無音声から音声スピーチへの各境界において引き起こされるものであり、一方、ｄｅｖオフセット特徴は、通常、音声から無音声スピーチへの各境界において発生するものである。

エネルギー等高線（Ｅｎ−ｃｏｎ）特徴セットは、一般的に、各セグメント内のエネルギーピークの周期性に注目することによって、周期性を取得することを目的としている。この特徴は、典型的には、ＭＦＣＣフロントエンド（MFCC front end）からの出力ｃ０、ｃ１の１０ミリ秒等高線をモデル化する。ここで、各ケプストラムストリームは、発話に渡って平均正規化されており、そのため、両セッションに渡る絶対レベル差、および、セッションセグメント内の絶対レベル差をロバストにしている。その後、離散コサイン変換が１００ミリ秒シフトで２００ミリ秒スライド窓に渡って実行される。各窓用に、ベクトル成分は、ｃ０用の第１の５つのＤＣＴベース（the first five DCT bases for c0）と、ｃ１用の第１の２つのベースとを含む。

ピッチ関連特徴は、一般的に、ｆ０と、ｆ０ピーク（f0pk）と、ｆ０ピーク統計（f0pk-stats）特徴とを含む。ｆ０ピーク特徴は、一般的に、各セグメント内において実行された自動ピーク選別アルゴリズムによって発見されたピッチ値のサブセットのみを記録する。ｆ０ピーク統計特徴内において算出された統計値は、ピッチレベルおよびピッチ―ピーク分布情報の双方を含んでいる。ピッチレベルは、一般的に、セグメント内のピークピッチの平均、最大、および標準偏差を含む。ピッチピーク分布は、典型的には、ピッチではなく、セグメント内のピッチ−アクセント音節の一時的分布を取得することを目的としている。これら特徴は、ピークカウント、ピークレート（セグメント期間によって分割されたカウント）、平均および最大ピーク間距離、セグメント内の最大ピークの位置（すなわち、初期ｖｓ後期（early vs. late））、および、セグメントの期間のパーセンテージとセグメント内の未加工の距離（raw distance）の双方のうちの任意の１つを含む。

ｉｎｔ、ｉｎｔｐｋ（ｉｎｔピーク）、およびｉｎｔｐｋ統計のような強度関連特徴は、ピッチ特徴と同様の方法（ピッチではなく強度が算出される）において算出される。ピッチと異なり、未加工の強度値（例えば、強度、ピークでの強度、および強度の平均／最大／標準偏差）は、話者だけでなく、記録セッションにも反映する。残りのｆ０−ピーク統計のようなｉｎｔｐｋ統計は、セグメント内のピッチアクセントの分布を取得することを目的とし、さらに、動作特徴としてのみ解釈される。

特定の実施形態において、インタビュー受け者のインタビュー転写物から、語彙特徴が抽出される。これら特徴は、例えば、吃音、アイディア密度（idea density）、参照活動（referential activity）、感情の分析、話題モデリング（topic modeling）、意味的一貫性（semantic coherence）を含む。

特定の実施において、特徴選択は、一変量（univariate）分析を介して実行され、さらに、機械学習アルゴリズムは、音声および語彙特徴入力に基づいて、ＰＴＳＤや鬱状態、ＣＡＰＳスコアの様態などのアウトカム（outcome: 病気の治療後の経過および結果）測定値を予測するモデルを改良するために用いられる。統計モデルは、例えば、新たに抽出された特徴を用いて、ＰＴＳＤ陽性患者およびＰＴＳＤ陰性患者を特定するためにトレーニングされる。

ＰＴＳＤまたは鬱病評価モデルは、生成された音声および語彙特徴を用いて、有効化される。例えば、３つの分類子（例えば、ガウシアンバックエンド（ＧＢ： Gaussian Backend）、決定木（ＤＴ： Decision Trees）、およびニューラルネットワーク（ＮＮ））が用いられる。ＧＢ分類子を用いる特定の実施形態において、特定の数の特徴（例えば、最良（ベスト）の４つの特徴）が選択され、さらに、システムコンビネーション（例えば、融合（fusion））が被験者のスピーチに対して実行される。特定の実施形態は、語彙情報に依拠しない音声および韻律スピーチ特徴を用いるＰＴＳＤ分類子の生成を含む。また、このような実施形態は、見込み（chance）よりも非常に良い分類結果を生成するサブセットを特定することを含む。これら分類子の融合は、一般的に、より良い結果をもたらす。このような融合は、典型的には、例えば、典型的な臨床評価よりも正確な予想を提供する。

話者（例えば、評価システムに対しスピーキングを行っている患者または評価システム内においてスピーキングを行っている患者）は、自身のスピーチに影響を与えるメンタルヘルス状態を複数の様態で有している。例えば、スピーチ生成装置（例えば、患者の口）は、ケプストラムのような短期間スペクトル特徴を提供しており、一方、言語および韻律パターン（例えば、患者の脳からのもの）は、フレーズ（句）レベルの韻律／文体特徴および語彙／内容特徴を提供する。これら特徴の全ては、ここに記述される技術に係るアルゴリズム的な評価に提供される。

図１は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価システム１００の第１実施例を示すブロック図である。システム１００は、例えば、鬱病、自殺傾向、心的外傷後ストレス障害（ＰＴＳＤ）、脳震とう、双極性障害、不安障害、軽度外傷性脳損傷（ｍＴＢＩ： mild Traumatic Brain Injury）、統合失調症のような特定のメンタルヘルス疾患のための指標として機能可能な音声生体マーカー（voice biomarkers）を特定するために用いられる。システム１００は、患者に対して有用な非侵入的システムであり、患者のメンタルヘルス状態を示す客観的測定値を提供する。また、システム１００は、低コストであり、患者の効果的な長期モニタリングを提供することができる。

実施例において、システム１００は、例えば、患者の会話から得られた患者のスピーチパターン１０４を、例えば、スマートフォンのようなモバイル電子デバイス上にインストール可能な評価アプリケーション１０１のスピーチ認識モジュール１０６および音声分析モジュール１０８に提供する患者１０２を含む。スピーチ認識モジュール１０６と音声分析モジュール１０８のそれぞれは、言語特徴、韻律特徴、およびスペクトル特徴抽出モジュール１１０に出力情報を提供するよう構成されている。

抽出モジュール１１０は、メンタルヘルス評価スコア１１４を、医療臨床医またはその他適切なユーザーのような提供者（provider）１１６に提供するよう構成されている。特定の実施形態において、抽出モジュール１１０は、図中１１１で示されているように、情報を、提供者１１６に直接提供することもできる。代替的又はこれに加えて、図中１０５で示されているように、例えば、メンタルヘルス評価スコア１１４と連動して患者を分析する用途で用いるために、スピーチパターン１０４は、システム１００の提供者１１６またはその他適切なユーザーに直接提供されてもよい。

図２は、開示の技術の特定の実施形態に係る臨床研究データ収集および分析システム２００の実施例を示すブロック図である。実施例において、複数の被験者２０２（例えば、患者またはボランティア）のそれぞれは、アプリケーション２０８（例えば、モバイル電子デバイス（例えば、スマートフォン）のような多数の適切なデバイスのうちの任意のものにインストール可能または該任意のもので利用可能な評価アプリケーション）に情報を提供する。この情報は、スピーチサンプルを含んでおり、さらに、参加者がそれを用いて自身のメンタル状態に関する情報を提供可能な自己評価手段を含んでいる。代替的またはこれに加えて、被験者２０２は、１人以上の臨床専門家２０４に、情報を直接提供してもよい。１人以上の臨床専門家２０４は、アプリケーション２０８を介して相互通信可能な複数の技術スタッフ２０６の少なくとも１人と相互連絡を取る（例えば、情報を交換する）。また、臨床専門家２０４は、参加者の状態についての専門家評価を含むデータ「注釈」を提供する。

アプリケーション２０８は、データ前処理モジュール２１４と相互通信するスピーチおよび評価データベース２１０へのアクセスまたはスピーチおよび評価データベース２１０との相互通信を実行する。データ前処理モジュール２１４は、例えば、質の良いスピーチサンプルのみの分析となることを保証するために、音声の質を評価し、さらに、例えば、非スピーチ音、沈黙、またはその他背景イベントのような不適切な分析を処理領域から除去する。技術スタッフ２０６は、アプリケーション２０８に情報を提供もしくはアプリケーション２０８と相互通信する機械学習モジュール２１２を、タスクの必要に応じて修正する。機械学習モジュール２１２は、一般的に、システム２００が、入力スピーチに基づいて、話者のメンタルヘルス状態についてのスコアまたは評価を提供するモデルを学習させることができるように構成されたアルゴリズムセットから構成されている。この学習フェーズは、オフラインで実行される（例えば、複数の話者からのデータおよび注釈がアプリケーションを介して利用可能とされた後にオフラインで実行される）。代替的に、学習フェーズは、連続的に実行されてもよい（例えば、参加者がアプリケーションを使用した後に参加者が自身の自己評価または臨床医注釈を提供する度に実行されてもよい）。また、これらモデルは、例えば、複数のデータポイントが話者１人に対して利用可能である場合には、話者固有（speaker-specific）であってもよく、複数の話者からの複数のデータポイントが存在するが、話者１人当たりではほんの少しのデータポイントである場合には、話者独立（speaker-independent）であってもよい。

図３は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価および収集システム３００の実施例を示すブロック図である。実施例において、モバイル電子デバイス（例えば、スマートフォン）のような個人用デバイス３０２は、例えば、インターネット３０４やその他適切なネットワークを介して、アプリケーションストア３０６において、アプリケーション（例えば、開示の技術に係るモバイルアプリケーション）をダウンロードもしくは該アプリケーションにアクセスする。ユーザーは、アプリケーションをダウンロードし、さらに、特定の個人情報および特定情報（例えば、年齢、性別等）を提供することにより、アプリケーションに登録する。

制御サーバー３０８は、インターネット３０４またはその他適切なネットワークを介して、個人用デバイス３０２とアプリケーションストア３０６の一方または双方と相互通信する。実施形態において、制御サーバー３０８は、報告生成部３１０と、ウェブサーバー３１２とを備えている。報告生成部３１０は、例えば、スコアやグラフのような多数の適切な形式のうちの任意の形式で、報告を生成するよう構成されている。

また、制御サーバー３０８は、スピーチ評価データベース３１４と相互通信するよう構成されている。また、特定の実施形態において、システム３００は、スピーチ認識サブモジュール３１８、音声分析サブモジュール３２０、機械学習モジュール３２２、またはこれらの任意の組み合わせを有するオフライン分析モジュール３１６を備えている。

図４は、開示の技術の特定の実施形態に係る機械学習システム４００の実施例を示すブロック図である。システム４００は、例えば、臨床データを用いて、陽性診断と陰性診断とを区別する統計モデルを構築する。

実施例において、例えば、患者の会話から取得したスピーチパターン４０２が、スピーチ特徴抽出モジュール４０４（スピーチ特徴算出モジュールとも称される）に提供される。スピーチ特徴抽出モジュール４０４は、陽性診断を有する話者の第１の統計モデル４０６、健全な話者の第２の統計モデル４０８、または、これら双方を含む出力情報を提供する。第１の統計モデル４０６、第２の統計モデル４０８、またはこれら双方は、評価スコアを判別する際に意思決定モジュール（decision making module）４１０によって用いられ、評価スコアは、例えば、陽性診断用の正スコア、陰性診断用の負スコアである。

スピーチ特徴抽出モジュール４０４は、話者の疾患を特定するために利用可能な生体マーカー（例えば、スピーチ特徴）を特定するよう構成されている。スピーチ特徴抽出モジュール４０４によって特定される特徴は、陽性診断および陰性診断のための目標クラスモデル４０６および４０８をそれぞれ導出するために用いられる。意思決定モジュール４１０は、例えば、評価スコアを測定し、さらに、評価スコアと経験的しきい値（empirical threshold）とを比較するよう構成されている。

図５は、開示の技術の特定の実施形態に係るスピーチベースのメンタルヘルス評価のコンピューター実施方法５００の実施例を示すフローチャートである。５０２において、少なくとも１つのスピーチパターン（例えば、図４のスピーチパターン４０２）が患者から収集される。５０４において、１つ以上のスピーチ特徴が、５０２において収集されたスピーチ特徴から抽出される（例えば、図４のスピーチ特徴抽出モジュール４０４によって抽出される）。

５０６において、患者の精神状態の評価が、５０４において抽出されたスピーチ特徴の少なくとも一部に基づいて判別される。５０８において、精神状態の評価が、特定のメンタルヘルス疾患（例えば、鬱病、自殺傾向、ＰＴＳＤ、脳震とう、双極性障害、不安障害、ｍＴＢＩ、統合失調症）の存在に関し、陽性診断を示すか陰性診断を示すかについての判別が実行される。特定の実施において、システムは、実際の評価スコアを、臨床医やその他医療専門家に提供する。

５０８における精神状態評価が陰性診断（例えば、前述のようなメンタルヘルス疾患が患者に見られないとの診断）を示す判別に応答して、システムは、５１０に示されているように、陰性診断の表示を提供する。５０８におけるメンタルヘルス疾患評価が陽性診断（例えば、上述のメンタルヘルス疾患が確かに患者において見られるとの一定の可能性が存在するとの診断）を示す判別に応答して、システムは、５１２に示されているように、陽性診断の表示を提供する。特定の実施において、５１０および５１２において算出された表示の一方または双方は、視覚的な警告、音声的な警告、またはこれらの具体的な組み合わせを含んでいてもよい。

図６〜７は、個々の話者または話者のグループのスピーチ特徴分布の複数の例を示している。

図６Ａおよび図６Ｂは、例えば、治療（セラピー）セッションの結果、２人の話者（それぞれ、話者Ａおよび話者Ｂ）がストレス状態（例えば、それぞれ６０２および６１２）から、よりリラックスした状態（例えば、それぞれ６０４および６１４）に変化したとき、２人の話者のピッチ分布６００および６１０がどの程度変化（シフト）するのかを示す例である。

図７Ａおよび７Ｂは、例えば、治療（セラピー）セッションの結果、話者Ａおよび話者Ｂがストレス状態（例えば、それぞれ７０２および７１２）から、よりリラックスした状態（例えば、それぞれ７０４および７１４）に変化したとき、調波状態分布（harmonicity distributions）７００および７１０が、それぞれどの程度変化（シフト）したのかを示す例である。

開示の技術の実施形態は、機械実行（machine-directed）方法または物理的デバイスとして実施される。したがって、特定の実施は、完全ハードウェア実施形態、完全ソフトウェア実施形態、またはハードウェア様態およびソフトウェア様態の双方を組み合わせた実施形態の形態を取る。例えば、任意の所与の実施形態のいくつかまたは全てのコンポーネントは、コンピューター実施（computer-implemented）コンポーネントである。

図８は、開示の技術の特定の実施形態に係るスピーチ収集システム８００の実施例を示すブロック図である。実施例において、スピーチ誘導部８０４は、話者（例えば、患者８０２）に対し、スピーチを生成するよう促す。例えば、スピーチ誘導部８０４は、（例えば、視覚的に、音声的に、またはその双方で）以下の質問８０３Ａの任意のものまたは全てを患者８０２に対して提供する。
・今日の食欲について教えてください。何を食べるべきですか？
・今日の集中力について教えてください。集中できていますか？簡単に気が散ってしまいますか？
・昨夜の睡眠について教えてください。いつ眠りにつきましたか？睡眠トラブルを抱えていませんか？いつ起きましたか？
・これまでの出来事を述べてください。何をしましたか？どこへ行きましたか？
・活力レベルについて述べてください。活力レベルはどの程度あなたの日々の生活に影響を与えていますか？
・今日あなたを笑わせたことがありますか？それについて教えてください。
・一般的に言って、あなたは今どんな場所にいますか？環境はどうですか？あなたの周囲について述べてください。
・最近、何かについて悩んでいますか？何についてですか？
・今日、エクササイズ（運動）しましたか？何をしましたか？終わった後どう感じました？
・この後数日間の予定はなんですか？何かイベントがありますか？何か予定は？

その後、生成されたスピーチ（例えば、患者８０２によって提供された回答８０３Ｂ）は、入力として、エラー分析処理ブロック８０６に提供される。特定の実施形態において、適切な接続（例えば、Ｗｉ−Ｆｉ接続）が存在する場合には、データは即座にアップロートされ、利用可能な適切な接続がその時点で存在しない場合には、システムは、与えられたセッション応答をアップロードする前に、適切な接続が提供されるまで待機する。

エラー分析部８０６は、スピーチを分析し、さらに、スピーチの質を評価する。また、エラー分析部８０６は、任意のエラーをスキャンする。エラーが発見された場合、または、スピーチの質が特定のしきい値を満足していないと判断された場合（例えば、スピーチの質が、次善または低いとみなされる場合）、エラー分析部８０６は、フィードバック通信メカニズム８０５を介してスピーチ誘導部８０４に信号（例えば、話者８０２にスピーチを生成するよう再度促すための信号）を送る。このループは、スピーチの質がしきい値を満足するまで（例えば、良好なスピーチが生成されるまで）続けられ、この時点で、スピーチが、他の箇所で上述されたようなスピーチ分析部８０８に提供される。

特定の実施において、スピーチ誘導部８０４は、循環バッファ（circular buffer）内に、スピーチを常に記録（オプション的に、保存）する。このような実施形態において、エラー分析部８０６は、循環バッファからのデータを常に分析する。スピーチの質がしきい値を満足するときはいつでも（例えば、良好なスピーチが検出されたとき）、そのスピーチは、その後、スピーチ分析部８０８に入力として提供される。スピーチ分析部８０８は、良好なスピーチを受信すると、良好なスピーチに対する処理を進める。

スピーチ誘導部８０４およびエラー分析部８０６は、単一の物理的デバイス（例えば、スマートフォンのようなモバイル電子デバイス）内において実施されていてもよい。特定の実施において、スピーチ誘導部８０４、エラー分析部８０６、およびスピーチ収集システム８００のその他のコンポーネントのいくつかまたは全ては、単一の物理的デバイス内において機能してもよい。

特定の実施は、話者（例えば、患者）に関するスピーチ分析メタデータを、追加入力として提供する方法を含む。このようなメタデータは、例えば、関連イベント（例えば、戦争に参加したとのイベント）についての情報を含む。スピーチ分析アルゴリズムは、これら入力を考慮し、それにより、より正確な結果を生成する。さらに、これら種類の入力を、テストおよびトレーニング目的で使用してもよい。

話者関連メタデータは、これに限定されないが、直接ユーザー入力、患者の医者および／またはその他治療提供者からの入力、および患者の電子カルテ（ＥＭＲｓ： Electronic Medical Records）からの入力を含む多数の様々な様態のうちの任意の様態で、入力として提供される。

特定の実施において、収集されたスピーチデータおよび／または話者関連メタデータは、ローカルまたは遠隔ホストされている関係データベースにアップデートされる。データは、例えば、被験者毎および／またはセッション毎の単位で記録される。識別番号のみによって（例えば、個人特定情報なしで）特定できることは、話者にとって好ましい。セッション毎のデータは、患者に提供された質問、患者の応答（例えば、音声ファイル）、スピーチを記録するのに用いられたデバイスの種類、質問に関連付けられたタイムスタンプ、応答、および／または様々なユーザーインターフェース（例えば、ボタン押下）の一部または全てを含む。データベースは、さらに、どの質問が効果的と思われるか、どの質問が患者によってスキップされたか、および特定の質問に答える前に患者が一瞬黙ったか（ポーズしたか）についての情報を提供する。

以下は、上述のようなスピーチデータベースを定義するために用いられるＳＱＬ文の例である。

以下は、スピーチデータベースを生成するために用いることができる。

CREATE DATABASE "ghcDB2"
WITH OWNER postgres
CONNECTION LIMIT -1;

以下は、スピーチデータベース内の質問テーブルを生成するために用いることができる。

CREATE TABLE questionTable (
questionID varchar(64) NOT NULL PRIMARY KEY,
content varchar(1024) NOT NULL,
enabled boolean,
audioFile varchar(256)--bytea
);

以下は、スピーチデータベース内のユーザーテーブルを生成するために用いることができる。

CREATE TABLE userTable (
userID varchar(256) NOT NULL PRIMARY KEY,
pass varchar(256) NOT NULL
-- gender char(1) NOT NULL, --m/f
-- age integer NOT NULL
);

以下は、スピーチデータベース内のセッションテーブルを生成するために用いることができる。

sessionID uuid NOT NULL PRIMARY KEY,
userID varchar(256) references userTable(userID),
sessionIssue TIMESTAMP WITH TIME ZONE,
sessionSubmit TIMESTAMP WITH TIME ZONE,
deviceType varchar(256),
appVersion varchar(256),
serverVersion varchar(256),
submitted boolean NOT NULL
);

以下は、スピーチデータベース内の回答テーブルを生成するために用いることができる。

CREATE TABLE answerTable (
answerID uuid NOT NULL PRIMARY KEY,
sessionID uuid references sessionTable(sessionID),
questionID varchar(64) references questionTable(questionID),
questionNum integer,

-- status : (issued, answered, skipped, not_reached)
status varchar(64) NOT NULL,
audioAnswerFile varchar(256)--BYTEA
);

以下は、スピーチデータベース内のメタイベントテーブルを生成するために用いることができる。

CREATE TABLE metaEventTable (
eventID uuid NOT NULL PRIMARY KEY,
sessionID uuid references sessionTable(sessionID),
questionID varchar(64) references questionTable(questionID),
eventName varchar(256) NOT NULL,
eventTime TIMESTAMP WITH TIME ZONE

);

図９は、開示の技術の実施形態が実施されるネットワークシステム９００の実施例を示すブロック図である。実施例において、システム９００は、インターネット、イントラネット、ホームネットワーク、またはこれらの任意の組み合わせのようなネットワーク９０２を含む。デスクトップコンピューター９０４、ラップトップコンピューター９０６のような従来の演算デバイスがネットワーク９０２に接続され、互いに通信またはネットワークに接続された他のデバイスと通信する。

また、ネットワークシステム９００は、３つのモバイル電子デバイス９０８〜９１２を備えている。モバイル電子デバイスのうちの２つ９０８および９１０は、携帯電話やスマートフォンのようなモバイル通信デバイスである。第３のモバイル電子デバイス９１２は、ＰＤＡやタブレットデバイスのようなハンドヘルドデバイスである。

また、ネットワークシステム９００は、例えば、中央データベースまたはレポジトリ、ローカルデータストア、または遠隔ストレージデバイスであるストレージデバイス９１４を備えている。ストレージデバイス９１４は、他のデバイス９０４〜９１２の一部または全てにアクセス可能であり、デバイス９０４〜９１２、サードパーティー、またはストレージデバイス９１４自身による限定や制限を受ける。ストレージデバイス９１４は、コンピューター９０４または９０６、または、モバイル電子デバイス９０８〜９１２の任意のものによってアクセスおよび／または使用される公衆データのいくつかまたは全てを保存するために用いられる。個人データを含むような場合、ストレージデバイス９１４は、コンピューター９０４または９０６、または、モバイル電子デバイス９０８〜９１２の任意のものによってアクセスおよび／または使用される公衆データのいくつかまたは全てを保存する。

図示の実施形態を参照して本発明の原理を記述および図示したが、図示の実施形態は、本発明の原理から逸脱することなく、配置や詳細に関し変更可能であり、さらに、任意の所望の方法によって組み合わせ可能であることは理解されるであろう。さらに、上述の議論は、特定の実施形態にフォーカスしたものであるが、その他の構成も予想できるであろう。特に、「本発明の実施形態に係る〜」等との表現が本明細書で使用されているが、これら文言は、一般的に、実施可能性を述べているものであり、本発明を特定の実施形態に限定する意図はない。本明細書において使用されているように、これら文言は、同じまたは異なる実施形態が他の実施形態において組み合わせ可能であることを示すものである。

したがって、本明細書で記述された実施形態の広範な置換を参照すれば、本明細書の詳細な説明および添付物は、説明のみを目的とするものであり、本発明の範囲の限定として捉えるべきではない。したがって、本発明としてクレームされている様態が、特許請求の範囲の請求項の範囲および原理、並びに、それらに同等な全ての変更を含むものである。

Claims

患者からスピーチパターンを収集する工程と、
前記収集されたスピーチパターンから、少なくとも１つのスピーチ特徴を算出する工程と、
前記少なくとも１つの算出されたスピーチ特徴の少なくとも一部に基づいて、前記患者の精神状態を判別する工程と、
前記判別された精神状態を、前記患者、臨床専門家、または前記患者および前記臨床専門家の双方に報告する工程と、を含むことを特徴とするコンピューター実施方法。
前記精神状態を判別する工程は、前記患者が、鬱病、自殺傾向、心的外傷後ストレス障害（ＰＴＳＤ）、脳震とう、双極性障害、不安障害、軽度外傷性脳損傷（ｍＴＢＩ）、および統合失調症の少なくとも１つに苦しんでいる可能性を示す請求項１に記載のコンピューター実施方法。
少なくとも前記少なくとも１つの算出されたスピーチ特徴を用いて、前記患者の前記精神状態の予測を構築する工程をさらに含む請求項１に記載のコンピューター実施方法。
前記スピーチ特徴を用いて、前記予測を構築する工程は、遠隔サーバー上において実行される請求項３に記載のコンピューター実施方法。
前記少なくとも１つの算出されたスピーチ特徴は、言語特徴、韻律特徴、およびスペクトル特徴の少なくとも１つを含む請求項１に記載のコンピューター実施方法。
前記少なくとも１つの算出されたスピーチ特徴は、前記患者のスピーチのピッチに対応する請求項１に記載のコンピューター実施方法。
前記少なくとも１つの算出されたスピーチ特徴は、前記患者のスピーチの調波状態に対応する請求項１に記載のコンピューター実施方法。
前記判別された精神状態と、経験的しきい値とを比較する工程をさらに含む請求項１に記載のコンピューター実施方法。
前記患者に、前記スピーチパターンを生成するよう促す工程と、
前記促す工程に応答して前記スピーチパターンを生成する工程と、
前記生成されたスピーチパターンを受信する工程と、をさらに含む請求項１に記載のコンピューター実施方法。
前記受信したスピーチパターンの質を分析する工程をさらに含む請求項９に記載のコンピューター実施方法。
前記受信したスピーチパターンの前記質を分析する工程は、前記受信したスピーチパターンの前記分析された質が特定のしきい値を満足するか否かを判別する工程を含む請求項１０に記載のコンピューター実施方法。
前記促す工程、前記生成する工程、前記受信する工程、および前記分析する工程を、前記受信したスピーチパターンの前記分析された質が前記特定のしきい値を満足するまで、繰り返して実行する工程をさらに含む請求項１１に記載のコンピューター実施方法。
前記患者に前記スピーチパターンを生成するよう促す工程は、前記患者に対して、複数のオープンエンド質問を提供する工程を含む請求項９に記載のコンピューター実施方法。
患者からスピーチパターンを収集するよう構成されたスピーチ収集モジュールを制御するよう動作可能な第１のプロセッサーと、
前記収集されたスピーチパターンから、少なくとも１つのスピーチ特徴を算出するよう構成されたスピーチ特徴算出モジュールを制御するよう動作可能な第２のプロセッサーと、
前記少なくとも１つの算出されたスピーチ特徴の少なくとも一部に基づいて、前記患者の精神状態を判別するよう構成されたメンタルヘルス判別モジュールを制御するよう動作可能な第３のプロセッサーと、
前記判別された精神状態の報告を、前記患者、臨床専門家、または前記患者および前記臨床専門家の双方に提供するよう動作可能な出力モジュールと、を含むことを特徴とするシステム。
スピーチ評価情報を保存するよう構成されたスピーチ評価データベースと、
前記患者の前記精神状態を判別する際に前記メンタルヘルス判別モジュールによって用いられるよう構成されたアルゴリズムを改良するよう構成されたアルゴリズム改良モジュールと、をさらに含む請求項１４に記載のシステム。
ネットワークを介して前記メンタルヘルス判別モジュールと相互通信するよう構成された制御サーバーをさらに含む請求項１４に記載のシステム。
前記ネットワークはインターネットである請求項１６に記載のシステム。
少なくとも前記少なくとも１つの算出されたスピーチ特徴を用いて、前記患者の前記精神状態の予測を構築するよう構成されたトレーニングモジュールをさらに含む請求項１４に記載のシステム。
前記第１のプロセッサー、前記第２のプロセッサー、および前記第３のプロセッサーの少なくとも２つは、同じプロセッサーである請求項１４に記載のシステム。
前記精神状態の判別は、前記患者が、鬱病、自殺傾向、心的外傷後ストレス障害（ＰＴＳＤ）、脳震とう、双極性障害、不安障害、軽度外傷性脳損傷（ｍＴＢＩ）、および統合失調症の少なくとも１つに苦しんでいる可能性を示す請求項１４に記載のシステム。
前記少なくとも１つの算出されたスピーチ特徴は、言語特徴、韻律特徴、およびスペクトル特徴の少なくとも１つを含む請求項１４に記載のシステム。
前記少なくとも１つの算出されたスピーチ特徴は、前記患者のスピーチのピッチに対応する請求項１４に記載のシステム。
前記少なくとも１つの算出されたスピーチ特徴は、前記患者のスピーチの調波状態に対応する請求項１４に記載のシステム。
前記収集されたスピーチパターンは、前記患者に提供された質問に対する回答を含む請求項１４に記載のシステム。
前記収集されたスピーチパターンは、複数の回答を含み、
前記複数の回答のそれぞれは、前記患者に提供された複数の質問の１つに対応する請求項１４に記載のシステム。
前記収集されたスピーチパターンの音質をチェックするよう動作可能な前処理プロセッサーをさらに含む請求項１４に記載のシステム。