JP2024504097A

JP2024504097A - スピーチ分析に基づく自動化された生理学的および病理学的評価

Info

Publication number: JP2024504097A
Application number: JP2023542495A
Authority: JP
Inventors: マルティンクリスティアンストラム，; ヤン－ピンチャン，; チエンチョウ，
Original assignee: エフ・ホフマン－ラ・ロシュ・アクチェンゲゼルシャフト; ウニヴェルズィテートスピタルバーゼル
Priority date: 2021-01-13
Filing date: 2022-01-12
Publication date: 2024-01-30
Also published as: CN116723793A; EP4278351A1; WO2022152751A1; US20240057936A1; KR20230130642A

Abstract

被験者の病理学的および／または生理学的状態を評価する方法、心不全の被験者や、呼吸困難および／もしくは疲労に関連した状態であるか、または呼吸困難および／もしくは疲労に関連した状態の恐れがあると診断された被験者を監視する方法、ならびに被験者を非代償性心不全であると診断する方法が提供される。これらの方法は、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録またはその一部を分析することとを含む。分析は、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、およびワード正解率から選択される１つ以上のメトリックの値を決定することと、１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較することとを含むことができる。関連のシステムおよび製品も説明される。【選択図】なし

Description

発明の分野
本発明は、とくにはワード読み上げテストからの音声記録の分析を含む被験者の生理学的および／または病理学的状態の自動評価のためのコンピュータ実装方法に関する。そのような方法を実施するコンピューティング装置も説明される。本発明の方法および装置は、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす病理学的および生理学的状態の臨床評価に適用可能である。

発明の背景
さまざまな状態の患者のリモート監視は、多くの患者の健康管理の結果、質、および快適さを改善する可能性を有する。したがって、患者が後に患者の医療チームによって評価することができる自身のバイオマーカデータを収集するために使用することができる装置および方法の開発に、大きな関心が寄せられている。リモート監視の潜在的な利点は、慢性疾患あるいは心臓病または喘息などの生涯にわたる症状の状況において、とくに重要である。非侵襲的なバイオマーカに基づく手法が、より低リスクであるがゆえに、とくに望ましい。そのようなバイオマーカ情報を収集するための音声分析の使用が、例えば、心不全（Ｍａｏｒら、２０１８年）、喘息、慢性閉塞性肺疾患（ＣＯＰＤ）（Ｓａｅｅｄら、２０１７年）、および最近ではＣＯＶＩＤ－１９（Ｌａｇｕａｒｔａら、２０２０年）の評価において提案されている。

しかしながら、これらの手法はすべて、一貫性の限界に悩まされている。実際、これらの手法の多くは、自発的なスピーチまたは音（咳など）、あるいはレインボーパッセージ（Ｍｕｒｔｏｎら、２０１７年）などの所定の標準パッセージの読み上げに依存する。自発的なスピーチまたは音の使用は、各々の音声記録の中身が幅広く異なる可能性があるため、患者間および同じ患者の反復の評価間の両方で、大きなばらつきを免れない。所定の標準パッセージの使用は、中身に起因するこの固有のばらつきを抑えるが、試験が繰り返されるにつれて被験者が標準テキストに慣れていくことに関係する神経心理学的影響による干渉を免れない。これは、リモート監視の状況における音声分析バイオマーカの実用的な使用に、強い制限を課す。

したがって、患者の負担を最小限に抑えつつ、リモートで容易に実行することができる病理学的および生理学的状態を自動的に評価するための改善された方法が、依然として必要とされている。

発明の記述
本発明の発明者は、とくにはワード読み上げテストからの音声記録の分析を含む被験者の生理学的および／または病理学的状態の自動評価のための新規な装置および方法を開発した。本発明の発明者は、Ｓｔｒｏｏｐ試験などのワード読み上げ試験からの記録を使用して、被験者の病理学的および／または生理学的状態を評価し、とくには呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を評価するための再現性があって情報に富んだバイオマーカを導き出すことができることを確認した。

Ｓｔｒｏｏｐ試験（Ｓｔｒｏｏｐ、１９３５年）は、精神障害および神経障害を診断するために使用されてきた３パート神経心理学的試験（ワード、色、および干渉）である。例えば、それは、ハンチントン病（ＨＤ）の重症度を広く使用されている統一ハンチントン病評価尺度（ＵＨＤＲＳ）に従って定量化するために行われる認知試験バッテリの一部を形成する。Ｓｔｒｏｏｐ試験のワード部分および色部分は、色ワードが黒色インクで印刷され、色パッチが一致するインク色で印刷される「非矛盾条件」を表す。干渉部分においては、色ワードが一致しないインク色で印刷される。患者は、できるだけ速くワードを読み上げ、あるいはインク色を述べるように求められる。臨床医は、応答を正解または不正解と解釈する。スコアが、所与の４５秒間における各々の条件での正解の数として報告される。非矛盾条件は、処理速度および選択的注意を測定すると考えられる。干渉条件は、ワードと色との間の精神的な変換を必要とするため、認知の柔軟性を測定することを意図している。

本明細書に記載の方法は、Ｓｔｒｏｏｐ試験から着想を得たワード読み上げテストの記録から、バイオマーカとして使用可能であると識別された１つ以上のメトリックを自動的に決定することに基づき、メトリックは、音声ピッチ、正解ワードレート、呼吸パーセンテージ、および無声／有声比率から選択される。本方法は、言語に依存せず、完全に自動化され、再現性があり、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼすさまざまな状態に適用可能である。したがって、大集団において、そのような状態の症状、診断、または予後のリモート自己評価および監視が可能になる。

したがって、第１の態様によれば、被験者の病理学的および／または生理学的状態を評価する方法であって、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録または音声記録の一部を、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別し、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のメトリックの値を決定し、１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較することによって、分析することと、を含む方法が提供される。

本方法は、以下の特徴のうちの任意の１つ以上を有することができる。

個々のワードまたは音節に対応する音声記録のセグメントを識別することは、音声記録のパワーメルスペクトログラムを取得することと、周波数軸に沿ったメルスペクトログラムの最大強度投影を計算することと、セグメント境界を、周波数軸に沿ったメルスペクトログラムの最大強度投影がしきい値と交わる時点として定めることとを含む。

本明細書に記載のワード／音節セグメント化の手法は、典型的にはエネルギー包絡線に基づく既存の方法がうまく機能しない可能性があるスピーチのペースが比較的速い場合（すなわち、ワード間の休止がなく、あるいは短い）であっても、音声記録からのワード（場合によっては、多音節のワードからの音節も）の正確かつ高感度のセグメント化を可能にする。さらに、例えば、患者がコンピューティングデバイス（例えば、本明細書でさらに説明されるように、アプリケーションまたはウェブアプリケーションを介して、スマートフォンまたはタブレットなどのモバイルコンピューティングデバイスあるいはパーソナルコンピュータ）に表示されたワードを読み上げて自身で記録するなどによってリモートで簡単かつ容易に取得することができるデータから、ワード読み上げタスクにおける識別された音声セグメントから導出されるメトリック（例えば、呼吸％、無声／有声比率、および正解ワードレートなどのレート）の自動的な定量化を可能にする。

個々のワードまたは音節に対応する音声記録のセグメントは、２つの連続するワード／音節境界の間に含まれるセグメントとして定義され得る。好ましくは、個々のワード／音節に対応する音声記録のセグメントは、メルスペクトログラムの最大強度投影がより低い値からより高い値へとしきい値を横切る第１の境界と、メルスペクトルグラムの最大強度投影がより高い値からより低い値へとしきい値を横切る第２の境界との間のセグメントとして定義され得る。好都合には、この定義を満たさない境界間の音声録音のセグメントは、除外されてよい。

１つ以上のメトリックの値を決定することは、記録に関する呼吸パーセンテージを、音声記録における識別されたセグメント同士の間の時間のパーセンテージとして、または記録における識別されたセグメント同士の間の時間と、記録における識別されたセグメント同士の間の時間および識別されたセグメント内の時間の総和との比率として決定することを含み得る。

１つ以上のメトリックの値を決定することは、記録に関する無声／有声比率を、記録における識別されたセグメント同士の間の時間と、記録における識別されたセグメント内の時間との比率として決定することを含み得る。

１つ以上のメトリックの値を決定することは、正しく読み上げられたワードに対応する識別されたセグメントの数を、最初に識別されたセグメントの開始と最後に識別されたセグメントの終了との間の持続時間で割った比を計算することによって、音声記録に関する正解ワードレートを決定することを含み得る。

１つ以上のメトリックの値を決定することは、識別されたセグメントの各々について基本周波数の１つ以上の推定値を求めることによって、記録に関する音声ピッチを決定することを含み得る。音声ピッチの値を決定することは、識別されたセグメントの各々について基本周波数の複数の推定値を取得することと、複数の推定値にフィルタを適用して、フィルタ処理された複数の推定値を取得することとを含み得る。音声ピッチの値を決定することは、例えば、複数のセグメントの（任意選択的に、フィルタ処理された）複数の推定値の平均値、中央値、または最頻値など、複数のセグメントの要約された音声ピッチ推定値を取得することを含み得る。

１つ以上のメトリックの値を決定することは、経時的な音声記録内の読み上げられたワードまたは正しく読み上げられたワードに対応する識別されたセグメントの数の累積和を計算すること、および累積和データにフィットさせた線形回帰モデルの傾きを計算することによって、音声記録に関する総ワードレートまたは正解ワードレートを決定することを含み得る。好都合なことに、この手法は、記録全体にわたる単位時間当たりの読み上げられたワードまたは正しく読み上げられたワードの数として、総ワードレートまたは正解ワードレートのロバストな推定値をもたらす。このようにして得られた推定値は、外れ値（例えば、正解ワードレートの孤立した瞬間的変化を引き起し得る注意散漫など）に対してロバストである一方で、総ワードレートまたは正解ワードレートの真の低下（例えば、ゆっくりとしたスピーチでの頻繁なセグメントにつながる本物の疲労、呼吸の悪化、および／または認知の低下）に対して高感度であり得る。さらに、この手法は、記録の長さとは無関係である。したがって、異なる長さの音声記録または同じ音声記録の異なる部分について得られた総ワードレートまたは正解ワードレートの比較を可能にすることができる。さらに、被験者が小休止すること、認知の低下または呼吸の悪化に関係しない理由（例えば、被験者が当初は記録が始まったことに気付かないなど）で発語をしないこと、などの外的要因に対してロバストであり得る。さらに、この手法は、ワードの開始の特定のタイミングに関する不確定性および／またはワードの持続時間の変動を考慮に入れるように好都合にロバストである。

本方法が、音声記録における正解ワードレートを決定することを含む場合、本方法は、セグメントの各々について１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）を計算して、各ベクトルが一セグメントに関係している値の複数のベクトルを取得することと、値の複数のベクトルを、各クラスタがｎ個のワードの各々に対応するｎ個のあり得るラベルを有するｎ個のクラスタにクラスタ化することと、ラベルのｎ！個の順列の各々について、クラスタ化された値のベクトルに関するラベルを使用して、音声記録におけるワードのシーケンスを予測し、予測されたワードのシーケンスとワード読み上げテストにおいて使用されたワードのシーケンスとの間のシーケンスアラインメントを実行することと、最良のアラインメントであって、アラインメントにおける一致は音声記録における正しく読み上げられたワードに対応する、最良のアラインメントをもたらすラベルを選択することと、を含み得る。

好都合なことに、正解ワードレートを決定するための本明細書に記載の手法は、データによって完全に駆動され、したがってモデルおよび言語に依存しない。とくに、クラスタ化工程が、教師なし学習工程であるため、セグメントの各グループが表す実際のワードの知識（グランドトゥルース）を必要としない。代替の実施形態においては、クラスタ化を、隠れマルコフモデルなどの教師あり学習手法で置き換えることが可能である。しかしながら、そのような手法は、各々の言語についてモデルの再訓練が必要になると考えられる。

好都合には、正解ワードレートを決定するための本明細書に記載の手法は、従来のワード認識手法において正しく読み上げられたが発音が誤っているワードの識別を妨げ得る構音障害などのスピーチ障害に、対処することも可能にする。さらに、例えば、患者がコンピューティングデバイス（例えば、スマートフォンまたはタブレットなどのモバイルコンピューティングデバイス）に表示されたワードを読み上げて自身で記録するなどによってリモートで簡単かつ容易に取得することができるデータから、ワード読み上げタスクにおける正解ワードレートの自動的な定量化を可能にする。

いくつかの実施形態において、クラスタ化された値のベクトルに関連付けられたラベルを使用して音声記録内のワードのシーケンスを予測することは、値のベクトルが導出されたセグメントの順序に従って並べられたクラスタ化された値のベクトルの各々のそれぞれのクラスタラベルに対応するワードのシーケンスを予測することを含む。

いくつかの実施形態において、クラスタ化された値のベクトルに関連付けられたラベルを使用して音声記録内のワードのシーケンスを予測することは、１つ以上の予め定められた基準を満たす信頼度でクラスタに割り当てられたクラスタ化された値のベクトルの各々のそれぞれのクラスタラベルに対応するワードのシーケンスを予測することを含む。換言すると、クラスタ化された値のベクトルに関連付けられたラベルを使用して音声記録内のワードのシーケンスを予測することは、１つ以上の予め定められた基準を満たす信頼度ではいかなる特定のクラスタにも関連付けられていないクラスタ化された値のベクトルについての予測を除外することを含み得る。１つ以上の予め定められた基準は、値のベクトルがｎ個のクラスタのうちの１つに属する確率、値のベクトルとｎ個のクラスタのうちの１つの値の代表ベクトル（例えば、クラスタのメドイドまたは重心の座標）との間の距離、またはこれらの組み合わせについてのしきい値を使用して定義され得る。

いくつかの実施形態において、クラスタ化された値のベクトルに関連付けられたラベルを使用して音声記録内のワードのシーケンスを予測することは、クラスタ化された値のベクトルの各々のそれぞれのクラスタラベルに対応するワードのシーケンスを予測することを含む。多音節ワード（とりわけ、１つの強調された音節を含む多音節ワード）が使用されるいくつかのそのような実施形態においては、複数のセグメントが識別およびクラスタ化され得るため、多音節ワードに対して複数のワード予測が予測され得る。そのような状況においても、本明細書に記載の方法に従って音声記録における正しく読み上げられたワードの数を決定することが依然として可能であることが分かった。実際、上記で説明したように、クラスタ化工程が、ｎ個のワードの各々において個々の音節によって主に決定されるクラスタを依然として識別することができるように、追加の音節からもたらされる「雑音」の存在に対してロバストであり得ると考えられる。さらに、シーケンスアラインメントのステップは、そのような追加の音節を、ワード読み上げテストで使用されるワードのシーケンスに存在するとは予想されない追加の予測ワードの存在からもたらされるため、ラベルのｎ！個の順列の各々について存在するであろうシーケンス内への挿入として取り扱うことができると考えられる。したがって、アラインメントにおける一致の数は、音声記録における正しく読み上げられたワードの数に依然として対応する。

いくつかの実施形態において、１つ以上のＭＦＣＣを計算して、一セグメントについて値のベクトルを取得することは、セグメントの各フレームについてｉ個のＭＦＣＣのセットを計算し、セグメント内のフレームを横切ってｉ個のＭＦＣＣの各々によって形成される信号を圧縮することによってセグメントについてｊ個の値のセットを取得して、セグメントについてｉｘｊ個の値のベクトルを取得することを含む。例えば、セグメント内のフレームを横切ってｉ個のＭＦＣＣの各々によって形成される信号を圧縮することは、前記信号の線形補間を実行することを含み得る。

いくつかの実施形態において、１つ以上のＭＦＣＣを計算して、一セグメントについて値のベクトルを取得することは、セグメントの各フレームについてｉ個のＭＦＣＣのセットを計算し、補間、好ましくは線形補間によって、各ｉに関してセグメントについてｊ個の値のセットを取得して、セグメントについてｉｘｊ個の値のベクトルを取得することを含む。

結果として、複数のセグメントの各々の値のベクトルが、すべて同じ長さを有する。このような値のベクトルは、多次元空間内の点のクラスタを識別する任意のクラスタ化手法の入力として好都合に使用することができる。

１つ以上のＭＦＣＣを計算して、セグメントの値のベクトルを取得することは、上述したように実行され得る。当業者であれば理解できるとおり、セグメントのＭＦＣＣを取得するために固定長の時間ウィンドウを使用することは、セグメントあたりのＭＦＣＣの総数がセグメントの長さに応じて変化し得ることを意味する。換言すると、セグメントはいくつかのフレームｆを有し、各フレームがｉ個のＭＦＣＣのセットに関連付けられ、ｆはセグメントの長さに応じて変化する。結果として、より長い音節／ワードに対応するセグメントは、より短い音節／ワードに対応するセグメントよりも多数の値に関連付けられる。これらの値が、共通空間内のセグメントをクラスタ化する目的でセグメントを表す特徴として使用される場合、これは問題となり得る。補間工程は、この問題を解決する。いくつかの実施形態において、セグメントについて１つ以上のＭＦＣＣを計算することは、セグメントの各フレームについて２番目から１３番目までのうちの複数のＭＦＣＣを計算することを含む。最初のＭＦＣＣは、好ましくは含まれない。理論に束縛されることを望むものではないが、第１のＭＦＣＣは、主に記録条件に関連し、ワードまたは音節の同一性に関する情報をほとんど含まないセグメント内のエネルギーを表すと仮定される。対照的に、残りの１２個のＭＦＣＣは、（ＭＦＣＣの定義により）人間の聴力範囲をカバーし、したがって、人間によるワードの発声および聴取の方法に関連する音特徴を捕捉する。

いくつかの実施形態において、２番目から１３番目までのうちの複数のＭＦＣＣは、２番目から１３番目までのＭＦＣＣのうちの少なくとも２つ、少なくとも４つ、少なくとも６つ、少なくとも８つ、少なくとも１０個、または１２個すべてを含む。２番目から１３番目までのＭＦＣＣは、単純なクラスタ化手法を使用して超空間内の点としてワードの閉じたセットからのワードを区別するために使用することができる情報を好都合に含み得る。とくには、上記で説明したように、２番目から１３番目までのＭＦＣＣは、人間の聴力範囲をカバーし、したがって、人間によるワードの発声および聴取の方法に関連する音特徴を捕捉すると考えられる。したがって、それらの１２個のＭＦＣＣを使用することにより、人間の音声記録において或るワード／音節を別のワード／音節から区別する際に関連すると考えられる情報を好都合に捕捉することができる。

本明細書に記載のセグメント化方法が使用される場合、識別されたセグメントの各フレームのＭＦＣＣは、誤検出を表すセグメントを除外するステップの一部としてすでに計算されている場合がある。そのような実施形態において、音声記録内の正しく読み上げられたワードの数を決定する目的で、以前に計算されたＭＦＣＣを値のベクトルを取得するために好都合に使用することができる。

いくつかの実施形態において、パラメータｊは、クラスタ化工程で使用されるすべてのセグメントについてｊ≦ｆとなるように選択される。換言すると、パラメータｊは、補間が信号（各々のＭＦＣＣについて、信号はセグメントのフレームにわたる前記ＭＦＣＣの値である）の圧縮をもたらすように選択されてよい。いくつかの実施形態において、パラメータｊは、補間がクラスタ化に使用されるすべてのセグメント（または、例えば９０％など、セグメントのうちの少なくとも所定の割合）について４０～６０％の信号の圧縮をもたらすように選択されてよい。当業者であれば理解できるとおり、固定されたパラメータｊを使用し、セグメントに適用される圧縮のレベルはセグメントの長さに依存し得る。信号の４０～６０％への圧縮を使用することにより、各セグメント内の信号が元の信号密度の約半分に圧縮されることを確実にすることができる。

好都合な実施形態において、ｊは、例えば１２など、１０～１５の間で選択される。理論に束縛されることを望むものではないが、１０ｍｓのステップサイズでの２５ｍｓのフレームは、音信号用のＭＦＣＣの計算に一般的に使用される。さらに、音節（および、単音節のワード）は、平均して約２５０ｍｓの長さであり得る。したがって、ｊ＝１２を使用すると、平均して２５個の値（２５０ｍｓのセグメントにわたる２５個のフレームに対応）から、この数値の約半分への圧縮（すなわち、平均で約４０～６０％の圧縮）をもたらすことができる。

いくつかの実施形態において、値の複数のベクトルをｎ個のクラスタにクラスタ化することは、ｋ平均を使用して実行される。好都合なことに、ｋ平均は、ＭＦＣＣ値のベクトルによって表されるワードの分離において良好に機能することが明らかになった単純かつ計算に関して効率的な手法である。あるいは、メドイドを中心とした分割または階層的クラスタ化など、他のクラスタ化手法が使用されてもよい。

さらに、取得されたクラスタの重心は、ＭＦＣＣ空間内の対応するワードまたは音節の表現に対応し得る。これは、プロセス（例えば、セグメント化および／またはクラスタ化が申し分なく実行されたかどうか）および／または音声記録（したがって、被験者）に関する有用な情報を提供し得る。とくに、そのようなクラスタの重心を、個人間で比較することができ、かつ／またはさらなる臨床的に有益な尺度（例えば、音節またはワードを明瞭に発音する被験者の能力の態様を捕捉するがゆえに）として使用することができる。

いくつかの実施形態において、１つ以上のＭＦＣＣは、クラスタ化および／または補間に先立って、記録内のセグメントにわたって正規化される。とくに、各々のＭＦＣＣを、個別に中心付けて標準化することができ、その結果、各々のＭＦＣＣ分布は等しい分散および平均０を有する。これは、いくつかのＭＦＣＣが高い分散で分布している場合に、それらによってクラスタ化が「支配」されることを防ぐことができるため、クラスタ化プロセスの性能を好都合に改善することができる。換言すると、これは、クラスタ化におけるすべての特徴（すなわち、使用される各々のＭＦＣＣ）が、クラスタ化において同様の重要性を有することを保証することができる。

いくつかの実施形態において、シーケンスアラインメントを行うことは、アラインメントスコアを得ることを含む。いくつかのそのような実施形態において、最良のアラインメントは、１つ以上の予め定められた基準を満たすアラインメントであり、これらの基準のうちの少なくとも１つは、アラインメントスコアに適用される。いくつかの実施形態において、最良のアラインメントは、最も高いアラインメントスコアを有するアラインメントである。

いくつかの実施形態において、シーケンスアラインメントのステップは、局所シーケンスアラインメントアルゴリズム、好ましくはスミス－ウォーターマンアルゴリズムを使用して実施される。

局所シーケンスアラインメントアルゴリズムは、閉じたセットから選択された２つの文字列を位置合わせするタスクに理想的に適しており、文字列は比較的短く、必ずしも同じ長さを有するとは限らない（ワードが読み上げタスクおよび／またはワード分割プロセスにおいて見落とされている可能性がある今回の場合と同様）。換言すると、スミス－ウォーターマンアルゴリズムなどの局所シーケンスアラインメントアルゴリズムは、部分的に重複するシーケンスのアライメントにとくによく適しており、これは、被験者が１００％の正しいワードカウントを達成できないことに起因し、さらには／あるいはセグメント化プロセスにおけるエラーに起因して、ミスマッチおよびギャップを有するアラインメントが予想される本発明の文脈において好都合である。

いくつかの実施形態において、スミス－ウォーターマンアルゴリズムは、１～２の間（好ましくは、２）のギャップコストおよびマッチスコア＝３で使用される。これらのパラメータは、手動で注釈付けされたデータと比較して、音声記録内のワードの正確な識別をもたらすことができる。理論に束縛されることを望むものではないが、より高いギャップコスト（例えば、１の代わりに２）を使用することは、探索空間の制限およびより短いアラインメントをもたらし得る。これは、一致が予想される状況（すなわち、ワードの予測シーケンスの多くの文字をワードの既知のシーケンスの文字と整列させることができるようなクラスタラベル割り当てが存在すると推定される）を好都合に捕捉することができる。

いくつかの実施形態において、個々のワードまたは音節に対応する音声記録のセグメントを識別することは、音声記録のパワーメルスペクトログラムを正規化することをさらに含む。好ましくは、パワーメルスペクトログラムは、記録において最高のエネルギーを有するフレームに対して正規化される。換言すると、パワーメルスペクトログラムの各々の値を、パワーメルスペクトログラムにおける最高エネルギー値で除算することができる。

当業者であれば理解できるとおり、パワーメルスペクトログラムとは、メル尺度における音信号のパワースペクトログラムを指す。さらに、メルスペクトログラムを取得することは、音声記録に沿ってフレームを定めること（ここで、フレームは、時間軸に沿って適用される固定幅のウィンドウ内の信号に対応することができる）、および各々のフレームについてメル尺度におけるパワースペクトルを計算することを含む。このプロセスは、フレーム（時間ビン）毎のメル単位当たりのパワーの値の行列をもたらす。そのようなスペクトログラムの周波数軸に対する最大強度投影を取得することは、各々のフレームのメルスペクトル上の最大強度を選択することを含む。

正規化は、同じ被験者または異なる被験者に関連してよい異なる音声記録の間の比較を好都合に容易化する。これは、例えば、同じ被験者からの複数の個別の記録が組み合わせられる場合にとくに好都合であり得る。例えば、これは、短い記録が好ましい（例えば、被験者が虚弱であるため）場合にとくに好都合な可能性があり、標準的な長さまたは他の望ましい長さのワード読み上げテストが好ましい。記録において最高のエネルギーを有するフレームに対してメルスペクトログラムを正規化すると、結果として、好都合なことに、あらゆる記録において、記録における最も音が大きいフレームが、０ｄＢの相対エネルギー値（最大強度投影後の値）を有することになる。他のフレームは、０ｄＢ未満の相対エネルギー値を有することになる。さらに、パワーメルスペクトログラムを正規化することで、音声記録間で比較することができる相対エネルギー（経時的なｄＢの値）を表す最大強度投影が得られるため、共通のしきい値（予め決定されても、動的に決定されてもよい）を複数の記録に好都合に使用することができる。

個々のワード／音節セグメントから導出されたデータに外れ値検出方法を適用することは、誤検出（例えば、不正確な発音、呼吸、および非スピーチ音によって引き起こされるものなど）に対応するセグメントの除去を好都合に可能にする。多次元観測のセットに適用可能な任意の外れ値検出方法を使用することができる。例えば、クラスタ化手法を使用することができる。いくつかの実施形態において、値の複数のベクトルに外れ値検出方法を適用することは、値のベクトルが値の残りのベクトルから所定の距離を上回るすべてのセグメントを除外することを含む。

個々のワードまたは音節に対応する音声記録のセグメントを識別することは、セグメントのうちの少なくとも１つについて、セグメントのメルスペクトログラムにわたるスペクトル流束関数を計算することによってオンセット検出を実行することと、セグメント内でオンセットが検出されるたびに、さらなる境界を定めることによって、２つの新たなセグメントを形成することとをさらに含み得る。

いくつかの実施形態において、個々のワード／音節に対応する音声記録のセグメントを識別することは、所定のしきい値よりも短いセグメントおよび／または平均相対エネルギーが所定のしきい値を下回るセグメントを除去することによって、誤検出を表すセグメントを除外することをさらに含む。例えば、１００ｍｓよりも短いセグメントが、好都合に除外され得る。同様に、平均相対エネルギーが－４０ｄＢ未満のセグメントが、好都合に除外され得る。そのような手法は、ワードまたは音節に対応するセグメントを簡単かつ効率的に除外することができる。好ましくは、セグメントは、上述のようなセグメントのＭＦＣＣの計算および外れ値検出方法の適用に先立って、短いセグメントおよび／または低エネルギーのセグメントを除外するようにフィルタ処理される。実際、これは、好都合なことに、誤ったセグメントについてＭＦＣＣを計算するという不必要な工程を回避し、そのような誤ったセグメントが外れ値検出方法にさらなる雑音を持ち込むことを防止する。

任意の態様のいくつかの実施形態において、音声記録は基準トーンを含む。例えば、記録は、読み上げテストを実行するユーザの記録の開始直後に基準トーンを発するように構成されたコンピューティングデバイスを使用して取得されていてもよい。これは、読み上げタスクをいつ開始すべきかの指示をユーザに提供するために有用であり得る。音声記録が基準トーンを含む実施形態において、本方法の１つ以上のパラメータを、基準トーンが単一のワードまたは音節に対応するセグメントとして識別されるように、かつ／または基準トーンを含むセグメントが誤検出を除去するプロセスにおいて除外されるように選択することができる。例えば、誤検出除去プロセスで使用されるＭＦＣＣのセットおよび／またはこのプロセスで使用される予め定められた距離を、基準トーンに対応するセグメントが各々の音声記録（または、音声記録の少なくとも選択された割合）において除去されるように選択することができる。

個々のワードまたは音節に対応する音声記録のセグメントを識別することは、セグメントについて１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）を計算して、各ベクトルが一セグメントに関係している値の複数のベクトルを取得し、値の複数のベクトルに外れ値検出法を適用することによって誤検出を表すセグメントを除外することをさらに含み得る。個々のワードまたは音節に対応する音声記録のセグメントを識別することは、所定のしきい値よりも短いセグメントおよび／または平均相対エネルギーが所定のしきい値を下回るセグメントを除去することによって、誤検出を表すセグメントを除外することをさらに含み得る。

ｎ個のワードは、１音節または２音節であってよい。ｎ個のワードの各々は、それぞれのワードの内部の１つ以上の母音を含んでよい。ｎ個のワードの各々は、単一の強調された音節を含んでよい。ｎ個のワードは、色ワードであってよく、任意選択的に、ワードは、ワード読み上げテストにおいて単一の色で表示されるか、またはワードは、ワード読み上げテストにおいてｍ個の色のセットから、独立して選択される色で表示される。

本発明の文脈において、被験者は、ヒト被験者である。「被験者」、「患者」、および「個人」という用語は、本開示全体を通して互換的に使用される。

被験者からワード読み上げテストからの音声記録を取得することは、第１のワード読み上げテストからの音声記録および第２のワード読み上げテストからの音声記録を取得することを含み、ワード読み上げテストは、色ワードであるｎ個のワードのセットから取り出されたワードのシーケンスを読み上げることを含み、ワードは、第１のワード読み上げテストにおいて単一の色で表示され、第２のワード読み上げテストにおいてｍ個の色のセットから、独立して選択される色で表示され、任意選択的に、第２のワード読み上げテストにおけるワードのシーケンスは、第１のワード読み上げテストにおけるワードのシーケンスと同じである。

ワードのシーケンスは、所定の数のワードを含むことができ、所定の数は、１つ以上のメトリックを推定し、かつ／または１つ以上のメトリクスと以前に取得された基準値との比較を可能にするための充分な情報が記録に含まれることを保証するように選択される。ワードのシーケンスは、少なくとも２０個、少なくとも３０個、または約４０個のワードを含み得る。例えば、本発明の発明者は、４０個のワードのシーケンスを含むワード読み上げテストが、非代償性心不全患者などの強い呼吸困難および／または疲労を有する被験者であっても処理可能な労力でありながら、関心のメトリックのすべてを推定するために充分な情報をもたらすことを見出した。

ワードの所定の数は、被験者について予想される生理学的および／または病理学的状態に依存し得る。例えば、ワードの所定の数は、特定の疾患、障害、または状態を有する被験者が所定の時間内にワードのシーケンスを読み上げることが期待できるように選択され得る。所定の期間あたりの予測ワード数は、比較訓練コホートを使用して決定され得る。好ましくは、比較訓練コホートは、意図されるユーザと同様の状態、疾患、または障害、および／または意図されるユーザと同様のレベルの疲労および／または呼吸困難を有する個人で構成される。所定の時間長は、好都合には、１２０秒未満である。テストが長すぎると、退屈または身体的衰弱などの外部パラメータの影響を受ける可能性があり、かつ／またはユーザにとってあまり便利でなく、取り込みの減少につながる可能性がある。所定の時間長は、３０秒、３５秒、４０秒、４５秒、５０秒、５５秒、または６０秒から選択されてよい。所定の時間長および／またはワード数は、標準および／または比較テストの存在に基づいて選択されてよい。

好ましくは、記録は、被験者が表示されたワードのシーケンスを読み上げるために必要な長さである。したがって、コンピューティングデバイスは、被験者が記録の停止を示すまで、および／または被験者が表示されたワードのシーケンスの全体を読み上げるまで、音声記録を記録することができる。例えば、コンピューティングデバイスは、被験者がテストの完了を示す入力をユーザインターフェースを介してもたらすまで、音声記録を記録することができる。別の例として、コンピューティングデバイスは、所定の長さの時間にわたって音声記録を記録することができ、記録を、ワードのシーケンス内の予想されるワード数に対応する数のセグメントを含むようにクロップすることができる。あるいは、コンピューティングデバイスは、被験者が所定の時間にわたって言葉を発していないことを検出するまで、音声記録を記録してもよい。換言すると、本方法は、被験者に関連するコンピューティングデバイスに、コンピューティングデバイスが開始信号を受信したときからコンピューティングデバイスが停止信号を受信したときまで、音声記録を記録させることを含むことができる。開始および／または停止信号は、ユーザインターフェースを介して被験者から受信されてよい。あるいは、開始および／または停止信号は、自動的に生成されてもよい。例えば、開始信号は、コンピューティングデバイスがワードの表示を開始することによって生成されてよい。停止信号は、例えば２、５、１０、または２０秒間などの設定された最小期間にわたって音声信号が検出されなかったとコンピューティングデバイスが判断することによって生成されてよい。理論に束縛されることを望むものではないが、（ワードのセット内のワードの数に対応する）既知の数のワードを含むと予想される音声記録の使用は、本発明の任意の態様においてとくに好都合であり得ると考えられる。実際、そのような実施形態は、ワードの既知のシーケンスが任意の記録に関して既知の長さを有すると考えられるため、アラインメント工程を好都合に単純化することができる。

記録は、複数の記録を含み得る。各々の記録は、少なくとも２０、少なくとも２５、または少なくとも３０ワードのシーケンスを読み上げることを含むワード読み上げテストからの記録であってよい。例えば、例えば４０ワードのシーケンスを読み上げることを含むワード読み上げテストは、２０ワードのシーケンスを読み上げることを含む２つのテストに分割され得る。これは、被験者の病理学的または生理学的状態ゆえに、被験者が１回のテストでは前記所定の長さのシーケンスを読み上げることができない場合に、所定の長さのシーケンスを読み上げることを含むワード読み上げテストからの記録を可能にし得る。複数の別々の音声記録を使用する実施形態において、個々のワード／音節に対応するセグメントを識別するステップは、好都合には、別々の音声記録に対して少なくとも部分的に別々に実行される。例えば、正規化、動的しきい値処理、スケーリング、などを含む工程が、好都合には、各々の記録について別々に実行される。複数の別々の音声記録を使用する実施形態において、アラインメント工程は、各々の記録について別々に実行されてよい。対照的に、クラスタ化工程は、好都合には、複数の記録からの組み合わせデータについて実行され得る。

ワード読み出しテストのためのワードのシーケンスを表示するステップ、およびワード記録を記録するステップは、分析ステップを実行するコンピューティングデバイスから離れたコンピューティングデバイスによって実行され得る。例えば、表示および記録するステップを、ユーザのパーソナルコンピューティングデバイス（ＰＣあるいは携帯電話機またはタブレットなどのモバイル機器であってよい）によって実行することができる一方で、音声記録の分析は、サーバなどのリモートコンピュータによって実行されてよい。これは、例えば患者の自宅における臨床関連データのリモート取得を可能にしつつ、分析のためにリモートコンピュータの高いコンピューティング能力を活用することができる。

いくつかの実施形態において、被験者に関連するコンピューティングデバイスは、携帯電話機またはタブレットなどのモバイルコンピューティングデバイスである。いくつかの実施形態において、被験者に関連するコンピューティングデバイスにワードのシーケンスを表示させ、音声記録を記録させることは、被験者に関連するコンピューティングデバイス上でローカルに実行されるソフトウェアアプリケーション（モバイルデバイスの文脈において「モバイルアプリ」または「ネイティブアプリ」と呼ばれることもある）、ウェブブラウザで実行されるウェブアプリケーション、またはネイティブアプリ内にモバイルウェブサイトを埋め込むハイブリッドアプリケーションであってよいアプリケーションを介して実行される。

いくつかの実施形態において、音声記録を取得することは、音声記録を記録することと、音声記録を分析するステップを実行することとを含み、取得および分析は同じコンピューティングデバイスによって（すなわち、ローカルで）実行される。これにより、分析のためのリモートデバイスへの接続の必要性、および秘密の情報を転送する必要性を、好都合に排除することができる。分析の結果（例えば、正解ワードレート、ピッチ、など）ならびに音声記録またはその圧縮版は、そのような実施形態において、依然として保存および／またはメタ分析のためにリモートコンピューティングデバイスに通信されてもよい。

本方法を、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を有していると診断されるか、または有する恐れがある被験者の状態を評価するために使用することができる。本方法を、被験者を呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を有していると診断するために使用することができる。本発明の文脈において、個人を、個人によるワード読み上げテストなどのタスクの実行が、心理的因子、生理学的因子、神経学的因子、または呼吸因子によって影響される場合に、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を有すると見なすことができる。被験者の呼吸、声のトーン、疲労状態、または認知能力に影響を及ぼし得る状態、疾患、または障害の例として、以下が挙げられる。
（ｉ）心不全、冠動脈心疾患、心筋梗塞（心臓発作）、心房細動、不整脈（心拍障害）、心臓弁疾患、などの心血管疾患；
（ｉｉ）閉塞性肺疾患（例えば、喘息、慢性気管支炎、気管支拡張症、および慢性閉塞性肺疾患（ＣＯＰＤ））、慢性呼吸器疾患（ＣＲＤ）、気道感染症、および肺腫瘍などの呼吸器疾患、障害、または状態、呼吸器感染症（例えば、ＣＯＶＩＤ－１９、肺炎、など）、肥満、呼吸困難（例えば、心不全に関連する呼吸困難）、パニック発作（不安障害）、肺塞栓症、肺の物理的制限または損傷（例えば、肋骨の骨折、肺の虚脱、肺線維症、など）、肺高血圧症、または（例えば、スパイロエルゴメトリによって測定可能な）肺／心肺の機能に影響を及ぼす任意の他の疾患、障害、または状態、など；
（ｉｉｉ）脳卒中、神経変性疾患、ミオパシー、糖尿病性ニューロパシー、などの神経血管疾患または障害；
（ｉｖ）うつ病、眠気、注意欠陥障害、慢性疲労症候群、などの精神医学的疾患または障害；
（ｖ）疼痛、異常なグルコースレベル（例えば、真性糖尿病などに起因）、（例えば、慢性腎不全または腎代替療法の文脈における）腎機能障害、などの全身機構を介して個人の疲労状態または認知能力に影響を及ぼす状態。

したがって、本明細書に記載の方法は、上述の状態、疾患、または障害のいずれかの診断、監視、または治療に使用可能である。

本発明の文脈において、ワード読み上げテスト（本明細書において「ワード読み上げタスク」とも呼ばれる）は、一文を形成するようには接続されていないワードのセット（本明細書において「ワードのシーケンス」とも呼ばれる）を読み上げることを個人に要求するテストを指し、ワードは、予め定められたセットから取り出される（例えば、ワードは、セットからランダムまたは擬似ランダムに取り出されてよい）。例えば、ワードのセット内のすべてのワードは、選択された言語における一連の色についてのワードなど、名詞であってよい。

当業者であれば理解できるとおり、被験者からの音声記録を分析する方法は、コンピュータ実装方法である。実際、例えば、記載されているような音節の検出、分類、およびアラインメントを含む本明細書に記載の音声記録の分析は、精神活動の範囲を超える複雑な数学的操作による大量のデータの分析を必要とする。

第２の態様によれば、心不全の被験者を監視するか、または被験者を心不全が悪化している、もしくは非代償性心不全であると診断する方法であって、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録または音声記録の一部を、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別し、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のメトリックの値を決定し、１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較することによって、分析することと、を含む方法が提供される。本方法は、第１の態様の特徴のいずれかをさらに含む。

第３の態様によれば、心不全が悪化している被験者または非代償性心不全の被験者を治療する方法であって、前述の態様の方法を使用して、被験者を心不全が悪化している、または非代償性心不全であると診断することと、心不全に関して被験者を治療することとを含む方法が提供される。本方法は、任意の前述の態様の方法を使用して、疾患の進行を監視すること、被験者の治療および／または回復を監視することをさらに含み得る。本方法は、第１の時点およびさらなる時点において被験者を監視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の心不全状態が改善していないことを示す場合に、治療を増加させ、あるいは他のやり方で変更することとを含むことができる。本方法は、第１の時点およびさらなる時点において被験者を監視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の心不全状態が改善していることを示す場合に、治療を維持するか、あるいは減少させることとを含むことができる。

第４の態様によれば、呼吸困難および／もしくは疲労に関連した状態であるか、または呼吸困難および／もしくは疲労に関連した状態の恐れがあると診断された被験者を監視する方法であって、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録または音声記録の一部を、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別し、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のメトリックの値を決定し、１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較することによって、分析することと、を含む方法が提供される。本方法は、第１の態様に関連して説明された特徴のいずれかを有することができる。

第５の態様によれば、被験者における呼吸困難および／または疲労のレベルを評価する方法であって、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録または音声記録の一部を、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別し、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される、好ましくは正解ワードレートを含む１つ以上のメトリックの値を決定し、１つ以上のメトリックの値を１つ以上のそれぞれの参照値と比較することによって、分析することと、を含む方法が提供される。本方法は、第１の態様に関連して説明された特徴のいずれかを有することができる。

第６の態様によれば、呼吸困難および／もしくは疲労に関連した状態であるか、または呼吸困難および／もしくは疲労に関連した状態の恐れがあると診断された被験者を治療する方法であって、前述の態様の方法を使用して被験者の呼吸困難および／または疲労のレベルを評価することと、評価の結果に応じて、状態について被験者を治療するか、あるいは状態について被験者の治療を調整することとを含む方法が提供される。本方法は、第１の時点およびさらなる時点において評価を実行視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の疲労および／または呼吸困難のレベルが高まっており、あるいは改善していないことを示す場合に、治療を増加させ、あるいは他のやり方で変更することとを含むことができる。本方法は、第１の時点およびさらなる時点において評価を実行視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の疲労および／または呼吸困難のレベルが改善しており、あるいは高まっていないことを示す場合に、治療を維持するか、あるいは減少させることとを含むことができる。本方法は、第１の態様に関連して説明された特徴のいずれかを有することができる。

第７の態様によれば、被験者をＣＯＶＩＤ－１９などの呼吸器感染症と診断するか、あるいは呼吸器感染症と診断された患者を治療する方法であって、被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、音声記録または音声記録の一部を、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別し、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のメトリックの値を決定し、少なくとも音声ピッチを含む１つ以上のメトリックの値を１つ以上のそれぞれの参照値と比較することによって、分析することと、を含む方法が提供される。本方法は、第１の態様の特徴のいずれかをさらに含み得る。

本方法は、比較によって被験者が呼吸器感染症を有することが示された場合に、呼吸器感染症について被験者を治療することを含み得る。本方法は、任意の前述の態様の方法を使用して、被験者の治療および／または回復を監視することをさらに含み得る。本方法は、第１の時点およびさらなる時点において被験者を監視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の呼吸器感染症が改善していないことを示す場合に、治療を増加させ、あるいは他のやり方で変更することとを含むことができる。本方法は、第１の時点およびさらなる時点において被験者を監視することと、第１の時点およびさらなる時点に関連する１つ以上のメトリックの値の比較が、被験者の呼吸器感染症が改善していることを示す場合に、治療を維持するか、あるいは減少させることとを含むことができる。

第８の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されたときに任意の上述の態様の方法のいずれかの実施形態のステップを含む動作を少なくとも１つのプロセッサに実行させる命令を含んでいる少なくとも１つの非一時的なコンピュータ可読媒体と、を備えるシステムが提供される。

少なくとも１つのプロセッサによって実行されたときに任意の上述の態様の方法のいずれかの実施形態のステップを含む動作を少なくとも１つのプロセッサに実行させる命令を格納した少なくとも１つの非一時的なコンピュータ可読媒体。

少なくとも１つのプロセッサによって実行されたときに任意の上述の態様の方法のいずれかの実施形態のステップを含む動作を少なくとも１つのプロセッサに実行させる命令を含んでいるコンピュータプログラム製品。

本発明の実施形態を使用することができる例示的なコンピューティングシステムを示している。ワード読み上げテストから正解ワードレートを決定することによって被験者の生理学的および／または病理学的状態を評価する方法を示すフローチャートである。ワード読み上げテストから音声ピッチ、呼吸％、および／または無声／有声比率を決定することによって被験者の生理学的および／または病理学的状態を評価する方法を示すフローチャートである。被験者を診断、予後診断、または監視する方法を概略的に示している。例示的な実施形態によるワード境界を識別するための２ステップ手法を示している。（Ａ）粗いワード境界が相対エネルギー尺度において識別された。入力されたオーディオ入力のメル周波数スペクトログラムが構築され、周波数軸に沿ったメル周波数スペクトログラムの最大強度投影が相対エネルギーを生じさせた（Ｂ）１つの粗くセグメント化されたワード（灰色で強調表示）が、オンセット強度に基づいて２つの推定ワードに分割された。例示的な実施形態による外れ値除去手法を示している。すべてのセグメント化されたワードが、最初の３つのＭＦＣＣ（メル周波数ケプストラム係数）を使用してパラメータ化され、灰色で示されたインライア（推定ワード、ｎ＝７５）および黒色の外れ値（非スピーチ音、ｎ＝３）が３Ｄ散布図に示されている。例示的な実施形態によるワードを識別するためのクラスタ化手法を示している。１つの記録からの推定ワード（ワード読み上げテストにおいて３つの異なるワードが示された）を、Ｋ平均クラスタ化を適用することによって３つの異なるクラスタにグループ化した。３つの特徴的なクラスタ内のワードの視覚的外観を上方のグラフ（１行につき１つのワード）に示し、対応するクラスタ中心を下方のグラフに示した。とくには、（Ａ）は、英語で話された或るテスト（ワード＝７５）からの３つのワードクラスタを表し、（Ｂ）は、ドイツ語で話された別のテスト（ワード＝６４）からの３つのワードクラスタを表す。例示的な実施形態によるワードシーケンスアラインメント手法を示している。とくには、１０ワードのシーケンスに対するスミス－ウォーターマンアルゴリズムの適用が示されている。表示されたシーケンスＲＲＢＧＧＲＧＢＲＲと予測シーケンスＢＲＢＧＢＧＢＲＲＢとのアラインメントにより、部分的に重複するシーケンスが見出され、５つの正しいワードが得られた：一致（｜）、ギャップ（－）、および不一致（：）が得られた。例示的な実施形態によるモデルなしワード認識アルゴリズムの分類精度を示している。各ワードの分類制度を、正規化された混同行列（行の和＝１）として表示した。行は、手動注釈からの真のラベルを表し、列は、自動化アルゴリズムからの予測ラベルを表す。正しい予測は、黒色の背景を有する対角線上にあり、誤った予測は、灰色の背景を有する。（Ａ）英語のワード：／ｒｅｄ／についての／ｒ／（ｎ＝５８２）、／ｇｒｅｅｎ／についての／ｇ／（ｎ＝５８１）、および／ｂｌｕｅ／についての／ｂ／（ｎ＝５５３）。（Ｂ）ドイツ語のワード：／ｒｏｔ／についての／ｒ／（ｎ＝４６０）、／ｇｒｕｅｎ／についての／ｇ／（ｎ＝４５９）、および／ｂｌａｕ／についての／ｂ／（ｎ＝４２９）。ＵＨＤＲＳを使用してハンチントン病の一連の患者について得られた臨床Ｓｔｒｏｏｐワードスコアと、例示的な実施形態による自動評価尺度との間の散布図比較を示している。変数間の線形関係を、回帰によって決定した。得られた回帰直線（黒線）および９５％信頼区間（灰色の網掛け領域）をプロットした。ピアソンの相関係数ｒおよびｐ値の有意水準をグラフに示す。正しく読み上げられたワードの数（Ａ）および英語、フランス語、イタリア語、およびスペイン語の記録のセットにおいて識別された個々のワード／音節セグメントの数（Ｂ）の分布を示している。データは、たとえ個々のワード内の複数の音節が別々のエンティティとして識別されても（図１３Ｂ）、本明細書に記載の方法に従って識別された正しく読み上げられたワードの数が、ワードの長さの変動に対してロバストであることを示している（図１３Ａ）。本明細書に記載のとおりに分析された健常な個人からの一致したＳｔｒｏｏｐワード読み上げ（Ａ、非矛盾条件）およびストループ色ワード読み上げ（Ｂ、干渉条件）テストの結果を示している。各々の部分図は、各々のテストにおいて表示されたワードのセット（上側のパネル）、それぞれの記録の正規化された信号振幅（中央のパネル）（セグメントの識別およびワード予測（各セグメントの色として示されている）が重ね合わせられている）、ならびに中央パネルに示されている信号のメルスペクトログラムおよび付随のスケール（下側のパネル）を示している。データは、セグメント識別および正しいワードのカウント処理が、矛盾のない条件および干渉条件の両方について等しく良好に機能することを示している。例示的な実施形態によるウェブベースのワード読み上げアプリケーションのスクリーンショットを示している。参加者に対し、５つの異なる読み上げタスクを実行する自身を記録するように求めた：（ｉ）テキストの固定された所定のくだり（患者同意文）を読み上げる－本明細書において「読み上げタスク」とも呼ばれる；（ｉｉ）増加する連続数のセットを読み上げる－本明細書において「カウントタスク」とも呼ばれる；（ｉｉｉ）減少する連続数のセットを読み上げる－本明細書において「逆カウントタスク」とも呼ばれる；（ｉｖ）Ｓｔｒｏｏｐワード読み上げテスト（非矛盾部分）－黒色で表示されたランダムに取り出された色ワードのセット（固定数）を読み上げる；（ｖ）Ｓｔｒｏｏｐ色ワード読み上げテスト（干渉部分）－ランダムに取り出された色で表示されたランダムに取り出された色ワードのセット（固定数）を読み上げる。本明細書に記載のように分析された休息時（薄灰色の系列）または中程度の運動（４つの階段を上る－暗灰色の系列）後の健常な個人によって行われたＳｔｒｏｏｐ読み上げテストからの音声記録の分析結果を示している。各々の部分図が、本明細書に記載のバイオマーカメトリックのうちの１つに関する結果を示している。同じ「テスト日（ＴＥＳＴＤＡＹ）」（ｘ軸）を有する点の各ペアは、同じ日における同じ個人についての休息時および運動後の結果を示している（同じテストの結果が同じ「テスト日（ＴＥＳＴＤＡＹ）」において部分図にまたがって示されている、ｎ＝１５日）。（Ａ）ピッチ－Ｓｔｒｏｏｐ色ワード読み上げテスト（干渉条件）記録のすべての音声セグメントにわたる推定平均ピッチ（Ｈｚ）、Ｃｏｈｅｎのｄ＝２．７５。（Ｂ）正解ワードレート（Ｓｔｒｏｏｐ色ワード読み上げテスト記録における１秒あたりの正解ワードの数）、Ｃｏｈｅｎのｄ＝－１．５７。（Ｃ）無声／有声比率（単位なし－Ｓｔｒｏｏｐ色ワード読み上げテスト記録における有声セグメントからの時間の合計に対する有声セグメント間の時間の合計）、Ｃｏｈｅｎのｄ＝１．４４。（Ｄ）呼吸％（％－Ｓｔｒｏｏｐ色ワード読み上げテスト記録における有声セグメント間および有声セグメント内の時間の合計に対する有声セグメント間の時間の合計）、Ｃｏｈｅｎのｄ＝１．４３。（Ａ’）～（Ｄ’）は、（Ａ）～（Ｄ）と同じメトリックを示しているが、（Ａ）～（Ｄ）にデータが示されているＳｔｒｏｏｐ色ワード読み上げテスト記録および同じテストセッションからのＳｔｒｏｏｐワード読み上げテスト記録からの組み合わせ結果を使用して得られている。（Ａ’）ピッチ－組み合わせテスト、Ｃｏｈｅｎのｄ＝３．４７。（Ｂ’）正解ワードレート－組み合わせテスト、Ｃｏｈｅｎのｄ＝－２．２６。（Ｃ’）無声／有声比率－組み合わせテスト、Ｃｏｈｅｎのｄ＝１．２５。（Ｄ’）呼吸％－組み合わせテスト、Ｃｏｈｅｎのｄ＝１．２６。３つの心不全患者群、すなわち入院時の非代償性心不全患者（「ＨＦ：入院」と標記、ｎ＝２５）、退院時の同じ非代償性心不全患者（「ＨＦ：退院」と標記、ｎ＝２５）、および安定外来患者（「ＯＰ：安定」と標記、ｎ＝１９）におけるＳｔｒｏｏｐ読み上げテスト（Ａ～Ｄ、干渉条件；Ａ’～Ｄ’、干渉および非矛盾の組み合わせ条件）、読み上げタスク（Ｅ～Ｇ）、および数字カウントタスク（Ｈ～Ｊ、逆数字カウント；Ｈ’～Ｊ’、順方向カウントおよび逆方向カウントの組み合わせ）からの音声記録の分析結果を示している。（Ａ）患者データに重ねられた呼吸％（％、１００^＊（無声／（無声＋有声））として計算）の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉条件）における呼吸％は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．７５、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．７７、順列テストｐ値＝０．００００）。（Ｂ）患者データに重ねられた無声／有声比率（単位なし、無声／有声として計算）の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉条件）における無声／有声比率は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．３１、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．５２、順列テストｐ値＝０．００００）。（Ｃ）患者データに重ねられた正解ワードレート（１秒当たりの正解ワード数）の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉条件）における正解ワードレートは、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－１．１４、順列テストｐ値＝０．０００１；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．８７、順列テストｐ値＝０．００３５）。（Ｄ）患者データに重ねられたスピーチレート（１秒当たりのワード数）の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉条件）におけるスピーチレートは、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．８９、順列テストｐ値＝０．００１９；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．９８、順列テストｐ値＝０．００１１）。（Ａ’）患者データに重ねられた呼吸％の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉および非矛盾条件の組み合わせ）における呼吸％は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．７１、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．８５、順列テストｐ値＝０．００００）。（Ｂ’）患者データに重ねられた無声／有声比率の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉および非矛盾条件の組み合わせ）における無声／有声比率は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．４１、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．７１、順列テストｐ値＝０．００００）。（Ｃ’）患者データに重ね合わせられた正解ワードレートの箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉および非矛盾条件の組み合わせ）における正解ワードレートは、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－１．０９、順列テストｐ値＝０．０００２；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．８１、順列テストｐ値＝０．００５３）。（Ｄ’）患者データに重ねられたスピーチレート（１秒当たりのワード数）の箱ひげ図。ワード読み上げテスト（ワード色読み上げテスト、干渉および非矛盾条件の組み合わせ）におけるスピーチレートは、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．９２、順列テストｐ値＝０．００１９；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．９５、順列テストｐ値＝０．００１３）。（Ｅ）患者データに重ねられた呼吸％（％）の箱ひげ図。読み上げタスクにおける呼吸％は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．５４、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．２８、順列テストｐ値＝０．００００）。（Ｆ）患者データに重ねられた無声／有声比率（単位なし）の箱ひげ図。読み上げタスクにおける無声／有声比率は、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝１．３５、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝０．８９、順列テストｐ値＝０．０００２）。（Ｇ）患者データに重ねられたスピーチレート（１秒当たりのワード数）の箱ひげ図。読み上げタスクにおけるスピーチレートは、非代償性ＨＦ患者の２つの群の各々と安定患者との間で有意に異なっていた（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－１．６０、順列テストｐ値＝０．００００；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．６４、順列テストｐ値＝０．０１９０）。（Ｈ）患者データに重ねられた呼吸％（％）の箱ひげ図。逆カウントタスクにおける呼吸％は、非代償性ＨＦ患者群と安定患者群との間で有意に異なっていなかった（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．２４、順列テストｐ値＝０．２２５１；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．２１、順列テストｐ値＝０．２５３７）。（Ｉ）患者データに重ねられた無声／有声比率（単位なし）の箱ひげ図。逆カウントタスクにおける無声／有声比率は、非代償性ＨＦ患者の２つの群と安定患者との間で有意に異なっていなかった（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．１９、順列テストｐ値＝０．２７１８；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝－０．２６、順列テストｐ値＝０．２１２６）。（Ｊ）患者データに重ねられたスピーチレート（１秒当たりのワード数）の箱ひげ図。逆カウントタスクにおけるスピーチレートは、非代償性ＨＦ患者の２つの群と安定患者との間で有意に異なっていなかった（ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝０．１９、順列テストｐ値＝０．２７５４；ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ＝０．２２、順列テストｐ値＝０．２３４９）。（Ｈ’）患者データに重ねられた呼吸％（％）の箱ひげ図。組み合わせカウントタスクにおける呼吸％は、非代償性ＨＦ患者群の少なくとも１つと安定患者との間で有意に異なっていなかった。（Ｉ’）患者データに重ねられた無声／有声比率（単位なし）の箱ひげ図。組み合わせカウントタスクにおける無声／有声比率は、非代償性ＨＦ患者の２つの群のうちの少なくとも１つと安定患者との間で有意に異なっていなかった。（Ｊ’）患者データに重ねられたスピーチレート（１秒当たりのワード数）の箱ひげ図。組み合わせカウントタスクにおけるスピーチレートは、非代償性ＨＦ患者の２つの群と安定患者との間で有意に異なっていなかった。^＊ｐ値（順列テスト）＜０．０５、^＊＊ｐ値（順列テスト）＜０．０１、^＊＊＊ｐ値（順列テスト）＜０．００１、^＊＊＊＊ｐ値（順列テスト）＜０．０００１ｎｓ＝有意でない（＞０．０５）。すべての順列テストは、１００００の順列を使用して実行された。３つの心不全患者群、すなわち入院時の非代償性心不全患者（黒色のデータ系列、ｎ＝２５）および退院時の同じ非代償性心不全患者（暗灰色のデータ系列、ｎ＝２５）（プロットの左側のデータ系列、患者ごとに２点（入院時および退院時））、ならびに安定な外来患者（薄灰色のデータ系列、ｎ＝１９－プロットの右側のデータ系列）におけるＳｔｒｏｏｐ読み上げテストからの音声記録の分析の結果を平均ピッチ（点）および標準偏差（エラーバー）に関して示している。エラーバーは、通常条件と干渉条件との間の標準偏差を示している。入院（「入院」と標記）から退院（それぞれの患者の最後のデータ点）までの選択された非代償性心不全患者におけるＳｔｒｏｏｐ読み上げテストからの音声記録の平均ピッチに関する分析の結果を示している。Ａ．女性患者（ｎ＝７）。Ｂ．男性患者（ｎ＝１７）。４８人の心不全患者に関するＳｔｒｏｏｐワード読み上げテストとＳｔｒｏｏｐ色読み上げテストとの間（Ａ、合計１６２組の記録を分析）および４８人の心不全患者に関する数字カウントテストと逆数字カウントテストとの間（Ｂ、合計１６１組の記録を分析）のピッチ測定値の一致のレベルを評価するＢｌａｎｄ－Ａｌｔｍａｎプロットを示している。各々のデータ点は、それぞれのテストを使用して推定された平均ピッチ（Ｈｚ）の差を示している。破線は、平均差（中央の線）および±１．９６の標準偏差（ＳＤ）区間を示している。再現性が、コンセンサスレポート（ＣＲ＝２^＊ＳＤ）を使用して定量化され、数字カウントテストについては２７．７６であり、ワード読み上げテストについては１７．６４である。ＣＯＶＩＤ－１９隔離中（Ａ、Ｂ）および仕事への復帰日（Ｃ）の同じ被験者によるＳｔｒｏｏｐ読み上げテスト（干渉条件）からの音声記録の分析の結果（推定音声ピッチ）を示している。（Ａ～Ｃ）は、ピッチ輪郭（白色の点）をメルスペクトログラムと重ね合わせて示している。（Ｄ）ＣＯＶＩＤ－１９と診断された被験者について、隔離中に軽度の疲労症状（縦線－Ａに示される推定ピッチ＝２４７Ｈｚ）および軽度の呼吸困難症状（縦線－Ｂに示される推定ピッチ＝２２３Ｈｚ）を自己申告した日、ならびに仕事への復帰日の無症状のデータ（線－Ｃに示される推定ピッチ＝２０１Ｈｚ）を、１０人の健常な女性有志ボランティアについてのデータ（ｎ＝１０２６個の音声サンプル）および推定正規分布確率密度関数（平均＝１８３、ｓｄ＝１１；ｓｃｉｐｙ．ｓｔａｔｓ．ｎｏｒｍからのフィット関数を使用してこれらの１０２６個のサンプルのフィッティングを行うことによって推定した）を示すヒストグラム上に示している。

本明細書に記載の図面が本発明の実施形態を例示する場合、それらを本発明の範囲を限定するものと解釈すべきではない。必要に応じて、異なる図において、同様の参照番号が、図示された実施形態の同じ構造的特徴に関連するように使用される。

詳細な説明
以下で、本発明の具体的な実施形態を、図面を参照して説明する。

図１が、本発明の実施形態を使用することができる例示的なコンピューティングシステムを示している。

ユーザ（図示せず）が、典型的には携帯電話機１またはタブレットなどのモバイルコンピューティングデバイスである第１のコンピューティングデバイスを備える。あるいは、コンピューティングデバイス１は、例えばＰＣなど、固定されてもよい。コンピューティングデバイス１は、少なくとも１つの実行環境を協働して提供する少なくとも１つのプロセッサ１０１および少なくとも１つのメモリ１０２を有する。典型的には、モバイルデバイスはファームウェアを有し、アプリケーションは、ｉＯＳ、Ａｎｄｒｏｉｄ、またはＷｉｎｄｏｗｓなどのオペレーティングシステムを備えた少なくとも１つの通常実行環境（ＲＥＥ）で実行される。さらに、コンピューティングデバイス１は、例えば公衆インターネット３を介してコンピューティングインフラストラクチャの他の要素と通信するための手段１０３を備えることができる。これらは、無線電気通信ネットワークと通信するための無線電気通信装置と、例えばＷｉ－Ｆｉ技術を使用して公衆インターネット３と通信するためのローカル無線通信装置とを備えることができる。

コンピューティングデバイス１は、典型的にはディスプレイを含むユーザインターフェース１０４を備える。ディスプレイ１０４は、タッチスクリーンであってよい。例えば、スピーカ、キーボード、１つ以上のボタン（図示せず）、などの他のタイプのユーザインターフェースが提供されてもよい。さらに、コンピューティングデバイス１は、マイクロフォン１０５などの音キャプチャ手段を装備することができる。

さらに、第２のコンピューティングデバイス２も図１に示されている。第２のコンピューティングデバイス２は、例えば、分析提供者コンピューティングシステムの一部を形成することができる。第２のコンピューティングデバイス２は、典型的には、１つ以上のプロセッサ２０１（例えば、サーバ）、複数のスイッチ（図示せず）、および１つ以上のデータベース２０２を備え、使用される第２のコンピューティングデバイス２の詳細は、本発明の実施形態の機能の様相および可能な実装の方法の理解に必ずしも必要でないため、ここではさらには説明しない。第１のコンピューティングデバイス１を、公衆インターネット３を介するなど、ネットワーク接続によって分析提供者コンピューティングデバイス２に接続することができる。

図２が、ワード読み上げテストから正解ワードレートを決定することによって被験者の生理学的および／または病理学的状態を評価する方法を示すフローチャートである。本方法は、被験者からワード読み上げテストからの音声記録を取得するステップ２１０を含む。音声記録は、ｎ個のワードの（閉じた）セットから取り出されたワードのシーケンスを読み上げることを含むワード読み上げテストからの音声記録である。

いくつかの実施形態において、ワードは、色ワードである。いくつかのそのような実施形態において、ワードは、ワード読み上げテストにおいて単色で表示される。そのような設定において、所定の期間において正しく読み上げられたワードの総数は、３パートＳｔｒｏｏｐテストの（「非矛盾条件」での）第１の部分からのＳｔｒｏｏｐワードカウントと一致し得る。いくつかの実施形態において、ワードは、個々のワードの意味と必ずしも一致しない色で表示された色ワードである。例えば、ワードは、色ワードのセットからランダムまたは擬似ランダムに取り出されてよく、各々のワードは、色のセットからランダムまたは擬似ランダムに取り出された色で表示されてよい。いくつかの実施形態において、ワードは、個々のワードの意味に一致しない（あるいは、必ずしも一致せず、すなわち個々のワードの意味とは無関係に選択される）色で表示された色ワードである。例えば、ワードは、色ワードのセットからランダムまたは擬似ランダムに取り出されてよく、各々のワードは、表示すべき色ワードに一致する色を除く色のセットからランダムまたは擬似ランダムに取り出された色で表示されてよい。表示用の色のセットに含まれる色は、色ワードのセットに含まれる色と同一であっても、異なっていてもよい。そのような実施形態において、所定の期間において正しく読み上げられたワードの総数は、３パートＳｔｒｏｏｐテストの第３の部分（「矛盾条件」）からのＳｔｒｏｏｐワードカウントと一致し得る。いくつかの実施形態において、音声記録は、ｎ個のワードの（閉じた）セットから取り出されたワードのシーケンスを読み上げることを含み、ワードは単一の色で表示される色ワードであるワード読み上げテストからの第１の記録と、ｎ個のワードの（閉じた）セットから取り出されたワードのシーケンスを読み上げることを含み、ワードは個々のワードの意味に必ずしも一致しない（例えば、個々のワードの意味とは無関係に選択される）色で表示される色ワードであるワード読み上げテストからの第２の記録とを含む。第１および第２の記録で使用されるワードのシーケンスは、同一であってもよい。したがって、第１のワード読み上げテストおよび第２のワード読み上げテストのためのワードを、ｎ個のワードのセットから１回だけ取り出せばよい。これは、好都合なことに、セグメントおよびクラスタ（下記を参照）を識別するために利用することができる情報の量を増やし、１つ以上のバイオマーカを測定するために使用することができる２つの記録をもたらし、そのようなバイオマーカを、後に（例えば、測定の安定性を評価するため、および／または第１および第２のワード読み上げテストについて測定値のうちの１つ以上に影響を与える可能性がより高い効果を調査するために）２つの記録の間で比較することができる。

いくつかの実施形態において、ｎは２～１０であり、好ましくは２～５であり、例えば３である。ワードのシーケンス内の異なるワードの数ｎは、好ましくは少なくとも２であり、さもないと、被験者が最初のワードを読み上げた後にさらなる読み上げが必要とされないからである。ワードのセットを生成するための異なるワードの数ｎは、好ましくは１０または１０未満であり、なぜならば、そのようでないと、各々のワードが音声記録に出現すると予想される回数が、クラスタ化プロセス（下記を参照）の精度に悪影響を与えるほどに少なくなりかねないからである。好ましくは、異なるワードの数ｎは、各々のワードが被験者によって読み上げられるワードのセットに出現すると予想される回数が、少なくとも１０であるように選択される。当業者であれば理解できるとおり、これは、少なくともワードのセットの長さと、被験者が被験者の状態（例えば、疲労および／または息切れのレベルなど）に鑑みて引き受けることができると予想される記録の予想される長さとに依存し得る。異なるワードの数ｎおよびワードのセットの長さに関する適切な選択を、例えば、同等の訓練コホートを使用して得ることができる。

ｎ個のワードは、例えば「赤色」、「緑色」、および「青色」の各色についてのワードなど、色ワードであってよい（すなわち、英語の［’ＲＥＤ’，’ＧＲＥＥＮ’，’ＢＬＵＥ’］、ドイツ語の［’ＲＯＴ’，’ＧＲＵＥＮ’，’ＢＬＡＵ’］、スペイン語の［’ＲＯＪＯ’，’ＶＥＲＤＥ’，’ＡＺＵＬ’］、フランス語の［’ＲＯＵＧＥ’，’ＶＥＲＴ’，’ＢＬＥＵ’］、デンマーク語の［’ＲφＤ’，’ＧＲφＮ’，’ＢＬÅ’」、ポーランド語の［’ＣＺＥＲＷＯＮＹ’，’ＺＩＥＬＯＮＹ’，’ＮＩＥＢＩＥＳＫＩ’］、ロシア語の［’КРАСНЫЙ’，’ЗЕЛЕНЫЙ’，’СИНИЙ’］、日本語の［’赤’，’緑’，’青’］、イタリア語の［’ＲＯＳＳＯ’，’ＶＥＲＤＥ’，’ＢＬＵ’］、オランダ語の［’ＲＯＯＤ’，’ＧＲＯＥＮ’，’ＢＬＡＵＷ’］、など）。色ワードは、Ｓｔｒｏｏｐ読み上げテストのワード読み上げ部分で一般的に使用されている。「赤色」、「緑色」、および「青色」の各色についてのワードは、このテストのための一般的な選択肢であり、したがって、テストの結果を臨床状況においてＳｔｒｏｏｐ試験の既存の実施態様と比較するか、あるいは統合することを可能にできる。

いくつかの実施形態において、ｎ個のワードは、各々が単一の母音を含むように選択される。いくつかの実施形態において、ｎ個のワードは、それぞれのワードの内部の１つ以上の母音を含むように選択される。いくつかの実施形態において、ワードは、単一の強調された音節を含む。

任意の態様の好ましい実施形態において、ワードは、１音節のワードまたは２音節のワードである。すべてのワードが同じ数の音節を有することがさらに好都合であり得る。例えば、すべてのワードが１音節または２音節のいずれかであることが好都合であり得る。１音節のワードのみを使用する実施形態は、そのような実施形態においては各々のセグメントが単一のワードに対応するため、とくに好都合であり得る。したがって、そのような実施形態は、好都合なことに、読み上げられたワードの数に対応するセグメントの数のカウント、および／またはスピーチレート（または、スピーチのリズムに関係する任意の他の特徴）を得るために直接使用することができるセグメントのタイミングをもたらす。さらに、１音節であるｎ個のワードは、各々のワードに対して値の単一のベクトルが予想され、比較的均一であると予想されるｎ個のクラスタをもたらすため、クラスタ化の精度を向上させることができる。さらに、１音節のワードの使用は、同じワードに属する音節の識別に関連し得る潜在的な問題がなくなるため、スピーチレートの決定の精度を向上させることができる。

２音節のワードのみを使用する実施形態は、好都合なことに、読み上げられたワードの数（したがって、スピーチレート／正解ワードレート）に関連でき、かつ／または同じ特性を有するワード読み上げテストからの音声記録間で比較され得るセグメントの数のカウントをもたらし得る。

２音節のワードを使用するいくつかの実施形態において、本方法は、音声記録において識別されたセグメントの数をカウントする前、および／または音声記録において正しく読み上げられたワードの数を決定する前に、ワード内の２つの音節のうちの指定された１つに対応するセグメントを除外することをさらに含むことができる。ワード内の２つの音節のうちの１つに対応するセグメントを、２つの連続するセグメントの相対タイミングに基づいて識別することができる。例えば、合計が特定の時間（例えば４００ミリ秒）未満であり、かつ／または間隔が特定の時間（例えば１０ミリ秒）未満であるセグメントなど、互いに密接に続くセグメントを、同じワードに属すると仮定することができる。さらに、除外されるべき特定のセグメントを、同じワードに属すると仮定される２つのセグメントのうちの第１または第２のセグメントとして識別することができる。あるいは、除外されるべき特定のセグメントを、２つのセグメントにおける音信号の特性に基づいて識別してもよい。例えば、エネルギーが最も低いセグメントを除外することができる。別の代替案として、除外されるべき特定のセグメントを、２つのセグメントの相対長に基づいて識別してもよい。例えば、長さが最も短いセグメントを除外することができる。あるいは、本方法は、ワード内の２つの音節のうちの指定された１つに対応するセグメントを、例えば互いに指定された時間（例えば、１０ミリ秒）内にあるセグメントなど、密接に後続または先行するセグメントとマージすることを含んでよい。いかなる特定の理論にも束縛されることを望むものではないが、同じワードの音節に対応するセグメントをマージすることは、高速なスピーチを分析する場合にきわめて困難であり得ると考えられる。したがって、互いに指定された時間内にあるセグメントをマージすることは、自由なスピーチに類似する速度またはそれよりも低い速度を有するスピーチにとくに適すると考えられる。スピーチが比較的高速であると予想される実施形態においては、セグメントをマージまたは除外するのではなく、単一の音節に直接対応すると推定されるセグメントを使用することが好都合であり得る。

２音節のワード（または、一般的には、多音節のワード）を使用する実施形態において、２音節のワードは、好ましくは１つの強調された音節を有する。理論に束縛されることを望むものではないが、クラスタ化（以下を参照）は、音節のうちの１つが強調されるときに、ワードではなく音節に対応するセグメントから生じる「雑音」の存在に対してより高いロバスト性を有することができると考えられる。実際、そのような場合に、強調されていない音節からの信号を、クラスタ化プロセスにおいて雑音と考えることができ、これは、各々のクラスタに割り当てられた強調された音節のアイデンティティに関して均一なクラスタを依然として生成する。

いくつかの実施形態において、ワードのシーケンスは、少なくとも２０個、少なくとも３０個、少なくとも４０個、少なくとも５０個、または約６０個のワードを含む。いくつかの実施形態において、ワードのセットは、ｎ個のワードのセットからランダムに取り出される。いくつかの実施形態において、本方法は、ｎ個のワードのセットからランダムにワードのセットを取り出すことと、被験者に関連するコンピューティングデバイスにワードのセットを表示させることとを含む。いくつかの実施形態において、ワードのセットは、ライン上にｍ個のワードのグループにて表示され、ｍは例えば４であり得る。１行につき４つのワードを表示することが、本明細書において、典型的なスマートフォン画面での表示の状況において便利であることが分かっている。当業者であれば理解できるとおり、グループとして表示されるワードの数（ｍ）を、ワードが表示される画面／ウィンドウのサイズに応じ、かつ／またはユーザの好み（例えば、好ましいフォントサイズなど）に応じて、調整することができる。そのような調整は、例えば画面またはウィンドウサイズの自動検出を介して、自動であってもよい。好ましくは、ｍ個のワードのグループは同時に表示される。例えば、例えば４つのワードのライン内のすべてのワードが、好ましくは同時に表示される。これにより、テストの結果が、例えば連続するワードの表示における遅延などの外部パラメータ（すなわち、ワード読み上げテストを実行するユーザの能力を表さないパラメータ）によって影響されるリスクを低減することができる。いくつかの実施形態においては、ｎ個のワードの一部を同時に表示することができ、この部分を、例えば個々の下方スクロールなどにより、ユーザがテストを進めるにつれて更新することができる。いくつかの実施形態においては、ｎ個のワードのすべてが同時に表示される。そのような実施形態は、例えば、連続するワードの表示の遅延、新たなワードの表示またはワードのセットの最初からの再開のためのユーザによる下方または上方スクロールにおける遅延、などの外部パラメータの影響を、好都合に低減することができる。

任意の態様のいくつかの実施形態において、音声記録を取得することは、記録の雑音レベルおよび／または信号対雑音比を決定することによって音声記録の品質を評価することを含む。記録内の信号（または、雑音）を、信号（または、雑音）に対応すると想定される相対エネルギー値に基づいて（例えば、平均をとることによって）推定することとができる。信号に対応すると想定される相対エネルギー値は、例えば、記録において観察された上位ｘ（ここで、ｘは、例えば１０％であってよい）の相対エネルギー値であってよい。同様に、背景雑音に対応すると想定される相対エネルギー値は、例えば、記録において観察された下位ｘ（ここで、ｘは、例えば１０％であってよい）の相対エネルギー値であってよい。好都合には、相対エネルギーが使用される場合、デシベル単位での信号および／または雑音の値を、１０^＊ｌｏｇ１０（ｒｅｌＥ）として求めることができ、ｒｅｌＥは、記録において観察される相対エネルギー値の上位１０％または下位１０％の平均相対エネルギー値などの相対エネルギー値である。以下でさらに説明されるように、相対エネルギー値を、観察されたパワー（エネルギーとも呼ばれる）値を記録において観察された最高値に対して正規化することによって得てもよい。これにより、観察された最高エネルギーは０ｄＢという相対エネルギーを有する。そのような実施形態において、信号対雑音比は、上記で説明したとおりの雑音（例えば、記録において観察されたｒｅｌＥの上位ｘ％の平均ｒｅｌＥ）に対する上記で説明したように推定される信号（例えば、記録において観察されたｒｅｌＥの上位ｘ％の平均ｒｅｌＥ）の比として決定され得る。これを、この比のｌｏｇ_１０を求め、結果に１０を掛けることによって、ｄＢ単位の値として提供することができる。いくつかのそのような実施形態において、本方法は、雑音レベルが所定のしきい値を下回る場合、および／または信号レベルが所定のしきい値を上回る場合、および／または信号対雑音比が所定のしきい値を上回る場合に、音声記録を分析することを含むことができる。雑音レベルに好適なしきい値は、－７０ｄＢ、－６０ｄＢ、－５０ｄＢ、または－４０ｄＢ（好ましくは、約－５０ｄＢ）として選択され得る。信号対雑音比に好適なしきい値は、２５ｄＢ、３０ｄＢ、３５ｄＢ、または４０ｄＢ（好ましくは、３０ｄＢよりも上）として選択され得る。いくつかの実施形態において、音声記録を取得することは、以前に取得された音声記録オーディオファイルに１つ以上の前処理手順を適用することを含む。本発明の文脈において、「前処理手順」は、本発明による分析（すなわち、個々のワードセグメントの識別）に先立って音声記録データに適用される任意のステップを指す。いくつかの実施形態において、音声記録を取得することは、以前に取得された音声記録オーディオファイルのサイズを小さくするために１つ以上の前処理手順を適用することを含む。例えば、ダウンサンプリングを使用して、使用されるオーディオファイルのサイズを小さくすることができる。本発明者の発明者は、本方法の性能を損なうことなく、音声記録オーディオファイルを１６Ｈｚにダウンサンプリングできることを見出した。これは、ユーザのコンピューティングデバイスからリモートコンピューティングデバイスへの音声記録の送信が容易になるため、分析がリモートコンピューティングデバイスで実行され、記録がユーザのコンピューティングデバイスにおいて取得される場合に、とくに好都合であり得る。

ステップ２２０において、個々のワードまたは音節に対応する音声記録の複数のセグメントが識別される。ステップ２２０は、図３（ステップ３２０）に関連して以下で説明されるように実行されてよい。

ステップ２３０～２７０において、音声記録における正解ワードレート（単位時間当たりの正しく読み上げられたワード数）が決定される。

とくに、ステップ２３０において、ステップ２２０において識別されたセグメントの各々について、１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）が計算される。結果として、値の複数のベクトルが得られ、各ベクトルは一セグメントに関する。図２に示される実施形態において、記録内のセグメントにまたがってＭＦＣＣを正規化する随意によるステップ２３２と、複数のベクトルの各々を共通のサイズに圧縮する随意によるステップ２３４とが示されている。とくには、ｉ個のＭＦＣＣ（例えば、１２個のＭＦＣＣ：ＭＦＣＣ２～１３）のセットが、セグメントの各フレームについて計算され、ｊ個の値（例えば、１２個の値）のセットが、セグメント内のフレームにまたがってｉ個のＭＦＣＣの各々によって形成された信号を圧縮することによってセグメントについて取得され、セグメントについてｉｘｊ個（例えば、１４４個の値）の値のベクトルが得られる。

ステップ２４０において、値の複数のベクトルは、（例えば、ｋ平均法を使用して）ｎ個のクラスタにクラスタ化され、ここで、ｎは、ワード読み上げテストにおける異なるワードの予想される数である。特定のラベル（すなわち、ワードアイデンティティ）が各々のクラスタに関連付けられるのではない。代わりに、同じワード（１音節のワードの場合）または同じワードの同じ音節（２音節のワードの場合）に対応するセグメントが、一緒のクラスタになるＭＦＣＣによって取り込まれると仮定される。２音節のワードの場合、ワード内の音節のうちの１つがクラスタ化において支配的であってよく、同じ支配的な音節に対応するセグメントが、一緒のクラスタになるＭＦＣＣによって取り込まれると仮定される。非支配的な音節は、クラスタ化において雑音として効果的に作用し得る。これらの仮定に従って、各クラスタは、主にｎ個のワードのうちの１つを含むセグメントに対応する値をグループ化すべきであり、これらのクラスタに関するｎ個のラベルのｎ！個の可能な順列のうちの１つが、（未知の）真のラベルに対応する。

ステップ２５０において、音声記録内のワードのシーケンスが、ｎ個のラベルのｎ！個の可能な順列の各々について予測される。例えば、ｎ個のラベルの可能な割り当てに関して、クラスタが、識別されたセグメントについて予測され、対応するラベルが、識別されたセグメントに取り込まれたワードとして予測される。いくつかの識別されたセグメントは、例えば、セグメントのＭＦＣＣが充分に高い信頼性で特定のクラスタに属すると予測されないため、クラスタに関連付けられない場合がある。そのような場合、このセグメントについて、ワードは予測され得ない。これは、例えば、音節／ワードの誤った検出に対応するセグメント、または多音節のワードの非強調の音節に対応するセグメントの場合であり得る。

ステップ２６０において、予測されたワードのシーケンスの各々とワード読み上げテストで使用されたワードのシーケンスとの間で、シーケンスアラインメントが（例えば、スミス－ウォーターマンアルゴリズムを使用して）実行される。ワード読み上げテストで使用されるワードのシーケンスは、メモリから取り出されても、あるいは本方法の各ステップを実施するプロセッサによって（例えば、音声記録と共に）受信されてもよい。

ステップ２７０において、最良のアラインメントをもたらすラベル（例えば、最高のアラインメントスコアをもたらすラベル）が選択され、クラスタの真のラベルであると仮定される。アラインメントにおける一致は、音声記録において正しく読み上げられたワードに対応すると仮定され、正解ワードレートを計算するために使用することができる。正解ワードレートを、例えば、正しく読み上げられたワード（一致）の総数を、記録の総時間で除算することによって求めることができる。あるいは、正解ワードレートを、それぞれの時間ウィンドウ内の複数の局所平均を計算し、次いで、結果として得られる複数の正解ワードレート推定値を考慮するか、あるいは複数の正解ワード推定値の要約のメトリック（例えば、平均、中央値、最頻値）を求めかのいずれかによって取得することができる。好ましくは、正解ワードレートは、時間の関数としての読み上げられた正解ワードの累積数にフィッティングさせた線形モデルの勾配として推定され得る。そのようなカウントは、正しく読み上げられたワードに対応すると識別されたあらゆるセグメントの開始に対応する時刻において１単位ずつ増やされてよい。さらに他の実施形態において、音声記録に関する正解ワードレートを決定することは、記録を複数の等しい時間ビンに分割し、各々の時間ビン内の正しく読み上げられたワードの総数を計算し、時間ビンにまたがって正解ワードレートの要約された尺度を計算することを含む。例えば、時間ビンにまたがる正解ワードレートの平均、トリム平均、または中央値を、正解ワードレートの要約された尺度として使用することができる。中央値またはトリム平均を使用すると、例えばいかなるワードも含まないビンなどの外れ値の影響を、好都合に低減することができる。

複数の音声記録が取得される場合、これらを別々に分析しても、少なくとも部分的に一緒に分析してもよい。いくつかの実施形態においては、同じ被験者に関して複数の音声記録が取得され、少なくともステップ２２０および２３０が、音声記録ごとに個別に実行される。いくつかの実施形態においては、同じ被験者に関して複数の音声記録が取得され、少なくともステップ２４０が、複数の記録のうちの複数の記録からの値を使用して一緒に実行される。いくつかの実施形態において、ステップ２５０～２７０は、複数の記録のうちの１つ以上（すべてなど）からの値を使用して実行されるクラスタ化ステップ２４０の結果を使用して、記録ごとに個別に実行される。

図３が、ワード読み上げテストから音声ピッチ、呼吸％、および／または無声／有声比率を決定することによって被験者の生理学的および／または病理学的状態を評価する方法を示すフローチャートを示すフローチャートである。本方法は、被験者からワード読み上げテストからの音声記録を取得するステップ３１０を含む。音声記録は、ｎ個のワードの（閉じた）セットから取り出されたワードのシーケンスを読み上げることを含むワード読み上げテストからの音声記録であってよい。とくには、ワードは、好ましくは、いかなる特定の論理的つながりも有さない。

ステップ３２０において、個々のワードまたは音節に対応する音声記録の複数のセグメントが識別される。このような場合には、各々のセグメントを単一のワードに対応すると仮定することができ、したがってセグメントのタイミングをスピーチレートに直接関連付けることができるため、読み上げテストで使用されるワードが１音節であることが、とくに好都合である。２音節のワード（または、他の多音節のワード）が使用される場合、すべてのワードが同じ数の音節を有することが、スピーチレートの計算および／または解釈を単純化できるため、好都合であり得る。

ステップ３３０において、音声記録に関連する呼吸％および／または無声／有声比率および／または音声ピッチが、音声記録において識別されたセグメントを少なくとも部分的に使用して決定される。

呼吸パーセンテージは、有声セグメントを含む記録中の時間割合を反映する。これを、ステップ３２０で識別されたセグメント同士の間の時間と、記録内の総時間、またはステップ３２０で識別されたセグメント内の時間とステップ３２０で識別されたセグメント同士の間の時間との合計、との間の比率として計算することができる。無声／有声比率は、被験者が呼吸しており、あるいは呼吸していると想定される記録内の時間を、被験者が発声を生じている記録内の時間に対して表す。無声／有声比率を、（ｉ）ステップ３２０で識別されたセグメント同士の間の時間と、（ｉｉ）ステップ３２０で識別されたセグメント内の時間との比率として決定することができる。

音声記録またはそのセグメントに関する音声ピッチは、記録内の音信号の基本周波数の推定値を指す。したがって、音声ピッチを、本明細書においてＦ０またはｆ０と称することもでき、「ｆ」は周波数を指し、「０」というインデックスは、推定される周波数が基本周波数であると想定されることを示す。信号の基本周波数は、信号の基本周期の逆数であり、信号の基本周期は、信号の最小反復間隔である。信号のピッチ（または、その基本周波数）を推定するために、さまざまな計算方法が利用可能であり、そのような方法のすべてを本明細書において使用することができる。多数の計算によるピッチ推定方法は、信号を時間ウィンドウに分割し、次いで、各々のウィンドウについて、（ｉ）（例えば、短時間フーリエ変換を使用して）信号のスペクトルを推定し、（ｉｉ）（例えば、スペクトルにおいて積分変換を計算することによって）所定の範囲内の各々のピッチ候補についてスコアを計算し、（ｉｉ）スコアが最も高い候補を推定ピッチとして選択することによって、信号のピッチを推定する。そのような方法は、複数のピッチ推定値（時間ウィンドウごとに１つ）をもたらすことができる。したがって、信号のピッチ推定値は、ウィンドウにまたがる要約された推定値（例えば、ウィンドウにまたがる平均値、最頻値、または中央値のピッチ）および／または範囲として提供され得る。より最近では、深層学習に基づく方法が提案されており、そのうちのいくつかは、信号のピッチ推定値を決定する（すなわち、出力として、信号内の複数のウィンドウの各々についてではなく、信号についての予測ピッチを提供する）。音声ピッチを決定することは、ステップ３２０で識別された各々のセグメントについて、音声ピッチ推定値または音声ピッチ推定範囲を取得することを含むことができる。セグメントの音声ピッチは、セグメントの複数の音声ピッチ推定値の平均値、中央値、または最頻値など、セグメントにまたがる音声ピッチの要約された推定値であってよい。セグメントの音声ピッチ範囲は、セグメントの複数の音声ピッチ推定値のうちの所定の割合が包含されると予想される音声ピッチ範囲であってよい。例えば、セグメントの音声ピッチ範囲は、セグメントの複数の音声ピッチ推定値からの最低ピッチ推定値と最高ピッチ推定値との間の区間であってよい。あるいは、セグメントの音声ピッチ範囲は、セグメントの複数の音声ピッチ推定値のうちのｘパーセンタイルとｙパーセンタイルとの間の区間であってよい。別の代替案として、セグメントの音声ピッチ範囲は、セグメントの複数の音声ピッチ推定値のうちの平均音声ピッチの周りの信頼区間に対応する区間であってよい。そのような信頼区間を、平均値を中心とした範囲を適用することによって得ることができ、範囲は、平均を中心とした推定標準偏差の単位で表される（例えば、平均±ｎＳＤ（式中、ＳＤは標準偏差であり、ｎは任意の所定の値であってよい））。音声ピッチを決定することは、ステップ３２０で識別され、音声ピッチ推定値または音声ピッチの推定範囲が取得されたセグメントにまたがる要約された音声ピッチ推定値または要約された音声ピッチの推定範囲を取得することを含むことができる。複数のセグメントにまたがる要約された音声ピッチ推定値を、それぞれのセグメントについての複数の音声ピッチ推定値の平均値、中央値、または最頻値として取得することができる。セグメントまたがる要約された音声ピッチの推定範囲を、それぞれのセグメントについての推定音声ピッチ（セグメントごとに１つの例えば要約された音声ピッチ推定値を含んでも、あるいは複数の音声ピッチ推定値を含んでもよい）を使用して、上記で説明したように取得することができる。

セグメントの音声ピッチ（または、複数の音声ピッチ）を、当技術分野で知られている任意の方法を使用して推定することができる。とくに、セグメントの音声ピッチを、ＣａｍａｃｈｏａｎｄＨａｒｒｉｓ（２００８年）に記載のＳＷＩＰＥまたはＳＷＩＰＥ’法を使用して推定することができる。好ましくは、セグメントの音声ピッチ推定値は、セグメントにＳＷＩＰＥ’を適用することによって取得される。この方法は、計算の精度と速度との間の良好なバランスを得ることが明らかになっている。ＳＷＩＰＥと比較して、ＳＷＩＰＥ’は、信号の第１および主高調波のみを使用することにより、低調波誤差を低減する。あるいは、ピッチ推定を、Ｋｉｍら（２０１８年）に記載されているＣＲＥＰＥ法などの深層学習手法を使用して実行することができる。この方法は、ＳＷＩＰＥまたはＳＷＩＰＥ’などの方法と比較して、計算負荷が増加するが、ロバストなピッチ推定値をもたらすことが明らかになっている。例えば、（ＭａｕｃｈａｎｄＤｉｘｏｎ（２０１４年）に記載されているような）ＰＹＩＮまたはＡｒｄａｉｌｌｏｎａｎｄＲｏｅｂｅｌ（２０１９年）に記載されている方法など、代替の方法も使用することができる。ピッチ推定は、典型的には、時間ウィンドウ（上述のように、「フレーム」とも呼ばれる）からの信号を使用して適用される。したがって、セグメントのピッチ推定は、各々が１フレームに対応する複数の推定値を生成し得る。適切には、複数のピッチ推定値（例えば、セグメント内の複数のフレームに対応する）は、例えばメジアンフィルタを適用することによって、推定誤差を低減するようにさらに処理されてよい。本発明の発明者は、５０ｍｓのウィンドウを使用して適用されるメジアンフィルタがとくに好適であることを発見した。セグメントのそのようなフィルタ処理された推定値の平均を、セグメントのピッチ推定値として使用することができる。

次に、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別するために使用される方法を説明する。当技術分野に他の方法も存在し、そのような他の方法も他の実施形態において使用することができる。図３に示される実施形態において、ステップ３２２で、音声記録のパワーメルスペクトログラムが取得される。これは、典型的には、音声記録に沿ってフレームを定義し（フレームは、時間軸に沿って適用される固定幅のスライディングウィンドウ内の信号に対応することができる）、各々のフレームのメルスケールでのパワースペクトルを（典型的には、各々のフレームのスペクトログラムを取得し、次いで人間の聴力範囲に対応すると仮定される周波数の範囲に沿って重複する三角フィルタを使用してスペクトログラムをメルスケールにマッピングすることによって）計算することによって達成される。このプロセスは、時間ビン（時間ビンは、スライディングウィンドウの位置のうちの１つに対応する）ごとのメル単位当たりのパワーの値の行列をもたらす。したがって、任意の態様のいくつかの実施形態において、音声記録のパワーメルスペクトログラムを取得することは、スライディングウィンドウ（好ましくは、１５ｍｓのサイズおよび１０ｍｓのステップサイズを有する）および２５．５Ｈｚ～８ｋＨｚの範囲にわたる１３８個の三角フィルタを適用することを含む。理論に縛られることを望むものではないが、比較的狭い時間ウィンドウ（例えば２５ｍｓ以上とは対照的に、例えば１０～１５ｍｓ）を使用することは、個々のワードまたは音節に対応するセグメントの識別という文脈において、とくにはワードまたは音節の開始に対応するセグメント境界を識別する目的で、有用であり得ると考えられる。これは、比較的狭い時間ウィンドウを使用すると、検出の感度が向上する可能性がある一方で、より広い時間ウィンドウを使用すると、情報に富む可能性がある小さな信号が平滑化され得るからである。

当業者であれば理解できるとおり、周波数スペクトログラム（Ｈｚスケール）に適用される重なり合う三角フィルタ（典型的には、１３８個）は、メルスケールのスペクトログラムを取得するために一般的に使用されている。さらに、２５．５Ｈｚ～８ｋＨｚの範囲に及ぶことは、これが人間の聴力範囲を適切に捕捉するため好都合であることが分かっている。

任意選択的に、パワーメルスペクトログラムは、例えば各々のフレームの値を記録において観察された最高エネルギー値で除算することによって正規化されてもよい（３２３）。ステップ３２４において、周波数軸に沿ったメルスペクトログラムの最大強度投影が取得される。セグメント境界が、周波数軸に沿ったメルスペクトログラムの最大強度投影がしきい値と交わる時点として識別される（３２６）。とくには、２つの連続する境界のセットであって、メルスペクトログラムの最大強度投影が第１の境界においてより低い値からより高い値へとしきい値と交わり、メルスペクトログラムの最大強度投影が第２の境界においてより高い値からより低い値へとしきい値と交わるような２つの連続する境界のセットが、単一のワードまたは音節に対応するセグメントを定めると見なされてよい。ステップ３２６で使用されるしきい値は、任意選択的に、ステップ３２５において動的に決定されてよい（「動的に決定される」という用語は、特定の音声記録に関するしきい値が、その特定の記録とは無関係に予め決定されるのではなく、その特定の音声記録の特徴に応じて決定されることを指す）。

したがって、いくつかの実施形態において、しきい値は、各々の記録について動的に決定される。好ましくは、しきい値は、記録について最大強度投影値の関数として決定される。例えば、しきい値は、信号に対応すると想定される相対エネルギー値と背景雑音に対応すると想定される相対エネルギー値との加重平均として決定されてよい。信号に対応すると想定される相対エネルギー値は、例えば、記録において観察された上位ｘ（ここで、ｘは、例えば１０％であってよい）の相対エネルギー値であってよい。同様に、背景雑音に対応すると想定される相対エネルギー値は、例えば、記録において観察された下位ｘ（ここで、ｘは、例えば１０％であってよい）の相対エネルギー値であってよい。フレームにまたがる上位１０％の相対エネルギー値の平均値およびフレームにまたがる下位１０％の相対エネルギー値の平均値の使用が、とくに便利であり得る。あるいは、信号（すなわち、音声信号）に対応すると想定される相対エネルギーの所定値を用いてもよい。例えば、約－１０ｄＢという値が、本発明の発明者によって一般的に観察されており、有用に選択することができる。同様に、背景雑音に対応すると想定される相対エネルギーの所定値を用いてもよい。例えば、約－６０ｄＢという値が、本発明の発明者によって一般的に観察されており、有用に選択することができる。

しきい値が、信号に対応すると想定される相対エネルギー値と背景雑音に対応すると想定される相対エネルギー値との加重平均として決定される場合、後者の重みは、０．５～０．９の間で選択されてよく、前者の重みは、０．５～０．１の間で選択されてよい。いくつかの実施形態において、背景雑音の寄与についての重みは、信号の寄与についての重みよりも大きくてよい。これは、音声記録が１つ以上の雑音キャンセリング工程を実行することによって前処理されている場合に、とくに好都合であり得る。実際、そのような場合に、信号の底部（低い相対エネルギー）が、雑音キャンセリングに関して前処理されていない信号について予想されるよりも多くの情報を含む可能性がある。モバイルデバイスを含む多くの最新のコンピューティングデバイスは、このやり方で或る程度前処理された音声記録を生成することができる。したがって、相対エネルギー値の下端を或る程度強調することが有用であり得る。信号および背景雑音の寄与に関してそれぞれ約０．２および約０．８の重みが好都合であり得る。さらに、好都合なしきい値は、試行錯誤および／または訓練データを使用した正式な訓練によって決定されてよい。理論に縛られることを望むものではないが、動的に決定されるしきい値の使用は、音声記録が基準トーンを含む場合、および／または信号対雑音比が良好である（例えば、３０ｄＢなどの所定のしきい値を上回る）場合に、とくに好都合であり得ると考えられる。反対に、予め決定されるしきい値の使用は、音声記録が基準トーンを含まず、さらには／あるいは信号対雑音比が悪い場合に、とくに好都合であり得る。

他の実施形態において、しきい値は予め決定される。いくつかの実施形態において、予め決定されるしきい値は、例えば－６０ｄＢ、－５５ｄＢ、－５０ｄＢ、－４５ｄＢ、または－４０ｄＢなど、－６０ｄＢ～－４０ｄＢの間で選択される。好ましくは、予め決定されるしきい値は約－５０ｄＢである。本発明の発明者は、このしきい値が、良質の音声記録、とくには１つ以上の雑音キャンセル工程を使用して前処理された音声記録において、ワード／音節の境界の識別の感度と特異性との間の良好なバランスを得ることを見出した。

任意選択的に、セグメントを、ステップ３２６で識別された別個のセグメントを分析し、さらなる（内部）境界を見つけることができるかどうかを判断することによって、「洗練」させてもよい。したがって、個々のワードまたは音節に対応する音声記録のセグメントを識別することは、セグメントの各々についてオンセット検出を実行することと、セグメント内でオンセットが検出されるたびに、さらなる境界を定めることによって、２つの新たなセグメントを形成することとをさらに含むことができる。

これは、セグメントのメルスペクトログラムについてスペクトル流束関数を計算することによってセグメントのうちの少なくとも１つについてオンセット検出を実行し（３２７）、セグメント内でオンセットが検出されるたびにさらなる（内部）境界を定義することによって２つの新たなセグメントを形成すること（３２８）によって実行され得る。スペクトル流束関数を用いたオンセット検出は、ビート検出のために、音楽記録の分析に一般的に使用されている。当業者であれば理解できるとおり、スペクトル流束関数を用いたオンセット検出は、エネルギー信号の導関数を調べる方法である。換言すると、スペクトル流束関数は、信号のパワースペクトルがどれだけ速く変化しているかを測定する。したがって、セグメント内の新たなワードまたは音節の始まりに対応し得る信号における「谷」（エネルギー信号の突然の変化）を識別するためにとくに有用であり得る。これは、必要に応じてセグメント化を好都合に「洗練」させることができる。この手法は、「粗い」セグメントをもたらす感度があまり高くない手法を使用してワード／音節の境界がすでに識別されている場合の「洗練ステップ」として、とくに有用であり得る。これは、少なくとも部分的には、この手法を、セグメントにとって適切なパラメータ（例えば、オンセット検出のためのしきい値）を用いて、セグメントに独立して適用することができるためである。

オンセット検出の実行（３２７）は、スペクトル流束関数またはオンセット強度関数を計算し（３２７ａ）、セグメントのオンセット強度関数を０～１の間の値に正規化し（３２７ｂ）、（正規化された）オンセット強度関数を平滑化し（３２７ｃ）、スペクトル流束関数またはそこから導出された関数にしきい値を適用する（３２７ｄ）ことを含むことができ、関数がしきい値を超えて増加する場合にオンセットが検出される。したがって、オンセット検出の実行は、スペクトル流束関数またはそこから導出された関数にしきい値を適用することを含むことができ、関数がしきい値を超えて増加する場合にオンセットが検出される。いくつかの実施形態において、オンセット検出の実行は、セグメントのオンセット強度関数を０～１の値に正規化し、正規化されたオンセット強度がしきい値を超える場合にセグメントをサブセグメントに分離することを含む。０．２～０．３の間など、０．１～０．４の間のしきい値が、正規化されたオンセット強度関数に適用された場合に、とくに低い偽陽性率をもたらし得る。適切なしきい値を、本方法が訓練データに適用されたときに偽陽性検出率を最小化するしきい値として定めることができる。

いくつかの実施形態において、オンセット検出の実行は、ＢｏｅｃｋＳａｎｄＷｉｄｍｅｒＧ（２０１３年）に記載のスーパーフラックス法を使用して、パワーメルスペクトログラムから経時的なオンセット強度を計算する（スペクトル流束関数に基づくが、共通のスペクトル流束計算方法へのスペクトル軌跡追跡段階を含む）ことを含む。いくつかの実施形態において、オンセット検出の実行は、ＬｉｂＲＯＳＡライブラリ（ｈｔｔｐｓ：／／ｌｉｂｒｏｓａ．ｇｉｔｈｕｂ．ｉｏ／ｌｉｂｒｏｓａ／、関数ｌｉｂｒｏｓａ．ｏｎｓｅｔ．ｏｎｓｅｔ＿ｓｔｒｅｎｇｔｈを参照；ＭｃＦｅｅら（２０１５年））に実装されているようなスーパーフラックス法を使用して、パワーメルスペクトログラムから経時的なオンセット強度関数を計算することを含む。好ましくは、オンセット検出の実行は、セグメントのオンセット強度関数を０～１の間の値に正規化することをさらに含む。これは、例えば、オンセット強度関数の各々の値をセグメント内の最大オンセット強度で除算することによって達成することができる。オンセット強度関数の正規化は、偽陽性検出数の減少をもたらし得る。

いくつかの実施形態において、オンセット検出の実行は、セグメントの（任意選択的に、正規化された）オンセット強度関数を平滑化することをさらに含む。例えば、平滑化を、固定のウィンドウサイズで移動平均を計算することによって得ることができる。例えば、例えば１１ｍｓなど、１０～１５ｍｓのウィンドウサイズが有用であり得る。平滑化は、検出される偽陽性の割合をさらに減少させることができる。

随意による誤検出除去ステップ３２９が、図３に示されている。正しく読み上げられたワードを識別する本明細書に記載のプロセスは、好都合なことに、誤って検出されたセグメントの存在に対して少なくとも或る程度は耐性がある。これは、少なくとも部分的には、アラインメントステップが、本方法の全体的な精度に大きな影響を与えることがない誤検出のためのギャップを含むことができるためである。したがって、いくつかの実施形態においては、誤検出除去ステップを省略してもよい。図３に示される実施形態において、誤検出除去ステップは、セグメントについて１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）（好ましくは、最初の３つのＭＦＣＣ（雑音と真の発話とを区別する特徴を捉えると予想されるため））を計算して、各ベクトルが１セグメントに関係している値の複数のベクトルを取得すること（３２９ａ）と、値のベクトルが値の残りのベクトルから所定の距離を上回るすべてのセグメントを除外すること（３２９ｂ）とを含む。この手法は、大部分のセグメントが正しい検出（すなわち、真の発話に対応する）であり、真の発話を含まないセグメントは、正しい検出とは異なるＭＦＣＣ特徴を有すると仮定する。他の外れ値検出方法を適用して、誤検出に関連すると想定される値の複数のベクトルのうちの一部を除外してもよい。

いくつかの実施形態において、個々のワード／音節に対応する音声記録のセグメントを識別することは、所定のしきい値よりも短いセグメントおよび／または平均相対エネルギーが所定のしきい値を下回るセグメントを除去することによって、誤検出を表すセグメントを除外することをさらに含む。例えば、１００ｍｓよりも短いセグメントが、好都合に除外され得る。同様に、平均相対エネルギーが－４０ｄＢ未満のセグメントが、好都合に除外され得る。そのような手法は、ワードまたは音節に対応しないセグメントを簡単かつ効率的に除外することができる。好ましくは、セグメントは、上述のようなセグメントのＭＦＣＣの計算および外れ値検出方法の適用に先立って、短いセグメントおよび／または低エネルギーのセグメントを除外するようにフィルタ処理される。実際、これは、好都合なことに、誤ったセグメントについてＭＦＣＣを計算するという不必要な工程を回避し、そのような誤ったセグメントが外れ値検出方法にさらなる雑音を持ち込むことを防止する。

セグメントの１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）を計算することは、典型的には、音声記録のセグメントに沿ってフレームを定めることを含む（ここで、フレームは、時間軸に沿って適用される固定幅のウィンドウ内の信号に対応することができる）。ウィンドウは、典型的には、スライディングウィンドウ、すなわち定められたステップ長（例えば３～１０ｍｓ、１０ｍｓなど）で時間軸に沿って移動する所定の長さ（例えば１０～２５ｍｓ、２５ｍｓなど）のウィンドウであり、部分的に重なり合うフレームをもたらす。１つ以上のＭＦＣＣを計算することは、典型的には、各々のフレームについて、フレーム内の信号のフーリエ変換（ＦＴ）を計算することと、このようにして得られたスペクトルのパワーを（例えば、三角形の重なり合うフィルタを使用して）メルスケールにマッピングすることと、メル周波数の各々におけるパワーの対数を求めることと、このようにして得られた信号の離散コサイン変換を実行する（すなわち、スペクトルのスペクトルを得る）こととをさらに含む。結果として得られるスペクトルの振幅は、フレームのＭＦＣＣを表す。上述のように、１３８個のメル値のセットが、一般に、パワーメルスペクトルについて得られる（すなわち、周波数範囲が、１３８個の重なり合う三角フィルタを使用して１３８個のメルスケール値に一般的にマッピングされる）。しかしながら、ＭＦＣＣを計算するプロセスを通じて、この情報は、値（ＭＦＣＣ）のより小さいセットに圧縮され、典型的には１３個の値に圧縮される。多くの場合、１３８個のメル値の多数に含まれる情報は、この信号の圧縮が情報に富んだ信号の有害な損失をもたらさないように相関付けられる。

とくに、セグメントの１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）の計算を、Ｒｕｓｚら（２０１５年）に記載されているように実行することができる。セグメントの１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）の計算を、ＬｉｂＲＯＳＡライブラリ（ｈｔｔｐｓ：／／ｌｉｂｒｏｓａ．ｇｉｔｈｕｂ．ｉｏ／ｌｉｂｒｏｓａ／；ＭｃＦｅｅら（２０１５年）；ｌｉｂｒｏｓａ．ｆｅａｔｕｒｅ．ｍｆｃｃを参照）に実装されているように実行することができる。あるいは、セグメントの１つ以上のＭＦＣＣの計算を、ライブラリ「ｐｙｔｈｏｎ＿ｓｐｅｅｃｈ＿ｆｅａｔｕｒｅｓ」（ＪａｍｅｓＬｙｏｎｓら、２０２０年）に実装されているように実行することができる。

いくつかの実施形態において、セグメントの１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）の計算は、セグメントの各フレームの少なくとも最初の３つのＭＦＣＣ（任意選択的に、１３個すべてのＭＦＣＣ）を計算することと、セグメント内のフレームにわたって各々のＭＦＣＣについて要約された尺度を計算することにより、セグメントの少なくとも３つの値（使用されるＭＦＣＣ毎に１つずつ）のベクトルを取得することとを含む。外れ値検出方法に使用される少なくとも３つのＭＦＣＣの数および／またはアイデンティティを、訓練データおよび／または内部制御データを使用して決定することができる。例えば、少なくとも３つのＭＦＣＣは、訓練データ内の誤り検出の或るパーセンテージ（例えば、少なくとも９０％、または少なくとも９５％）を除去するのに充分なＭＦＣＣの最小セットとして選択され得る。別の例として、少なくとも３つのＭＦＣＣは、内部制御（例えば、以下でさらに説明されるような基準トーンなど）に対応するセグメントを除去するのに充分なＭＦＣＣの最小セットとして選択され得る。好ましくは、最初の３つのＭＦＣＣのみが外れ値検出方法に使用される。これは、外れ値検出プロセスを混乱させる可能性がある点の別々の分布を形成する異なるワードをもたらす可能性がある情報を導入することなく、真のワード／音節を誤った検出（例えば、呼吸、非スピーチ音）から分離することを可能にする情報を好都合に捕捉する。

いくつかの実施形態において、値の複数のベクトルに外れ値検出方法を適用することは、値のベクトルが値の残りのベクトルから所定の距離を上回るすべてのセグメントを除外することを含む。値の特定のベクトルと値の残りのベクトルとの間の距離は、マハラノビス距離を使用して定量化され得る。マハラノビス距離は、点と分布との間の距離の便利な尺度である。単位がなく、スケール不変性であり、データの相関を考慮に入れるという利点を有する。あるいは、値の特定のベクトルと値の残りのベクトルとの間の距離を、値の特定のベクトルと値の残りのベクトルの代表値（例えば、平均またはメドイド）との間の距離（例えば、ユークリッド距離、マンハッタン距離）を使用して定量化することができる。値は、任意選択的に、外れ値検出を適用する前に、例えば各々の座標に沿って単位分散を有するようにスケーリングされてもよい。所定の距離は、値の複数のベクトルにおける観察された変動に応じて選択されてよい。例えば、所定の距離は、標準偏差などのデータの変動性の尺度の倍数、または選択された分位点の値であってよい。そのような実施形態において、所定の距離は、誤った検出の予想される割合に応じて選択されてよい。値の複数のベクトルの平均を中心とする標準偏差の１～３倍のしきい値が選択されてよく、外れ値の正確な除去を可能にすることができる。とくに、予想される誤検出の割合が約５％である場合、標準偏差の２倍のしきい値が好都合であることが明らかになった。

誤検出除去に対するほぼ同様の手法が、Ｒｕｓｚら（２０１５年）に記載されている。しかしながら、この文献に記載された手法は、本開示の手法よりも著しく複雑である。とくには、反復プロセスに依存しており、各々の反復において、相互距離の分布について分位点に基づくしきい値を使用してインライアおよび外れ値が識別され、次いで、先に定義されたように、インライアと外れ値との間の距離の分布について分位点に基づくしきい値を使用して、外れ値が除外される。本明細書に記載のとおりのより単純な手法は、本発明の文脈において好都合であり得る。理論に束縛されることを望むものではないが、本明細書に記載の誤検出除去への手法は、誤検出の割合が低いため、本文脈においてとくに好都合であると考えられる。これは、部分的には、きわめて高い精度を有する本明細書に記載のセグメント検出手法に起因し得る。理論に縛られることを望むものではないが、Ｒｕｓｚら（２０１５年）において用いられる音節セグメント化への手法（これは、長さが１０ｍｓでステップが３ｍｓのスライディングウィンドウ内の１２個のＭＦＣＣに信号をパラメータ化し、最初の３個のＭＦＣＣを使用して記述することができる低周波数スペクトル包絡線を探索し、次いで、各々の包絡線内の３個のＭＦＣＣの各々の平均を計算し、これらの点をｋ平均法を使用して音節および合間に分離することに依存する）は、本明細書に記載の方法のようには正確ではない可能性がある。これは、少なくとも部分的には、合間とワードとの間のコントラストを識別するように設計されており、ワードはすべて同一であるためであり、部分的には、Ｒｕｓｚら（２０１５年）の手法は、真の陽性セグメントの識別プロセスの全体的な精度を高めるために反復の外れ値検出プロセスに大きく依存しているためである。実際、Ｒｕｓｚら（２０１５年）の手法は、患者が快適なペースで同じ音節を繰り返すように求められる音声記録を用いた音節検出を取り扱うためにとくに開発されている。したがって、データは、均質なコンテンツの２つの予想されるカテゴリのセグメント（合間および音節）のみからなる。このような場合、セグメント識別のために最初の３つのＭＦＣＣを複雑な反復誤差検出プロセスと組み合わせて使用して、良好な精度を達成し得る。しかしながら、これは、ワード読み上げテストからの音声記録の分析の文脈においては、少なくとも２つ以上のタイプの音節が予想されるため、精度がより低くなる可能性がある。

ステップ３２０で識別されたセグメントを、図２（ステップ２３０～２７０）に関連して説明したようなワード読み上げテストにおいて、正しく読み上げられたワード、したがって正解ワードレートを判断するために使用することができる。

本発明の発明者は、図２および図３に関連して説明したように決定される呼吸％、無声／有声、音声ピッチ、および正解ワードレートを、被験者の生理学的または病理学的状態を示すバイオマーカとして使用できることを特定した。とくには、本明細書に記載のように測定されたバイオマーカ、とりわけ呼吸％、無声／有声、および正解ワードレートのバイオマーカが、被験者の呼吸困難および／または疲労のレベルのきわめて敏感なインジケータであることが明らかになった。さらに、本明細書に記載のような音声ピッチ推定値の取得の方法は、音声ピッチの変動に関連するバイオマーカあるいは任意の生理学的または病理学的状態として使用することができるきわめて信頼できる推定値をもたらすことが明らかになった。したがって、本明細書に記載の方法は、呼吸困難、疲労、および／または声ピッチ変動に関連する任意の状態、疾患、または障害の診断、監視、または治療に使用可能である。

図４が、被験者の疾患、障害、または状態に関する監視、診断、または予後予測の提供の方法を概略的に示している。疾患、障害、または状態は、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす疾患、障害、または状態である。

本方法は、被験者からワード読み上げテストからの音声記録を取得するステップ４１０を含む。図示の実施形態において、音声記録を取得することは、被験者に関連付けられたコンピューティングデバイス（例えば、コンピューティングデバイス１）に、ワードのセットを（例えば、ディスプレイ１０４上に）表示させること（３１０ａ）と、コンピューティングデバイス１に、（例えば、マイクロフォン１０５を介して）音声記録を記録させること（３１０ｂ）とを含む。任意選択的に、音声記録を取得することは、コンピューティングデバイスに、基準トーンを発出させること（３１０ｃ）をさらに含むことができる。これに代え、あるいは加えて、被験者からワード読み上げテストからの音声記録を取得するステップ３１０は、被験者に関連付けられたコンピューティングデバイス（例えば、コンピューティングデバイス１）から音声記録を受信することを含むことができる。

本方法は、個々のワードまたは音節に対応する音声記録の複数のセグメントを識別するステップ４２０をさらに含む。これは、図３に関連して説明したように実行されてよい。本方法は、任意選択的に、少なくとも部分的には音声記録において識別されたセグメントの数をカウントすることによって、音声記録に関するスピーチレートを決定するステップ４３０をさらに含む。本方法は、図２（ステップ２３０～２７０）に関連して説明したように、音声記録における正解ワードレートを決定するステップ４７０をさらに含む。音声記録から導出された正解ワードレートは、被験者の認知障害、疲労、および／または息切れのレベルを示すことができる。本方法は、任意選択的に、図３（ステップ３２０および３３０）に関連して説明したように、音声記録における呼吸パーセンテージを決定すること（４３０ａ）を含む。音声記録から導出された呼吸パーセンテージは、被験者の認知障害、疲労、および／または息切れのレベルを示すことができる。本方法は、任意選択的に、図３（ステップ３２０および３３０）に関連して説明したように、音声記録における無声／有声比率を決定すること（４３０ｂ）を含む。音声記録から導出された呼吸パーセンテージは、被験者の認知障害、疲労、および／または息切れのレベルを示すことができる。本方法は、任意選択的に、図３（ステップ３２０および３３０）に関連して説明したように、音声記録における音声ピッチを決定すること（４３０ｃ）を含む。音声記録から導出された音声ピッチは、例えば呼吸困難、心不全代償不全、感染症（とくには、肺感染症）、などを抱える被験者など、被験者の生理学的および／または病理学的状態を示すことができる。本方法は、ステップ４３０および４７０で取得されたメトリックを、同じ被験者について以前に取得された１つ以上の値、または１つ以上の基準値と比較するステップ４８０をさらに含むことができる。１つ以上の基準値は、同じ被験者について以前に取得された１つ以上のメトリックの１つ以上の値を含むことができる。したがって、本明細書に記載の任意の方法は、１つ以上の連結点において、同じ被験者について本方法を繰り返す（例えば、ステップ４１０～４８０を繰り返す）ステップを含み得る。１つ以上の基準値は、１つ以上の基準集団（例えば、１つ以上の訓練コホート）から以前に取得された１つ以上のメトリックの１つ以上の値を含むことができる。

同じ被験者について以前に取得された値との比較を使用して、とくには、疾患、障害、または状態（例えば、呼吸困難および／または疲労など）の症状、ならびに／あるいは疾患、障害、または状態の進行、回復、または治療を監視するなど、疾患、障害、または状態を有すると診断された被験者における疾患、障害、または状態を監視するか、あるいは被験者を例えば呼吸困難および／または疲労などの症状を含む状態を有する可能性に関して診断することができる。あるいは、同じ被験者について以前に取得された値との比較を使用して、疾患、障害、または状態を診断することができる。１つ以上の基準値との比較を使用して、被験者を疾患、障害、または状態を有していると診断するか、あるいは、とくには疾患、障害、または状態の症状を監視するなど、疾患、障害、または状態の進行、回復、または治療を監視することができる。例えば、基準値は、疾患集団および／または健常集団に対応し得る。被験者における疾患、障害、または状態の監視を、例えば処置が有効であるかどうかを判断する目的で、処置の経過を自動的に評価するために使用することができる。

個々のワードまたは音節に対応する音声記録の複数のセグメントを識別するステップ４２０、音声記録に関する呼吸％、無声／有声比率、またはピッチを決定するステップ４３０、および音声記録における正解ワードレートを決定するステップ４７０のいずれも、ユーザコンピューティングデバイス１または分析提供者コンピュータ２によって実行されてよい。

したがって、本開示は、いくつかの実施形態において、呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を有するか、あるいは有する恐れがあると診断された被験者を監視する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法に関する。任意の態様のいくつかの実施形態において、本方法は、疾患、障害、または状態について被験者を治療することをさらに含む。

被験者は、特定の一連の処置を受けている最中でも、受けていてもよい。したがって、被験者の監視への言及は、例えば、本明細書に開示される１つ以上のバイオマーカを第１の時点およびさらなる時点において測定し、第１の時点およびさらなる時点において測定されたバイオマーカを比較することによって、被験者の１つ以上の症状が第１の時点とさらなる時点との間で改善したかどうかを判断することによって、被験者の処置を監視することを含み得る。そのような方法は、被験者の１つ以上の症状が改善していないこと、または充分には改善していないことが比較によって示される場合に、被験者の一連の処置を修正するか、あるいは被験者の一連の処置の修正を推奨することをさらに含み得る。

さらに、被験者を呼吸、声のトーン、疲労、および／または認知能力に影響を及ぼす状態を有していると診断する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も開示される。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％、無声／有声比率、および正解ワードレートから選択され、１つ以上の基準値は、その状態を有する患者および／またはその状態を有さない患者（例えば、健常者）に関連する予め定められた値である。状態を有する患者および／または状態を有さない患者に関連する予め定められた値は、１つ以上の訓練コホートを使用して以前に取得されていてもよい。いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、１つ以上の基準値は、同じ被験者から以前に得られた値である。

状態は、呼吸困難および／または疲労に関連する状態であり得る。したがって、本開示は、呼吸困難および／もしくは疲労に関連する状態を有するか、または有する恐れがあると診断された被験者を監視する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も提供する。同様に、被験者における呼吸困難および／または疲労のレベルを評価する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も、本明細書において開示される。

状態は、心不全、冠動脈心疾患、心筋梗塞（心臓発作）、心房細動、不整脈（心拍障害）、および心臓弁疾患などの心血管疾患であり得る。特定の実施形態において、状態は、心不全である。したがって、本開示は、心不全を抱える被験者を非代償性心不全を有していると識別する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も提供する。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％、無声／有声比率、および正解ワードレートから選択され、１つ以上の基準値は、非代償性心不全の患者および／または安定心不全の患者に関連する予め定められた値である。非代償性心不全の患者および／または安定心不全の患者に関連する予め定められた値は、１つ以上の訓練コホートを使用して以前に取得されていてもよい。いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、１つ以上の基準値は、同じ被験者から以前に得られた値である。

いくつかの実施形態において、本開示は、非代償性心不全の被験者を監視する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も提供する。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％、無声／有声比率、および正解ワードレートから選択され、１つ以上の基準値は、非代償性心不全の患者および／または安定心不全の患者および／または回復中の非代償性心不全の患者に関連する予め定められた値である。非代償性心不全の患者および／または安定心不全の患者および／または回復中の非代償性心不全の患者に関連する予め定められた値は、１つ以上の訓練コホートを使用して以前に取得されていてもよい。いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、１つ以上の基準値は、同じ被験者から以前に得られた値である。例えば、１つ以上の基準値は、被験者が非代償性心不全と診断されたときに得られた１つ以上の値を含み得る。

いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％を含み、予め定められた基準値または値の範囲を上回る呼吸％は、被験者が呼吸困難および／または疲労に関連する状態を有する可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する可能性が低い被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％を含み、予め定められた基準値または値の範囲を下回る呼吸％は、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％を含み、予め定められた基準値または値の範囲を下回る呼吸％は、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、ここで、被験者は、その状態を有していると診断されていて、予め定められた基準値または値の範囲は、同じ被験者から以前に得られており、例えば被験者がその状態を有すると診断されたときに得られている。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、呼吸％を含み、予め定められた基準値または値の範囲を下回る呼吸％は、被験者が処置によい反応を示している可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、呼吸％を含み、予め定められた基準値または値の範囲にあるか、あるいはそれを上回る呼吸％は、被験者が処置によい反応を示していない可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。状態は、非代償性心不全であり得る。

いくつかの実施形態において、１つ以上のバイオマーカは、無声／有声比率を含み、予め定められた基準値または値の範囲を上回る無声／有声比率は、被験者が呼吸困難および／または疲労に関連する状態を有する可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する可能性が低い被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、無声／有声比率を含み、予め定められた基準値または値の範囲を下回る無声／有声比率は、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、無声／有声比率を含み、予め定められた基準値または値の範囲を下回る無声／有声比率は、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、ここで、被験者は、その状態を有していると診断されていて、予め定められた基準値または値の範囲は、同じ被験者から以前に得られており、例えば被験者がその状態を有すると診断されたときに得られている。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、無声／有声比率を含み、予め定められた基準値または値の範囲を下回る無声／有声比率は、被験者が処置によい反応を示している可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、無声／有声比率を含み、予め定められた基準値または値の範囲にあるか、あるいはそれを上回る無声／有声比率は、被験者が処置によい反応を示していない可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。状態は、非代償性心不全であり得る。

いくつかの実施形態において、１つ以上のバイオマーカは、正解ワードレートを含み、予め定められた基準値または値の範囲を下回る正解ワードレートは、被験者が呼吸困難および／または疲労に関連する状態を有する可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する可能性が高くない被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、正解ワードレートを含み、予め定められた基準値または値の範囲を上回る正解ワードレートは、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、正解ワードレートを含み、予め定められた基準値または値の範囲を上回る正解ワードレートは、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、ここで、被験者は、その状態を有していると診断されていて、予め定められた基準値または値の範囲は、同じ被験者から以前に得られており、例えば被験者がその状態を有すると診断されたときに得られている。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、正解ワードレートを含み、予め定められた基準値または値の範囲にあるか、あるいはそれを上回る正解ワードレートは、被験者が処置によい反応を示している可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、正解ワードレートを含み、予め定められた基準値または値の範囲にあるか、あるいはそれを下回る正解ワードレートは、被験者が処置によい反応を示していない可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。状態は、非代償性心不全であり得る。

いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、予め定められた基準値または値の範囲から著しく異なる音声ピッチは、被験者が呼吸困難および／または疲労に関連する状態を有する可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する可能性が高くない被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、音声を含み、予め定められた基準値または値の範囲から著しく異なる音声は、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、予め定められた基準値または値の範囲は、その状態を有する被験者または被験者群に関係する。いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、予め定められた基準値または値の範囲から著しく異なる音声ピッチは、被験者が呼吸困難および／または疲労に関連する状態から回復中である可能性が高いことを示し、ここで、被験者は、その状態を有していると診断されていて、予め定められた基準値または値の範囲は、同じ被験者から以前に得られており、例えば被験者がその状態を有すると診断されたときに得られている。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、音声ピッチを含み、予め定められた基準値または値の範囲から著しく異なる音声ピッチは、被験者が処置によい反応を示している可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。いくつかの実施形態において、被験者は、呼吸困難および／または疲労に関連する状態を有していると診断されていて、その状態について処置を受けており、１つ以上のバイオマーカは、音声ピッチを含み、予め定められた基準値または値の範囲から著しく異なる音声ピッチは、被験者が処置によい反応を示していない可能性が高いことを示す。予め定められた基準値または値の範囲は、例えば、被験者がその状態を有すると診断された時点など、同じ被験者から以前に取得されていても、あるいはその状態を有することが知られている被験者群から以前に取得されていてもよい。好ましくは、予め定められた基準値または値の範囲は、同じ被験者から以前に得られる／得られている。

状態は、閉塞性肺疾患（例えば、喘息、慢性気管支炎、気管支拡張症、および慢性閉塞性肺疾患（ＣＯＰＤ））、慢性呼吸器疾患（ＣＲＤ）、気道感染症、および肺腫瘍などの呼吸器疾患、呼吸器感染症（例えば、ＣＯＶＩＤ－１９、肺炎、など）、肥満、呼吸困難（例えば、心不全に関連する呼吸困難、パニック発作（不安障害）、肺塞栓症、肺の物理的制限または損傷（例えば、肋骨の骨折、肺の虚脱、肺線維症、など）、肺高血圧症、または（例えば、スパイロエルゴメトリによって測定可能な）肺／心肺の機能に影響を及ぼす任意の他の疾患、障害、または状態、などであり得る。

したがって、被験者の肺または心肺機能を評価する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も、本明細書において開示される。さらに、被験者を呼吸器疾患を有すると診断する方法であって、被験者からワード読み上げテストからの音声記録を取得することと、複数の個々のワード／音節セグメントを識別することと、識別されたセグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、および正解ワードレートから選択される１つ以上のバイオマーカの値を決定することと、１つ以上のバイオマーカの値を１つ以上のそれぞれの基準値と比較することとを含む方法も、本明細書において開示される。いくつかの実施形態において、１つ以上のバイオマーカは、呼吸％、無声／有声比率、および正解ワードレートから選択され、１つ以上の基準値は、呼吸器疾患を有する患者および／または呼吸器疾患を有さない患者（例えば、健常者）に関連する予め定められた値である。予め定められた値は、１つ以上の訓練コホートを使用して以前に取得されていてもよい。いくつかの実施形態において、１つ以上のバイオマーカは、音声ピッチを含み、１つ以上の基準値は、同じ被験者から以前に得られた値である。これに代え、あるいは加えて、１つ以上のバイオマーカは、音声ピッチを含むことができ、１つ以上の基準値は、呼吸器疾患を有する患者および／または呼吸器疾患を有さない患者（例えば、健常者）に関連する値を含むことができる。呼吸器疾患は、好ましくは、呼吸困難に関連する疾患である。いくつかの実施形態において、疾患は、ＣＯＶＩＤ－１９である。

被験者の呼吸能力に影響を及ぼすあらゆる状態（例えば、不安障害などの精神疾患を含む）、被験者の疲労に影響を及ぼすあらゆる状態（例えば、うつ病および慢性疲労症候群などの精神疾患を含む）、および／または認知能力に影響を及ぼすあらゆる状態（例えば、注意欠陥障害などの精神疾患を含む）を、本発明の方法を使用して好都合に診断または監視することができる。したがって、とくには、状態は、脳卒中、神経変性疾患、ミオパシー、糖尿病性ニューロパシー、などの神経血管疾患または障害、うつ病、眠気、注意欠陥障害、慢性疲労症候群、などの精神疾患または障害、あるいは疼痛、（例えば、糖尿病などによる）異常血糖値、（例えば、慢性腎不全または腎代替療法などの状況における）腎機能障害、などの全身機序を介して個人の疲労状態または認知能力に影響を及ぼす状態、などであり得る。

実施例１：疾患症状のリモート監視のための自動化されたスマートフォンに基づくＳｔｒｏｏｐワード読み上げテストの開発
この実施例において、本発明の発明者は、自動化されたスマートフォンに基づくＳｔｒｏｏｐワード読み上げテスト（ＳＷＲ）を開発し、ハンチントン病における疾患症状のリモート監視の実現可能性をテストした。スマートフォンに基づくＳＷＲテストにおいて、色ワードを、ランダムに生成されたシーケンスに従って、画面上に黒色で表示した（１行あたり４ワードで合計６０ワードを表示）。スピーチデータを内蔵のマイクロフォンで記録し、ＷｉＦｉを介してクラウドにアップロードした。本発明の発明者は、スピーチ信号から個々のワードをセグメント化および分類するための言語非依存性の手法を開発した。最後に、表示されたワードシーケンスを予測されたワードシーケンスと比較することによって、それらは、ゲノムシーケンスアラインメントに一般的に使用されるスミス－ウォーターマンアルゴリズムを使用して、正しいワードの数を確実に推定することができた。

方法
対象および相対的臨床評価：ＨＤＯＬＥ（非盲検延長）研究（ＮＣＴ０３３４２０５３）の一部として、カナダ、ドイツ、および英国を含む３つの場所から４６人の患者を募集した。すべての患者に対して、ベースライン来院時に、広範な神経学的および神経心理学的検査を行った。統一ハンチントン病評価尺度（ＵＨＤＲＳ）を使用して、疾患の重症度を定量化した。とくには、Ｓｔｒｏｏｐワード読み上げテスト（ＳＣＷＴ１－ＷｏｒｄＲａｗＳｃｏｒｅ）は、ＵＨＤＲＳ認知評価の一部であり、構音障害（ＵＨＤＲＳ構音障害スコア）は、ＵＨＤＲＳ運動評価の一部である。各場所の現地語を使用した（すなわち、カナダおよび英国における英語（ｎ＝２７）、ドイツにおけるドイツ語（ｎ＝１９））。

スマートフォンアプリおよび自己管理によるスピーチ記録：スマートフォンに基づくＳｔｒｏｏｐワード読み上げテストを、カスタムのＡｎｄｒｏｉｄアプリケーションとして開発した（ＧａｌａｘｙＳ７；韓国ソウルのＳａｍｓｕｎｇ社）。ベースライン来院時に、患者はスマートフォンを受け取り、教示セッションにおいてテストを完了させた。その後に、スピーチテストを、週に１回、家庭においてリモートで実施した。スピーチ信号を１６ビットの分解能にて４４．１ｋＨｚで取得し、分析のために１６ｋＨｚにダウンサンプリングした。データを、ＷｉＦｉを介してリモート位置に安全に転送し、そこで処理および分析した。この実施例に提示されたデータは、最初の自己管理在宅テスト（ｎ＝４６）のみであった。合計６０個の色ワード（１行あたり４ワード）を、ランダムに生成されたシーケンスに従って黒色で表示し、明示的にメタデータとして記憶した。患者は、所与の４５秒間にわたり、短い基準トーン（１．１ｋＨｚ、５０ｍｓ）の後にワードを読み上げた。患者に、６０個のワードの読み上げを４５秒の時間内に完了させた場合、ワードの読み取りを最初から再開するように指示した。ここで分析されたすべての記録は、周囲雑音のレベルが低く（－５６．７±７．４ｄＢ、ｎ＝４６）および信号対雑音比が良好（４４．５±７．８ｄＢ、ｎ＝４６）であった。

Ｓｔｒｏｏｐワード読み上げテストを分析するための言語非依存の手法：多言語およびさまざまな罹患集団の状況における使用の可能性に鑑みて、アルゴリズムをいかなる事前訓練モデルにもよらずに設計した。いかなる文脈上の手がかりもない状態で、ワードをスピーチ信号から直接セグメント化した。分類段階において、ワードラベルを、表示されたシーケンスと予測されたシーケンスとの間の部分的な重なり合いを最大化するように選択した。Ｓｔｒｏｏｐワード読み上げテストのための完全に自動化された手法は、４つの部分に分割可能である。要約すると、本発明の発明者は、個々のワードの高感度なセグメント化を得るために２段階の手法を最初に導入した。次いで、本発明の発明者は、主に不正確な発音、呼吸、および非スピーチ音によって引き起こされる誤検出を除去するために外れ値除去ステップを展開した。次に、それらを１４４個（１２×１２）のメル周波数ケプストラム係数（ＭＦＣＣ）特徴によって表される各々の推定ワードに変換し、３クラスのＫ平均クラスタ化を実行した。最後に、本発明の発明者は、正解ワードの数を推定するために、局所シーケンスアラインメント法であるスミス－ウォーターマンアルゴリズムを採用した。これらのステップの各々は、以下でさらに詳細に説明される。

ワード境界の識別：この特定の例において、使用された各々の色ワードは、単一の音節、すなわち英語の／ｒｅｄ／、／ｇｒｅｅｎ／、／ｂｌｕｅ／およびドイツ語の／ｒｏｔ／、／ｇｒｕｅｎ／、／ｂｌａｕ／からなっていた。したがって、ワードのセグメント化は、一般的な音節検出問題になる。音韻論によれば、ピークとも呼ばれる音節の核が、音節の中央部分（最も一般的には、母音）である一方で、子音は、それらの間の境界を形成する（Ｋｅｎｎｅｔｈ、２００３年）。いくつかの自動音節検出方法が、接続されたスピーチについて説明されている（例えば、ＸｉｅａｎｄＮｉｙｏｇｉ、２００６年；ＷａｎｇａｎｄＮａｒａｙａｎａｎ、２００７年；Ｒｕｓｚら、２０１６年を参照されたい）。例えば、音節核が、主に広帯域エネルギー包絡線（ＸｉｅａｎｄＮｉｙｏｇｉ、２００６年）またはサブバンドエネルギー包絡線（ＷａｎｇａｎｄＮａｒａｙａｎａｎ、２００７年）のいずれかに基づいて識別されている。しかしながら、高速スピーチの場合、異なる音節間の遷移をエネルギー包絡線のみによって識別することは困難である。ワード読み上げタスクにおける高速なテンポおよび音節反復を考慮すると、より高感度の音節核識別が依然として必要である。

２段階手法は、どのようにして手作業でのラベルによる音節境界が実行されるか、すなわちスペクトログラムの強度およびスペクトル流束の目視検査によって触発された。要約すると、パワーメルスペクトログラムが、最初に１５ｍｓのスライディングウィンドウサイズおよび１０ｍｓのステップサイズで、２５．５Ｈｚ～８ｋＨｚの範囲に及ぶ１３８個の三角フィルタで計算され、４５秒の期間における最も強いフレームエネルギーに対して正規化された。次に、スピーチフレームの最大エネルギーを導出して、周波数軸に沿ったメルスペクトログラムの最大強度投影に相当する強度を表した。このようにして、音が最も大きいフレームは、０ｄＢの相対エネルギー値を有し、他のフレームは、それよりも小さい値を有する。例えば、図５Ａに示されるように、すべての音節核は、－５０ｄＢを上回る相対エネルギーを有する。相対エネルギー尺度に対してしきい値を使用することによって、粗いワード境界が識別された。

続いて、メルスペクトログラムのスペクトル流束を計算して、各々のワードの正確な境界を識別した。これは、メルスペクトログラムにおける垂直エッジ検出に相当する。オンセット強度を、ＢｏｅｃｋａｎｄＷｉｄｍｅｒ（２０１３年）によって開発されたスーパーフラックス法で計算し、０～１の間の値に正規化した。オンセット強度がしきい値、すなわち０．２を超える場合、セグメントはサブセグメントに分割される。１つの粗くセグメント化されたワード（灰色で強調表示）が、図５Ｂに示されるオンセット強度に基づいて２つの推定ワードに分割された。

すべての計算は、Ｌｉｂｒｏｓａライブラリ（ｈｔｔｐｓ：／／ｌｉｂｒｏｓａ．ｇｉｔｈｕｂ．ｉｏ／ｌｉｂｒｏｓａ／、ＭｃＦｅｅら、２０１５年）またはｐｙｔｈｏｎ＿ｓｐｅｅｃｈ＿ｆｅａｔｕｒｅｓライブラリ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｊａｍｅｓｌｙｏｎｓ／ｐｙｔｈｏｎ＿ｓｐｅｅｃｈ＿ｆｅａｔｕｒｅｓ、ＪａｍｅｓＬｙｏｎｓら、２０２０年）を使用して、Ｐｙｔｈｏｎで実行された。オンセット強度の計算のために、関数ｌｉｂｒｏｓａ．ｏｎｓｅｔ．ｏｎｓｅｔ＿ｓｔｒｅｎｇｔｈをｌａｇ＝２（差を計算するためのタイムラグ）およびｍａｘ＿ｓｉｚｅ＝３（ローカルｍａｘフィルタのサイズ）というパラメータで使用した。図５Ａおよび図５Ｂに示される例において、６８個の粗いセグメントが最初のステップにおいて識別され、さらなる１０個が洗練ステップにおいて識別された。

主に不正確な発音、呼吸、および非スピーチ音によって引き起こされる誤検出を除去するために、外れ値除去ステップを実施した。１００ｍｓ未満の観測値および－４０ｄＢ未満の平均相対エネルギー値を最初に除去した。メル周波数ケプストラム係数（ＭＦＣＣ）は、スピーチ認識システムにおける特徴として一般的に使用されている（ＤａｖｉｓａｎｄＭｅｒｍｅｌｓｔｅｉｎ、１９８年；Ｈｕａｎｇら、２００１年）。ここで、１３個のＭＦＣＣの行列を、各々の推定ワードについて２５ｍｓのスライディングウィンドウサイズおよび１０ｍｓのステップサイズで計算した。可聴ノイズは、最初の３つのＭＦＣＣによって真のワードとは異なると予想される（Ｒｕｓｚら、２０１５年）。したがって、ワードを、最初の３つのＭＦＣＣの平均値を使用してパラメータ化した。これらについて、マハラノビス距離に基づいて、外れ値検出を行った。標準偏差の２倍のカットオフ値を使用して、外れ値を識別した。図６が、このステップを示しており、３Ｄ散布図においてインライア（推定ワード）が灰色で示され、外れ値（非スピーチ音）が黒色で示されている。

Ｋ平均クラスタ化：Ｋ平均は、観測値をｋ個のクラスタに分割する教師なしクラスタ化アルゴリズムである（Ｌｌｏｙｄ、１９８２年）。本発明の発明者は、所与の記録中の被験者によって発音されたワードが、ワードクラスタ内で類似のスペクトル表現を有し、ワードクラスタ間で異なるパターンを有すると仮定した。このようにして、ワードをｎ個のクラスタに分割することができ、ｎは個々の色ワードの数に等しい（ここでは、ｎ＝３）。しかしながら、ワードの持続時間は互いにさまざまであってよい（０．２３～０．３５ｍｓの平均持続時間）。各々のワードについて等しいサイズの特徴表現を生成するステップは、以下のとおりである：以前に計算された１３個のＭＦＣＣの行列から開始して、（パワーに関連する）最初のＭＦＣＣを行列から除去した。種々のフレーム番号を有する残りの１２個のＭＦＣＣの行列を画像として扱い、時間軸に沿った線形補間によって固定サイズの画像（１２×１２ピクセル、その幅の４０％～６０％に縮小）にサイズ変更した。結果として、各々のワードは、その持続時間にかかわらず、合計１４４個のＭＦＣＣ値（１２×１２＝１４４）に変換された。Ｋ平均クラスタ化を適用することにより、１つの記録からの推定ワードを、３つの異なるクラスタに分類した。図７が、上側のグラフに示される３つの弁別的なクラスタ内のワード（行あたり１つのワード）および下側のグラフに示される対応するクラスタ中心の視覚的外観を示しており、とくには、図７Ａは、英語での１つのテストから抽出された３つのワードクラスタを表し（ワード＝７５）、図７Ｂは、ドイツ語での１つのテストから抽出された３つのワードクラスタを表している（ワード＝６４）。

ワードシーケンスアラインメント：スピーチ認識とは、スピーチの内容を理解することを指す。原則として、深層学習モデル（例えば、Ｍｏｚｉｌｌａの自由スピーチ認識プロジェクトＤｅｅｐＳｐｅｅｃｈ）および隠れマルコフモデル（例えば、ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙのＳｐｈｉｎｘツールキット）を使用して、スピーチ認識を行うことが可能である。しかしながら、そのような事前訓練されたモデルは、健康な集団に基づいて構築され、言語に依存し、スピーチ障害を有する患者に適用された場合には、あまり正確ではない可能性がある。この研究において、本発明の発明者は、スピーチコンテンツを推論するためのエンドツーエンドモデルなしソリューションを導入した。このようなワード認識タスクを、ゲノム配列アラインメント問題に変換した。色ワードの閉じたセットは、ＤＮＡコードの文字のようである。読み上げの誤りならびにセグメント化ステップおよびクラスタ化ステップにおいて持ち込まれるシステムエラーは、遺伝子のＤＮＡ配列に生じる突然変異、欠失、または挿入と同様である。孤立したワード認識を実行する代わりに、目的は、スピーチ内容全体が全体として活用されるように、表示されたシーケンスと予測されたシーケンスとの間の重複シーケンスを最大化することであった。

スミス－ウォーターマンアルゴリズムは、局所シーケンスアラインメント（すなわち、いくつかの文字は考慮されなくてもよい）を行うので、部分的に重複するシーケンスに適している（ＳｍｉｔｈａｎｄＷａｔｅｒｍａｎ、１９８１年）。アルゴリズムは、すべての可能な長さのセグメントを比較することを可能にし、例えばギャップコスト＝２、マッチスコア＝３などのスコアリングメトリックに基づいて類似度指標を最適化する。この研究において、セグメント化されたワードの数は、表示されたシーケンス内の探索空間を定める。３クラスの状況では、ワードラベルの６（３！＝６）個の可能な順列が存在する。各々の順列について、予測シーケンスを生成し、表示されたシーケンスと整列させ、最も高い類似度スコアを有するセグメントをトレースバックすることが可能である。本発明の発明者は、被験者がほとんどの場合に表示されたとおりにワードを読み上げると仮定した。したがって、セグメント長は、問題において最大化するための尺度となる。言い換えれば、所与のクラスタに対するラベルの最適な選択は、重複するシーケンスを最大化するやり方で見出される。これにより、各々のワードをそれぞれのクラスタラベルに従って分類することができる。さらに、部分的に重複するシーケンスにおいて発見された正確な一致は、被験者によって読み上げられた正しいワードの良好な推定を提供する。図８が、表示されたシーケンスＲＲＢＧＧＲＧＢＲＲＧと予測されたシーケンスＢＲＢＧＢＧＢＲＲＢとのアラインメントを例に取り、読み上げられた１０個のワードのうちの５つの正解ワードを返す。

手動レベルのグランドトゥルース：すべてのセグメント化されたワード（英語の２７個の記録からの１９３８個のワード、ドイツ語の１９個の記録からの１４５２個のワード）の手動注釈を、音声再生を介して盲検として実行した。手動ラベルを、アルゴリズムを設計した後に実施し、パラメータ調整には使用しなかった。各々のワードの開始／終了時間を、提案された２段階手法によって得た。ワードを、それぞれのテキストで相応に、／ｒｅｄ／および／ｒｏｔ／についての／ｒ／、／ｇｒｅｅｎ／および／ｇｒｕｅｎ／についての／ｇ／、ならびに／ｂｌｕｅ／および／ｂｌａｕ／についての／ｂ／でラベル付けした。何らかの理由（例えば、不正確な音節の区切り、呼吸、他のワード、など）のために注釈付けが困難なワードを、「ガベージクラス」として／ｎ／とラベル付けした。

結果判定法：ワードのセグメント化および分類の結果に基づいて、２つの相補的なテストレベル結果判定法を設計した：認知指標の一部として処理速度を定量化するための正解ワードの数、およびスピーチ運動能力を定量化するためのスピーチレート。とくに、スピーチレートを、１秒当たりのワード数として定義し、時間におけるセグメント化されたワードの累積和に対する回帰直線の傾きとして計算した。

統計学的分析：Ｓｈａｐｉｒｏ－Ｗｉｌｋ検定を使用して、正規分布を試験した。ピアソン相関を適用して、有意な関係を調べた。ピアソン相関係数を評価するために、可（０．２５～０．５の値）、中～良（０．５～０．７５の値）、および優（０．７５以上の値）の基準を使用した。群間の比較のために、独立した試料のＡＮＯＶＡおよび対応のないｔ検定を行った。効果量を、Ｃｏｈｅｎのｄで測定し、ｄ＝０．２は小さい効果、ｄ＝０．５は中程度の効果、ｄ＝０．８は大きい効果を表す。

結果
ワード分類性能の評価：提案されたモデルなしワード認識アルゴリズムの分類精度を評価するために、手動注釈と自動化アルゴリズムによって得られたラベルとを比較した。全体的な分類精度は高く、平均スコアは英語においては０．８３、ドイツ語においては０．８５であった。図９の正規化された混同行列が、ワードレベルでのモデルなしワード分類器の性能を示している。高い分類精度は、提案されたワード認識器が、４５秒間のスピーチ記録から直接、発音、音響、および言語コンテンツを含むスピーチ認識器のすべてのコンポーネントを学習することができることを示唆している。それは、教師なし分類器および動的局所シーケンスアラインメント戦略を活用して、各々のワードにタグ付けする。これは、展開時に言語モデルを持ち運ぶ必要がなく、多言語および多様な疾患集団の状況への適用に関してきわめて実用的であることを意味する。

２つの相補的な転帰指標の臨床検証：完全に自動化された手法によって決定された正解ワード数を、標準的な臨床ＵＨＤＲＳ－Ｓｔｒｏｏｐワードスコアと比較した。一般に、正解ワード数に関して、スマートフォンと臨床指標とは、図１０に示されるように高度に相関している（ピアソンの相関係数ｒ＝０．８１、ｐ＜０．００１）。

さらなる言語における性能評価：この研究において得られた結果を、１０個の異なる言語を話すＨＤ患者を含む研究にさらに拡張した。とくには、この例に記載の方法を、この多言語コホートに、以下のワードを使用して適用した：「英語」：［’ＲＥＤ’，’ＧＲＥＥＮ’，’ＢＬＵＥ’］、「ドイツ語」：［’ＲＯＴ’，’ＧＲＵＥＮ’，’ＢＬＡＵ’］、「スペイン語」：［’ＲＯＪＯ’，’ＶＥＲＤＥ’，’ＡＺＵＬ’］、「フランス語」：［’ＲＯＵＧＥ’，’ＶＥＲＴ’，’ＢＬＥＵ’］、「デンマーク後」：［’ＲφＤ’，’ＧＲφＮ’，’ＢＬÅ’］、「ポーランド語」：［’ＣＺＥＲＷＯＮＹ’，’ＺＩＥＬＯＮＹ’，’ＮＩＥＢＩＥＳＫＩ’］、「ロシア語」：［’КРАСНЫЙ’，’ЗЕЛЕНЫЙ’，’СИНИЙ’］、「日本語」：［’赤’，’緑’，’青’］、「イタリア語」：［’ＲＯＳＳＯ’，’ＶＥＲＤＥ’，’ＢＬＵ’］、「オランダ語」：［’Ｄｕｔｃｈ’：［’ＲＯＯＤ’，’ＧＲＯＥＮ’，’ＢＬＡＵＷ’］。注目すべきことに、これらの言語のいくつかについては、使用されたワードのすべてが１音節（例えば、英語、ドイツ語）であった一方で、他の言語については、ワードのいくつかが２音節（例えば、イタリア語、スペイン語）であった。図１１Ａが、英語、フランス語、イタリア語、およびスペイン語の記録のセットから決定された正しく読み上げられたワードの数の分布を示し、図１１Ｂが、これらの言語の各々において識別されたセグメント（クラスタ化の直前、すなわち洗練および外れ地除去の後）の数の分布を示す。データは、たとえ個々のワード内の複数の音節が別々のエンティティとして識別されても（図１１Ｂ）、上記の方法に従って識別された正しく読み上げられたワードの数が、ワードの長さの変動に対してロバストであることを示している（図１１Ａ）。

結論
この実施例は、患者の自宅からリモートで自己実施可能な自動化された（スマートフォンに基づく）Ｓｔｒｏｏｐワード読み上げテストの臨床適用性を説明し、示している。完全に自動化された手法は、スピーチデータのオフライン分析を実行することを可能にする。この手法は、言語に依存せず、教師なし分類器および動的局所シーケンスアラインメント戦略を使用して各々のワードを言語コンテンツに関してタグ付けする。事前に訓練されたモデルによらずに、ワードが、英語を話す患者においては０．８３、ドイツ語を話す患者においては０．８５という高い全体的な精度で分類された。この手法が、ＨＤ患者における認知機能およびスピーチ運動機能の評価を可能にすることが示された。ＨＤＯＬＥ研究の４６人の患者において、２つの相補的な結果判定法、すなわち認知能力を評価するための判定法、およびスピーチ運動障害を評価するための判定法を、臨床的に検証した。要約すると、本明細書に記載の手法は、大集団におけるスマートフォンに基づくスピーチテストを使用した疾患症状の自己評価の基礎を設定することに成功した。これは、最終的に、有効な治療を見出すための大部分の臨床試験に関して生活の質を改善するために患者に大きな利益をもたらすことができる。

実施例２：自動Ｓｔｒｏｏｐワード読み上げ試験－干渉条件
この実施例において、本発明の発明者は、実施例１で概説した手法を使用して、Ｓｔｒｏｏｐワード読み上げテストの干渉部分を自動的に実行できるかどうかを試験した。健常な有志のコホートについて、実施例１に関連して説明したＳｔｒｏｏｐワード読み上げテストおよびＳｔｒｏｏｐ色ワード読み上げテストの両方を行った。さらに、本発明の発明者は、ワードの同じシーケンスを用いたＳｔｒｏｏｐワード読み上げテストおよびＳｔｒｏｏｐ色ワード読み上げテスト（ワードを、前者においては黒色で表示し、後者においては食い違う色で表示する）の記録を分析することによって、本方法の性能を試験した（図１２Ａおよび図１２Ｂを参照）。これらの一対のテストを実施する個人から得られた２つの音声記録に実施例１に記載の方法を適用した結果が、図１２Ａおよび図１２Ｂに示される。これらの図において、セグメントが、各々の図の中央のパネルにおいて信号の着色されたセクションとして強調表示され、ワード予測が、セグメントの色によって各々の図の中央パネルに示されている。データは、セグメント識別および正しいワードのカウント処理が、矛盾のない条件および干渉条件の両方について等しく良好に機能することを示している。実際、干渉テストにおいて個人によって読み上げられた誤ったワードの存在にもかかわらず、ワード読み上げテストと干渉テストとの間でクラスタの割り当てに食い違いはない。さらに、図１２Ｂにも見られるように、記載された自動評価方法を使用して取得された正しく読み上げられたワードの予測数は、音声記録の手動注釈によって得られたグランドトゥルースデータと高度に相関していた。

実施例３：呼吸症状のリモート監視および心不全患者における疾患症状の監視のための自動化されたウェブベースのＳｔｒｏｏｐワード読み上げテスト
この実施例において、本発明の発明者は、呼吸困難および心不全患者における疾患症状のリモート監視の文脈において、上記の自動Ｓｔｒｏｏｐワード読み上げテスト（ＳＷＲ）を実施した。

このソリューションをウェブベースのアプリケーションを通して展開したことを除き、実施例１と同様の仕組みを使用した。ウェブベースのテストの仕組みが、図１３に示される。参加者に対し、以下の複数のタスクを実行しながら、自身のコンピューティングデバイスによって自身を記録するように求めた。（ｉ）読み上げタスク（患者同意文の読み上げ、図１３の最も上方のパネルを参照）、（ｉｉ）数字カウントタスク（１～１０の間の数字を読み上げる）、（ｉｉｉ）逆数字カウントテスト（１０～１の間の数字を読み上げる）、および（ｉｖ）２つのワード読み上げテスト：Ｓｔｒｏｏｐワード読み上げテスト（非矛盾条件、すなわち実施例１で説明したように色ワードが３つの色ワードのセットからランダムに取り出され、黒色で表示される）およびＳｔｒｏｏｐ色ワード読み上げテスト（干渉条件、すなわち色ワードが３つの色ワードのセットからランダムに取り出され、ランダムに取り出される色で表示される）。

実施例１とは対照的に、ワード読み上げテストの記録は、一定の時間長ではなかった。代わりに、各々の記録は、個人が表示されたすべてのワード（この場合には、４０ワード）を読み上げるために要する長さである。これは、心臓の異常または呼吸困難を有する多くの患者が、長時間のテストを行うための体力を有していない可能性があるという点で好都合である。さらに、Ｓｔｒｏｏｐワード読み上げテストおよびＳｔｒｏｏｐ色ワード読み上げテストで表示されたワードは同一であり、ストループ色ワード読み上げ試験においてのみ色を変化させた。これは、２つのテストからの記録の比較を、それらの音声内容が類似しているはずであるがゆえに好都合に可能にし、クラスタ化工程における優れた精度のための追加のデータの取得を可能にした。実際、クラスタ化工程が優れた精度を有するのに充分なワードを使用して実行されることを保証するために、２つの記録（すなわち、Ｓｔｒｏｏｐワード読み上げテストおよびストループ色ワード読み上げテストの各々から４０ずつ、合計８０個のワード）をクラスタ化工程において各々の患者に関して組み合わせて使用した。セグメント識別工程を、２つの記録に対して別々に実行し、アラインメント工程も同様である。さらに、実施例１に記載のセグメント識別工程を、読み上げタスクおよび数字カウント／逆数字カウント記録にも適用した。次いで、アラインメント工程の結果をセグメント情報と共に使用して、Ｓｔｒｏｏｐワード読み上げテストおよびストループ色ワード読み上げテストのそれぞれについて、正解ワードレート（１秒あたりの正しいワードの数として計算される）を計算した。正解ワードレートを、読み上げられた正しいワードの数をテスト持続時間で除算したものとして推定した。読み上げられたワードの累積数を、正しく読み上げられたワードに対応すると識別されたすべてのセグメントの開始に対応する時点において１だけ増加させた。実施例１で説明したように、読み上げられたワードの累積数にフィットさせた線形モデルの勾配を使用して、スピーチレート（すなわち、正しいワードだけでなく、すべてのワード）も計算した。

次いで、セグメント情報を使用して、各々のテストについて個別に、呼吸パーセンテージ（呼吸％、１００^＊（セグメント間の時間）／（セグメント内の時間＋セグメント内の時間）として計算）、無声／有声比率（（セグメント間の時間／セグメント内の時間）として計算）、および平均音声ピッチ（各セグメントについて推定された個々の音声ピッチの平均として計算）を評価した。各々のセグメントにおいて、音声ピッチを、ｒ９ｙ９Ｐｙｔｈｏｎｗｒａｐｐｅｒ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｒ９ｙ９／ｐｙｓｐｔｋ）を介してＳｐｅｅｃｈＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｏｏｌｋｉｔ（ｈｔｔｐ：／／ｓｐ－ｔｋ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／）に実装されたＳＷＩＰＥ’を使用して推定した。ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍａｒｌ／ｃｒｅｐｅで入手可能なＰｙｔｈｏｎパッケージに実装された代替の方法（ＣＲＥＰＥ）もテストした。ここに示す結果は、ＳＷＩＰＥ’を使用している。ピッチ推定誤差を低減するために、５というサイズ（５０ｍｓの時間ウィンドウに対応する）を有するメジアンフィルタを、音声セグメントからのピッチ推定値に適用した。最後に、所与の記録について単一の平均値を得た。

本方法を、最初に、中程度の運動（４つの階段を登る）の前後の数日にテストを行った健康な被験者においてテストした。この状況は、呼吸困難の影響をシミュレートし、したがって、上述のメトリックが呼吸困難のバイオマーカとして機能できるかどうかをテストする。この分析の結果が、複数日（行）のＳｔｒｏｏｐ色ワードテスト（干渉条件－パネルＡ～Ｄ、ならびに干渉およびコヒーレント条件の結果の平均－パネルＡ’～Ｄ’）記録について、以下の表１および図１４に示されており、パネルＡおよびＡ’は、ピッチ推定値を示し、パネルＢおよびＤ’は、正解ワードレートを示し、パネルＣおよびＣ’は、無声／有声比率を示し、パネルＤおよびＤ’は、呼吸％を示している。Ｃｏｈｅｎのｄを、運動前の結果と運動後の結果との間で各々のメトリックについて計算し、各々のメトリックに対する息切れに関連する効果量を定量化した。ピッチメトリックに関して、効果量（Ｃｏｈｅｎのｄ）は、組み合わせのテストデータについては３．４７であり、干渉条件のみについてはＣｏｈｅｎのｄ＝２．７５であった。正解ワード率に関して、Ｃｏｈｅｎのｄは、組み合わせのテストデータについては－２．２６であり、干渉条件についてはＣｏｈｅｎのｄ＝－１．５７であった。無声／有声に関して、Ｃｏｈｅｎのｄは、組み合わせのテストデータについては１．２５であり、干渉条件についてはＣｏｈｅｎのｄ＝１．４４であった。呼吸％に関して、Ｃｏｈｅｎのｄは、組み合わせのテストデータについては１．２６であり、干渉条件についてはＣｏｈｅｎのｄ＝１．４３であった。このように、これらのメトリックの各々は、休息状態と息切れ状態との間で顕著な差（干渉条件における色ワードテストの記録からのデータを単独で使用するか、あるいは干渉条件およびコヒーレント条件における色ワードテストの記録からのデータを組み合わせるかにかかわらず）を示し、したがって呼吸困難の監視に使用することが可能である。

表１のデータは、テストされたメトリックの各々が、休息状態と息切れ状態との間で顕著な差を示し、これが、ワードテスト（色ワード、コヒーレント状態）および色ワードテスト（色ワード、干渉条件）にわたって一貫している（当然ながらコヒーレント状態においてより高くなる可能性が高く、コヒーレント状態と干渉状態との比較が認知能力に関するさらなる表示をもたらすことができる正解ワードレートは別として）ことを示している。したがって、これらのメトリックを、呼吸困難を監視するために使用（ワードテストまたは色ワードテストのいずれか単独、または両者の組み合わせ）することができる。

したがって、本発明の発明者は、これらのバイオマーカを心不全患者の監視にも使用することができるかどうかを判断することに着手した。心不全患者の２つのコホート、すなわち代償不全のために入院した心不全患者のコホート（ｎ＝２５）および安定心不全の外来患者のコホート（ｎ＝１９）において説明したようにメトリックを得た。前者を、入院時（ＨＦ：入院）および退院時（ＨＦ：退院）の両方において評価した。この分析の結果を、表２および表３、ならびに図１５、図１６、および図１７に示す。図１５のパネルＡ～ＤおよびＡ’～Ｄ’のデータは、Ｓｔｒｏｏｐワード読み上げテスト（Ａ～Ｄ：干渉条件のみ、Ａ’～Ｄ’：干渉およびコヒーレント条件の平均）から導出されたそれぞれのメトリックが、非代償性心不全の患者と安定な外来患者との間で有意に異なることを示している。さらに、呼吸％、無声／有声、および正解ワードレートのメトリックが、これらの患者群を区別するためのとくに高感度なメトリックであった。図１５Ａ’～図１５Ｄ’および図１５Ａ～図１５Ｄのデータの特性を以下に示す。

Ｓｔｒｏｏｐスコア：１秒あたりの正解ワード数（組み合わせの色ワード読み上げテスト、図１５Ｃ’）：
ＨＦ：入院（平均±標準偏差）：１．５±０．４、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：１．６±０．４、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：１．９±０．２、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－１．０９、順列テストｐ値＝０．０００２
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．８１、順列テストｐ値＝０．００５３
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．２１、順列テストｐ値＝０．２２７６
Ｓｔｒｏｏｐスコア：１秒あたりの正解ワード数（色ワード読み上げテスト、干渉条件、図１５Ｃ）：
ＨＦ：入院（平均±標準偏差）：１．５±０．４、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：１．６±０．４、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：１．９±０．２、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－１．１４、順列テストｐ値＝０．０００１
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．８７、順列テストｐ値＝０．００３５
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．２８、順列テストｐ値＝０．１６００

このデータは、非代償性心不全患者を安定心不全患者と区別するために、ワード読み上げテスト記録からの正解ワードレートを使用できることを示している。さらに、このメトリックを使用して、非代償状態からの患者の回復を監視することもできる。

ＲＳＴ（スピーチレート）：１秒あたりのワード数（組み合わせの色ワード読み上げテスト、図１５Ｄ’）：
ＨＦ：入院（平均±標準偏差）：１．８±０．３、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：１．８±０．３、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：２．０±０．２、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．９２、順列テストｐ値＝０．００１９
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．９５、順列テストｐ値＝０．００１３
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．０７、順列テストｐ値＝０．４０３３
ＲＳＴ（スピーチレート）：１秒あたりのワード数（色ワード読み上げテスト、干渉条件、図１５Ｄ）：
ＨＦ：入院（平均±標準偏差）：１．８±０．３、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：１．７±０．４、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：２．０±０．２、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．８９、順列テストｐ値＝０．００１９
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．９８、順列テストｐ値＝０．００１１
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．１１、順列テストｐ値＝０．３３７４

このデータは、非代償性心不全患者を安定心不全患者と区別するために、ワード読み上げテスト記録からのスピーチレート（スピーチタイミングのレート、ＲＳＴ）を使用できることを示している。しかしながら、このメトリックは、非代償状態から患者の退院が可能となる回復状態までの患者の回復を監視するためには使用することができず、正解ワードレートほどは感度が高くない。スピーチレートは、経時的な音声記録における識別されたセグメントの数の累積和を計算し、累積和データにフィットさせた線形回帰モデルの傾きを計算することによって決定された。

したがって、このデータは、息切れだけでなく、疲労に関連する影響も組み合わせることによって（認知能力に対してより高感度でありながら、息切れ関連の影響も捕捉するメトリックによって）、心不全の状態についてより高感度なバイオマーカを得ることができることを示している。

ワード読み上げテストにおける呼吸％（組み合わせの色ワード読み上げテスト、図１５Ａ’）：
ＨＦ：入院（平均±標準偏差）：４１．９±８．２、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：４２．０±７．５、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：２９．６±５．１、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．７１、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．８５、順列テストｐ値＝０．００００
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．０２、順列テストｐ値＝０．４７６７
ワード読み上げテストにおける呼吸％（色ワード読み上げテスト、干渉条件、図１５Ａ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．７５、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．７７、順列テストｐ値＝０．００００
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．００、順列テストｐ値＝０．４９７３

ワード読み上げテストにおける無声／有声比率（組み合わせの色ワード読み上げテスト、図１５Ｂ’）：
ＨＦ：入院（平均±標準偏差）：０．８±０．３、ｎ＝２５
ＨＦ：退院（平均±標準偏差）：０．８±０．２、ｎ＝２５
ＯＰ：安定（平均±標準偏差）：０．４±０．１、ｎ＝１９
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．４１、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．７０、順列テストｐ値＝０．００００
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．０２、順列テストｐ値＝０．４７６０
ワード読み上げテストにおける無声／有声比率（色ワード読み上げテスト、干渉条件、図１５Ｂ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．３１、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．５２、順列テストｐ値＝０．００００
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．０３、順列テストｐ値＝０．４６５９

上記のデータは、非代償性心不全患者を安定心不全患者と区別するために、ワード読み上げテスト記録からの呼吸％および無声／有声比率を使用できることを示している。これらのメトリックはどちらも、非代償性心不全患者と安定心不全患者との間の差に関してきわめて高感度であるが、入院と退院との間では有意には変わらない。これらの２つのメトリックが二次関係で関係することに留意されたい。

したがって、上記のメトリックを一緒に使用して、非代償性心不全患者であるか、あるいは安定心不全患者であるかを（正解ワードレート、呼吸％、および有声／無声比率のいずれかを使用して）識別すること、入院を必要とする非代償性心不全患者を（正解ワードレートを使用して）識別すること、退院できるほど充分に回復しているが、依然として安定ではない（したがって、さらなる／より広範な監視が必要であり得る）心不全患者を（正解ワードレートを任意選択的に呼吸％および／または無声／有声比率と組み合わせて使用して）識別すること、および入院中および退院後の回復を（入院中の正解ワードレート、および退院後の正解ワードレート、呼吸％、および有声／無声比率のいずれかを使用して）監視することが可能である。

さらに、ワード読み上げテストからのバイオマーカを、数字カウントおよび読み上げテストから得られた対応するメトリックと比較した。これらの結果を、図１５Ｅ～図１５Ｊおよび図１８に示す。図１５Ｅ～図１５Ｊのデータの特性を以下に示す。

読み上げタスクにおける呼吸％（図１５Ｅ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．５４、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．２８、順列テストｐ値＝０．００００
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．０９、順列テストｐ値＝０．３８１０
読み上げタスクにおける無声／有声比率（図１５Ｆ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：１．３５、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：０．８９、順列テストｐ値＝０．０００２
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．０３、順列テストｐ値＝０．４７３４
読み上げタスクにおけるスピーチレート（１秒当たりのワード数）（図１５Ｇ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－１．６０、順列テストｐ値＝０．００００
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．６４、順列テストｐ値＝０．０１９０
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．４０、順列テストｐ値＝０．０８４８
逆カウントタスクにおける呼吸％（図１５Ｈ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．２４、順列テストｐ値＝０．２１５１
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．２１、順列テストｐ値＝０．２５３７
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：－０．０５、順列テストｐ値＝０．４３２１
逆カウントタスクにおける無声／有声比率（図１５Ｉ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．１９、順列テストｐ値＝０．２７１８
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：－０．２６、順列テストｐ値＝０．２１２６
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．０４、順列テストｐ値＝０．４４７２
逆カウントタスクにおけるスピーチレート（図１５Ｊ）：
ＨＦ：入院対ＯＰ：安定：Ｃｏｈｅｎのｄ：０．１９、順列テストｐ値＝０．２７５４
ＨＦ：退院対ＯＰ：安定：Ｃｏｈｅｎのｄ：０．２２、順列テストｐ値＝０．２３４９
ＨＦ：入院対ＨＦ：退院：Ｃｏｈｅｎのｄ：０．０１、順列テストｐ値＝０．４７９７

上記のデータは、非代償性心不全患者を安定心不全患者と区別するために、読み上げテストにおける呼吸％、無声／有声比率、およびスピーチレートの各々を使用できることを示している。しかしながら、これらのメトリックのいずれも、入院時の非代償性心不全患者と退院時の非代償性心不全患者とを区別するために使用することはできない。さらに、タスクの性質上、このテストを使用して正解ワードレートと同等のメトリックを得ることはできない。このように、読み上げテストから導出される一連のバイオマーカは、ワード読み上げテストから導出される一連のバイオマーカほど感度は高くない。

データは、非代償性心不全患者を安定心不全患者と区別するために、数字カウントテストにおける呼吸％、無声／有声比率、およびスピーチレートは使用できないことをさらに示している。このように、数字カウントテストから導出される一連のバイオマーカは、ワード読み上げテストから導出される一連のバイオマーカほど感度は高くない。

図１６のデータが、非代償性心不全患者（左側に入院時（黒色）および退院時（暗灰色）の２つの点として示されている）および安定心不全外来患者（右側の薄灰色の点）について、ワード読み上げテストからの音声ピッチ推定値（干渉条件およびコヒーレント条件における色ワード読み上げテストからの推定値の平均であり、エラーバーは、通常条件および干渉条件の間の標準偏差を表す）を示している。図１７のデータは、入院（登録）からのさまざまな日にちにおける非代償性心不全患者の音声ピッチ推定値（干渉条件およびコヒーレント条件における色ワード読み上げテストからの推定値の平均）を示している。データは、ほとんどの非代償性心不全患者について、病院での回復がワード読み上げテストからのピッチ推定値の変化に関連することを示している。しかしながら、個々の傾向は心不全患者間でさまざまである可能性があり、一部の患者は入院中にピッチの増加を示し、他の患者はピッチの減少を示す。ほとんどの患者が回復中にピッチの減少を示したことに留意されたい。したがって、ワード読み上げテストから導き出される音声ピッチを、心不全入院中の回復を監視するために使用することができる。

図１８のデータは、４８人の心不全患者についての数字カウントテストおよび逆数字カウントテストのピッチ測定値間の一致度（Ｂ、合計１６１対の記録を分析）、ならびに４８人の心不全患者（Ａ、１６２対の記録を分析）についてのＳｔｒｏｏｐワード読み上げテスト（色ワード、コヒーレント条件）およびＳｔｒｏｏｐ色読み上げテスト（色ワード、干渉条件）のピッチ測定値間の一致度を評価するＢｌａｎｄ－Ａｌｔｍａｎプロットを示している。各々のデータ点は、それぞれのテストを使用して推定された平均ピッチ（Ｈｚ）の差を示している。破線は、平均差（中央の線）および±１．９６の標準偏差（ＳＤ）区間を示している。再現性が、コンセンサスレポート（ＣＲ＝２^＊ＳＤ）を使用して定量化され、数字カウントテストについては２７．７６であり、ワード読み上げテストについては１７．６４である。ＣＲの値が小さいほど、再現性のレベルが高いことを示す。したがって、このデータは、ワード読み上げテストの音声記録から得られたピッチ推定値が、例えば数字カウントテストなどの他の読み上げテストの音声記録から得られたピッチ推定値よりも、信頼性が高い（変動が少ない）ことを示している。本発明の発明者は、これが、少なくとも部分的には、ワード読み上げテストが、被験者がワードのシーケンスに慣れていくこと、および／またはピッチが読み上げられるテキストの認知内容によって影響されることに関係する影響に、左右されにくいためであると考えている。さらに、この例において使用されるワード（色ワード）は、好都合なことに、ワードの文脈内に単一の母音を含み、同じ被験者がワード内の母音を声に出すやり方に関連するピッチは、例えばピッチを評価するために一般的に使用される母音反復テストよりも、外部要因の影響を受けにくい。換言すると、ピッチ推定に適した音を含むが、これらの音がワードの正規化コンテキスト内に存在し、認知的内容または論理的接続を有する文のセットのバイアスコンテキスト（これらはすべて、音声ピッチに影響を及ぼし、したがってピッチがバイオマーカとして使用される場合に混乱要因として作用し得る）を伴わない限定されたワードのセットの使用が、好都合なことに、より信頼性の高い音声バイオマーカをもたらす。

同様の結論が、呼吸％、スピーチレート、および無声／有声比率の各メトリックにも（さまざまな程度で）当てはまり、これらのメトリックは、ワード読み上げテスト対色ワード読み上げテストから導き出された場合（すなわち、コヒーレント条件対干渉条件の色ワード読み上げ；呼吸％ＣＲ＝１３．０６、Ｎ＝１６２；スピーチレートＣＲ＝０．５０、Ｎ＝１６２；無声／有声ＣＲ＝０．５６、Ｎ＝１６２）に、数字カウント対逆数字カウントタスクから導出された場合（呼吸％ＣＲ＝１９．３９、Ｎ＝１６１；スピーチレートＣＲ＝１．００、Ｎ＝１６１；無声／有声ＣＲ＝０．６０、Ｎ＝１６１）よりも一貫性がある。

最後に、ＣＯＶＩＤ－１９の状態を診断または監視する本方法の可能性も評価した。本バイオマーカを、１０人の健常な有志のコホートおよびＣＯＶＩＤ－１９と診断された患者において上述のように得た。バイオマーカを、ＣＯＶＩＤ－１９と診断された患者において、患者が未だいかなる症状も示していなかった日を含む複数日、および患者が軽い疲労または呼吸困難とだけ報告された期間を含む複数日において測定した。この分析の結果を図１９に示す。このデータは、きわめて軽度の症状または無症状の患者の音声ピッチ推定値が、健常な有志のコホートの音声ピッチ推定値とは異なる（有意に高い）こと、および軽度の症状の患者の音声ピッチ推定値も、無症状の回復した患者の音声ピッチ推定値とは異なることを示している。

このように、図１９のデータは、音声ピッチバイオマーカを使用して、ＣＯＶＩＤ－１９の患者をたとえ無症状であっても識別し、疾患の進行（例えば、回復など）を監視できることを示唆している。

参考文献
１．Ｍａｏｒｅｔａｌ．（２０１８）．ＶｏｃａｌＢｉｏｍａｒｋｅｒＩｓＡｓｓｏｃｉａｔｅｄＷｉｔｈＨｏｓｐｉｔａｌｉｚａｔｉｏｎａｎｄＭｏｒｔａｌｉｔｙＡｍｏｎｇＨｅａｒｔＦａｉｌｕｒｅＰａｔｉｅｎｔｓ．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＨｅａｒｔＡｓｓｏｃｉａｔｉｏｎ．２０２０；９：ｅ０１３３５９．
２．Ｌａｇｕａｒｔａｅｔａｌ．（２０２０）．ＣＯＶＩＤ－１９ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＤｉａｇｎｏｓｉｓｕｓｉｎｇｏｎｌｙＣｏｕｇｈＲｅｃｏｒｄｉｎｇｓ．ＯｐｅｎＪｏｕｒｎａｌｏｆＥｎｇｉｎｅｅｒｉｎｇｉｎＭｅｄｉｃｉｎｅａｎｄＢｉｏｌｏｇｙ．ＤＯＩ：１０．１１０９／ＯＪＥＭＢ．２０２．３０２６９２８．
３．ＭａｕｃｈａｎｄＤｉｘｏｎ（２０１４）
４．Ｍｕｒｔｏｎｅｔａｌ．（２０１７）．Ａｃｏｕｓｔｉｃｓｐｅｅｃｈａｎａｌｙｓｉｓｏｆｐａｔｉｅｎｔｓｗｉｔｈｄｅｃｏｍｐｅｎｓａｔｅｄｈｅａｒｔｆａｉｌｕｒｅ：Ａｐｉｌｏｔｓｔｕｄｙ．Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．１４２（４）．
５．Ｓａｅｅｄｅｔａｌ．（２０１８），Ｓｔｕｄｙｏｆｖｏｉｃｅｄｉｓｏｒｄｅｒｓｉｎｐａｔｉｅｎｔｓｗｉｔｈｂｒｏｎｃｈｉａｌａｓｔｈｍａｓａｎｄｃｈｒｏｎｉｃｏｂｓｔｒｕｃｔｉｖｅｐｕｌｍｏｎａｒｙｄｉｓｅａｓｅ．ＥｇｙｐｔｉａｎＪｏｕｒｎａｌｏｆＢｒｏｎｃｈｏｌｏｇｙ，Ｖｏｌ．１２，Ｎｏ．１，ｐｐ２０－２６．
６．ＣａｍａｃｈｏａｎｄＨａｒｒｉｓ（２００８）．Ａｓａｗｔｏｏｔｈｗａｖｅｆｏｒｍｉｎｓｐｉｒｅｄｐｉｔｃｈｅｓｔｉｍａｔｏｒｆｏｒｓｐｅｅｃｈａｎｄｍｕｓｉｃ．ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，１２４（３），ｐｐ．１６３８－１６５２．
７．ＡｒｄａｉｌｌｏｎａｎｄＲｏｅｂｅｌ（２０１９）．Ｆｕｌｌｙ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｆｏｒＰｉｔｃｈＥｓｔｉｍａｔｉｏｎｏｆＳｐｅｅｃｈＳｉｇｎａｌｓ．Ｉｎｓｔｅｒｓｐｅｅｃｈ２０１９，Ｓｅｐ２０１９，Ｇｒａｚ，Ａｕｓｔｒｉａ．ｆｆ１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１９－２８１５ｆｆ．ｆｆｈａｌ－０２４３９７９８
８．Ｋｉｍｅｔａｌ．（２０１８）．ＣＲＥＰＥ：ＡＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒＰｉｔｃｈＥｓｔｉｍａｔｉｏｎ．２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），Ｃａｌｇａｒｙ，ＡＢ，２０１８，ｐｐ．１６１－１６５，ｄｏｉ：１０．１１０９／ＩＣＡＳＳＰ．２０１８．８４６１３２９
９．Ｋｅｎｎｅｔｈ，Ｄ．Ｊ．，Ｔｅｍｐｏｒａｌｃｏｎｓｔｒａｉｎｔｓａｎｄｃｈａｒａｃｔｅｒｉｓｉｎｇｓｙｌｌａｂｌｅｓｔｒｕｃｔｕｒｉｎｇ．ＰｈｏｎｅｔｉｃＩｎｔｅｒｐｒｅｔａｔｉｏｎ：ＰａｐｅｒｓｉｎＬａｂｏｒａｔｏｒｙＰｈｏｎｏｌｏｇｙＶＩ．，２００３：ｐ．２５３－２６８．
１０．Ｘｉｅ，Ｚ．Ｍ．ａｎｄＰ．Ｎｉｙｏｇｉ，ＲｏｂｕｓｔＡｃｏｕｓｔｉｃ－ＢａｓｅｄＳｙｌｌａｂｌｅＤｅｔｅｃｔｉｏｎ．Ｉｎｔｅｒｓｐｅｅｃｈ２００６ａｎｄ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌｓ１－５，２００６：ｐ．１５７１－１５７４．
１１．Ｗａｎｇ，Ｄ．ａｎｄＳ．Ｓ．Ｎａｒａｙａｎａｎ，Ｒｏｂｕｓｔｓｐｅｅｃｈｒａｔｅｅｓｔｉｍａｔｉｏｎｆｏｒｓｐｏｎｔａｎｅｏｕｓｓｐｅｅｃｈ．ＩｅｅｅＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２００７．１５（８）：ｐ．２１９０－２２０１．
１２．Ｒｕｓｚ，Ｊ．，ｅｔａｌ．，Ｑｕａｎｔｉｔａｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｍｏｔｏｒｓｐｅｅｃｈａｂｎｏｒｍａｌｉｔｉｅｓｉｎｉｄｉｏｐａｔｈｉｃｒａｐｉｄｅｙｅｍｏｖｅｍｅｎｔｓｌｅｅｐｂｅｈａｖｉｏｕｒｄｉｓｏｒｄｅｒ．ＳｌｅｅｐＭｅｄ，２０１６．１９：ｐ．１４１－７．
１３．Ｂｏｅｃｋ，Ｓ．ａｎｄＧ．Ｗｉｄｍｅｒ，Ｍａｘｉｍｕｍｆｉｌｔｅｒｖｉｂｒａｔｏｓｕｐｐｒｅｓｓｉｏｎｆｏｒｏｎｓｅｔｄｅｔｅｃｔｉｏｎ．１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ，Ｍａｙｎｏｏｔｈ，Ｉｒｅｌａｎｄ，２０１３．
１４．Ｄａｖｉｓ，Ｓ．Ｂ．ａｎｄＰ．Ｍｅｒｍｅｌｓｔｅｉｎ，ＣｏｍｐａｒｉｓｏｎｏｆＰａｒａｍｅｔｒｉｃＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒＭｏｎｏｓｙｌｌａｂｉｃＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎｉｎＣｏｎｔｉｎｕｏｕｓｌｙＳｐｏｋｅｎＳｅｎｔｅｎｃｅｓ．ＩｅｅｅＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９８０．２８（４）：ｐ．３５７－３６６．
１５．Ｈｕａｎｇ，Ｘ．，Ａ．Ａｃｅｒｏ，ａｎｄＨ．Ｈｏｎ，ＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：Ａｇｕｉｄｅｔｏｔｈｅｏｒｙ，ａｌｇｏｒｉｔｈｍ，ａｎｄｓｙｓｔｅｍｄｅｖｅｌｏｐｍｅｎｔ．ＰｒｅｎｔｉｃｅＨａｌｌ，２００１．
１６．Ｒｕｓｚ，Ｊ．，ｅｔａｌ．，ＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＲｈｙｔｈｍＩｎｓｔａｂｉｌｉｔｙａｎｄＡｃｃｅｌｅｒａｔｉｏｎｉｎＤｙｓａｒｔｈｒｉａｓＡｓｓｏｃｉａｔｅｄｗｉｔｈＢａｓａｌＧａｎｇｌｉａＤｙｓｆｕｎｃｔｉｏｎ．ＦｒｏｎｔＢｉｏｅｎｇＢｉｏｔｅｃｈｎｏｌ，２０１５．３：ｐ．１０４．
１７．Ｌｌｏｙｄ，Ｓ．Ｐ．，Ｌｅａｓｔ－ＳｑｕａｒｅｓＱｕａｎｔｉｚａｔｉｏｎｉｎＰｃｍ．ＩｅｅｅＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，１９８２．２８（２）：ｐ．１２９－１３７．
１８．Ｓｍｉｔｈ，Ｔ．Ｆ．ａｎｄＭ．Ｓ．Ｗａｔｅｒｍａｎ，Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｃｏｍｍｏｎｍｏｌｅｃｕｌａｒｓｕｂｓｅｑｕｅｎｃｅｓ．ＪＭｏｌＢｉｏｌ，１９８１．１４７（１）：ｐ．１９５－７．
１９．Ｈｌａｖｎｉｃｋａ，Ｊ．，ｅｔａｌ．，ＡｕｔｏｍａｔｅｄａｎａｌｙｓｉｓｏｆｃｏｎｎｅｃｔｅｄｓｐｅｅｃｈｒｅｖｅａｌｓｅａｒｌｙｂｉｏｍａｒｋｅｒｓｏｆＰａｒｋｉｎｓｏｎ’ｓｄｉｓｅａｓｅｉｎｐａｔｉｅｎｔｓｗｉｔｈｒａｐｉｄｅｙｅｍｏｖｅｍｅｎｔｓｌｅｅｐｂｅｈａｖｉｏｕｒｄｉｓｏｒｄｅｒ．ＳｃｉＲｅｐ，２０１７．７（１）：ｐ．１２．
２０．Ｓｔｒｏｏｐ，Ｊ．Ｒ．，Ｓｔｕｄｉｅｓｏｆｉｎｔｅｒｆｅｒｅｎｃｅｉｎｓｅｒｉａｌｖｅｒｂａｌｒｅａｃｔｉｏｎｓ．ＪｏｕｒｎａｌｏｆＥｘｐｅｒｉｍｅｎｔａｌＰｓｙｃｈｏｌｏｇｙ，１９３５．Ｇｅｎｅｒａｌ（１８）：ｐ．１９．
２１．ＭｃＦｅｅ，Ｂ．ｅｔａｌ．，ｌｉｂｒｏｓａ：ＡｕｄｉｏａｎｄＭｕｓｉｃＳｉｇｎａｌＡｎａｌｙｓｉｓｉｎＰｙｔｈｏｎ．ＰＲＯＣ．ＯＦＴＨＥ１４ｔｈＰＹＴＨＯＮＩＮＳＣＩＥＮＣＥＣＯＮＦ．（ＳＣＩＰＹ２０１５）．
２２．ＪａｍｅｓＬｙｏｎｓｅｔａｌ．（２０２０，Ｊａｎｕａｒｙ１４）．ｊａｍｅｓｌｙｏｎｓ／ｐｙｔｈｏｎ＿ｓｐｅｅｃｈ＿ｆｅａｔｕｒｅｓ：ｒｅｌｅａｓｅｖ０．６．１（Ｖｅｒｓｉｏｎ０．６．１）．Ｚｅｎｏｄｏ．ｈｔｔｐ：／／ｄｏｉ．ｏｒｇ／１０．５２８１／ｚｅｎｏｄｏ．３６０７８２０

本明細書において言及される全ての文書は、その全体が参照によって本明細書に組み込まれる。

「コンピュータシステム」という用語は、上述の実施形態によるシステムの具現化または方法の実行のためのハードウェア、ソフトウェア、およびデータ記憶装置を含む。例えば、コンピュータシステムは、中央処理装置（ＣＰＵ）、入力手段、出力手段、およびデータ記憶部を備えることができ、これらは、１つ以上の接続されたコンピューティングデバイスとして具現化されてよい。好ましくは、コンピュータシステムは、ディスプレイを有するか、あるいは（例えば、ビジネスプロセスの設計において）視覚出力表示をもたらすディスプレイを有するコンピューティングデバイスを備える。データ記憶部は、ＲＡＭ、ディスクドライブ、または他のコンピュータ可読媒体を備えることができる。コンピュータシステムは、ネットワークによって接続され、そのネットワークを介して互いに通信することができる複数のコンピューティングデバイスを含むことができる。

上述の実施形態の方法は、コンピュータプログラムとして提供されてよく、あるいはコンピュータ上で実行されたときに上述の方法を実行するように構成されたコンピュータプログラムを担持するコンピュータプログラム製品またはコンピュータ可読媒体として提供されてよい。

「コンピュータ可読媒体」という用語は、限定されないが、コンピュータまたはコンピュータシステムによって直接読み取られてアクセスされ得る任意の非一時的媒体を含む。媒体として、これらに限られるわけではないが、フロッピーディスク、ハードディスク記憶媒体、および磁気テープなどの磁気記憶媒体、光ディスクまたはＣＤ－ＲＯＭなどの光学記憶媒体、ＲＡＭ、ＲＯＭ、およびフラッシュメモリを含むメモリなどの電気的記憶媒体、ならびに磁気／光学記憶媒体などの上記のハイブリッドおよび組み合わせを挙げることができる。

文脈上別段の指示がない限り、上述した特徴の説明および定義は、本発明のいかなる特定の態様または実施形態にも限定されず、記載されているすべての態様および実施形態に等しく当てはまる。

本明細書において使用される場合、「および／または」は、そこで指定された２つの特徴または構成要素の各々の具体的な開示と解釈されるべきであり、他方が存在しても、存在しなくてもよい。例えば、「Ａおよび／またはＢ」は、（ｉ）Ａ、（ｉｉ）Ｂ、ならびに（ｉｉｉ）ＡおよびＢ、の各々の具体的な開示として、あたかも各々が本明細書に個別に記載されているかのように解釈されるべきである。

本明細書および添付の特許請求の範囲において使用される場合、単数形「１つの（「ａ」、「ａｎ」）」および「その（「ｔｈｅ」）」は、そのようでないことが文脈から明らかでない限り、指示対象が複数である場合を含むことに留意されたい。範囲が、本明細書において、「約」の或る特定の値から、かつ／または「約」の別の特定の値までとして表現されることがある。このような範囲が表現される場合、別の実施形態は、前記或る特定の値から、かつ／または前記別の特定の値までを含む。同様に、先行詞「約」の使用によって、値が近似値として表現される場合、特定の値が別の実施形態を形成することが理解されるであろう。数値に関する「約」という用語は、任意であり、例えば＋／－１０％を意味する。

以下の特許請求の範囲を含む本明細書の全体を通して、文脈からそのようでないことが必要でない限り、用語「・・・を備える（ｃｏｍｐｒｉｓｅ）」および「・・・を含む（ｉｎｃｌｕｄｅ）」、ならびに「・・・を備える（ｃｏｍｐｒｉｓｅｓ）」、「・・・を備えている（ｃｏｍｐｒｉｓｉｎｇ）」、および「・・・を含んでいる（ｉｎｃｌｕｄｉｎｇ）」などの変形は、そこで述べられる事物または工程あるいは事物または工程のグループを含むが、任意の他の事物または工程あるいは事物または工程のグループを排除しないことを意味すると理解される。

本発明の他の態様および実施形態は、文脈からそのようでないことが明らかでない限り、「・・・を含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語を「・・・からなる（ｃｏｎｓｉｓｔｉｎｇｏｆ）」または「・・・から本質的になる（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」という用語で置き換えた上記の態様および実施形態を提供する。

以上の説明、または以下の特許請求の範囲、あるいは添付の図面に開示され、具体的な形態で表現されるか、または開示された機能を実行するための手段または開示された結果を得るための方法もしくはプロセスに関して表現された特徴を、必要に応じて、個別に、またはそのような特徴の任意の組み合わせにて、本発明を多様な形態で実現するために利用することができる。

本発明を上述の例示的な実施形態と併せて説明してきたが、本開示に鑑み、多数の同等の変更および変形が、当業者にとって明らかであろう。したがって、上述した本発明の例示的な実施形態は、例示的なものであり、限定ではないと見なされる。本発明の趣旨および範囲から逸脱することなく、記載された実施形態に対してさまざまな変更を行うことが可能である。

誤解を避けるために、本明細書で提供される任意の理論的説明は、読者の理解を改善する目的で提供されている。本発明の発明者らは、これらの理論的説明のいずれにも拘束されることを望まない。

本明細書において使用されるいかなる項目の見出しも、構成上の目的のみのためであり、記載される主題を限定するものと解釈されるべきではない。

Claims

被験者の病理学的および／または生理学的状態を評価する方法であって、
前記被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、
前記音声記録または前記音声記録の一部を、
個々のワードまたは音節に対応する前記音声記録の複数のセグメントを識別し、
識別された前記セグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、およびワード正解率から選択される１つ以上のメトリックの値を決定し、
前記１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較する
ことによって、分析することと
を含む、方法。
個々のワードまたは音節に対応する前記音声記録のセグメントを識別することは、
前記音声記録のパワーメルスペクトログラムを取得することと、
周波数軸に沿った前記メルスペクトログラムの最大強度投影を計算することと、
セグメント境界を、前記周波数軸に沿った前記メルスペクトログラムの前記最大強度投影がしきい値と交わる時点として定めることと
を含む、請求項１に記載の方法。
前記１つ以上のメトリックの値を決定することは、前記記録に関する呼吸パーセンテージを、前記音声記録における前記識別されたセグメント同士の間の時間のパーセンテージとして、または前記記録における前記識別されたセグメント同士の間の時間と、前記記録における前記識別されたセグメント同士の間の時間および識別されたセグメント内の時間の総和との比率として決定することを含む、請求項１または２に記載の方法。
前記１つ以上のメトリックの値を決定することは、前記記録に関する無声／有声比率を、前記記録における前記識別されたセグメント同士の間の時間と、前記記録における識別されたセグメント内の時間との比率として決定することを含む、請求項１～３のいずれか一項に記載の方法。
前記１つ以上のメトリックの値を決定することは、前記記録に関する音声ピッチを、前記識別されたセグメントの各々について基本周波数の１つ以上の推定値を取得することによって決定することを含み、任意選択的に、前記音声ピッチの値を決定することは、前記識別されたセグメントの各々について基本周波数の複数の推定値を取得し、前記複数の推定値にフィルタを適用して、フィルタ処理された複数の推定値を取得することを含み、かつ／または前記音声ピッチの値を決定することは、例えば複数のセグメントについての（任意選択的に、フィルタ処理された）前記複数の推定値の平均値、中央値、または最頻値など、前記複数のセグメントについての要約された音声ピッチ推定値を取得することを含む、請求項１～４のいずれか一項に記載の方法。
前記１つ以上のメトリックの値を決定することは、前記音声記録に関する前記ワード正解率を、正しく読み上げられたワードに対応する識別されたセグメントの数を、最初の識別されたセグメントの開始と最後の識別されたセグメントの終了との間の時間で割った比率を計算することによって決定するか、または前記音声記録における正しく読み上げられたワードに対応する識別されたセグメントの数の時間につれての累積和を計算し、前記累積和のデータにフィッティングされる線形回帰モデルの傾斜を計算することによって決定することを含む、請求項１～５のいずれか一項に記載の方法。
前記１つ以上のメトリックの値を決定することは、前記記録に関するワード正解率を決定することを含み、
前記ワード正解率を決定することは、
前記識別されたセグメントの各々について１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）を計算して、各ベクトルが一セグメントに関係している値の複数のベクトルを取得し、前記セグメントについてｉｘｊ個の値のベクトルを取得することを含み、任意選択的に、１つ以上のＭＦＣＣを計算して一セグメントについて値のベクトルを取得することは、各ｉに関して前記セグメントの各フレームについてｉ個のＭＦＣＣのセットを計算し、前記セグメントについてｊ個の値のセットを補間、好ましくは線形補間によって取得することを含み、前記ワード正解率を決定することはさらに
前記値の複数のベクトルを、各クラスタがｎ個のワードの各々に対応するｎ個のあり得るラベルを有するｎ個のクラスタにクラスタ化することを含み、任意選択的に、前記値の複数のベクトルをｎ個のクラスタにクラスタ化することは、ｋ平均法を使用して実行され、前記ワード正解率を決定することはさらに
ラベルのｎ！個の順列の各々について、クラスタ化された前記値のベクトルに関するラベルを使用して、前記音声記録におけるワードのシーケンスを予測し、予測された前記ワードのシーケンスと前記ワード読み上げテストにおいて使用されたワードのシーケンスとの間のシーケンスアラインメントを実行することを含み、任意選択的に、前記シーケンスアラインメントの工程は、局所シーケンスアラインメントアルゴリズム、好ましくはスミスーウォーターマンアルゴリズムを使用して実行され、前記ワード正解率を決定することはさらに
最良のアラインメントであって、前記アラインメントにおける一致は前記音声記録における正しく読み上げられたワードに対応する、最良のアラインメントをもたらすラベルを選択することを含み、任意選択的に、シーケンスアラインメントを実行することは、アラインメントスコアを取得することを含み、前記最良のアラインメントは、アラインメントスコアが最高であるアラインメントである、
請求項１～６のいずれか一項に記載の方法。
個々のワードまたは音節に対応する前記音声記録のセグメントを識別することは、
（ｉ）前記音声記録の前記パワーメルスペクトログラムを、好ましくは前記記録において最高のエネルギーを有するフレームに対して、正規化すること、および／または
（ｉｉ）前記セグメントのうちの少なくとも１つについてのオンセット検出を、前記セグメントのメルスペクトログラムに対するスペクトル流束関数を計算することによって実行し、セグメント内でオンセットが検出されるたびに、さらなる境界を定めることによって、２つの新たなセグメントを形成すること、および／または
（ｉｉｉ）前記セグメントについて１つ以上のメル周波数ケプストラム係数（ＭＦＣＣ）を計算して、各ベクトルが一セグメントに関係している値の複数のベクトルを取得し、前記値の複数のベクトルに外れ値検出法を適用することによって、誤検出を表すセグメントを除外すること、および／または
（ｉｖ）所定のしきい値よりも短いセグメントおよび／または平均相対エネルギーが所定のしきい値を下回るセグメントを除去することによって、誤検出を表すセグメントを除外すること、
をさらに含む、請求項１～７のいずれか一項に記載の方法。
前記ｎ個のワードは、
（ｉ）１音節または２音節であり、かつ／または
（ｉｉ）各々が、それぞれのワードの内部の１つ以上の母音を含み、かつ／または
（ｉｉｉ）各々が、単一の強調された音節を含み、かつ／または
（ｉｖ）色ワードであり、任意選択的に、前記ワードは、前記ワード読み上げテストにおいて単一の色で表示されるか、または前記ワードは、前記ワード読み上げテストにおいてｍ個の色のセットから、独立して選択される色で表示される、請求項１～８のいずれか一項に記載の方法。
前記被験者からワード読み上げテストからの音声記録を取得することは、第１のワード読み上げテストからの音声記録および第２のワード読み上げテストからの音声記録を取得することを含み、前記ワード読み上げテストは、色ワードであるｎ個のワードのセットから取り出されたワードのシーケンスを読み上げることを含み、前記ワードは、前記第１のワード読み上げテストにおいて単一の色で表示され、前記第２のワード読み上げテストにおいてｍ個の色のセットから、独立して選択される色で表示され、任意選択的に、前記第２のワード読み上げテストにおけるワードのシーケンスは、前記第１のワード読み上げテストにおけるワードのシーケンスと同じである、請求項１～９のいずれか一項に記載の方法。
前記ワードのシーケンスは、所定の数のワードを含み、任意選択的に少なくとも２０個、少なくとも３０個、または約４０個のワードを含み、かつ／または、音声記録を取得することは、前記被験者に関連付けられたコンピューティングデバイスからワード記録を受信することを含み、任意選択的に、音声記録を取得することは、前記被験者に関連付けられたコンピューティングデバイスに、前記ワードのシーケンスを表示させ、かつ／または音声記録を記録させ、かつ／または固定長のトーンを発出させたのちに音声記録を記録させることをさらに含む、請求項１～１０のいずれか一項に記載の方法。
心不全の被験者を監視するか、または被験者を心不全が悪化している、もしくは非代償性心不全であると診断する方法であって、
前記被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、
前記音声記録または前記音声記録の一部を、
個々のワードまたは音節に対応する前記音声記録の複数のセグメントを識別し、
識別された前記セグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、およびワード正解率から選択される１つ以上のメトリックの値を決定し、
前記１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較する
ことによって、分析することと
を含み、
任意選択的に、請求項２～１１のいずれか一項に記載の方法をさらに含む、方法。
呼吸困難および／もしくは疲労に関連した状態であるか、または呼吸困難および／もしくは疲労に関連した状態の恐れがあると診断された被験者を監視する方法であって、
前記被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、
前記音声記録または前記音声記録の一部を、
個々のワードまたは音節に対応する前記音声記録の複数のセグメントを識別し、
識別された前記セグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、およびワード正解率から選択される１つ以上のメトリックの値を決定し、
前記１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較する
ことによって、分析することと
を含み、
任意選択的に、請求項２～１１のいずれか一項に記載の方法をさらに含む、方法。
被験者の呼吸困難および／または疲労のレベルを評価する方法であって、
前記被験者から、ｎ個のワードのセットから取り出されたワードのシーケンスの読み上げを含むワード読み上げテストからの音声記録を取得することと、
前記音声記録または前記音声記録の一部を、
個々のワードまたは音節に対応する前記音声記録の複数のセグメントを識別し、
識別された前記セグメントに少なくとも部分的に基づいて、呼吸％、無声／有声比率、音声ピッチ、およびワード正解率から選択される、好ましくは前記ワード正解率を含む１つ以上のメトリックの値を決定し、
前記１つ以上のメトリックの値を、１つ以上のそれぞれの参照値と比較する
ことによって、分析することと
を含み、
任意選択的に、請求項２～１１のいずれか一項に記載の方法をさらに含む、方法。
システムであって、
少なくとも１つのプロセッサと、
命令を含む少なくとも１つの非一時的なコンピュータ可読媒体と
を含み、
前記命令は、前記少なくとも１つのプロセッサによって実行されたときに、前記少なくとも１つのプロセッサに請求項１～１４のいずれか一項に記載の動作を含む動作を実行させる、システム。