JP2023015420A

JP2023015420A - 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置

Info

Publication number: JP2023015420A
Application number: JP2020001943A
Authority: JP
Inventors: 康宏大宮; Yasuhiro Omiya; 頼夫熊本; Yorio Kumamoto
Original assignee: PST CORP Inc; Life Science Institute Inc
Current assignee: PST CORP Inc; Life Science Institute Inc
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2023-02-01
Also published as: WO2021141088A1; TW202135048A

Abstract

【課題】音声解析により複数の精神・神経系疾患を推定する推定装置、推定装置の作動方法を提供する。【解決手段】音声解析により複数の精神・神経系疾患を推定する装置において、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法。【選択図】図４

Description

本発明は、疾患推定プログラムにおける環境に依存しない音響特徴量の抽出方法、および環境に依存しない音響特徴量を用いた疾患推定プログラム並びに疾患推定装置に関する。

被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献１は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。

国際公開第２００６／１３２１５９号

しかし、利用者が自宅や医療施設等の室内で音声を入力する際、音声の取得場所によって、室内を構成する壁、床、天井等により反射音が発生するため音響障害が生じる。この音響障害により、入力された音声から抽出される音響特徴量が変質して疾患を推定する精度が落ちる恐れがあるが、特許文献１はこの問題に言及していない。

また、特許文献１の装置は利用者の感情状態を推定するに止まり、精神系疾患または神経系疾患（以下、精神・神経系疾患と言う場合がある。）を推定するプログラムには言及していない。一般に、複数の種類の精神・神経系疾患の中から疾患を推定することは、有効なバイオマーカーが無い等の理由から難しい。

例えば、米国精神医学会（ＡＰＡ）より刊行されたＤＳＭ－５マニュアルの診断基準によれば、レビー小体型認知症とパーキンソン病の区別は、レビー小体の発生する部位に依存するため症状が類似する可能性がある。また、アルツハイマー型認知症と前頭側頭型認知症、アルツハイマー型認知症とレビー小体型認知症、レビー小体型認知症とパーキンソン病、双極性障害と大うつ病は、疾患の区別が困難である。

また、患者が認知症の初期症状として抑うつ症状を示す場合も多い。一方、患者がうつ病性仮性認知症を有する場合には、患者は実際にはうつ病であるが、認知機能が低下するように症状が現れる。そのため、患者が認知症の類であるのか、うつ病の類であるのか、認知症とうつ病を合併していずれかの症状が有意に表れているのか区別が困難である。

複数の種類の精神・神経系疾患の候補の中から疾患を推定できなければ、利用者が受診すべき医療機関の選択を誤るなどして、却って症状が悪化する危険性がある。

そこで、本発明は、音声解析により複数の精神・神経系疾患を推定する装置において、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供することを目的とする。

本発明者は、上記課題を解決するために鋭意研究を重ねた結果、複数の精神・神経系疾患を推定する装置において、利用者の音声の取得場所による影響を受けない音響特徴量を抽出する手段を備える推定装置、推定装置の作動方法を見出し、本発明を完成させるに至った。

すなわち、本発明は、以下の態様を包含するものである。
［１］録音環境で有意差の出ない音響特徴量（Ａ）、および
各々の疾患に関連する音響特徴量（Ｂ）、に基づき、
上記音響特徴量（Ａ）と上記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する抽出部と、
上記音響特徴量（Ｃ）に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える精神・神経系疾患の推定装置。
［２］推定可能な上記疾患の候補が、アルツハイマー型認知症（ＮｅｕｒｏｃｏｇｎｉｔｉｖｅＤｉｓｏｒｄｅｒＤｕｅｔｏＡｌｚｈｅｉｍｅｒ’ｓＤｉｓｅａｓｅ）、レビー小体型認知症（ＮｅｕｒｏｃｏｇｎｉｔｉｖｅＤｉｓｏｒｄｅｒｗｉｔｈＬｅｗｙＢｏｄｉｅｓ）、パーキンソン病（Ｐａｒｋｉｎｓｏｎ’ｓＤｉｓｅａｓｅ）、双極性障害（ＢｉｐｏｌａｒＤｉｓｏｒｄｅｒ）、非定型うつ病（ＤｅｐｒｅｓｓｉｖｅＤｉｓｏｒｄｅｒｗｉｔｈＡｔｙｐｉｃａｌＦｅａｔｕｒｅｓ）および大うつ病（ＭａｊｏｒＤｅｐｒｅｓｓｉｖｅＤｉｓｏｒｄｅｒ）を含むことを特徴とする、上記［１］に記載の推定装置。
［３］推定可能な上記疾患の候補の１つが、大うつ病であることを特徴とする、上記［１］に記載の推定装置。
［４］推定装置の抽出部において、録音環境で有意差の出ない音響特徴量（Ａ）および各々の疾患に関連する音響特徴量（Ｂ）、に基づき、上記音響特徴量（Ａ）と上記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量（Ｃ）に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。

本発明は、複数の精神・神経系疾患を推定するプログラムにおいて、音声の取得場所による影響を受けない音響特徴量を抽出する方法、およびその方法を用いた装置を提供することができる。

本願発明のハードウェア構成の一例を示す図である。本願発明の構成の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を詳述したフローチャートである。本願発明のフローチャートである。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の一例を示す図である。Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がある音響特徴量の一例を示す図である。Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がない音響特徴量の一例を示す図である。疾患の予測値の一例を示す図である。疾患の予測値の疾患別分布の一例を示す図である。被験者が読み上げる発話内容の一例を説明した図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。環境に依存しない音響特徴量を抽出した結果を示す表である。

以下、本発明の複数の精神・神経系疾患を推定する装置について詳細に説明するが、以下に記載する構成要件の説明は、本発明の一実施態様としての一例であり、これらの内容に特定されるものではない。なお、以降の説明において疾患の予測値を「メンタル値」と称する場合がある。
＜１．プログラム＞

実施形態に係る推定装置２００は、例えば図１に示すような構成のコンピュータ１００によって実現される。以下、例に挙げて説明する。図１は、推定装置２００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、ＨＤＤ１０４、通信インターフェイス（Ｉ／Ｆ）１０５、入出力インターフェイス（Ｉ／Ｆ）１０６、およびメディアインターフェイス（Ｉ／Ｆ）１０７を有する。

ＣＰＵ１０１は、ＲＯＭ１０３またはＨＤＤ１０４に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１０３は、コンピュータ１００の起動時にＣＰＵ１０１によって実行されるブートプログラムや、コンピュータ１００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１０４は、ＣＰＵ１０１によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス１０５は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１０１へ送り、ＣＰＵ１０１が生成したデータを他の機器へ送信する。

ＣＰＵ１０１は、入出力インターフェイス１０６を介して、ディスプレイ等の出力装置、および、マイク等の音声の入力装置、キーボードやマウス等の入力装置を制御する。ＣＰＵ１０１は、入出力インターフェイス１０６を介して、入力装置から音声データを取得する。また、ＣＰＵ１０１は、生成したデータを入出力インターフェイス１０６を介して出力装置へ出力する。

メディアインターフェイス１０７は、記録媒体１０８に格納されたプログラムまたはデータを読み取り、ＲＡＭ１０２を介してＣＰＵ１０１に提供する。ＣＰＵ１０１は、係るプログラムを、メディアインターフェイス１０７を介して記録媒体１０８からＲＡＭ１０２上にロードし、ロードしたプログラムを実行する。記録媒体１０８は、例えばＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＰＤ（ＰｈａｓｅｃｈａｎｇｅｒｅｗｒｉｔａｂｌｅＤｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１００が実施形態に係る推定装置２００として機能する場合、コンピュータ１００のＣＰＵ１０１は、ＲＡＭ１０２上にロードされたプログラムを実行することにより、制御部の機能を実現する。また、ＨＤＤ１０４には、記録部内のデータが格納される。コンピュータ１００のＣＰＵ１０１は、これらのプログラムを記録媒体１０８から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。
＜２．推定装置の構成＞

次に、実施形態に係る推定装置２００の構成について図２を用いて説明する。図２に示すように、推定装置２００は、ネットワークＮを介して、利用者端末２０１と有線または無線により通信可能に接続される。なお、推定装置２００は、他にも複数台の利用者端末２０１と接続されてもよい。

推定装置２００は、図２に示すように、通信部２０２、第１の音響特徴量の抽出部２０４および第２の音響特徴量の抽出部２０５を有する音響特徴量の抽出部２０３、算出部２０６、推定部２０７、および記憶部２０８を備える。なお、音響特徴量の抽出部２０３、算出部２０６、および推定部２０７は演算処理装置（ＣＰＵ）により実行されそれぞれが協働して制御部（不図示）として機能する。

通信部２０２は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等によって実現される。通信部２０２は、ネットワークＮと有線または無線で接続され、利用者端末２０１との間で情報の送受信を行う。

制御部は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等によって、記録部２０７に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路により実現される。

記録部２０８は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
利用者端末２０１は音声の入力部および推定結果の出力部を備える。推定装置２００は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部２０２を介して音声データを記録部２０８に格納する。

入力部は、マイクロホン等の音声の取得部を介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数（例えば、１１０２５ヘルツ等）でサンプリングすることでデジタル信号の音声データを生成する。入力部は、音声データを記録する記録部を推定装置２００の記録部２０８とは別個に備えていてもよい。この場合、入力部はポータブルレコーダでもよい。入力部の記録部は、ＣＤ、ＤＶＤ、ＵＳＢメモリ、ＳＤカード、ミニディスク等の記録媒体でもよい。

出力部は、推定結果等のデータを受信する受信部と、当該データを表示する表示部とを備える。表示部は、推定結果等のデータを表示するディスプレイである。ディスプレイは、有機ＥＬ（ＯｒｇａｎｉｃＥｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）や液晶等であってもよい。
＜＜抽出部２０３＞＞

抽出部２０３は、第１の音響特徴量の抽出部２０４および第２の音響特徴量の抽出部２０５を有する。ここで、第１の音響特徴量の抽出部２０４は、第１の音響特徴量のセットを作成する。第１の音響特徴量のセットは、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、対応のあるｔ検定（Ｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行い、何れの施設間においても有意差がない音響特徴量のセットを、第１の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるｔ検定において、Ｐ値が、０．０５を超える音響特徴量のセットであることが好ましく、０．１を超える音響特徴量のセットであることが更に好ましい。なお、Ｐ値の理論的な数値範囲は０～１であり、Ｐ値の有意水準は０．０５に設定されるのが一般的である。

第１の音響特徴量のセットは、記憶部２０８に格納される。第１の音響特徴量のセットは、後述する第２の音響特徴量のセットと一緒に用いてもよいし、第１の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。

第２の音響特徴量の抽出部２０５は、第２の音響特徴量のセットを作成する。第２の音響特徴量のセットは、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、ｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行い、いずれの施設間においても有意差がない音響特徴量のセットを、第２の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるｔ検定において、Ｐ値が、０．０５を超える音響特徴量のセットであることが好ましく、０．１を超える音響特徴量のセットであることが更に好ましい。

第２の音響特徴量のセットは、記憶部２０８に格納される。第２の音響特徴量のセットは、第１の音響特徴量のセットと一緒に用いてもよいし、第２の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。

Ｐ値の閾値設定の根拠について説明する。図６は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がある場合の一例を示す図である。一方、図７は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がない音響特徴量の一例を示す図である。健常者が異なる施設間で、同一の発話内容または異なる発話内容で、音声を発話して取得し、ある音響特徴量を比べた時に、図６に示すように有意差が出るということは、その音声の属性の違いは環境だけなので、環境に依存する音響特徴量である疑いが強い。従って、音響特徴量のセットがＰ値で０．０５を超える場合には、図７に示すように有意差がなく、環境に依存しない音響特徴量であると選別することができる。

さらに、音響特徴量のセットがＰ値で０．１を超える場合には、健常者が各施設をまわる途中で、ちょっとした身体の調子に影響されず、かつ環境に依存しないであろう音響特徴量であると選別することができる。また、音響特徴量のセットがＰ値で０．１を超える場合には、疾患の推定に用いられる少なくとも１つ以上の音響特徴量（後に特徴量Ｆ（ａ）として説明する。）に影響を与え難いため、疾患推定プログラム作成の観点からも好ましい。

第１の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、施設の環境による差異を排除する目的で、施設間の音響特徴量の有意差を測定する。例えば、７つの施設で（それぞれ施設１～施設７と称する）により採取された音声については、施設１と施設２、施設１と施設３のように_７Ｃ_２通りのペアを作りいずれのペアにおいても有意差が無い音響特徴量を抽出する（Ｐａｉｒｅｄｔ－ｔｅｓｔ）。このＰａｉｒｅｄｔ－ｔｅｓｔは、対象となる施設すべてにおいて、一人または複数の健常者によって発話された音声を取得する。ここで健常者とは、解析対象である疾患に罹患していないものを言う。

このＰａｉｒｅｄｔ－ｔｅｓｔに用いられる健常者は１人でもよいが、より信頼性を高めるには２人以上が好ましく、３人以上が更に好ましい。また、複数人の健常者により実施される場合は、同じ施設で取得された音声を複数人分まとめて処理してもよいし、個別に処理してもよい。個別に処理する場合は、このテストで調査されるペアの数は_７Ｃ_２×人数となる。

また、各施設で健常者が複数のフレーズを発話して音声を取得した場合には、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、各フレーズ毎に有意差が無い音響特徴量のセットが抽出される。

次に第２の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、患者群（および健常者群）による差異を排除する目的で、患者群による音響特徴量の有意差を測定する。例えば、ある期間に複数の大うつ病患者の音声（大うつ病Ａ群）を取得し、同じ期間に複数の健常者の音声（健常者Ａ群）を取得し、そして、別の期間に複数の大うつ病患者の音声（大うつ病Ｂ群）を取得し、同じ期間に複数の健常者の音声（健常者Ｂ群）を取得した場合、ｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）は、同じ疾患（または健常）における各群同士（大うつ病Ａ群と大うつ病Ｂ群、健常者Ａ群と健常者Ｂ群）の音響特徴量の有意差を測定する。また、各群の患者（または健常者）が複数のフレーズを発話して音声を取得した場合、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、各フレーズ毎に有意差が無い音響特徴量のセットが抽出される。

音響特徴量の抽出部２０３は、所望のＰ値を超える第１の音響特徴量のセットと第２の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義する。なお、第３の音響特徴量のセットは、所望のＰ値を超える第１の音響特徴量のセットのみに基づいて音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義することもできる。

第３の音響特徴量のセットは、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））の抽出の際に用いる。例えば、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量のセットと、上記第３の音響特徴量のセットの共通特徴量を、真の複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））として抽出する。
＜＜抽出部２０３での処理のフロー＞＞

ここで、抽出部２０３における処理のフローに関して、図３を参照しつつ説明する。作業を開始すると、ステップＳ１００１において、抽出部２０３は、予め音声取得後に記憶部２０８内に格納された音声データの発話ラベリング作業を行う。次に、ステップＳ１００２において、抽出部２０３は、発話ラベリング作業が完了した音声データを正規化する処理を行う。正規化処理を行うことにより前処理の工程が完了する。次に、ステップＳ１００３において、抽出部２０３は、前処理が完了した音声データから音響特徴量を抽出する。

次に、ステップＳ１００４Ａにおいて、抽出部２０３の第１の音響特徴量の抽出部２０４は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声から作成された音響特徴量に関して、対応のあるｔ検定（Ｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行う。次に、ステップＳ１００５Ａにおいて、第１の音響特徴量の抽出部２０４は、所望のＰ値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第１の音響特徴量のセットとして定義する。

一方、ステップＳ１００４Ｂでは、抽出部２０３の第２の音響特徴量の抽出部２０５は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声から作成された音響特徴量に関して、ｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行う。次に、ステップＳ１００５Ｂにおいて、第２の音響特徴量の抽出部２０５は、所望のＰ値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第２の音響特徴量のセットとして定義する。

次に、ステップＳ１００６において、音響特徴量の抽出部２０３は、所望のＰ値を超える第１の音響特徴量のセットと第２の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義して、作業を終了する。なお、第３の音響特徴量のセットを、所望のＰ値を超える第１の音響特徴量のセットのみに基づいて第３の音響特徴量のセットとして定義する場合には、ステップＳ１００６を省略することができる。

以上のような処理を行うことにより、音声の取得場所による影響を受けない第３の音響特徴量のセットを、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））と組合せて、より精度の高い疾患の推定を行うことができる。
＜＜算出部２０６・推定部２０７＞＞

算出部２０６は、後述する疾患の推論モデルに基づき、少なくとも１つの音響特徴量の組合せに基づき、複数の疾患の予測値を算出する。推定部２０７は、疾患の予測値を入力として複数の精神・神経系疾患を推定する。算出部２０６、推定部２０７については後で詳述する。
＜＜疾患の予測値の算出＞＞

疾患の予測値の算出の概略を説明する。算出部２０６では、被験者の音声データから、複数の音響特徴量を抽出する段階を経る。音響特徴量は、患者の音声データから抽出される。音響特徴量は、音が伝わる際の特徴を特徴量化したものである。例えば、音響特徴量にはゼロ点交差率やハースト指数等がある。ゼロ点交差率は、音声の音圧の波形が基準圧力を横切る単位時間あたりの回数を、音声における波形の変化の激しさの度合いとして算出したものである。ハースト指数は、音声の波形における変化の相関性を示す。

なお、ここからは、疾患を推定するためのプログラムの説明に入るが、前述した第１ないし第３の音響特徴量のセットと便宜的に区別して音響特徴量の説明をする必要があるため、「音響特徴量」を「音響パラメータ」と称して説明する。但し、本願明細書において、本質的には音響特徴量と音響パラメータは同義であり、どちらも推論装置の入力として用いられ、エンティティの持つ特性を表現する列、程度の意味を有する。

疾患の推定装置に使用される音響パラメータには、第１の音響パラメータと第２の音響パラメータがある。第１の音響パラメータは、特定の疾患を推定すべき被験者の音声から抽出した音響のパラメータである。第２の音響パラメータは、予め記憶部２０８に格納されている音響のパラメータである。第２の音響パラメータは、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、または双極性障害の疾患を有する患者の音声データから抽出を行い、各音響パラメータと各疾患が予め紐付けされている。

本願発明で使用する音響パラメータには、以下のような項目がある。
１）音量のエンベロープ（アタックタイム、ディケイタイム、サステインレベル、リリースタイム）
２）波形の変動情報（Ｓｈｉｍｍｅｒ，Ｊｉｔｔｅｒ）
３）ゼロ点交差率
４）ハースト指数
５）ＶＯＴ（ＶｏｉｃｅＯｎｓｅｔＴｉｍｅ）
６）メル周波数ケプストラムのある係数に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
７）周波数スペクトラムの変化の速さにおける発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
８）メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
９）メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
１０）周波数スペクトラム９０％ロールオフの発話内時間変化における２次回帰近似に対する二乗誤差
１１）周波数スペクトラム重心の発話内時間変化における２次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速（一定時間におけるモーラ数）、ポーズ・間、音量などが挙げられる。

推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。推論モデルには、線形モデルによる回帰、線形回帰、リッジ回帰、Ｌａｓｓｏ、ロジスティック回帰等の分類アルゴリズムを用いてもよい。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。

推定プログラムの作成段階において、アルゴリズム作成者は、上記の第２の音響パラメータの項目の中から、変数ｆ（ｎ）として使用する任意の音響パラメータをより良い組合せとなるようにステップワイズ法により検討を行い、１つまたは複数選択する。次に、選択された任意の音響パラメータに対し係数を付し、１つまたは複数の音響パラメータを作成する。さらに、これらの音響パラメータを組合せて、パラメータＦ（ａ）を作成する。

ステップワイズ法には変数増加法、変数減少法、変数増減法の３種類があるがいずれを用いてもよい。ステップワイズ法で用いられる回帰分析には、線形判別式やロジスティック回帰分析等の線形分類の処理が含まれる。変数ｆ（ｎ）およびそれらの係数、すなわち以下の式で示される式Ｆ（ａ）の係数ｘｎは回帰係数と呼ばれ、関数ｆ（ｎ）に付与される重みである。

回帰係数は、学習アルゴリズムの作成者が選択した後に、データベースに蓄積される疾患情報などから、推定精度を高めるための機械学習により品質の改善を行ってもよい。

被験者の疾患の予測値は、例えば以下の式Ｆ（ａ）に基づいて１つ以上の音響パラメータから算出される。

ここで、ｆ（ｎ）は、上記の音響パラメータの項目（１）ないし（１１）の中からいずれか１つ以上の第２の音響パラメータを任意に選択したものである。ｘｎは疾患に固有の回帰係数である。ｆ（ｎ）、ｘｎは、予め推定プログラムの記録装置１２０に記録されていてもよい。推定プログラムの機械学習の過程でパラメータＦ（ａ）の回帰係数を改善してもよい。

図２の算出部２０６は、第２の音響パラメータの組合せに基づいて、健常者と疾患を有する被験者を区別する、あるいは疾患どうしを区別するためのパラメータを算出する。このパラメータから、基準範囲と、基準範囲から被験者の値がどの程度離れているのかを算出するためのスコアリングを行うことにより、被験者の疾患の予測値を算出する。

図８は、ある一つの音響パラメータの強度が、疾患毎に異なっていることを示すイメージ図である。被験者は疾患Ａのスコアが最も高いことを示している。従って、被験者の疾患Ａに対する予測値は、他の疾患群と比較して高く算出される。また、例えば、強度５０を閾値と設定することにより、疾患Ａ、疾患Ｄ、疾患Ｅの群と、疾患Ｂ、疾患Ｃの群とに分類できる。

図８は、１つの音響パラメータの強度を基に疾患の予測値を算出しているが、実際は一つの音響パラメータのみで疾患を分類できることは困難である。そのため、いくつかの音響パラメータの組み合わせにより求められるパラメータＦ（ａ）を算出して、疾患を分類しても良い。

このパラメータＦ（ａ）を基に、ラベル付けされた被験者の音声について疾患の予測値を計算し、疾患ごとの予測値の分布を求める。これにより、各疾患を分類することができる。

図９は、ある３つの音響パラメータの組み合わせによって得られた疾患の予測値（図９中では、「メンタル値」と記載している）の分布画像である。

図９から、レビー小体型認知症の患者群の予測値の分布が、他の疾患の患者群及び健常者群の予測値の分布から分離できることがわかる。本願発明は、疾患ごとに、他の疾患と区別できるように音響パラメータの組み合わせを設定し、パラメータＦ（ａ）を計算し、パラメータＦ（ａ）を入力として、各対象者の音声がどの疾患に当てはまるかを判定することができる。

別の手法としては、各患者の音声から、疾患毎のパラメータＦ（ａ）を抽出し、どの疾患のパラメータをより多く有しているかを求め、疾患の予測値を互いに比較することにより、患者が罹患している疾患と推定することができる。

この場合、疾患の予測値は、その疾患に罹患している程度ととらえることができる。各疾患の予測値を比較することにより、どの疾患に罹患しているかを確率で表現することができる。

このようにして、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の６疾患を含む患者の音声、および健常者の音声から、それぞれの疾患に関連するパラメータ（ａ）を抽出し、それぞれの疾患の予測値を算出する。

また、対象とする疾患に関して、更に血管性認知症（ＶａｓｃｕｌａｒＮｅｕｒｏｃｏｇｎｉｔｉｖｅＤｉｓｏｒｄｅｒ）、前頭側頭型認知症（ＦｒｏｎｔｏｔｅｍｐｏｒａｌＮｅｕｒｏｃｏｇｎｉｔｉｖｅＤｉｓｏｒｄｅｒ）、気分循環症（ＣｙｃｌｏｔｈｙｍｉｃＤｉｓｏｒｄｅｒ）、気分変調症（ＰｅｒｓｉｓｔｅｎｔＤｅｐｒｅｓｓｉｖｅＤｉｓｏｒｄｅｒ）の４疾患を加えた１０疾患を含む患者の音声から推定プログラムを作成してもよい。

最終的には、判別対象者が発話した音声を解析することにより、上述の６疾患乃至１０疾患のいずれかであるか、または健常であるかを推定部２０７で推定する。

推定プログラムの推定フローに関して、上述したように、個別の疾患に対し、それぞれの疾患の特徴量（ａ）を抽出して疾患の予測値を算出してもよいが、まず、疾患群に関する音響特徴量の組合せを作成し、疾患群に関する特徴量Ｆ（ａ）を推定部への入力として用い、複数の段階に分けて入力・推定を行うことで、最終的に各疾患または健常の推定をしてもよい。
＜＜推定装置の処理＞＞

図４は、図２に示した推定装置２００の推定処理の一例を示す。図４は、推定装置２００の演算処理装置（ＣＰＵ）が推定装置２００の記憶部２０８に記憶された推定プログラムを実行することにより実現される。

処理を開始すると、ステップＳ２００１において、制御部が音声データを取得する。音声データは、利用者端末２０１の入力部から取得してもよいし、一度記憶部２０８に格納された後に制御部が読みだしてもよい。次に、ステップＳ２００２において、音響特徴量の抽出部２０３が音声データから第１の音響パラメータを抽出する。次に、ステップＳ２００３において、第１の音響パラメータから環境に依存する音響特徴量を除外して、加工済の第１の音響パラメータを抽出する。例えば、第１の音響パラメータと抽出部２０３で得た第３の音響特徴量のセットを比較して、共通しない部分が環境に依存する音響特徴量と判断できる。

次に、ステップＳ２００４において、算出部２０６は、第２の音響パラメータから得たパラメータＦ（ａ）とステップＳ２００３で得た加工済の第１の音響パラメータを比較して、各疾患の予測値を算出する。

次に、ステップＳ２００５において、推定部２０７は、特定の疾患とその他を区別するための個々の閾値を設けることにより、疾患の予測値を算出した複数の患者を、特定すべき対象とその他に判別して、処理を終了する。後述する実施形態では、閾値を超えた場合とそうでない場合とに分類して判定している。
＜３．プログラムの利用分野＞

本発明の推定プログラムは、遠隔地からの音声であっても解析することが可能であるから、オンライン診療やオンラインカウンセリングの場面で用いることができる。精神・神経系疾患を診断する場合、医師は問診や面談によって、患者の表情、動き、会話の状況などを観察する。しかし、患者は、精神・神経系疾患に対する偏見を感じることがあるため、精神科の病院やクリニックに行くことが躊躇われることがある。

オンラインによる診療やカウンセリングは、施設に出向かなくとも医師やカウンセラと面談可能である。そのため、精神神経系疾患以外の他の病気と比して、精神・神経系疾患はオンライン診療に非常に親和性が高い。

医師、カウンセラ、および臨床心理士は、オンラインで患者（またはクライアント）と面談する場合に、本推定プログラムによる解析を行うことができる。これにより、非常に簡便に精神・神経系疾患に罹患しているかどうか、またその疾患の種類について推定することができる。なお、面談時には、ＭＭＳＥやＢＤＩ、ＰＨＱ－９等、各種心理テストや認知機能テストを併せて行うことができる。

この場合、患者側に、音声を送信できるコンピュータハードウエアのほか、面談用のモニター画面、音声収録用のマイクが必要である。

患者の自宅にこれらの装置がない場合は、例えば、かかりつけの医院などに装置を備えることができる。患者はかかりつけの病院に通って、そこで装置を通して面談することができる。

また、例えば、患者が身体疾患の治療を目的としてかかりつけの病院に通う場合、かかりつけの医師が診断して精神・神経系疾患の疑いがあると判断すれば、その場で音声を取得して本発明のプログラムで解析することが可能である。

その他の場所でも、精神科医、神経内科医がオンライン診療可能な状態であれば、かかりつけの医師と精神科医、神経内科医がオンライン上で連携して診断を行うことが可能である。

本発明の推定プログラムは、特定の疾患を推定するための感度を上げる（この場合、特異度は一般に下がる）ことにより、スクリーニング装置として利用することができる。

会社や自治体などで行われている健康診断や、医療機関で行われている人間ドックなどの検査項目として利用することにより、これまで発見が困難で、簡便な検査法がなかった精神・神経科の疾患の早期発見に寄与することができる。

例えば、眼底検査、視力検査、聴力検査などと同様に、一連の検査の一つとして音声の取得を行い、その場で、あるいは他の検査結果と一緒にプログラムによる推定結果を通知することができる。

本発明の推定プログラムは、特別な装置を必要としないので、手軽にだれでも利用できる。一方で、利用場面が精神・神経系疾患に限定されるので、必ずしも利用頻度が高いものではない。そこで、高価な検査装置を備えた専門病院に本発明の推定装置一式を備えておき、かかりつけ医などが、対象患者が来院した時に、その専門病院に検査を依頼することができる。

精神・神経系疾患で使用される装置としては、光トポグラフィ、心筋シンチグラフィ、脳血流シンチグラフィ、ＣＴ、ＭＲＩ、脳波等が挙げられる。これらは、疾患の推定や除外診断に用いられるが、本発明の推定装置は極めて侵襲性が低いので、これら検査と併せて、あるいはこれら検査に先駆けて用いることができる。

本発明の推定プログラムは、自宅でも簡便に利用できるので、診断後のモニタリング装置として利用することができる。例えば、気分障害群の疾患の場合、患者の疾患に応じて薬剤や心理療法が処置されるが、これら療法の効き具合を測定することができる。また、継続的に利用することにより、症状が安定しているか、再発の予兆が無いかなどを日々観察することができる。

本発明の推定プログラムは、発話による音声を解析するものであるので、高齢者の見守り装置としての適用が可能である。

一人暮らしの高齢者が、元気に過ごしているかどうかは近親者にとって気になるところである。電話やビデオ電話等の通信手段を用いた高齢者見守りシステムに、本発明の推定プログラムを実装することにより、生活反応を見るだけでなく、認知症やうつの傾向がないかどうかも測定することができ、一人暮らしであっても適宜対処することが可能となる。

これらさまざまな実施形態において、音声の取得方法としては特に制限はないが、（１）対象者のほうから、電話やインターネットを通じで録音した音声を送付する方法、（２）検査者のほうから対象者へ電話やインターネットを通じでコンタクトし、会話をすることにより音声を取得する方法、（３）対象者の住居に音声取得装置を備えておき、対象者がその装置に録音する方法、（４）音声取得装置が定期的に自動起動し、対象者へ会話を行うことにより、対象者の音声を取得する方法等が挙げられる。

音声を取得するにあたって、対象者がスムーズに発話できるように、推定装置に備えられたディスプレイに発話すべき文章を表示するか、またはスピーカーから発話すべき文章の音を再生するのが好ましい。
録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
＜４．推定プログラムのフロー＞
＜＜推定フロー１＞＞

例えば、まず、第１ステップで、（１－Ａ）アルツハイマー型認知症、レビー小体型認知症、パーキンソン病を含む認知症群、（１－Ｂ）大うつ病、非定型うつ病、双極性障害を含む気分障害群、（１－Ｃ）健常の３群に推定する。

次に、第２ステップで、（１－Ａ）認知症群にクラス分けされた患者の音声を、（１－Ａ－１）アルツハイマー型認知症、（１－Ａ－２）レビー小体型認知症、（１－Ａ－３）パーキンソン病の３つの疾患のいずれであるかを推定するプログラムにより、認知症群の患者の疾患を推定する。一方、（１－Ｂ）気分障害群にクラス分けされた患者の音声は、（１－Ｂ－１）大うつ病、（１－Ｂ－２）非定型うつ病、（１－Ｂ－３）双極性障害の３つの疾患のいずれかであるかを推定するプログラムにより、気分障害群の患者の疾患を推定する。
＜＜推定フロー２＞＞

別の判定フローの態様としては、まず、第１ステップで（２－Ａ）アルツハイマー型認知症、レビー小体型認知症、パーキンソン病を含む認知症群、（２－Ｂ）大うつ病、非定型うつ病、双極性障害を含む気分障害群、（２－Ｃ）健常の３群に推定する。

次に、第２ステップで、（２－Ａ）認知症群にクラス分けされた患者の音声を、（２－Ａ－１）レビー小体型認知症であるか、それ以外の認知症であるかを推定するプログラムによりレビー小体型認知症であるか否かを判定する。一方、（２－Ｂ）気分障害群にクラス分けされた患者の音声は、（２－Ｂ－１）大うつ病であるか、それ以外の気分障害であるかを推定するプログラムにより大うつ病であるか否かを判定する。

そして、同様に、（２－Ａ－２）アルツハイマー型認知症であるか、それ以外の認知症であるかを推定するプログラム、（２－Ａ－３）パーキンソン病であるかそれ以外の認知症であるかを推定するプログラム、（２－Ｂ－２）非定型うつ病であるか、それ以外の気分障害であるかを推定するプログラム、（２－Ｂ－３）双極性障害であるか、それ以外の気分障害であるかを推定するプログラムを、用いることにより、最終的にアルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害のいずれであるかを判定することができる。
＜＜推定フロー３＞＞

また、別の実施態様としては、第２ステップにおいて、（３－Ａ）認知症群にクラス分けされた患者の音声を、（３－Ａ－１）アルツハイマー型認知症であるか、レビー小体型認知症であるかを推定するプログラム、（３－Ａ－２）レビー小体型認知症であるか、パーキンソン病であるかを推定するプログラム、（３－Ａ－３）パーキンソン病であるか、アルツハイマー型認知症であるかを推定するプログラムの３つの推定プログラムを合わせて用いることにより、認知症群にクラス分けされた患者の疾患を推定する。

一方、（３－Ｂ）気分障害群にクラス分けされた患者の音声を、（３－Ｂ－１）大うつ病であるか非定型うつ病であるかを推定するプログラム、（３－Ｂ－２）非定型うつ病であるか双極性障害であるかを推定するプログラム、（３－Ｂ－３）双極性障害であるか大うつ病であるかを推定するプログラムの３つの推定プログラムを合わせて用いることにより、気分障害群にクラス分けされた患者の疾患を推定する。
＜＜推定フロー４＞＞

また、上述した認知症群、気分障害群、健常の３クラスに分ける第１ステップは、まず（４－Ａ）健常群と（４－Ｂ）それ以外の疾患群の２クラスに分別し、次に疾患群を（４－Ｂ－１）認知症群と（４－Ｂ－２）気分障害群に分別する２段階であってもよい。
（推定プログラム作成時に取得された音声の対象者）

第２の音響パラメータの音声データの取得に関し説明する。音声を取得する対象者は以下の基準により選択されることが好ましい。

（ア）取得された音声が疾患解析に用いられることに十分な説明を受け、対象者は文書による同意をする。

（イ）本推定システムでは、言葉の意味または内容（テキスト）を基に疾患の推定解析を行わない。よって、基本的には国籍や母語に制限がない。しかし、人種間、言語間の差がある可能性はあるため、同じ人種と言語を比較対照として判定することが好ましい。例えば、利便性の観点から、日本で本発明を実施する場合は、母語が日本語である者から音声を取得して本推定プログラムを作成し、日本語の発話で疾患を推定することが好ましい。また、英語圏で本発明を実施する場合は、母語が英語である者から音声を取得して本推定プログラムを作成し、英語の発話で疾患を推定することが好ましい。

（ウ）年齢は、発話可能である限り特に制限はない。ただし、声変わりや情緒的な安定性を考慮すると、１５歳以上が好ましく、１８歳以上が更に好ましく、２０歳以上が特に好ましい、また、年齢による物理的な発話の困難さを考慮すると、１００歳未満が好ましく、９０歳未満が更に好ましい。

（エ）日本で本発明を実施する場合は、音声を取得する際、日本語の文章の読み上げ（発話）ができる者が好ましい。但し、日本語以外の母語を有する者を推定する場合には、該当する母語の文章を読み上げることにより判別が可能である。

（オ）推定アルゴリズムの作成に当たって、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の６疾患にそれぞれ該当する者を対象とした音声を用いることが好ましい。ただし、これらの疾患を併発している者を除く。これら６疾患に加え、血管性認知症、前頭側頭型認知症、気分変調症、気分循環性障害にそれぞれ該当するものを対象とした音声を用いることもできる。さらに、統合失調症、全般性不安障害、その他の精神神経疾患にそれぞれ該当する者を対象とした音声を用いることもできる。

（カ）健常者は、認知症でも気分障害でもないことが確認された者が好ましい。
＜＜音声を取得する手段＞＞

音声を取得する手段について説明する。

（１）マイクは、音声を取得できるものであれば特に制限はない。例えば、ハンドマイク、ヘッドセット、携帯端末に内蔵されたマイク、パーソナルコンピュータやタブレット等に内蔵されたマイクから選択してもよい。対象者の音声のみを取得できるという観点からは、ピンマイク、指向性マイク、携帯端末に内蔵されたマイクが好ましい。

（２）レコーダは、ポータブルレコーダ、パーソナルコンピュータ、タブレット、携帯端末に内蔵されたまたは外付けされた記録媒体を用いることができる。

（３）疾患を推定する場合の発話内容に制限はない。例えば、対象者が自由に行った発話、対象者が予め用意された文章を読み上げた発話、電話または対面の会話による発話を用いることができる。ただし、推定アルゴリズムを作成する場合には、対象者に共通した発話内容を用いるのが好ましい。そのため、推定アルゴリズムを作成する場合には、対象者が予め用意された文章を読み上げた発話が好ましい。

発話時間に関しては、短すぎると推定結果の精度が低くなる。好ましくは１５秒以上、更に好ましくは２０秒以上、特に好ましくは３０秒以上である。また、必要以上に長すぎると結果を得るまでに時間がかかる。好ましくは５分以下、更に好ましくは３分以下、特に好ましくは２分以下である。

（４）観察・検査項目に関して、特に制限はない。ただし、対象者のプロファイルの差によって音声に差があるかどうかを検証するため、情報を得ておくことが好ましい。情報には、一般情報として性別、年齢、身長、体重等が含まれ、医療情報として確定診断名、重症度、身体疾患の合併症、既往歴、発症時期等が含まれ、検査情報としてＭＲＩ、ＣＴ等、問診及び質問としてＰａｔｉｅｎｔＨｅａｌｔｈＱｕａｓｔｉｏｎｎａｉｒｅ（ＰＨＱ）－９、ＴｈｅＭ．Ｉ．Ｎ．Ｉ－ＩｎｔｅｒｎａｔｉｏｎａｌＮｅｕｒｏｐｓｙｃｈｉａｔｒｉｃＩｎｔｅｒｖｉｅｗ（Ｍ．Ｉ．Ｎ．Ｉ．スクリーン）、ＨａｍｉｌｔｏｎＤｅｐｒｅｓｓｉｏｎＲａｔｉｎｇＳｃａｌｅ（ＨＡＭ－ＤまたはＨＤＲＳ）、ＹｏｕｎｇＭａｎｉａＲａｔｉｎｇＳｃａｌｅ（ＹＭＲＳ）、Ｍｉｎｉ－ＭｅｎｔａｌＳｔａｔｅＥｘａｍｉｎａｔｉｏｎ（ＭＭＳＥ）、ＢｉｐｏｌａｒＳｐｅｃｔｒｕｍＤｉａｇｎｏｓｔｉｃＳｃａｌｅ（ＢＳＤＳ）、ＴｈｅＭｏｖｅｍｅｎｔＤｉｓｏｒｄｅｒＳｏｃｉｅｔｙにより改訂されたＴｈｅＵｎｉｆｉｅｄＰａｒｋｉｎｓｏｎ’ｓＤｉｓｅａｓｅＲａｔｉｎｇＳｃａｌｅ（ＭＤＳ－ＵＰＤＲＳ）等が含まれる。

（５）音声を取得する環境に関して、患者の発話のみを取得できる環境であれば特に制限はない。静音な環境、具体的には４０ｄＢ以下が好ましく、３０ｄＢ以下が更に好ましい。具体的には、診察室、カウンセリングルーム、会議室、聴力検査室、ＣＴ、ＭＲＩ、Ｘ線等の検査室がある。また、対象者の自宅の静かな部屋で音声を取得してもよい。

前述のように作成された推定プログラムは、精神神経疾患に罹患していると疑われる者であっても、健常と推定される者であっても特に制限なく利用できる。使用場面も、医師による診察のツールとして、あるいは健康診断や人間ドックの検査項目として、対象者の音声を取得すれば簡便に利用可能である。

音声取得回数に関して、１回あれば判別可能であるが、例えば、健常人でもライフイベントなどにより抑うつ状態を呈することがあり、たまたま音声取得の時に気分が落ち込んでいたということは大いにあり得る。また、大うつ病、非定型うつ病などは、朝と夜とで気分の良し悪しが変化することがある。従って、何らかの精神疾患に罹患しているとの推定結果が示された場合には、更に少なくとも１回、音声取得を行い再度推定するのが好ましい。

本発明の推定システム１００の使用形態としては、医師、臨床心理士、看護師、検査技師、カウンセラその他本発明の装置を扱う人が、音声を取得する被験者と対面しながら使用する。処置室、カウンセリングルーム等の静かな環境が保たれた部屋においては、本発明の装置を扱う１人または複数人が音声を取得する被験者に対して、オープンな状態で直接音声取得の仕方を説明しながら使用する。また、聴力検査室、その他各種の検査室に音声を取得する被験者が入り、前述の取扱者が、ガラス越しに、またはモニターの映像により被験者を見ながら、使用する。被験者が自宅など遠隔地にいる場合に、予め音声取得の方法を被験者に説明しておき、指定された日時までに被験者自身で録音を行う、などの方法がある。遠隔地で行う場合には、別途通信回線を利用してカメラ映像等で本人を確認しながら音声を取得することも可能である。

また、被験者が医療機関やカウンセリングルームへ通った際に音声を取得し推定することもでき、また、企業や自治体の健康診断や、人間ドックの一検査項目として音声を取得し推定することもできる。
＜５．推定プログラム１の作成例＞
＜＜環境に依存する音響特徴量を除外して推定処理を行う一例＞＞

図３および図４に示す要領で、第３の音響特徴量のセットを用いて環境に依存する音響特徴量を除外しその後に推定を行う処理を検証した。
＜＜推定プログラム１の作成と結果＞＞

第１ないし第３の音響特徴量のセットを抽出した後で推定処理を行った場合の検証の一例を紹介する。まず、第１の音響特徴量抽出の際に用いる同一の発話内容として、発明者は、同一の発話内容の一例として、１３の定型文（それぞれ２回復唱させる。）、３つの長母音、および「パタカ」というフレーズを、計３０発話分を準備し、複数の健常者に７つの施設間でこれを発話させて音声を取得した。なお、第２の音響特徴量抽出の際に用いる異なる発話内容に関しては、健常者に自由に発話させて音声を取得した。

取得した発話音声にラベリング作業を行い、正規化処理を行った後、解析ソフトＯｐｅｎＳＭＩＬＥにより７４４０個の音響特徴量を抽出した。次に、対応のあるｔ検定（Ｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行い、Ｐ値を０．５超に設定して、上記第１の音響特徴量のセットとして、１７０個の音響特徴量を取得した。次に、ｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行い、Ｐ値を０．５超に設定して、上記第２の音響特徴量のセットとして、５４９個の音響特徴量を取得した。次に、第１の音響特徴量のセットと第２の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第３の音響特徴量のセットとして、１６９個の音響特徴量を取得した。当該１６９個の音響特徴量の９９．４％は、第１の音響特徴量のセットに含まれていた。上記結果から、所望のＰ値を超える第１の音響特徴量のセットのみに基づいて第３の音響特徴量のセットとして定義することもできる。

次に、環境因子のない上記の１６９個の音響特徴量を第２の音響パラメータから得たパラメータＦ（ａ）と比較して、環境に依存する音響特徴量を除外した推論プログラムを得て、検証を行った。学習データとして大うつ病患者３０人、合計９６３フレーズ、および健常者３０人、合計９６５フレーズを用いた。検証データとして大うつ病患者１４人、健常者３０人を用いた。検証データは、各人の約３０フレーズについてそれぞれ大うつ病または健常の判定を行い、その３０フレーズの多数決により多く判定された方を最終的な推定結果とした。

図５は、検証データの混合行列を示したものである。ＨＥは健常、ＭＤＤは大うつ病を示す。図５に示す通り、推定プログラムの正診率は７９．５％であった。
＜６．推定プログラム２の作成例＞
＜＜複数の疾患と音声データとの関連付け作業－音声取得＞＞

推定プログラム作成時の手順を記載する。複数の疾患と音声データとの付け作業を行うため、平成２９年（２０１７年）１２月２５日から平成３０年（２０１８年）５月３０日の間に、以下の患者及び健常者の音声を取得した。

・アルツハイマー型認知症患者の音声２０例
・レビー小体型認知症患者の音声２０例
・パーキンソン病の患者の音声２０例
・大うつ病患者の音声２０例（大うつ病Ａ群）
・双極性障害患者の音声１６例
・非定型うつ病患者の音声１９例
・健常者の音声２０例（健常者Ａ群）

また、令和元年（２０１９年）６月２８日から令和元年（２０１９年）１０月３１日の間に、以下の患者及び健常者の音声を取得した。

・アルツハイマー型認知症患者の音声３７例
・レビー小体型認知症患者の音声５７例
・その他の認知症（血管性認知症、前頭側頭型認知症を含む）患者の音声２８例
・パーキンソン病の患者の音声３５例
・大うつ病患者の音声５７例（大うつ病Ｂ群）
・双極性障害患者の音声３４例
・非定型うつ病患者の音声３０例
・その他のうつ病（気分変調症、気分循環症を含む）患者の音声３８例
・健常者の音声６０例＋２８例（４人が７つの異なる施設で音声を取得したもの：健常者Ｂ群）

なお、これら患者は精神科、神経内科等、専門分野の医師により、ＤＳＭ－５またはＩＣＤ－１０の基準によりそれぞれの疾患と認められた患者である。また、ＰＨＱ－９、ＭＭＳＥ等を行うことにより、他の精神・神経系疾患を合併していないことを医師が確認した。

健常者は、ＰＨＱ－９、ＭＭＳＥ等を行うことにより、抑うつ症状や認知機能の低下が認められないことを確認した。

音声取得には、オリンパス製ピンマイク、ローランド製ポータブルレコーダを用いた。音声データはＳＤカードに記録した。

発話内容は、図１０に示す１７の文章を被験者が、１～１３まではそれぞれ２回ずつ、１４～１７までは１回ずつ読み上げた。

音声を取得するに当たって、被験者には、精神神経系の病気の患者の声と病気との関係性を解析する研究に用いること、発話の内容、音声取得の方法を説明し、書面による同意書にサインしていただいた。また、音声を含む取得したデータは、個人を特定できない形式に記号化して管理した。

被験者１人に付き、上記１７種類の発話内容のうち、１～１３までの発話（各２回で１例あたり２６発話）、１４～１７までの発話（各１回で１例あたり４発話）の合計３０発話について、長いものは２つに分解し、また不鮮明なものは除外することにより、各疾患の患者および健常者の音声を得た。
＜＜推定プログラム２＞＞
＜＜環境に依存しない音声特徴量の抽出＞＞
健常者Ｂ群の４人の健常者については、７つの異なる施設（病院の診察室、処置室）において音声を取得した。

これらの音声の正規化処理を行った後に、ＯｐｅｎＳＭＩＬＥを用いて音声解析を行って７４４０個の音響特徴量を抽出した。その特徴量に関し、フレーズ毎に対応のあるｔ検定（Ｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行った。その結果、「むかしむかしあるところに」では、いずれの施設間においても有意差がない（Ｐ＞０．５）音響特徴量として５０５個を得た。また、同様にして、「昨日はよく眠れました」では５５３個、「おこりっぽいです」では７２７個、「がんばるぞー」では５２５個の、いずれの施設間においても有意差がない音響特徴量を得た。

また、同じ特徴量に関し、健常者Ａ群と健常者Ｂ群、及び大うつ病Ａ群と大うつ病Ｂ群の音声についてｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）による比較を行った。また、健常者Ａ群と大うつ病Ａ群、及び健常者Ｂ群と大うつ病Ｂ群の音声についてｔ検定（Ｕｎｐａｉｒｅｄｔ―ｔｅｓｔ）を行った。その結果、「むかしむかしあるところに」においては、大うつ病群同士および健常者群同士において有意差がなく（Ｐ＞０．１）、かついずれの大うつ病群と健常者群においても有意差がある音響特徴量として２４６個が選別された。また、同様にして、「昨日はよく眠れました」では３３６個、「おこりっぽいです」では２３１個、「がんばるぞー」では３６３個の音響特徴量が選別された。

そして、Ｐａｉｒｅｄｔ－ｔｅｓｔとＵｎｐａｉｒｅｄｔ－ｔｅｓｔのいずれにおいても選別された音響特徴量として、「むかしむかしあるところに」では２１個、「昨日はよく眠れました」では１４個、「おこりっぽいです」では２８個、「がんばるぞー」では４６個の音声特徴量を得た。

同じ要領で、各フレーズにおいて、Ｐａｉｒｅｄｔ－ｔｅｓｔにより有意差がない選別特徴量とＵｎｐａｉｒｅｄｔ－ｔｅｓｔにより有意差がない選別特徴量をそれぞれ抽出した。そして、Ｐａｉｒｅｄｔ－ｔｅｓｔとＵｎｐａｉｒｅｄｔ－ｔｅｓｔのいずれにおいても有意差がない選別特徴量を共通特徴量として選択した。このようにして環境に依存しない音響特徴量を抽出した結果を図１６に纏めて記す。
＜＜推定プログラム２－１の作成（機械学習）＞＞

次に、学習データとして、大うつ病患者３０人、および健常者３０人の「むかしむかしあるところに」と発話した音声を用い、また前記２１個の環境に依存しない音声特徴量を用いて、大うつ病と健常とのいずれであるかを推定するための特徴量Ｆ（ａ）に基づく推定プログラム２－１を作成した。
＜＜推定プログラム２－１による大うつ病の推定＞＞

検証データとして、大うつ病患者２５名、健常者５２名の音声を用いた。結果（ＹｏｕｄｅｎＩｎｄｅｘにおける混同行列。以下同様）を図１１に示す。
＜＜推定プログラム２－２＞＞

推定プログラム２－１と同様にして、「昨日はよく眠れました」と発話した音声を用い、また「昨日はよく眠れました」に関してＰａｉｒｅｄｔ－ｔｅｓｔとＵｎｐａｉｒｅｄｔ－ｔｅｓｔのいずれにおいて有意差がない１４個の音響特徴量を用いた以外は、推定プログラム２－１と同様にして推定プログラム２－２を作成し、検証した。結果を図１２に示す。
＜＜推定プログラム２－３＞＞

推定プログラム２－１と同様にして、「おこりっぽいです」と発話した音声を用い、また「おこりっぽいです」に関してＰａｉｒｅｄｔ－ｔｅｓｔとＵｎｐａｉｒｅｄｔ－ｔｅｓｔのいずれにおいて有意差がない２８個の音響特徴量を用いた以外は、推定プログラム２－１と同様にして推定プログラム２－３を作成し、検証した。結果を図１３に示す。
＜＜推定プログラム２－４＞＞

推定プログラム２－１と同様にして、「がんばるぞー」と発話した音声を用い、また「「がんばるぞー」に関してＰａｉｒｅｄｔ－ｔｅｓｔとＵｎｐａｉｒｅｄｔ－ｔｅｓｔのいずれにおいて有意差がない４６個の音響特徴量を用いた以外は、推定プログラム２－１と同様にして推定プログラム２－４を作成し、検証した。結果を図１４に示す。
＜７．推定プログラム３の作成例＞

推定プログラム２－１～２－４および、上記と同様に「本日は晴天なり」と発話した音声を用いて作成した推定プログラム５、「疲れてぐったりしています」と発話した音声を用いて作成した推定プログラム６、及び「心が穏やかです」と発話した音声を用いて作成した推定プログラム７の７つの推定プログラムを用いて、それぞれ対応する発話により大うつ病または健常のいずれかを判定した。そして７つの判定の多数決により最終的に各人の推定結果とした。結果を図１５に示す。

なお、本発明の疾患推定システムに用いられる疾患推定プログラムは、音響特徴量に関し発話する言葉の内容を解析するのではない。本推定プログラムは、発話から音響特徴量を抽出して作成した特徴量から疾患の予測値を算出する。そのため、言語に依らないという利点がある。しかし、実際に対象者や被験者が発話する場合は、母国語の文章でないと流暢に話すことできないことで音響特性に影響する可能性がある。従って、例えば英語が母国語である対象者の疾患を推定する場合、まず英語を母国語とする患者及び健常者の声を収集し、解析して英語用の推定プログラムを作成し、これを用いて英語の発話により疾患を推定することが好ましい。同様にして、日本語、英語以外の言語用の推定プログラムを作成することができる。

英語用の推定プログラムを作成し、またそれにより疾患を推定する場合において、被験者や対象者が読む文章としては、例えば、以下に示す英語の文章が挙げられる。

例えば、英語の文章としては、以下のようなものが例示できる。
（１）Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ
（２）Ｐｒｅｖｅｎｔｉｏｎｉｓｂｅｔｔｅｒｔｈａｎｃｕｒｅ．
（３）Ｔｉｍｅａｎｄｔｉｄｅｗａｉｔｆｏｒｎｏｍａｎ．
（４）Ｓｅｅｉｎｇｉｓｂｅｌｉｅｖｉｎｇ．
（５）Ａｒｏｌｌｉｎｇｓｔｏｎｅｇａｔｈｅｒｓｎｏｍｏｓｓ．
（６）Ｏｎｅ，Ｔｗｏ，Ｔｈｒｅｅ，Ｆｏｕｒ，Ｆｉｖｅ，Ｓｉｘ，Ｓｅｖｅｎ，Ｅｉｇｈｔ
どの言語であっても、発話する文章に特に制限はないが、誰でも読みやすいという観点から、よく知られた文章であることが好ましい。また、「あーーー」、「えーーー」、「うーーー」などの長母音は、どの言語が母国語であっても誰でも発音可能であるという点で好ましい。

発話による音声から音響特徴量を抽出する方法としては、市販の特徴量抽出プログラムを用いることができる。具体的には例えば、ｏｐｅｎＳＭＩＬＥ等が挙げられる。

なお、推定装置２００は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、装置２００は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態例の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

被験者が発話する音声を推定し、被験者が患っている病気を判別・推定し、病気の重症化を予防し、また病気の的確な判別に基づいて患者が適切な治療をうけることを可能にする推定システム、推定プログラムおよび推定方法を提供することができる。

２０３抽出部
２０６算出部
２０７推定部

Claims

録音環境で有意差の出ない音響特徴量（Ａ）、および
各々の疾患に関連する音響特徴量（Ｂ）、に基づき、
前記音響特徴量（Ａ）と前記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する抽出部と、
前記音響特徴量（Ｃ）に基づき疾患の予測値を算出する算出部と、
前記疾患の予測値を入力として、疾患を推定する推定部と、
を備える精神・神経系疾患の推定装置。
推定可能な前記疾患の候補が、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、双極性障害、非定型うつ病および大うつ病を含むことを特徴とする、請求項１に記載の推定装置。
推定可能な前記疾患の候補の１つが、大うつ病であることを特徴とする、請求項１に記載の推定装置。
推定装置の抽出部において、録音環境で有意差の出ない音響特徴量（Ａ）および各々の疾患に関連する音響特徴量（Ｂ）、に基づき、前記音響特徴量（Ａ）と前記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する工程と、
前記推定装置の算出部において、前記音響特徴量（Ｃ）に基づき疾患の予測値を算出する工程と、
前記推定装置の推定部において、前記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。