JP2023015420A - 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置 - Google Patents

疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置 Download PDF

Info

Publication number
JP2023015420A
JP2023015420A JP2020001943A JP2020001943A JP2023015420A JP 2023015420 A JP2023015420 A JP 2023015420A JP 2020001943 A JP2020001943 A JP 2020001943A JP 2020001943 A JP2020001943 A JP 2020001943A JP 2023015420 A JP2023015420 A JP 2023015420A
Authority
JP
Japan
Prior art keywords
disease
acoustic feature
acoustic
voice
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020001943A
Other languages
English (en)
Inventor
康宏 大宮
Yasuhiro Omiya
頼夫 熊本
Yorio Kumamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PST CORP Inc
Life Science Institute Inc
Original Assignee
PST CORP Inc
Life Science Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PST CORP Inc, Life Science Institute Inc filed Critical PST CORP Inc
Priority to JP2020001943A priority Critical patent/JP2023015420A/ja
Priority to PCT/JP2021/000375 priority patent/WO2021141088A1/ja
Priority to TW110100726A priority patent/TW202135048A/zh
Publication of JP2023015420A publication Critical patent/JP2023015420A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Signal Processing (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】音声解析により複数の精神・神経系疾患を推定する推定装置、推定装置の作動方法を提供する。【解決手段】音声解析により複数の精神・神経系疾患を推定する装置において、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法。【選択図】図4

Description

本発明は、疾患推定プログラムにおける環境に依存しない音響特徴量の抽出方法、および環境に依存しない音響特徴量を用いた疾患推定プログラム並びに疾患推定装置に関する。
被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献1は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。
国際公開第2006/132159号
しかし、利用者が自宅や医療施設等の室内で音声を入力する際、音声の取得場所によって、室内を構成する壁、床、天井等により反射音が発生するため音響障害が生じる。この音響障害により、入力された音声から抽出される音響特徴量が変質して疾患を推定する精度が落ちる恐れがあるが、特許文献1はこの問題に言及していない。
また、特許文献1の装置は利用者の感情状態を推定するに止まり、精神系疾患または神経系疾患(以下、精神・神経系疾患と言う場合がある。)を推定するプログラムには言及していない。一般に、複数の種類の精神・神経系疾患の中から疾患を推定することは、有効なバイオマーカーが無い等の理由から難しい。
例えば、米国精神医学会(APA)より刊行されたDSM-5マニュアルの診断基準によれば、レビー小体型認知症とパーキンソン病の区別は、レビー小体の発生する部位に依存するため症状が類似する可能性がある。また、アルツハイマー型認知症と前頭側頭型認知症、アルツハイマー型認知症とレビー小体型認知症、レビー小体型認知症とパーキンソン病、双極性障害と大うつ病は、疾患の区別が困難である。
また、患者が認知症の初期症状として抑うつ症状を示す場合も多い。一方、患者がうつ病性仮性認知症を有する場合には、患者は実際にはうつ病であるが、認知機能が低下するように症状が現れる。そのため、患者が認知症の類であるのか、うつ病の類であるのか、認知症とうつ病を合併していずれかの症状が有意に表れているのか区別が困難である。
複数の種類の精神・神経系疾患の候補の中から疾患を推定できなければ、利用者が受診すべき医療機関の選択を誤るなどして、却って症状が悪化する危険性がある。
そこで、本発明は、音声解析により複数の精神・神経系疾患を推定する装置において、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供することを目的とする。
本発明者は、上記課題を解決するために鋭意研究を重ねた結果、複数の精神・神経系疾患を推定する装置において、利用者の音声の取得場所による影響を受けない音響特徴量を抽出する手段を備える推定装置、推定装置の作動方法を見出し、本発明を完成させるに至った。
すなわち、本発明は、以下の態様を包含するものである。
[1]録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
上記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える精神・神経系疾患の推定装置。
[2]推定可能な上記疾患の候補が、アルツハイマー型認知症(Neurocognitive Disorder Due to Alzheimer’s Disease)、レビー小体型認知症(Neurocognitive Disorder with Lewy Bodies)、パーキンソン病(Parkinson’s Disease)、双極性障害(Bipolar Disorder)、非定型うつ病(Depressive Disorder with Atypical Features)および大うつ病(Major Depressive Disorder)を含むことを特徴とする、上記[1]に記載の推定装置。
[3]推定可能な上記疾患の候補の1つが、大うつ病であることを特徴とする、上記[1]に記載の推定装置。
[4]推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
本発明は、複数の精神・神経系疾患を推定するプログラムにおいて、音声の取得場所による影響を受けない音響特徴量を抽出する方法、およびその方法を用いた装置を提供することができる。
本願発明のハードウェア構成の一例を示す図である。 本願発明の構成の一例を示す図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を詳述したフローチャートである。 本願発明のフローチャートである。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の一例を示す図である。 Paired-t検定またはt検定において有意差がある音響特徴量の一例を示す図である。 Paired-t検定またはt検定において有意差がない音響特徴量の一例を示す図である。 疾患の予測値の一例を示す図である。 疾患の予測値の疾患別分布の一例を示す図である。 被験者が読み上げる発話内容の一例を説明した図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。 本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を行った後の疾患推定の精度の別の一例を示す図である。 環境に依存しない音響特徴量を抽出した結果を示す表である。
以下、本発明の複数の精神・神経系疾患を推定する装置について詳細に説明するが、以下に記載する構成要件の説明は、本発明の一実施態様としての一例であり、これらの内容に特定されるものではない。なお、以降の説明において疾患の予測値を「メンタル値」と称する場合がある。
<1.プログラム>
実施形態に係る推定装置200は、例えば図1に示すような構成のコンピュータ100によって実現される。以下、例に挙げて説明する。図1は、推定装置200の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ100は、CPU101、RAM102、ROM103、HDD104、通信インターフェイス(I/F)105、入出力インターフェイス(I/F)106、およびメディアインターフェイス(I/F)107を有する。
CPU101は、ROM103またはHDD104に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM103は、コンピュータ100の起動時にCPU101によって実行されるブートプログラムや、コンピュータ100のハードウェアに依存するプログラム等を格納する。
HDD104は、CPU101によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス105は、ネットワークNを介して他の機器からデータを受信してCPU101へ送り、CPU101が生成したデータを他の機器へ送信する。
CPU101は、入出力インターフェイス106を介して、ディスプレイ等の出力装置、および、マイク等の音声の入力装置、キーボードやマウス等の入力装置を制御する。CPU101は、入出力インターフェイス106を介して、入力装置から音声データを取得する。また、CPU101は、生成したデータを入出力インターフェイス106を介して出力装置へ出力する。
メディアインターフェイス107は、記録媒体108に格納されたプログラムまたはデータを読み取り、RAM102を介してCPU101に提供する。CPU101は、係るプログラムを、メディアインターフェイス107を介して記録媒体108からRAM102上にロードし、ロードしたプログラムを実行する。記録媒体108は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ100が実施形態に係る推定装置200として機能する場合、コンピュータ100のCPU101は、RAM102上にロードされたプログラムを実行することにより、制御部の機能を実現する。また、HDD104には、記録部内のデータが格納される。コンピュータ100のCPU101は、これらのプログラムを記録媒体108から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。
<2.推定装置の構成>
次に、実施形態に係る推定装置200の構成について図2を用いて説明する。図2に示すように、推定装置200は、ネットワークNを介して、利用者端末201と有線または無線により通信可能に接続される。なお、推定装置200は、他にも複数台の利用者端末201と接続されてもよい。
推定装置200は、図2に示すように、通信部202、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する音響特徴量の抽出部203、算出部206、推定部207、および記憶部208を備える。なお、音響特徴量の抽出部203、算出部206、および推定部207は演算処理装置(CPU)により実行されそれぞれが協働して制御部(不図示)として機能する。
通信部202は、例えば、NIC(Network Interface Card)等によって実現される。通信部202は、ネットワークNと有線または無線で接続され、利用者端末201との間で情報の送受信を行う。
制御部は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記録部207に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
記録部208は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
利用者端末201は音声の入力部および推定結果の出力部を備える。推定装置200は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部202を介して音声データを記録部208に格納する。
入力部は、マイクロホン等の音声の取得部を介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数(例えば、11025ヘルツ等)でサンプリングすることでデジタル信号の音声データを生成する。入力部は、音声データを記録する記録部を推定装置200の記録部208とは別個に備えていてもよい。この場合、入力部はポータブルレコーダでもよい。入力部の記録部は、CD、DVD、USBメモリ、SDカード、ミニディスク等の記録媒体でもよい。
出力部は、推定結果等のデータを受信する受信部と、当該データを表示する表示部とを備える。表示部は、推定結果等のデータを表示するディスプレイである。ディスプレイは、有機EL(Organic Electro-Luminescence)や液晶等であってもよい。
<<抽出部203>>
抽出部203は、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する。ここで、第1の音響特徴量の抽出部204は、第1の音響特徴量のセットを作成する。第1の音響特徴量のセットは、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、対応のあるt検定(Paired t―test)による比較を行い、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。なお、P値の理論的な数値範囲は0~1であり、P値の有意水準は0.05に設定されるのが一般的である。
第1の音響特徴量のセットは、記憶部208に格納される。第1の音響特徴量のセットは、後述する第2の音響特徴量のセットと一緒に用いてもよいし、第1の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
第2の音響特徴量の抽出部205は、第2の音響特徴量のセットを作成する。第2の音響特徴量のセットは、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、t検定(Unpaired t―test)による比較を行い、いずれの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。
第2の音響特徴量のセットは、記憶部208に格納される。第2の音響特徴量のセットは、第1の音響特徴量のセットと一緒に用いてもよいし、第2の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
P値の閾値設定の根拠について説明する。図6は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がある場合の一例を示す図である。一方、図7は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がない音響特徴量の一例を示す図である。健常者が異なる施設間で、同一の発話内容または異なる発話内容で、音声を発話して取得し、ある音響特徴量を比べた時に、図6に示すように有意差が出るということは、その音声の属性の違いは環境だけなので、環境に依存する音響特徴量である疑いが強い。従って、音響特徴量のセットがP値で0.05を超える場合には、図7に示すように有意差がなく、環境に依存しない音響特徴量であると選別することができる。
さらに、音響特徴量のセットがP値で0.1を超える場合には、健常者が各施設をまわる途中で、ちょっとした身体の調子に影響されず、かつ環境に依存しないであろう音響特徴量であると選別することができる。また、音響特徴量のセットがP値で0.1を超える場合には、疾患の推定に用いられる少なくとも1つ以上の音響特徴量(後に特徴量F(a)として説明する。)に影響を与え難いため、疾患推定プログラム作成の観点からも好ましい。
第1の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、施設の環境による差異を排除する目的で、施設間の音響特徴量の有意差を測定する。例えば、7つの施設で(それぞれ施設1~施設7と称する)により採取された音声については、施設1と施設2、施設1と施設3のように通りのペアを作りいずれのペアにおいても有意差が無い音響特徴量を抽出する(Paired t-test)。このPaired t-testは、対象となる施設すべてにおいて、一人または複数の健常者によって発話された音声を取得する。ここで健常者とは、解析対象である疾患に罹患していないものを言う。
このPaired t-testに用いられる健常者は1人でもよいが、より信頼性を高めるには2人以上が好ましく、3人以上が更に好ましい。また、複数人の健常者により実施される場合は、同じ施設で取得された音声を複数人分まとめて処理してもよいし、個別に処理してもよい。個別に処理する場合は、このテストで調査されるペアの数は×人数となる。
また、各施設で健常者が複数のフレーズを発話して音声を取得した場合には、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、各フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
次に第2の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、患者群(および健常者群)による差異を排除する目的で、患者群による音響特徴量の有意差を測定する。例えば、ある期間に複数の大うつ病患者の音声(大うつ病A群)を取得し、同じ期間に複数の健常者の音声(健常者A群)を取得し、そして、別の期間に複数の大うつ病患者の音声(大うつ病B群)を取得し、同じ期間に複数の健常者の音声(健常者B群)を取得した場合、t検定(Unpaired t―test)は、同じ疾患(または健常)における各群同士(大うつ病A群と大うつ病B群、健常者A群と健常者B群)の音響特徴量の有意差を測定する。また、各群の患者(または健常者)が複数のフレーズを発話して音声を取得した場合、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、各フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義する。なお、第3の音響特徴量のセットは、所望のP値を超える第1の音響特徴量のセットのみに基づいて音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義することもできる。
第3の音響特徴量のセットは、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))の抽出の際に用いる。例えば、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量のセットと、上記第3の音響特徴量のセットの共通特徴量を、真の複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))として抽出する。
<<抽出部203での処理のフロー>>
ここで、抽出部203における処理のフローに関して、図3を参照しつつ説明する。作業を開始すると、ステップS1001において、抽出部203は、予め音声取得後に記憶部208内に格納された音声データの発話ラベリング作業を行う。次に、ステップS1002において、抽出部203は、発話ラベリング作業が完了した音声データを正規化する処理を行う。正規化処理を行うことにより前処理の工程が完了する。次に、ステップS1003において、抽出部203は、前処理が完了した音声データから音響特徴量を抽出する。
次に、ステップS1004Aにおいて、抽出部203の第1の音響特徴量の抽出部204は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声から作成された音響特徴量に関して、対応のあるt検定(Paired t―test)による比較を行う。次に、ステップS1005Aにおいて、第1の音響特徴量の抽出部204は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義する。
一方、ステップS1004Bでは、抽出部203の第2の音響特徴量の抽出部205は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声から作成された音響特徴量に関して、t検定(Unpaired t―test)による比較を行う。次に、ステップS1005Bにおいて、第2の音響特徴量の抽出部205は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義する。
次に、ステップS1006において、音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義して、作業を終了する。なお、第3の音響特徴量のセットを、所望のP値を超える第1の音響特徴量のセットのみに基づいて第3の音響特徴量のセットとして定義する場合には、ステップS1006を省略することができる。
以上のような処理を行うことにより、音声の取得場所による影響を受けない第3の音響特徴量のセットを、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))と組合せて、より精度の高い疾患の推定を行うことができる。
<<算出部206・推定部207>>
算出部206は、後述する疾患の推論モデルに基づき、少なくとも1つの音響特徴量の組合せに基づき、複数の疾患の予測値を算出する。推定部207は、疾患の予測値を入力として複数の精神・神経系疾患を推定する。算出部206、推定部207については後で詳述する。
<<疾患の予測値の算出>>
疾患の予測値の算出の概略を説明する。算出部206では、被験者の音声データから、複数の音響特徴量を抽出する段階を経る。音響特徴量は、患者の音声データから抽出される。音響特徴量は、音が伝わる際の特徴を特徴量化したものである。例えば、音響特徴量にはゼロ点交差率やハースト指数等がある。ゼロ点交差率は、音声の音圧の波形が基準圧力を横切る単位時間あたりの回数を、音声における波形の変化の激しさの度合いとして算出したものである。ハースト指数は、音声の波形における変化の相関性を示す。
なお、ここからは、疾患を推定するためのプログラムの説明に入るが、前述した第1ないし第3の音響特徴量のセットと便宜的に区別して音響特徴量の説明をする必要があるため、「音響特徴量」を「音響パラメータ」と称して説明する。但し、本願明細書において、本質的には音響特徴量と音響パラメータは同義であり、どちらも推論装置の入力として用いられ、エンティティの持つ特性を表現する列、程度の意味を有する。
疾患の推定装置に使用される音響パラメータには、第1の音響パラメータと第2の音響パラメータがある。第1の音響パラメータは、特定の疾患を推定すべき被験者の音声から抽出した音響のパラメータである。第2の音響パラメータは、予め記憶部208に格納されている音響のパラメータである。第2の音響パラメータは、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、または双極性障害の疾患を有する患者の音声データから抽出を行い、各音響パラメータと各疾患が予め紐付けされている。
本願発明で使用する音響パラメータには、以下のような項目がある。
1) 音量のエンベロープ(アタックタイム、ディケイタイム、サステインレベル、リリースタイム)
2) 波形の変動情報(Shimmer, Jitter)
3) ゼロ点交差率
4) ハースト指数
5) VOT(Voice Onset Time)
6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
10) 周波数スペクトラム90%ロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
11) 周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量などが挙げられる。
推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。推論モデルには、線形モデルによる回帰、線形回帰、リッジ回帰、Lasso、ロジスティック回帰等の分類アルゴリズムを用いてもよい。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。
推定プログラムの作成段階において、アルゴリズム作成者は、上記の第2の音響パラメータの項目の中から、変数f(n)として使用する任意の音響パラメータをより良い組合せとなるようにステップワイズ法により検討を行い、1つまたは複数選択する。次に、選択された任意の音響パラメータに対し係数を付し、1つまたは複数の音響パラメータを作成する。さらに、これらの音響パラメータを組合せて、パラメータF(a)を作成する。
ステップワイズ法には変数増加法、変数減少法、変数増減法の3種類があるがいずれを用いてもよい。ステップワイズ法で用いられる回帰分析には、線形判別式やロジスティック回帰分析等の線形分類の処理が含まれる。変数f(n)およびそれらの係数、すなわち以下の式で示される式F(a)の係数xnは回帰係数と呼ばれ、関数f(n)に付与される重みである。
回帰係数は、学習アルゴリズムの作成者が選択した後に、データベースに蓄積される疾患情報などから、推定精度を高めるための機械学習により品質の改善を行ってもよい。
被験者の疾患の予測値は、例えば以下の式F(a)に基づいて1つ以上の音響パラメータから算出される。
Figure 2023015420000002
ここで、f(n)は、上記の音響パラメータの項目(1)ないし(11)の中からいずれか1つ以上の第2の音響パラメータを任意に選択したものである。xnは疾患に固有の回帰係数である。f(n)、xnは、予め推定プログラムの記録装置120に記録されていてもよい。推定プログラムの機械学習の過程でパラメータF(a)の回帰係数を改善してもよい。
図2の算出部206は、第2の音響パラメータの組合せに基づいて、健常者と疾患を有する被験者を区別する、あるいは疾患どうしを区別するためのパラメータを算出する。このパラメータから、基準範囲と、基準範囲から被験者の値がどの程度離れているのかを算出するためのスコアリングを行うことにより、被験者の疾患の予測値を算出する。
図8は、ある一つの音響パラメータの強度が、疾患毎に異なっていることを示すイメージ図である。被験者は疾患Aのスコアが最も高いことを示している。従って、被験者の疾患Aに対する予測値は、他の疾患群と比較して高く算出される。また、例えば、強度50を閾値と設定することにより、疾患A、疾患D、疾患Eの群と、疾患B、疾患Cの群とに分類できる。
図8は、1つの音響パラメータの強度を基に疾患の予測値を算出しているが、実際は一つの音響パラメータのみで疾患を分類できることは困難である。そのため、いくつかの音響パラメータの組み合わせにより求められるパラメータF(a)を算出して、疾患を分類しても良い。
このパラメータF(a)を基に、ラベル付けされた被験者の音声について疾患の予測値を計算し、疾患ごとの予測値の分布を求める。これにより、各疾患を分類することができる。
図9は、ある3つの音響パラメータの組み合わせによって得られた疾患の予測値(図9中では、「メンタル値」と記載している)の分布画像である。
図9から、レビー小体型認知症の患者群の予測値の分布が、他の疾患の患者群及び健常者群の予測値の分布から分離できることがわかる。本願発明は、疾患ごとに、他の疾患と区別できるように音響パラメータの組み合わせを設定し、パラメータF(a)を計算し、パラメータF(a)を入力として、各対象者の音声がどの疾患に当てはまるかを判定することができる。
別の手法としては、各患者の音声から、疾患毎のパラメータF(a)を抽出し、どの疾患のパラメータをより多く有しているかを求め、疾患の予測値を互いに比較することにより、患者が罹患している疾患と推定することができる。
この場合、疾患の予測値は、その疾患に罹患している程度ととらえることができる。各疾患の予測値を比較することにより、どの疾患に罹患しているかを確率で表現することができる。
このようにして、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の6疾患を含む患者の音声、および健常者の音声から、それぞれの疾患に関連するパラメータ(a)を抽出し、それぞれの疾患の予測値を算出する。
また、対象とする疾患に関して、更に血管性認知症(Vascular Neurocognitive Disorder)、前頭側頭型認知症(Frontotemporal Neurocognitive Disorder)、気分循環症(Cyclothymic Disorder)、気分変調症(Persistent Depressive Disorder)の4疾患を加えた10疾患を含む患者の音声から推定プログラムを作成してもよい。
最終的には、判別対象者が発話した音声を解析することにより、上述の6疾患乃至10疾患のいずれかであるか、または健常であるかを推定部207で推定する。
推定プログラムの推定フローに関して、上述したように、個別の疾患に対し、それぞれの疾患の特徴量(a)を抽出して疾患の予測値を算出してもよいが、まず、疾患群に関する音響特徴量の組合せを作成し、疾患群に関する特徴量F(a)を推定部への入力として用い、複数の段階に分けて入力・推定を行うことで、最終的に各疾患または健常の推定をしてもよい。
<<推定装置の処理>>
図4は、図2に示した推定装置200の推定処理の一例を示す。図4は、推定装置200の演算処理装置(CPU)が推定装置200の記憶部208に記憶された推定プログラムを実行することにより実現される。
処理を開始すると、ステップS2001において、制御部が音声データを取得する。音声データは、利用者端末201の入力部から取得してもよいし、一度記憶部208に格納された後に制御部が読みだしてもよい。次に、ステップS2002において、音響特徴量の抽出部203が音声データから第1の音響パラメータを抽出する。次に、ステップS2003において、第1の音響パラメータから環境に依存する音響特徴量を除外して、加工済の第1の音響パラメータを抽出する。例えば、第1の音響パラメータと抽出部203で得た第3の音響特徴量のセットを比較して、共通しない部分が環境に依存する音響特徴量と判断できる。
次に、ステップS2004において、算出部206は、第2の音響パラメータから得たパラメータF(a)とステップS2003で得た加工済の第1の音響パラメータを比較して、各疾患の予測値を算出する。
次に、ステップS2005において、推定部207は、特定の疾患とその他を区別するための個々の閾値を設けることにより、疾患の予測値を算出した複数の患者を、特定すべき対象とその他に判別して、処理を終了する。後述する実施形態では、閾値を超えた場合とそうでない場合とに分類して判定している。
<3.プログラムの利用分野>
本発明の推定プログラムは、遠隔地からの音声であっても解析することが可能であるから、オンライン診療やオンラインカウンセリングの場面で用いることができる。精神・神経系疾患を診断する場合、医師は問診や面談によって、患者の表情、動き、会話の状況などを観察する。しかし、患者は、精神・神経系疾患に対する偏見を感じることがあるため、精神科の病院やクリニックに行くことが躊躇われることがある。
オンラインによる診療やカウンセリングは、施設に出向かなくとも医師やカウンセラと面談可能である。そのため、精神神経系疾患以外の他の病気と比して、精神・神経系疾患はオンライン診療に非常に親和性が高い。
医師、カウンセラ、および臨床心理士は、オンラインで患者(またはクライアント)と面談する場合に、本推定プログラムによる解析を行うことができる。これにより、非常に簡便に精神・神経系疾患に罹患しているかどうか、またその疾患の種類について推定することができる。なお、面談時には、MMSEやBDI、PHQ-9等、各種心理テストや認知機能テストを併せて行うことができる。
この場合、患者側に、音声を送信できるコンピュータハードウエアのほか、面談用のモニター画面、音声収録用のマイクが必要である。
患者の自宅にこれらの装置がない場合は、例えば、かかりつけの医院などに装置を備えることができる。患者はかかりつけの病院に通って、そこで装置を通して面談することができる。
また、例えば、患者が身体疾患の治療を目的としてかかりつけの病院に通う場合、かかりつけの医師が診断して精神・神経系疾患の疑いがあると判断すれば、その場で音声を取得して本発明のプログラムで解析することが可能である。
その他の場所でも、精神科医、神経内科医がオンライン診療可能な状態であれば、かかりつけの医師と精神科医、神経内科医がオンライン上で連携して診断を行うことが可能である。
本発明の推定プログラムは、特定の疾患を推定するための感度を上げる(この場合、特異度は一般に下がる)ことにより、スクリーニング装置として利用することができる。
会社や自治体などで行われている健康診断や、医療機関で行われている人間ドックなどの検査項目として利用することにより、これまで発見が困難で、簡便な検査法がなかった精神・神経科の疾患の早期発見に寄与することができる。
例えば、眼底検査、視力検査、聴力検査などと同様に、一連の検査の一つとして音声の取得を行い、その場で、あるいは他の検査結果と一緒にプログラムによる推定結果を通知することができる。
本発明の推定プログラムは、特別な装置を必要としないので、手軽にだれでも利用できる。一方で、利用場面が精神・神経系疾患に限定されるので、必ずしも利用頻度が高いものではない。そこで、高価な検査装置を備えた専門病院に本発明の推定装置一式を備えておき、かかりつけ医などが、対象患者が来院した時に、その専門病院に検査を依頼することができる。
精神・神経系疾患で使用される装置としては、光トポグラフィ、心筋シンチグラフィ、脳血流シンチグラフィ、CT、MRI、脳波等が挙げられる。これらは、疾患の推定や除外診断に用いられるが、本発明の推定装置は極めて侵襲性が低いので、これら検査と併せて、あるいはこれら検査に先駆けて用いることができる。
本発明の推定プログラムは、自宅でも簡便に利用できるので、診断後のモニタリング装置として利用することができる。例えば、気分障害群の疾患の場合、患者の疾患に応じて薬剤や心理療法が処置されるが、これら療法の効き具合を測定することができる。また、継続的に利用することにより、症状が安定しているか、再発の予兆が無いかなどを日々観察することができる。
本発明の推定プログラムは、発話による音声を解析するものであるので、高齢者の見守り装置としての適用が可能である。
一人暮らしの高齢者が、元気に過ごしているかどうかは近親者にとって気になるところである。電話やビデオ電話等の通信手段を用いた高齢者見守りシステムに、本発明の推定プログラムを実装することにより、生活反応を見るだけでなく、認知症やうつの傾向がないかどうかも測定することができ、一人暮らしであっても適宜対処することが可能となる。
これらさまざまな実施形態において、音声の取得方法としては特に制限はないが、(1)対象者のほうから、電話やインターネットを通じで録音した音声を送付する方法、(2)検査者のほうから対象者へ電話やインターネットを通じでコンタクトし、会話をすることにより音声を取得する方法、(3)対象者の住居に音声取得装置を備えておき、対象者がその装置に録音する方法、(4)音声取得装置が定期的に自動起動し、対象者へ会話を行うことにより、対象者の音声を取得する方法等が挙げられる。
音声を取得するにあたって、対象者がスムーズに発話できるように、推定装置に備えられたディスプレイに発話すべき文章を表示するか、またはスピーカーから発話すべき文章の音を再生するのが好ましい。
録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
<4.推定プログラムのフロー>
<<推定フロー1>>
例えば、まず、第1ステップで、(1-A)アルツハイマー型認知症、レビー小体型認知症、パーキンソン病を含む認知症群、(1-B)大うつ病、非定型うつ病、双極性障害を含む気分障害群、(1-C)健常の3群に推定する。
次に、第2ステップで、(1-A)認知症群にクラス分けされた患者の音声を、(1-A-1)アルツハイマー型認知症、(1-A-2)レビー小体型認知症、(1-A-3)パーキンソン病の3つの疾患のいずれであるかを推定するプログラムにより、認知症群の患者の疾患を推定する。一方、(1-B)気分障害群にクラス分けされた患者の音声は、(1-B-1)大うつ病、(1-B-2)非定型うつ病、(1-B-3)双極性障害の3つの疾患のいずれかであるかを推定するプログラムにより、気分障害群の患者の疾患を推定する。
<<推定フロー2>>
別の判定フローの態様としては、まず、第1ステップで(2-A)アルツハイマー型認知症、レビー小体型認知症、パーキンソン病を含む認知症群、(2-B)大うつ病、非定型うつ病、双極性障害を含む気分障害群、(2-C)健常の3群に推定する。
次に、第2ステップで、(2-A)認知症群にクラス分けされた患者の音声を、(2-A-1)レビー小体型認知症であるか、それ以外の認知症であるかを推定するプログラムによりレビー小体型認知症であるか否かを判定する。一方、(2-B)気分障害群にクラス分けされた患者の音声は、(2-B-1)大うつ病であるか、それ以外の気分障害であるかを推定するプログラムにより大うつ病であるか否かを判定する。
そして、同様に、(2-A-2)アルツハイマー型認知症であるか、それ以外の認知症であるかを推定するプログラム、(2-A-3)パーキンソン病であるかそれ以外の認知症であるかを推定するプログラム、(2-B-2)非定型うつ病であるか、それ以外の気分障害であるかを推定するプログラム、(2-B-3)双極性障害であるか、それ以外の気分障害であるかを推定するプログラムを、用いることにより、最終的にアルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害のいずれであるかを判定することができる。
<<推定フロー3>>
また、別の実施態様としては、第2ステップにおいて、(3-A)認知症群にクラス分けされた患者の音声を、(3-A-1)アルツハイマー型認知症であるか、レビー小体型認知症であるかを推定するプログラム、(3-A-2)レビー小体型認知症であるか、パーキンソン病であるかを推定するプログラム、(3-A-3)パーキンソン病であるか、アルツハイマー型認知症であるかを推定するプログラムの3つの推定プログラムを合わせて用いることにより、認知症群にクラス分けされた患者の疾患を推定する。
一方、(3-B)気分障害群にクラス分けされた患者の音声を、(3-B-1)大うつ病であるか非定型うつ病であるかを推定するプログラム、(3-B-2)非定型うつ病であるか双極性障害であるかを推定するプログラム、(3-B-3)双極性障害であるか大うつ病であるかを推定するプログラムの3つの推定プログラムを合わせて用いることにより、気分障害群にクラス分けされた患者の疾患を推定する。
<<推定フロー4>>
また、上述した認知症群、気分障害群、健常の3クラスに分ける第1ステップは、まず(4-A)健常群と(4-B)それ以外の疾患群の2クラスに分別し、次に疾患群を(4-B-1)認知症群と(4-B-2)気分障害群に分別する2段階であってもよい。
(推定プログラム作成時に取得された音声の対象者)
第2の音響パラメータの音声データの取得に関し説明する。音声を取得する対象者は以下の基準により選択されることが好ましい。
(ア)取得された音声が疾患解析に用いられることに十分な説明を受け、対象者は文書による同意をする。
(イ)本推定システムでは、言葉の意味または内容(テキスト)を基に疾患の推定解析を行わない。よって、基本的には国籍や母語に制限がない。しかし、人種間、言語間の差がある可能性はあるため、同じ人種と言語を比較対照として判定することが好ましい。例えば、利便性の観点から、日本で本発明を実施する場合は、母語が日本語である者から音声を取得して本推定プログラムを作成し、日本語の発話で疾患を推定することが好ましい。また、英語圏で本発明を実施する場合は、母語が英語である者から音声を取得して本推定プログラムを作成し、英語の発話で疾患を推定することが好ましい。
(ウ)年齢は、発話可能である限り特に制限はない。ただし、声変わりや情緒的な安定性を考慮すると、15歳以上が好ましく、18歳以上が更に好ましく、20歳以上が特に好ましい、また、年齢による物理的な発話の困難さを考慮すると、100歳未満が好ましく、90歳未満が更に好ましい。
(エ)日本で本発明を実施する場合は、音声を取得する際、日本語の文章の読み上げ(発話)ができる者が好ましい。但し、日本語以外の母語を有する者を推定する場合には、該当する母語の文章を読み上げることにより判別が可能である。
(オ)推定アルゴリズムの作成に当たって、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の6疾患にそれぞれ該当する者を対象とした音声を用いることが好ましい。ただし、これらの疾患を併発している者を除く。これら6疾患に加え、血管性認知症、前頭側頭型認知症、気分変調症、気分循環性障害にそれぞれ該当するものを対象とした音声を用いることもできる。さらに、統合失調症、全般性不安障害、その他の精神神経疾患にそれぞれ該当する者を対象とした音声を用いることもできる。
(カ)健常者は、認知症でも気分障害でもないことが確認された者が好ましい。
<<音声を取得する手段>>
音声を取得する手段について説明する。
(1)マイクは、音声を取得できるものであれば特に制限はない。例えば、ハンドマイク、ヘッドセット、携帯端末に内蔵されたマイク、パーソナルコンピュータやタブレット等に内蔵されたマイクから選択してもよい。対象者の音声のみを取得できるという観点からは、ピンマイク、指向性マイク、携帯端末に内蔵されたマイクが好ましい。
(2)レコーダは、ポータブルレコーダ、パーソナルコンピュータ、タブレット、携帯端末に内蔵されたまたは外付けされた記録媒体を用いることができる。
(3)疾患を推定する場合の発話内容に制限はない。例えば、対象者が自由に行った発話、対象者が予め用意された文章を読み上げた発話、電話または対面の会話による発話を用いることができる。ただし、推定アルゴリズムを作成する場合には、対象者に共通した発話内容を用いるのが好ましい。そのため、推定アルゴリズムを作成する場合には、対象者が予め用意された文章を読み上げた発話が好ましい。
発話時間に関しては、短すぎると推定結果の精度が低くなる。好ましくは15秒以上、更に好ましくは20秒以上、特に好ましくは30秒以上である。また、必要以上に長すぎると結果を得るまでに時間がかかる。好ましくは5分以下、更に好ましくは3分以下、特に好ましくは2分以下である。
(4)観察・検査項目に関して、特に制限はない。ただし、対象者のプロファイルの差によって音声に差があるかどうかを検証するため、情報を得ておくことが好ましい。情報には、一般情報として性別、年齢、身長、体重等が含まれ、医療情報として確定診断名、重症度、身体疾患の合併症、既往歴、発症時期等が含まれ、検査情報としてMRI、CT等、問診及び質問としてPatient Health Quastionnaire(PHQ)-9、The M.I.N.I-International Neuropsychiatric Interview (M.I.N.I.スクリーン)、Hamilton Depression Rating Scale (HAM-D または HDRS)、Young Mania Rating Scale (YMRS)、Mini-Mental State Examination (MMSE)、Bipolar Spectrum Diagnostic Scale (BSDS)、The Movement Disorder Society により改訂されたThe Unified Parkinson’s Disease Rating Scale (MDS-UPDRS)等が含まれる。
(5)音声を取得する環境に関して、患者の発話のみを取得できる環境であれば特に制限はない。静音な環境、具体的には40dB以下が好ましく、30dB以下が更に好ましい。具体的には、診察室、カウンセリングルーム、会議室、聴力検査室、CT、MRI、X線等の検査室がある。また、対象者の自宅の静かな部屋で音声を取得してもよい。
前述のように作成された推定プログラムは、精神神経疾患に罹患していると疑われる者であっても、健常と推定される者であっても特に制限なく利用できる。使用場面も、医師による診察のツールとして、あるいは健康診断や人間ドックの検査項目として、対象者の音声を取得すれば簡便に利用可能である。
音声取得回数に関して、1回あれば判別可能であるが、例えば、健常人でもライフイベントなどにより抑うつ状態を呈することがあり、たまたま音声取得の時に気分が落ち込んでいたということは大いにあり得る。また、大うつ病、非定型うつ病などは、朝と夜とで気分の良し悪しが変化することがある。従って、何らかの精神疾患に罹患しているとの推定結果が示された場合には、更に少なくとも1回、音声取得を行い再度推定するのが好ましい。
本発明の推定システム100の使用形態としては、医師、臨床心理士、看護師、検査技師、カウンセラその他本発明の装置を扱う人が、音声を取得する被験者と対面しながら使用する。処置室、カウンセリングルーム等の静かな環境が保たれた部屋においては、本発明の装置を扱う1人または複数人が音声を取得する被験者に対して、オープンな状態で直接音声取得の仕方を説明しながら使用する。また、聴力検査室、その他各種の検査室に音声を取得する被験者が入り、前述の取扱者が、ガラス越しに、またはモニターの映像により被験者を見ながら、使用する。被験者が自宅など遠隔地にいる場合に、予め音声取得の方法を被験者に説明しておき、指定された日時までに被験者自身で録音を行う、などの方法がある。遠隔地で行う場合には、別途通信回線を利用してカメラ映像等で本人を確認しながら音声を取得することも可能である。
また、被験者が医療機関やカウンセリングルームへ通った際に音声を取得し推定することもでき、また、企業や自治体の健康診断や、人間ドックの一検査項目として音声を取得し推定することもできる。
<5.推定プログラム1の作成例>
<<環境に依存する音響特徴量を除外して推定処理を行う一例>>
図3および図4に示す要領で、第3の音響特徴量のセットを用いて環境に依存する音響特徴量を除外しその後に推定を行う処理を検証した。
<<推定プログラム1の作成と結果>>
第1ないし第3の音響特徴量のセットを抽出した後で推定処理を行った場合の検証の一例を紹介する。まず、第1の音響特徴量抽出の際に用いる同一の発話内容として、発明者は、同一の発話内容の一例として、13の定型文(それぞれ2回復唱させる。)、3つの長母音、および「パタカ」というフレーズを、計30発話分を準備し、複数の健常者に7つの施設間でこれを発話させて音声を取得した。なお、第2の音響特徴量抽出の際に用いる異なる発話内容に関しては、健常者に自由に発話させて音声を取得した。
取得した発話音声にラベリング作業を行い、正規化処理を行った後、解析ソフトOpenSMILE により7440個の音響特徴量を抽出した。次に、対応のあるt検定(Paired t―test)による比較を行い、P値を0.5超に設定して、上記第1の音響特徴量のセットとして、170個の音響特徴量を取得した。次に、t検定(Unpaired t―test)による比較を行い、P値を0.5超に設定して、上記第2の音響特徴量のセットとして、549個の音響特徴量を取得した。次に、第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして、169個の音響特徴量を取得した。当該169個の音響特徴量の99.4%は、第1の音響特徴量のセットに含まれていた。上記結果から、所望のP値を超える第1の音響特徴量のセットのみに基づいて第3の音響特徴量のセットとして定義することもできる。
次に、環境因子のない上記の169個の音響特徴量を第2の音響パラメータから得たパラメータF(a)と比較して、環境に依存する音響特徴量を除外した推論プログラムを得て、検証を行った。学習データとして大うつ病患者30人、合計963フレーズ、および健常者30人、合計965フレーズを用いた。検証データとして大うつ病患者14人、健常者30人を用いた。検証データは、各人の約30フレーズについてそれぞれ大うつ病または健常の判定を行い、その30フレーズの多数決により多く判定された方を最終的な推定結果とした。
図5は、検証データの混合行列を示したものである。HEは健常、MDDは大うつ病を示す。図5に示す通り、推定プログラムの正診率は79.5%であった。
<6.推定プログラム2の作成例>
<<複数の疾患と音声データとの関連付け作業-音声取得>>
推定プログラム作成時の手順を記載する。複数の疾患と音声データとの付け作業を行うため、平成29年(2017年)12月25日から平成30年(2018年)5月30日の間に、以下の患者及び健常者の音声を取得した。
・アルツハイマー型認知症患者の音声 20例
・レビー小体型認知症患者の音声 20例
・パーキンソン病の患者の音声 20例
・大うつ病患者の音声 20例(大うつ病A群)
・双極性障害患者の音声 16例
・非定型うつ病患者の音声 19例
・健常者の音声 20例(健常者A群)
また、令和元年(2019年)6月28日から令和元年(2019年)10月31日の間に、以下の患者及び健常者の音声を取得した。
・アルツハイマー型認知症患者の音声 37例
・レビー小体型認知症患者の音声 57例
・その他の認知症(血管性認知症、前頭側頭型認知症を含む)患者の音声 28例
・パーキンソン病の患者の音声 35例
・大うつ病患者の音声 57例(大うつ病B群)
・双極性障害患者の音声 34例
・非定型うつ病患者の音声 30例
・その他のうつ病(気分変調症、気分循環症を含む)患者の音声 38例
・健常者の音声 60例+28例(4人が7つの異なる施設で音声を取得したもの:健常者B群)
なお、これら患者は精神科、神経内科等、専門分野の医師により、DSM-5またはICD-10の基準によりそれぞれの疾患と認められた患者である。また、PHQ-9、MMSE等を行うことにより、他の精神・神経系疾患を合併していないことを医師が確認した。
健常者は、PHQ-9、MMSE等を行うことにより、抑うつ症状や認知機能の低下が認められないことを確認した。
音声取得には、オリンパス製ピンマイク、ローランド製ポータブルレコーダを用いた。音声データはSDカードに記録した。
発話内容は、図10に示す17の文章を被験者が、1~13まではそれぞれ2回ずつ、14~17までは1回ずつ読み上げた。
音声を取得するに当たって、被験者には、精神神経系の病気の患者の声と病気との関係性を解析する研究に用いること、発話の内容、音声取得の方法を説明し、書面による同意書にサインしていただいた。また、音声を含む取得したデータは、個人を特定できない形式に記号化して管理した。
被験者1人に付き、上記17種類の発話内容のうち、1~13までの発話(各2回で1例あたり26発話)、14~17までの発話(各1回で1例あたり4発話)の合計30発話について、長いものは2つに分解し、また不鮮明なものは除外することにより、各疾患の患者および健常者の音声を得た。
<<推定プログラム2>>
<<環境に依存しない音声特徴量の抽出>>
健常者B群の4人の健常者については、7つの異なる施設(病院の診察室、処置室)において音声を取得した。
これらの音声の正規化処理を行った後に、OpenSMILEを用いて音声解析を行って7440個の音響特徴量を抽出した。その特徴量に関し、フレーズ毎に対応のあるt検定(Paired t―test)による比較を行った。その結果、「むかしむかしあるところに」では、いずれの施設間においても有意差がない(P>0.5)音響特徴量として505個を得た。また、同様にして、「昨日はよく眠れました」では553個、「おこりっぽいです」では727個、「がんばるぞー」では525個の、いずれの施設間においても有意差がない音響特徴量を得た。
また、同じ特徴量に関し、健常者A群と健常者B群、及び大うつ病A群と大うつ病B群の音声についてt検定(Unpaired t―test)による比較を行った。また、健常者A群と大うつ病A群、及び健常者B群と大うつ病B群の音声についてt検定(Unpaired t―test)を行った。その結果、「むかしむかしあるところに」においては、大うつ病群同士および健常者群同士において有意差がなく(P>0.1)、かついずれの大うつ病群と健常者群においても有意差がある音響特徴量として246個が選別された。また、同様にして、「昨日はよく眠れました」では336個、「おこりっぽいです」では231個、「がんばるぞー」では363個の音響特徴量が選別された。
そして、Paired t-test と Unpaired t-test のいずれにおいても選別された音響特徴量として、「むかしむかしあるところに」では21個、「昨日はよく眠れました」では14個、「おこりっぽいです」では28個、「がんばるぞー」では46個の音声特徴量を得た。
同じ要領で、各フレーズにおいて、Paired t-testにより有意差がない選別特徴量と Unpaired t-testにより有意差がない選別特徴量をそれぞれ抽出した。そして、Paired t-test と Unpaired t-testのいずれにおいても有意差がない選別特徴量を共通特徴量として選択した。このようにして環境に依存しない音響特徴量を抽出した結果を図16に纏めて記す。
<<推定プログラム2-1の作成(機械学習)>>
次に、学習データとして、大うつ病患者30人、および健常者30人の「むかしむかしあるところに」と発話した音声を用い、また前記21個の環境に依存しない音声特徴量を用いて、大うつ病と健常とのいずれであるかを推定するための特徴量F(a)に基づく推定プログラム2-1を作成した。
<<推定プログラム2-1による大うつ病の推定>>
検証データとして、大うつ病患者25名、健常者52名の音声を用いた。結果(Youden Indexにおける混同行列。以下同様)を図11に示す。
<<推定プログラム2-2>>
推定プログラム2-1と同様にして、「昨日はよく眠れました」と発話した音声を用い、また「昨日はよく眠れました」に関してPaired t-test と Unpaired t-test のいずれにおいて有意差がない14個の音響特徴量を用いた以外は、推定プログラム2-1と同様にして推定プログラム2-2を作成し、検証した。結果を図12に示す。
<<推定プログラム2-3>>
推定プログラム2-1と同様にして、「おこりっぽいです」と発話した音声を用い、また「おこりっぽいです」に関してPaired t-test と Unpaired t-test のいずれにおいて有意差がない28個の音響特徴量を用いた以外は、推定プログラム2-1と同様にして推定プログラム2-3を作成し、検証した。結果を図13に示す。
<<推定プログラム2-4>>
推定プログラム2-1と同様にして、「がんばるぞー」と発話した音声を用い、また「「がんばるぞー」に関してPaired t-test と Unpaired t-test のいずれにおいて有意差がない46個の音響特徴量を用いた以外は、推定プログラム2-1と同様にして推定プログラム2-4を作成し、検証した。結果を図14に示す。
<7.推定プログラム3の作成例>
推定プログラム2-1~2-4および、上記と同様に「本日は晴天なり」と発話した音声を用いて作成した推定プログラム5、「疲れてぐったりしています」と発話した音声を用いて作成した推定プログラム6、及び「心が穏やかです」と発話した音声を用いて作成した推定プログラム7の7つの推定プログラムを用いて、それぞれ対応する発話により大うつ病または健常のいずれかを判定した。そして7つの判定の多数決により最終的に各人の推定結果とした。結果を図15に示す。
なお、本発明の疾患推定システムに用いられる疾患推定プログラムは、音響特徴量に関し発話する言葉の内容を解析するのではない。本推定プログラムは、発話から音響特徴量を抽出して作成した特徴量から疾患の予測値を算出する。そのため、言語に依らないという利点がある。しかし、実際に対象者や被験者が発話する場合は、母国語の文章でないと流暢に話すことできないことで音響特性に影響する可能性がある。従って、例えば英語が母国語である対象者の疾患を推定する場合、まず英語を母国語とする患者及び健常者の声を収集し、解析して英語用の推定プログラムを作成し、これを用いて英語の発話により疾患を推定することが好ましい。同様にして、日本語、英語以外の言語用の推定プログラムを作成することができる。
英語用の推定プログラムを作成し、またそれにより疾患を推定する場合において、被験者や対象者が読む文章としては、例えば、以下に示す英語の文章が挙げられる。
例えば、英語の文章としては、以下のようなものが例示できる。
(1)A,B,C,D,E,F,G
(2)Prevention is better than cure.
(3)Time and tide wait for no man.
(4)Seeing is believing.
(5)A rolling stone gathers no moss.
(6)One, Two, Three, Four, Five, Six, Seven, Eight
どの言語であっても、発話する文章に特に制限はないが、誰でも読みやすいという観点から、よく知られた文章であることが好ましい。また、「あーーー」、「えーーー」、「うーーー」などの長母音は、どの言語が母国語であっても誰でも発音可能であるという点で好ましい。
発話による音声から音響特徴量を抽出する方法としては、市販の特徴量抽出プログラムを用いることができる。具体的には例えば、openSMILE等が挙げられる。
なお、推定装置200は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、装置200は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態例の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
被験者が発話する音声を推定し、被験者が患っている病気を判別・推定し、病気の重症化を予防し、また病気の的確な判別に基づいて患者が適切な治療をうけることを可能にする推定システム、推定プログラムおよび推定方法を提供することができる。
203 抽出部
206 算出部
207 推定部

Claims (4)

  1. 録音環境で有意差の出ない音響特徴量(A)、および
    各々の疾患に関連する音響特徴量(B)、に基づき、
    前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
    前記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
    前記疾患の予測値を入力として、疾患を推定する推定部と、
    を備える精神・神経系疾患の推定装置。
  2. 推定可能な前記疾患の候補が、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、双極性障害、非定型うつ病および大うつ病を含むことを特徴とする、請求項1に記載の推定装置。
  3. 推定可能な前記疾患の候補の1つが、大うつ病であることを特徴とする、請求項1に記載の推定装置。
  4. 推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
    前記推定装置の算出部において、前記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
    前記推定装置の推定部において、前記疾患の予測値を入力として、疾患を推定する工程と、
    を包含する推定装置の作動方法。

JP2020001943A 2020-01-09 2020-01-09 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置 Pending JP2023015420A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020001943A JP2023015420A (ja) 2020-01-09 2020-01-09 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置
PCT/JP2021/000375 WO2021141088A1 (ja) 2020-01-09 2021-01-07 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置
TW110100726A TW202135048A (zh) 2020-01-09 2021-01-08 在疾病估計程式中提取聲音特徵量的方法,以及使用該聲音特徵量的疾病估計程式和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020001943A JP2023015420A (ja) 2020-01-09 2020-01-09 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置

Publications (1)

Publication Number Publication Date
JP2023015420A true JP2023015420A (ja) 2023-02-01

Family

ID=76788074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020001943A Pending JP2023015420A (ja) 2020-01-09 2020-01-09 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置

Country Status (3)

Country Link
JP (1) JP2023015420A (ja)
TW (1) TW202135048A (ja)
WO (1) WO2021141088A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4876207B2 (ja) * 2010-06-11 2012-02-15 国立大学法人 名古屋工業大学 認知機能障害危険度算出装置、認知機能障害危険度算出システム、及びプログラム
JP6695057B2 (ja) * 2016-04-27 2020-05-20 パナソニックIpマネジメント株式会社 認知機能評価装置、認知機能評価方法、およびプログラム
JP6748965B2 (ja) * 2016-09-27 2020-09-02 パナソニックIpマネジメント株式会社 認知機能評価装置、認知機能評価方法、およびプログラム
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム

Also Published As

Publication number Publication date
WO2021141088A1 (ja) 2021-07-15
TW202135048A (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
Pulido et al. Alzheimer's disease and automatic speech analysis: a review
WO2020013302A1 (ja) 精神・神経系疾患の推定システム、推定プログラムおよび推定方法
Espinola et al. Detection of major depressive disorder using vocal acoustic analysis and machine learning—an exploratory study
Stepp et al. The relationship between perception of vocal effort and relative fundamental frequency during voicing offset and onset
Derdemezis et al. Optimizing vowel formant measurements in four acoustic analysis systems for diverse speaker groups
Ratner Leaving Las Vegas: Clinical odds and individual outcomes
Kuresan et al. Early diagnosis of Parkinson’s disease based on non-motor symptoms: a descriptive and factor analysis
Pernon et al. Perceptual classification of motor speech disorders: the role of severity, speech task, and listener's expertise
EP4179961A1 (en) Voice characteristic-based method and device for predicting alzheimer's disease
KR102659616B1 (ko) 음성 특성 기반 알츠하이머병 예측 방법 및 장치
Lévêque et al. Acoustic change over time in spastic and/or flaccid dysarthria in motor neuron diseases
Guarin et al. Video-based facial movement analysis in the assessment of bulbar amyotrophic lateral sclerosis: clinical validation
JP2017140170A (ja) 推定方法、推定プログラム、推定装置および推定システム
Tsai et al. Voice low tone to high tone ratio, nasalance, and nasality ratings in connected speech of native Mandarin speakers: a pilot study
JP7265293B2 (ja) 音声を用いて、精神・神経系疾患を推定する装置
JP2023015420A (ja) 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置
JP7307507B2 (ja) 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム
Liu et al. Detecting depression in speech under different speaking styles and emotional valences
Martínez-Nicolás et al. Speech biomarkers of risk factors for vascular dementia in people with mild cognitive impairment
Benham et al. Acoustic and kinematic methods of indexing spatiotemporal stability in children with developmental language disorder
Alghifari et al. Development of Sorrow Analysis Dataset for Speech Depression Prediction
Kim et al. Non-invasive way to diagnose dysphagia by training deep learning model with voice spectrograms
Luo et al. Differentiation between depression and bipolar disorder in child and adolescents by voice features
Gonzalez-Machorro et al. Towards supporting an early diagnosis of multiple sclerosis using vocal features
Wang et al. Predicting Dysphonia by Measuring Surface Electromyographic Activity of the Supralaryngeal Muscles