JP2020522028A - 音声に基づく医療評価 - Google Patents

音声に基づく医療評価 Download PDF

Info

Publication number
JP2020522028A
JP2020522028A JP2020511875A JP2020511875A JP2020522028A JP 2020522028 A JP2020522028 A JP 2020522028A JP 2020511875 A JP2020511875 A JP 2020511875A JP 2020511875 A JP2020511875 A JP 2020511875A JP 2020522028 A JP2020522028 A JP 2020522028A
Authority
JP
Japan
Prior art keywords
user
response
computing device
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020511875A
Other languages
English (en)
Other versions
JP7208977B2 (ja
Inventor
キム,ジャンウォン
クォン,ナミ
オコンネル,ヘンリー
ウォルスタッド,フィリップ
ヤン,ケビン・シェンビン
Original Assignee
カナリー・スピーチ,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カナリー・スピーチ,エルエルシー filed Critical カナリー・スピーチ,エルエルシー
Publication of JP2020522028A publication Critical patent/JP2020522028A/ja
Priority to JP2022149805A priority Critical patent/JP2022180516A/ja
Application granted granted Critical
Publication of JP7208977B2 publication Critical patent/JP7208977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1123Discriminating type of movement, e.g. walking or running
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Neurology (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Developmental Disabilities (AREA)
  • Neurosurgery (AREA)
  • Psychology (AREA)

Abstract

音声に基づく医療評価のための装置、システム、方法、およびコンピュータ・プログラム製品を開示する。クエリ・モジュール1102は、移動体コンピューティング・デバイス102のスピーカからユーザに聞こえるように質問するように構成される。応答モジュール1104は、移動体コンピューティング・デバイス102のマイクロフォンからユーザの口頭応答を受け取るように構成される。検出モジュール1106は、ユーザから受け取った口頭応答の分析に基づいて、ユーザに対する病状の評価を行うように構成される。【選択図】図1A

Description

本発明は、音声分析に関し、更に特定すれば、収集した音声サンプルに基づく1つ以上の病状の自動評価および診断に関する。
神経障害および神経疾患ならびにその他の病状の評価は、医学専門家によって手作業で行われることが多く、鉛筆と紙を用いて手で記入された用紙に基づくこともあり得る。手作業の評価は、精度が低いおよび/または一貫性を欠く可能性があり、障害またはその他の病状が発生したときに、医学専門家が常に手配できる(available)とは限らない。
音声に基づく医療評価のための装置について述べる(present)。一実施形態では、クエリ・モジュールが、移動体コンピューティング・デバイスのスピーカからユーザに聞こえるように質問するように構成される。特定の実施形態では、応答モジュールが、移動体コンピューティング・デバイスのマイクロフォンからユーザの口頭応答を受け取るように構成される。ある実施形態では、検出モジュールが、受け取ったユーザの口頭応答の分析に基づいて、病状の評価をユーザに提示するように構成される。
他の実施形態では、装置(apparatus)は、移動体コンピューティング・デバイスからユーザに聞こえるように質問する手段を含む。特定の実施形態では、装置は、移動体コンピューティング・デバイス上においてユーザの口頭応答を受け取る手段を含む。ある実施形態では、装置は、受け取ったユーザの口頭応答に基づいて、ユーザの病状を評価する手段を含む。
音声に基づく医療評価システムについて述べる。特定の実施形態では、複数の分散型音声モジュールが、複数のユーザのために、コンピューティング・デバイス上に配置される。一実施形態では、複数の分散型音声モジュールは、複数のユーザに質問し、および/またはコンピューティング・デバイス上で複数のユーザからの口頭応答を記録するように構成される。種々の実施形態では、バックエンド・サーバ・デバイスが、少なくとも、複数のユーザからの基準記録口頭応答(baseline recorded verbal response)、複数のユーザからのテスト・ケース記録口頭応答(test case recorded verbal response)、および/または少なくともテスト・ケース記録口頭応答に対する病状の評価を格納するように構成される。一実施形態では、バックエンド・サーバが、格納した基準記録口頭応答、テスト・ケース記録口頭応答、および/または複数のユーザの少なくとも部分集合に対する評価を、コンピューティング・デバイス上において、複数の分散型音声モジュールを通じて供給するように構成される。
音声に基づく医療評価のための方法について述べる。一実施形態では、方法は、コンピューティング・デバイスのユーザ・インターフェースを使用して、ユーザに1つ以上の質問を行うステップを含む。他の実施形態では、方法は、コンピューティング・デバイス上において、1つ以上の質問に対するユーザの1つ以上の基準口頭応答を記録するステップを含む。特定の実施形態では、方法は、潜在的な脳震盪イベントに応答して、コンピューティング・デバイスのユーザ・インターフェースを使用して、ユーザに1つ以上の質問を再度行うステップを含む。ある実施形態では、方法は、コンピューティング・デバイス上において、1つ以上の再度行った質問に対するユーザの1つ以上のテスト・ケース口頭応答を記録するステップを含む。一実施形態では、方法は、コンピューティング・デバイス上において、1つ以上の記録された基準口頭応答および1つ以上の記録されたテスト・ケース口頭応答の音声分析に基づいて、ユーザが脳震盪を発症している可能性(likelihood)を評価するステップを含む。
コンピュータ読み取り可能記憶媒体を備えるコンピュータ・プログラム製品について述べる。特定の実施形態では、コンピュータ読み取り可能記憶媒体は、音声に基づく医療評価のための動作を実行するために実行可能な、コンピュータ使用可能プログラム・コードを格納する。ある実施形態では、これらの動作の内1つ以上が、開示する装置、システム、および/または方法に関して、先に説明した1つ以上のステップと実質的に同様であってもよい。
本発明の利点が容易に理解されるために、以上で端的に説明した本発明について、添付図面に示す特定実施形態を参照しながら、更に具体的な説明を行う。これらの図面は本発明の典型的な実施形態を図示するに過ぎず、したがってその範囲を限定するように見なしてはならないことを理解の上で、添付図面の使用を通じて、更に具体的にそして詳細に本発明について説明する(described and explained)。
音声に基づく医療評価システムの一実施形態を示す模式ブロック図である。 音声に基づく医療評価システムの別の実施形態を示す模式ブロック図である。 医療診断を実行するために数学モデルで音声データを処理するシステムの一実施形態を示す模式ブロック図である。 音声データの訓練コーパス(training corpus)の一実施形態を示す模式ブロック図である。 病状を診断するときに使用するためのプロンプトのリストの一実施形態を示す模式ブロック図である。 病状を診断する数学モデルを訓練する機能(feature)を選択するシステムの一実施形態を示す模式ブロック図である。 特徴値および診断値の対をグラフで表す一実施形態を示す模式ブロック図である。 特徴値および診断値の対をグラフで表す別の実施形態を示す模式ブロック図である。 病状を診断する数学モデルを訓練する機能を選択する方法の一実施形態を示す模式フローチャート図である。 病状を診断する数学モデルと共に使用するプロンプトを選択する方法の一実施形態を示す模式フローチャート図である。 1組の選択されたプロンプトに相応しい、病状を診断する数学モデルを訓練する方法の一実施形態を示す模式フローチャート図である。 病状を診断する数学モデルを訓練およびデプロイするために使用することができるコンピューティング・デバイスの一実施形態を示す模式ブロック図である。 音声モジュールの一実施形態を示す模式ブロック図である。 音声に基づく医療評価方法の一実施形態を示す模式フローチャート図である。 音声に基づく医療評価方法の別の実施形態を示す模式フローチャート図である。
本明細書全般において「一実施形態」(one embodiment)、「実施形態」(an embodiment)、または同様の文言に言及するときは、その実施形態と関連付けて記載される特定の特徴、構造、または特性が少なくとも1つの実施形態に含まれることを意味する。つまり、本明細書全般において、「一実施形態において」(in one embodiment)、「実施形態において」(in an embodiment)、および同様の文言が現れるときは、全てが同じ実施形態を指すこともあるが、別段明示的に指定されなければ、「1つ以上の実施形態であるが全ての実施形態ではない」ことを意味するとしてよい。とは言え、必ずしもそうとは限らない。「含む」(including)、「備える」(comprising)、「有する」(having)、およびこれらの変形は、別段明示的に指定されなければ、「含むが限定されない」ことを意味する。品目を列挙したリストは、別段明示的に指定されなければ、これらの品目の内任意のものまたは全てが相互に排他的である、および/または相互に内包的であることを暗示するのではない。また、「a」、「an」、および「the」という用語は、別段明示的に指定されなければ、「1つ以上」を意味するものとする。
更に、説明する実施形態の特徴、利点、および特性は、任意の適した方法で組み合わせることもできる。尚、特定の実施形態の具体的な特徴または利点の内1つ以上がなくても、実施形態を実施できることは、当業者には認められよう。他の場合には、追加の特徴および利点が、特定の実施形態において認められることがあっても、全ての実施形態において存在するとは限らない。
実施形態のこれらの特徴および利点は、以下の説明および添付した請求項から一層完全に明らかになり、以下に明記するような実施形態の実施によって、習得することもできる。当業者には認められようが、本発明の態様は、システム、方法、および/またはコンピュータ・プログラム製品として具体化することができる。したがって、本発明の態様は、全体的にハードウェアである実施形態、全体的にソフトウェアである実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、またはソフトウェアおよびハードウェアの態様を組み合わせた実施形態という形を取ることができ、本明細書では、これらの全てを総称して「回路」、「モジュール」、または「システム」と呼ぶことがある。更に、本発明の態様は、プログラム・コードが具体化されている1つ以上のコンピュータ読み取り可能媒体(1つまたは複数)において具体化されたコンピュータ・プログラム製品の形を取ることもできる。
本明細書において説明する機能ユニットの多くには、それらの実装の独立性を一層特定的に強調するために、モジュール(またはコンポーネント)と命名されている。例えば、モジュールは、カスタムVLSI回路またはゲート・アレイ、ロジック・チップ、トランジスタ、またはその他のディスクリート・コンポーネントというような既製品の半導体を含むハードウェア回路として実装されてもよい。また、モジュールは、フィールド・プログラマブル・ゲート・アレイ、プログラマブル・アレイ・ロジック、プログラマブル・ロジック・デバイス等のような、プログラマブル・ハードウェア・デバイスに実装されてもよい。
また、モジュールは、種々のタイプのプロセッサによる実行のためのソフトウェアで実装されてもよい。実例をあげると、プログラム・コードの特定モジュール(identified module)が、コンピュータ命令の1つ以上の物理または論理ブロックを含んでもよく、実例をあげると、これらのブロックは、オブジェクト、プロシージャ、または関数として編成されてもよい。しかしながら、特定モジュールの実行可能ファイル(executable)が物理的に一緒に配置される必要はなく、異なる場所に格納された全く異なる命令を含んでもよく、これらが論理的に一緒に結合されると、モジュールを構成し、このモジュールについて言明された目的を果たすことになる。
実際、プログラム・コードのモジュールは、1つの命令、または多くの命令であってもよく、異なるプログラム間で、そして様々なメモリ・デバイスを跨いで、様々な異なるコード・セグメントにわたって分散されてもよい。同様に、本明細書ではモジュール内部において動作データが識別および図示されることもあり、任意の適した形で具体化され、任意の適した型のデータ構造内に編成されてもよい。動作データは、1つのデータ集合として収集されてもよく、または異なる記憶デバイスを跨いで含む異なる場所にわたって分散されてもよく、少なくとも部分的に、システムまたはネットワーク上における単なる電子信号として存在してもよい。モジュールまたはモジュールの一部がソフトウェアで実装されるとき、プログラム・コードは1つ以上のコンピュータ読み取り可能媒体上に格納すること、および/またはコンピュータ読み取り可能媒体内を伝搬することもできる。
コンピュータ・プログラム製品は、コンピュータ読み取り可能記憶媒体(または複数の媒体)を含むことができ、この媒体上には、本発明の態様をプロセッサに実行させるために、コンピュータ読み取り可能プログラム命令を有する。
コンピュータ読み取り可能記憶媒体は、命令実行デバイスによる使用のために命令を保持および格納することができる有形デバイスであるとして差し支えない。コンピュータ読み取り可能記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または以上のものの任意の適した組み合わせであってもよいが、これらに限定されるのではない。コンピュータ読み取り可能記憶媒体の更に具体的な例の非網羅的なリストには、以下のものが含まれる。携帯用コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(「RAM」)、リード・オンリ・メモリ(「ROM」)、消去可能プログラマブル・リード・オンリ・メモリ(「EPROM」またはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(「SRAM」)、携帯用コンパクト・ディスク・リード・オンリ・メモリ(「CD−ROM」)、ディジタル・バーサタイル・ディスク(「DVD」)、メモリ・スティック、フロッピ・ディスク、パンチ・カードまたは命令が記録されている溝内における隆起構造というような機械的にエンコードされたデバイス、および以上のものの任意の適した組み合わせ。本明細書において使用する場合、コンピュータ読み取り可能記憶媒体は、それ自体が、無線波または他の自由伝搬電磁波、導波路またはその他の透過媒体(例えば、光ファイバ・ケーブルを通過する光パルス)を伝搬して通過する電磁波、あるいはワイヤを伝送される電気信号のような一時的な信号であると解釈されてはならない。
本明細書において説明するコンピュータ読み取り可能プログラム命令は、それぞれのコンピューティング/処理デバイスにコンピュータ読み取り可能記憶媒体から、あるいは外部コンピュータまたは外部記憶デバイスに、ネットワークを通じて、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、および/またはワイヤレス・ネットワークを通じてダウンロードすることができる。ネットワークは、銅製の送信ケーブル、光送信ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、および/またはエッジ・サーバを備える場合もある。各コンピューティング/処理デバイスにおいては、ネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、コンピュータ読み取り可能プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内において、コンピュータ読み取り可能記憶媒体に格納するために、コンピュータ読み取り可能プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ読み取り可能プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA:instruction-set-architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは1つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであってもよい。1つ以上のプログラミング言語には、Smalltalk、C++等のようなオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語のような従来の手順型プログラミング言語が含まれる。コンピュータ読み取り可能プログラム命令は、全体的にユーザのコンピュータ上において、部分的にユーザのコンピュータ上において、単体ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上そして部分的にリモート・コンピュータ上において、あるいは全体的にリモート・コンピュータまたはサーバ上において実行することができる。後者のシナリオでは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて、リモート・コンピュータがユーザのコンピュータに接続されてもよく、あるいは外部コンピュータへの接続が行われてもよい(例えば、インターネット・サービス・プロバイダを使用してインターネットを経由して)。ある実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ読み取り可能プログラム命令の状態情報を利用することによって、コンピュータ読み取り可能プログラム命令を実行し、本発明の態様を実行するために、電子回路を個人専用にする(personalize)こともできる。
本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図および/またはブロック図を参照しながら、本発明の態様について説明する。尚、フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図におけるブロックの組み合わせは、コンピュータ読み取り可能プログラム命令によって実装できることは理解されよう。
これらのコンピュータ読み取り可能プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の1つ以上のブロックにおいて指定される機能/アクトを実施する手段を形成する(create)ように、汎用コンピュータ、特殊目的コンピュータ、または機械を生成するための他のプログラマブル・データ処理装置のプロセッサに、これらの命令を供給することができる。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に格納することもでき、命令が内部に格納されているコンピュータ読み取り可能記憶媒体が、フローチャートおよび/またはブロック図の1つ以上のブロックにおいて指定される機能/アクトの態様を実施する命令を含む製品を構成するように、コンピュータ、プログラマブル・データ処理装置、および/またはその他のデバイスに、特定の方法で(manner)機能するように指令することができる。
また、コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートおよび/またはブロック図の1つ以上のブロックにおいて指定される機能/アクトを実施するように、一連の動作ステップをコンピュータ、他のプログラマブル装置または他のデバイス上で実行させてコンピュータ実装プロセスを生成することもできる。
図における模式フローチャート図および/または模式ブロック図は、本発明の種々の実施形態による装置、システム、方法、およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、模式フローチャート図および/または模式ブロック図における各ブロックは、指定された論理機能(1つまたは複数)を実装するためのプログラム・コードの1つ以上の実行可能命令を構成するモジュール、セグメント、またはコードの一部を表すことができる。
また、ある代替実施態様では、ブロック内に明記される機能が図に明記される順序以外で行われる場合もあることは、注記してしかるべきである。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されることもあり、または関与する機能に応じて、これらのブロックが逆の順序で実行される場合もある(sometimes)。図示する図の1つ以上のブロックまたはその一部と機能、論理、または効果が同等である他のステップおよび方法も着想することができよう。
様々な種類の矢印および線がフローチャートおよび/またはブロック図において採用されることもあるが、これらは対応する実施形態の範囲を限定するのではないことは理解されよう。実際、いくつかの矢印および他の接続(connector)は、図示する実施形態の論理的な流れだけを示すために使用されることもある。実例をあげると、矢印は、図示する実施形態において列挙されるステップ間における、長さが指定されない待ち時間または監視時間を示すとしてもよい。また、ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図におけるブロックの組み合わせは、指定された機能またはアクトを実行する特殊目的ハードウェア・ベース・システム、あるいは特殊目的ハードウェアおよびプログラム・コードの組み合わせによって実装できることも注記しておく。
図1Aは、音声収集および/または音声に基づく医療評価のためのシステム100の一実施形態を示す。一実施形態では、システム100は、1つ以上のハードウェア・デバイス102、1つ以上の音声モジュール104(例えば、1つ以上のハードウェア・デバイス102上に配置された1つ以上の音声モジュール104a、1つ以上のバックエンド音声モジュール104b等)、1つ以上のデータ・ネットワーク106または他の通信チャネル、および/または1つ以上のバックエンド・サーバ108を含む。特定の実施形態では、具体的な数のハードウェア・デバイス102、音声モジュール104、データ・ネットワーク106、および/またはバックエンド・サーバ108が図1において示されているが、本開示を考慮すれば、任意の数のハードウェア・デバイス102、音声モジュール104、データ・ネットワーク106、および/またはバックエンド・サーバ108が、音声収集および/または音声に基づく医療評価のためにシステム100に含まれてもよいことは、当業者には認められよう。
一般に、音声モジュール104は、種々の実施形態において、ユーザ(例えば、患者、運動選手、他のユーザ等)から音声オーディオ・データを受信および/または記録し、および/または収集した音声オーディオ・データに基づいて1つ以上の病状(例えば、障害、不健康(illness)、疾病(desease)等)の存在および/または重症度を、評価および/または診断するように構成されている。音声モジュール104は、ユーザに質問または問い合わせして(例えば、スピーカ、ヘッドホン等を通じて聞き取れるように、ハードウェア・ディスプレイ・デバイス上の筆記文書によって見えるように、および/またはそれ以外の方法でハードウェア・デバイス102の1つ以上のユーザ・インターフェース・エレメントを使用して)、ユーザからの口頭の回答を催促し、音声モジュール104はこの回答を受信および/または記録する。音声モジュール104は、評価をユーザに付与することができ、評価および/または音声オーディオ・データをバックエンド音声モジュール104b等に供給することができる。
音声モジュール104は、質問し、ユーザの音声応答を記録し、応答が正確か否か判断する等、ユーザと対話処理することができる。特定のプロトコルに対して、音声モジュール104は、後続の質問等に移る前に、1つ以上の質問を複数回(例えば、2回、3回等)行ってもよい。音声オーディオ・データに基づいて、音声モジュール104は1つ以上の疾病または他の病状(例えば、脳震盪、鬱病、ストレス、脳卒中、認知的安定(cognitive well-being)、気分(mood)、誠意(honesty)、アルツハイマー病、パーキンソン病、癌等)を評価および/または診断することができる。例えば、オーディオを取り込んだ後、音声モジュール104が応答を採点し(例えば、ハードウェア・デバイス102上のデバイス音声モジュール104aによって)、初期の1つ以上のスコアをユーザに提示してもよく、更に、オーディオを分析してもよく(例えば、サーバ・デバイス108上のバックエンド音声モジュール104bによって)、結論および/または他の具体的な疾病もしくは病状に関して、二次スコアをユーザに提示してもよい。音声モジュール104は、1つ以上のことばの列および/または特徴を抽出し、抽出したことばの列および/または特徴を、特定の疾病および/または他の病状に合わせて訓練された1つ以上の機械学習モデルに受け渡すことができる。
音声モジュール104は、ユーザの回答を、ユーザが健康であったときからの以前の回答と(例えば、基準回答と)比較することができる。音声モジュール104は、ユーザの人口統計学的データ(例えば、年齢、性別等)に基づいて結果を正規化することができる。音声モジュール104は、正規化データを、訓練プロセスの一部として判定し、人工統計学的データ毎に、予測されるスコアの範囲等を決定することができる。
特定の実施形態では、評価を提示する代わりに、評価を提示することに加えて、評価の一部として等で、音声モジュール104は治験、医薬品承認プロセス等の効能(efficacy)および/または成功(success)を評価することができる。例えば、主観的であるかもしれない治験参加者に対する調査票の代わりに、またはこれに加えて、音声モジュール104は、治験の過程にわたって治験参加者の音声における変化を客観的に評価および/またはモデル化することができる。例えば、音声モジュール104が、治験および/または研究参加者からのオーディオを収集してもよく(例えば、医師の訪問時に、自宅で収集する等)、更にプラシーボ・グループおよび/または検査グループのために1つ以上のモデルを作成してもよい。ある実施形態では、音声モジュール104が治験(medical trial)および/または研究参加者についての音声評価および/またはモデリングの結果を、調査票または他の検査の結果と比較してもよく、調査票または他の検査と同様のスコアを、および/または調査票または他の検査と同じ尺度(scale)上で提示する等としてもよい。特定の実施形態では、音声モジュール104が、化学的検査が不明の治療プロトコル(例えば、投薬および/または他の治療処置)の有効性を判断するため、化学的検査を検証するおよび/または有効性を判断するため等に、音声に基づく医療評価を行ってもよい。
特定の実施形態では、音声モジュール104が、臨床試験(clinical trial)および/または医療研究の下準備における参加者の篩い分けを行うこともできる。例えば、音声モジュール104が、鬱病の研究等のために、ある個人が、彼らの音声において、鬱病を患う個人と一致するバイオマーカを明確に示す場合、この個人を適任としてもよい。臨床試験および/または医療研究の参加者を、音声モジュール104を使用して篩い分けし、彼らの音声におけるバイオマーカを識別すれば、筆記された調査票または同様のツール(tool)を使用して治験参加者を主観的に識別するよりは、客観的であり、および/または正確である(accurate)のはもっともである。血液検査、磁気共鳴撮像(MRI:magnetic resonance imaging)スキャン等のような、客観性および/または精度を達成することができる他の方法は、特定の実施形態では、音声モジュール104による音声分析よりも費用がかかり、しかも侵襲的であるおそれがある。音声モジュール104は、一実施形態では、他の検査と同様の客観性および/または精度を得ることができ、しかも非侵襲的で、コストが抑えられるというようなことがあげられる。一実施形態では、音声モジュール104を使用する治験参加者の識別は、バイオマーカ・データ主導型の客観的なツールとなる。
ある実施形態では、音声モジュール104は、挙動パラメータ(例えば、単に薬剤の有効な罹患予防等によって薬剤を承認するのではなく、客観的に測定され、生活の品質に寄与すると判定された挙動パラメータ)を使用して1つ以上の新たな薬剤(例えば、薬品)を差別化する、および/または適格であると判断することもできる。一実施形態では、音声モジュール104は、音声バイオマーカを使用して、人の状態(例えば、肉体的疲労、倦怠(tiredness)、精神的疲労、ストレス、心配、鬱病、認識器脳障害等)を識別し、生活の質および/または1つ以上の他の挙動パラメータを測定する。生活の質を示す具体的な状態および/または挙動パラメータは、医療処置、付随する病状等に基づいて、様々に変化するのはもっともである。例えば、腫瘍の患者は、癌治療の副作用として「ケモ・ブレイン」(chemo brain)を体験することがあり、音声モジュール104は、患者の生活の質を低下させる「ケモ・ブレイン」存在を示す患者の声の分析に基づいて、障害を発症した患者の認知思考技能を検出することができる。
例えば、抗がん剤療法は有効であるのはもっともであるが、抗がん剤療法を使用する個人の生活の質にとっては有害となるおそれがある。抗がん剤療法の患者は、例えば、初期診断後5年間生存することができるが、患者が処置を受けるこの5年間は、抗がん剤療法による生活の質の変化のために惨めになるおそれがある。この抗がん剤療法は、音声モジュール104等によって適格であると認められなければ、その結果として、特定または処置されることはなかったであろう。この例では、検査対象の新たな薬剤療法は、その有効性が同様または多少低いが生活の質は遙かに高くても、生活の質が音声モジュール104によって測定もされず治験(drug trial)および/または医療研究における1要因として考慮されなければ、承認されることも使用のために選択されることもないであろう。
調査票または同様のツールを使用して処置または薬剤を受けたことによる生活の質および/または挙動的結果を主観的に測定する代わりに、特定の実施形態では、音声モジュール104が、患者からの音声データにおけるバイオマーカまたは他の指標を使用して、患者における1つ以上の生活の質の変化を客観的に特定することができる。一実施形態では、音声モジュール104を使用して薬剤または癌治療に関する生活の質および/または他の挙動パラメータを特定することは、バイオマーカ・データ主導型の客観的ツールである。以下で更に詳しく説明するが、音声モジュール104は、生活の質、病状等を、1つ以上のプロンプトに対するユーザの応答の分析に基づいて評価することができる。例えば、先に説明した「ケモ・ブレイン」の例では、音声モジュール104は、記憶喪失のような、「ケモ・ブレイン」に伴う1つ以上の兆候の現在の状態を評価するために選択された一連のプロンプトをユーザに提示することができる。記憶喪失を監視するために、特定の実施形態では、音声モジュール104は、単語および/または数字を聞こえるようにユーザに列挙し、ユーザにこれらを繰り返すように指示し(ask)てもよく、一連の写真をユーザに表示し、一連の写真の説明等を繰り返すように指示してもよく、経時的なユーザの応答の精度における変化を監視して、記憶喪失および生活の質の低下を示すことができる。
一実施形態では、システム100は1つ以上のハードウェア・デバイス102を含む。ハードウェア・デバイス102および/または1つ以上のバックエンド・サーバ108(例えば、コンピューティング・デバイス、情報処理デバイス等)は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、移動体デバイス、タブレット・コンピュータ、スマート・フォン、セットトップ・ボックス、ゲーミング・コンソール、スマートTV、スマート・ウオッチ、フィットネス・バンド(fitness band)、頭部装着型光学ディスプレイ(例えば、仮想現実ヘッドセット、スマート・グラス等)、HDMI(登録商標)または他の電子ディスプレイ・ドングル、パーソナル・ディジタル・アシスタント、および/またはプロセッサ(例えば、中央処理ユニット(CPU)、プロセッサ・コア、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラマブル・ロジック、特定用途集積回路(ASIC)、コントローラ、マイクロコントローラ、および/または他の半導体集積回路デバイス)、揮発性メモリ、および/または不揮発性記憶媒体を備える他のコンピューティング・デバイスの内1つ以上を含んでもよい。特定の実施形態では、ハードウェア・デバイス102は、以下で説明するデータ・ネットワーク106を通じて、1つ以上のバックエンド・サーバ108と通信する。更に他の実施形態では、ハードウェア・デバイス102は、種々のプログラム、プログラム・コード、アプリケーション、命令、関数等を実行することができる。
種々の実施形態において、音声モジュール104は、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの何らかの組み合わせとして具体化することができる。一実施形態では、音声モジュール104は、ハードウェア・デバイス102のプロセッサ上における実行のために非一時的コンピュータ読み取り可能記憶媒体上に格納された実行可能プログラム・コード、バックエンド・サーバ108等を備えてもよい。例えば、音声モジュール104は、ハードウェア・デバイス102、バックエンド・サーバ108、以上のものの1つ以上の組み合わせ等の内1つ以上において実行する実行可能プログラム・コードとして具体化されてもよい。このような実施形態では、以下で説明するような、音声モジュール104の動作を実行する種々のモジュールは、ハードウェア・デバイス102、バックエンド・サーバ108、これら2つの組み合わせ等に配置されてもよい。
種々の実施形態において、音声モジュール104は、バックエンド・サーバ108上、ユーザのハードウェア・デバイス102上(例えば、ドングル、電話機102またはタブレット102用保護ケース(このケース内に、ワイヤレスで、および/またはUSBもしくは専有通信ポートのようなデータ・ポートを通じて電話機102またはタブレット102と通信する1つ以上の半導体集積回路デバイスを含む)、あるいは他の周辺デバイス)、あるいはデータ・ネットワーク106上のいずれかの場所、および/またはユーザのハードウェア・デバイス102と一緒に置かれている何か(elsewhere)に設置あるいはデプロイすることができるハードウェア・アプライアンスとして具体化されてもよい。特定の実施形態では、音声モジュール104は、セキュア・ハードウェア・ドングルまたは他のハードウェア・アプライアンス・デバイス(例えば、セットトップ・ボックス、ネットワーク・アプライアンス等)のような、ハードウェア・デバイスを備えてもよい。ハードウェア・デバイスは、有線接続(例えば、USB接続)またはワイヤレス接続(例えば、Bluetooth(登録商標)、Wi−Fi(登録商標)、近場通信(NFC)等)のいずれかによって、ラップトップ・コンピュータ、サーバ、タブレット・コンピュータ、スマート・フォン等のような他のハードウェア・デバイス102に取り付けられる。ハードウェア・デバイスは、電子ディスプレイ・デバイス(例えば、HDMIポート、DisplayPortポート、Mini DisplayPortポート、VGAポート、DVIポート等を使用して、テレビジョンまたはモニタ)に取り付けられ、データ・ネットワーク106上で実質的に独立して動作する、または同様のことが行われる(or the like)。音声モジュール104のハードウェア・アプライアンスは、電力インターフェース、有線および/またはワイヤレス・ネットワーク・インターフェース、ディスプレイ・デバイスに出力するグラフィカル・インターフェース(例えば、グラフィクス・カードおよび/または1つ以上のディスプレイ・ポートを有するGPU)、および/または以下で説明するように、音声モジュール104に関して本明細書において説明する機能を実行するように構成された半導体集積回路デバイスを備えることができる。
このような実施形態では、音声モジュール104は、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラマブル・ロジック、FPGAまたは他のプログラマブル・ロジック用のファームウェア、マイクロコントローラ上における実行のためのマイクロコード、特定用途集積回路(ASIC)、プロセッサ、プロセッサ・コア等のような、半導体集積回路デバイス(例えば、1つ以上のチップ、ダイ、または他のディスクリート・ロジック・ハードウェア)等を備えることができる。一実施形態では、音声モジュール104をプリント回路ボード上に、1つ以上の電気配線または接続(例えば、揮発性メモリ、不揮発性記憶媒体、ネットワーク・インターフェース、周辺デバイス、グラフィカル/ディスプレイ・インターフェースへの電気配線または接続)と共に実装されてもよい。ハードウェア・アプライアンスは、データを送るおよび受けるように構成された1つ以上のピン、パッド、または他の電気接続(例えば、プリント回路ボードの1本以上の電気配線等と連通する)、ならびに音声モジュール104の種々の機能を実行するように構成された1つ以上のハードウェア回路および/または他の電気回路を含むこともできる。
音声モジュール104の半導体集積回路デバイスまたは他のハードウェア・アプライアンスは、特定の実施形態では、1つ以上の揮発性メモリ媒体を備え、および/または通信可能に結合される。揮発性メモリ媒体には、ランダム・アクセス・メモリ(RAM)、ダイナミックRAM(DRAM)、キャッシュ等を含むことができるが、これらに限定されるのではない。一実施形態では、音声モジュール104の半導体集積回路デバイスまたは他のハードウェア・アプライアンスは、1つ以上の不揮発性メモリ媒体を備え、および/または通信可能に結合される。不揮発性メモリ媒体には、NANDフラッシュ・メモリ、NORフラッシュ・メモリ、ナノ・ランダム・アクセス・メモリ(ナノRAMまたはNRAM)、ナノ結晶ワイヤ系メモリ(nanocrystal wire-based memory)、シリコン−酸化物系サブ10ナノメートル・プロセス・メモリ(silicon-oxide based sub-10 nanometer process memory)、グラフェン・メモリ(graphene memory)、シリコン−酸化物−窒化物−酸化物−シリコン(SONOS)、抵抗性RAM(RRAM(登録商標))、プログラマブル・メタライゼーション・セル(PMC: programmable metallization cell)、導電性橋絡RAM(CBRAM: conductive-bridging RAM)、磁気抵抗RAM(MRAM)、ダイナミックRAM(DRAM)、相変化RAM(PRAMまたはPCM)、磁気記憶媒体(例えば、ハード・ディスク、テープ)、光記憶媒体等を含むことができるが、これらに限定されるのではない。一実施形態では、データ・ネットワーク106は、ディジタル通信を送信するディジタル通信ネットワークを含む。データ・ネットワーク106は、ワイヤレス・セルラ・ネットワークのようなワイヤレス・ネットワーク、Wi−Fiネットワーク、Bluetooth(登録商標)ネットワーク、近場通信(NFC)ネットワークのようなローカル・ワイヤレス・ネットワーク、アド・ホック・ネットワーク等を含むことができる。データ・ネットワーク106は、ワイド・エリア・ネットワーク(WAN)、記憶エリア・ネットワーク(SAN)、ローカル・エリア・ネットワーク(LAN)、光ファイバ・ネットワーク、インターネット、または他のディジタル通信ネットワークを含むこともできる。データ・ネットワーク106は、1つ以上のサーバ、ルータ、スイッチ、および/または他のネットワーキング機器(equipment)も含むことができる。また、データ・ネットワーク106は、ハード・ディスク・ドライブ、光ドライブ、不揮発性メモリ、RAM等のような、1つ以上のコンピュータ読み取り可能記憶媒体も含むことができる。
一実施形態では、1つ以上のバックエンド・サーバ108は、1つ以上のウェブ・サイトをホストする1つ以上のウェブ・サーバ、企業イントラネット・システム、アプリケーション・サーバ、アプリケーション・プログラミング・インターフェース(API)サーバ、認証サーバ等のような1つ以上のネットワーク・アクセス可能なコンピューティング・システムを含むことができる。バックエンド・サーバ108は、ハードウェア・デバイス102から離れて配置された1つ以上のサーバを含むことができる。バックエンド・サーバ108は、音声モジュール104の少なくとも一部を含むことができ、音声モジュール104のハードウェアを構成することができ、音声モジュール104の実行可能プログラム・コードを1つ以上の非一時的コンピュータ読み取り可能記憶媒体に格納することができ、および/またはこれら以外にも、共有コンテンツ追跡および帰属(attribution)について本明細書において説明する、音声モジュール104の種々の動作の内1つ以上を実行することができる。
図1Bは、人の音声を使用して病状を診断するシステム例109である。図1Bは、人の音声データを受け取り、この音声データを処理して、人に病状があるか否か判定する病状診断サービス140を含む。例えば、病状診断サービス140は、音声データを処理して、その人に病状があるか否かに関して、「はい」または「いいえ」の判定を計算する、あるいは人に病状がある確率(probability)または可能性(likelihood)、および/またはその状態の重症度を示すスコアを計算することができる。
本明細書において使用する場合、診断は、人に病状がある可能性があるか否かに関するあらゆる判定、または病状の可能な重症度に関するあらゆる判定に関する。診断は、病状に関する任意の形態の評価、結論付け、意見、または判定を含むことができる。場合によっては、診断が不正確であることもあり、病状があると診断された人が、実際には病状がないということもある。
病状診断サービス140は、任意の適した技法を使用して、人の音声データを受け取ることができる。例えば、人が移動体デバイス110に向かって話しかけてもよく、移動体デバイス110は、その音声を記録し、記録した音声データを病状診断サービス140にネットワーク130を通じて送信することができる。移動体デバイス110が記録した音声データを病状診断サービス140に送信するためには、任意の適した技法および任意の適したネットワークを使用することができる。例えば、アプリケーションまたは「アプリ」を移動体デバイス110上にインストールし、REST(表現状態転送:representational state transfer)API(アプリケーション・プログラミング・インターフェース)コールを使用して、音声データをインターネットまたは移動体電話ネットワークを通じて送信するのでもよい。他の例では、医療供給者が医療供給者用コンピュータ120を有し、これを使用して、人の音声を記録し、音声データを病状診断サービス140に送信するのでもよい。
ある実施態様では、病状診断サービス140を移動体デバイス110または医療供給者用コンピュータ120上にインストールし、音声データをネットワークを通じて送信する必要をなくするようにしてもよい。図1Bの例は限定ではなく、数学モデルによる処理のために音声データを送信するためには、任意の適した技法を使用することができる。
次いで、病状診断サービス140の出力は、適した目的であればいずれにでも使用することができる。例えば、音声データを提供した人、またはこの人を治療している医療専門家に情報を提示することができる。
図2は、医療診断を実行する数学モデルによって音声データを処理するためのシステム例200である。音声データを処理する際に、音声データから特徴を計算することができ、次いでこれらの特徴を数学モデルによって処理することができる。任意の適したタイプの特徴を使用することができる。
特徴には音響特徴を含めることができ、ここで音響特徴とは、音声データに対して音声認識を実行することを伴わずにまたは依存せずに、音声データから計算された任意の特徴である(例えば、音響特徴は、音声データにおいて発話されたデータについての情報を使用しない)。例えば、音響特徴は、メル周波数ケプストラム係数(mel-frequency cepstral coefficients)、知覚線形予測特徴(perceptual linear prediction features)、ジッタ、またはゆらぎ(shimmer)を含んでもよい。
特徴には言語特徴を含めることができ、ここで言語特徴は、音声認識の結果を使用して計算される。例えば、言語特徴は、発声速度(例えば、1秒当たりの母音または音節の数)、つなぎことば(pause filler)(例えば、「うーんと」および「えーと」)の数、単語の難しさ(例えば、普段余り使われない単語)、またはつなぎことばに続く単語の音声の部分を含んでもよい。
図2において、音声データは、音響特徴計算コンポーネント210および音声認識コンポーネント220によって処理される。音響特徴計算コンポーネント210は、本明細書において説明した音響特徴の内任意のものというような、音響特徴を音声データから計算することができる。音声認識コンポーネント220は、任意の適した技法(例えば、混合ガウス・モデル、音響モデリング、言語モデリング、およびニューラル・ネットワーク)を使用して、音声データに対して自動音声認識を実行することができる。
音声認識コンポーネント220は音声認識を実行するときに音響特徴を使用することがあるので、これら2つのコンポーネントの処理の一部が重複する可能性があり、つまり他の構成も可能である。例えば、音響特徴コンポーネント210が、音声認識コンポーネント220によって必要とされる音響特徴を計算することもでき、こうして、音声認識コンポーネント220が音響特徴を計算する必要を全くなくすることもできる。
言語特徴計算コンポーネント230は、音声認識コンポーネント220から音声認識結果を受け取り、音声認識結果を処理して、本明細書において説明した言語特徴の内任意のものというような、言語特徴を決定することができる。音声認識特徴は、適したフォーマットであればいずれでもよく、任意の適した情報を含むことができる。例えば、音声認識結果は、複数の可能な単語のシーケンス、つなぎことばについての情報、および単語、音節、母音、つなぎことば、または音声の任意の他の単位のタイミングを含む単語ラティス(word lattice)を含むことができる。
病状クラシファイア240は、音響特徴および言語特徴を数学モデルによって処理し、人に病状がある確率または可能性を示すスコア、および/または病状の重症度を示すスコアというような、人に病状があるか否かを示す1つ以上の診断スコアを出力することができる。病状クラシファイア240は、サポート・ベクター・マシン、または多層パーセプトロンのようなニューラル・ネットワークが実装されたクラシファイアというような、任意の適した技法を使用することができる。
病状クラシファイア240の処理能力(performance)は、音響特徴計算コンポーネント210および言語特徴計算コンポーネント230によって計算される特徴に依存する場合もある。更に、1つの病状については正しい処理を行う1組の特徴が、他の病状については正しい処理を行わないこともある。例えば、ことばの難しさは、アルツハイマー病を診断するためには重要な特徴であるが、人が脳震盪を起こしているか否か判定するためには有用ではないとして差し支えない。他の例をあげると、母音、音節、または単語の発音に関する特徴は、パーキンソン病にとっては重要であろうが、他の病状にとってはさほど重要でないこともある。したがって、第1病状について正しい処理を行う第1組の特徴を決定する技法が必要とされ、第2病状について正しい処理を行う第2組の特徴を決定するためには、このプロセスが繰り返えされることが必要になることもある。
ある実施態様では、病状クラシファイア240が、音響特徴および言語特徴に加えて、非音声特徴と呼んでもよい、他の特徴を使用することもできる。例えば、特徴は、人の人口統計学的情報(例えば、性別、年齢、居住地)、受療歴(例えば、体重、最新の血圧読み取り値、または以前の診断)からの情報、または任意の他の適した情報から得てもよく、あるいはこれらから計算してもよい。
病状を診断するための特徴の選択は、数学モデルを訓練するための訓練データの量が比較的少ない状況では、一層重要になるのはもっともである。例えば、脳震盪を診断する数学モデルを訓練するためには、脳震盪を経験した直後における多数の個人の音声データを含む訓練データが必要とされる場合もある。このようなデータは少ない量で存在することもあり、このようなデータの例を更に得るには、長大な時間期間を要する可能性がある。
数学モデルを訓練する際に、訓練データの量が少ない程、過剰適合になるおそれがある。この場合、数学モデルは特定の訓練データには適応しても、訓練データの量が少ないために、このモデルは新たなデータに対しては正しく処理できないおそれがある。例えば、モデルは、訓練データにおける脳震盪の全てを検出することができるモデルであっても、脳震盪を起こすおそれがある人々の生産データ(production data)を処理するときに、高いエラー率を出す可能性がある。
数学モデルを訓練するときに過剰適合を防止する1つの技法は、数学モデルを訓練するために使用される特徴の数を減らすことである。過剰適合を起こさずにモデルを訓練するために必要とされる訓練データの量は、特徴の数が増えるに連れて増大する。したがって、使用する特徴の数を減らすことによって、訓練データの量を減らして、モデルを構築することが可能になる。
特徴の数を少なくしてモデルを訓練する必要がある場合、モデルが正しく動作することを可能にする特徴を選択することが増々重要になる。例えば、大量の訓練データが入手可能であるとき、数百個の特徴を使用してモデルを訓練することができ、適した特徴が使用される可能性は一層高くなる。逆に、少ない数の訓練データしか入手可能でないとき、わずか10個程度の特徴を使用してモデルを訓練する場合もあり、病状を診断するために最も重要である特徴を選択することが、増々重要になる。
これより、病状を診断するために使用することができる特徴の例を示す。
音響特徴は、短時間区分特徴(short-time segment features)を使用して計算することができる。音声データを処理するとき、この音声データの持続時間が変化する場合がある。例えば、ある音声は1秒または2秒であることもあるが、他の音声は数分以上になることもある。音声データを処理する際の一貫性のためには、短時間の区分(フレームと呼ぶこともある)単位で処理するとよい。例えば、各短時間区分を25ミリ秒としてもよく、区分が10ミリ秒の刻みで進み、2つの連続する区分にわたって15ミリ秒の重複ができるようにしてもよい。
以下に、短時間区分特徴の非限定的な例を示す。スペクトル特徴(メル周波数ケプストラル係数または知覚線形予測のような)、韻律的特徴(発声の調子、エネルギ、確率のような特徴)、音声品質特徴(ジッタ、ジッタのジッタ、ゆらぎ、または高調波対ノイズ比のような特徴)、エントロピ(自然音声データ上で訓練された音響モデルの後部(posterior)からエントロピを計算することができる場合、例えば、どのくらい正確に発声が行われたか(pronounced)捕獲するため)。
短時間区分特徴を組み合わせて、音声に対する音響特徴を計算することができる。例えば、2秒の音声サンプルは、調子(pitch)について200個の短時間区分特徴を生成することができ、これらを組み合わせると、調子について1つ以上の音響特徴を計算することができる。
任意の適した技法を使用すると、短時間区分特徴を組み合わせて音声サンプルについて音響特徴を計算することができる。ある実施態様では、音響特徴は、短時間区分特徴の統計(例えば、算術的平均、標準偏差、歪度、尖度、第1四分位、第2四分位、第3四分位、第2四分位から第1四分位を減じた値、第3四分位から第1四分位を減じた値、第3四分位から第2四分位を減じた値、0.01パーセンタイル、0.99パーセンタイル、0.99パーセンタイルから0.01パーセンタイルを減じた値)、短時間区分の内その値が閾値よりも高いものの百分率(例えば、閾値は範囲の75%に最小値を加えた値)、区分の内その値が閾値よりも高いものの百分率(例えば、閾値は範囲の90%に最小値を加えた値)、値の線形近似の傾き、値の線形近似のオフセット、線形近似と実際の値との差として計算される線形誤差、または線形近似と実際の値との差として計算される二次誤差を使用して計算することができる。ある実施態様では、音響特徴は、短時間区分特徴のi−ベクトルまたは単位ベクトル(identity vector)として計算することもできる。単位ベクトルは、要因分析技法および混合ガウス・モデルを使用して行例−ベクトル変換を実行するというような、任意の適した技法を使用して計算することができる。
以下に、言語特徴の非限定的な例を示す。全ての発話された単語の持続時間を母音数で除算して計算することによるというような発声速度、または発声速度の任意の他の適した尺度。(1)つなぎことばの数を発話された単語の持続時間で除算する、または(2)つなぎことばの数を発話された単語の数で除算するというようにして求める、音声において躊躇を示すと言ってもよい、つなぎことばの数。単語の難しさまたは普段使われない単語の使用の尺度。例えば、単語の難しさは、単語の頻度パーセンタイル(例えば、5%、10%、15%、20%、30%、または40%)にしたがって単語を分類することによるというようにして、発話された単語の1−グラム確率(1-gram probabilities)の統計を使用して計算することができる。(1)各音声部分クラス(part-of-speech class)の個数を発話された単語の数で除算した値、または(2)各音声部分クラスの個数を全ての音声部分の個数の総和で除算した値というような、つなぎことばに続く単語の音声部分。
ある実施態様では、言語特徴は、人が質問に正しく答えたか否かの判定を含むこともできる。例えば、今年は何年か、または米国の大統領は誰か、人に尋ねてもよい。この人の音声を処理すれば、この人が質問に対する応答において言ったことを判断し、更にこの人が質問に正しく答えたか否か判断することができる。
病状を診断するモデルを訓練するためには、訓練データのコーパスを収集すればよい。訓練コーパスは、人の診断が分かる音声の例を含むのでよい。例えば、人が脳震盪を起こしていない、軽度の、中程度の、または重度の脳震盪を起こしていることが分かればよい。
図3は、脳震盪を診断するモデルを訓練するための音声データを含む訓練コーパスの例を示す。例えば、図3の表において、行がデータベースのエントリに対応するのでもよい。この例では、各エントリは、人の識別子、その人について分かっている診断(例えば、脳震盪ではない、軽度、中程度の、または重度の脳震盪)、人に提示されたプロンプトまたは質問の識別子(例えば、「今日の具合はいかがですか?」)、および音声データを収容するファイルのファイル名を含む。訓練データは、任意の適した格納技術を使用して、任意の適したフォーマットで格納されればよい。
訓練コーパスは、任意の適したフォーマットを使用して、人の音声の表現を格納することができる。例えば、訓練コーパスの音声データ項目は、マイクロフォンにおいて受け取ったオーディオ信号のディジタル・サンプルを含んでもよく、またはメル周波数ケプストラル係数のような、オーディオ信号の処理バージョンを含んでもよい。
1つの訓練コーパスが、複数の病状に関する音声データを収容してもよく、または病状毎に別個の訓練コーパスを使用してもよい(例えば、脳震盪のための第1訓練コーパスおよびアルツハイマー病のための第2訓練コーパス)。別個の訓練コーパスが、病状が分かっていないまたは診断されていない人の音声データを格納するために使用されてもよい。何故なら、この訓練コーパスは、複数の病状についてモデルを訓練するために使用することができるからである。
図4は、病状を診断するために使用することができるプロンプトを格納した例を示す。各プロンプトは、そのプロンプトに対する応答における人の音声を得るために、人(例えば、医療専門家)またはコンピュータのいずれかによって、人に提示することができる。各プロンプトはプロンプト識別子を有することができるので、訓練コーパスのプロンプト識別子と相互引用することができる。図4のプロンプトは、データベースのような、任意の適した格納技術を使用して格納すればよい。
図5は、病状を診断する数学モデルを訓練するための特徴を選択するために使用することができ、次いで選択された特徴を使用して数学モデルを訓練するシステム例500である。システム500は、異なる病状毎に特徴を選択するために複数回使用することができる。例えば、システム500の第1回の使用が、脳震盪を診断するための特徴を選択するのでもよく、システム500の第2回目の使用が、アルツハイマー病を診断するための特徴を選択するのでもよい。
図5は、病状を診断する数学モデルを訓練するための音声データ項目の訓練コーパス510を含む。訓練コーパス510は、病状があるおよび病状がない複数の人々の音声データ、人に病状があるか否かを示すラベル、および本明細書において説明した任意の他の情報というような、任意の適した情報を含むことができる。
音響特徴計算コンポーネント210、音声認識コンポーネント220、および言語特徴計算コンポーネント230は、訓練コーパスにおける音声データに対する音響特徴および言語特徴を計算するために、前述のように実装することができる。音響特徴計算コンポーネント210および言語特徴計算コンポーネント230は、最良の結果が得られる(best performing)特徴を決定できるように、多数の特徴を計算することができる。これは、図2において、これらのコンポーネントが生産システムにおいて使用され、したがって、これらのコンポーネントが、以前に選択された特徴だけを計算すればよい場合とは対照的であると言っても差し支えない。
特徴選択スコア計算コンポーネント520は、特徴(音響特徴、言語特徴、または本明細書において説明した任意の他の特徴でもよい)毎に選択スコアを計算することができる。 特徴に対して選択スコアを計算するために、訓練コーパスにおける音声データ項目毎に、1対の数値を作成することができる。この対の内第1の数値は特徴の値であり、この対の内第2の数値は病状診断の指標である。病状診断の指標の値は、2つの値を有してもよく(例えば、人に病状がない場合は0、人に病状がある場合は1)、またはそれよりも多い数の数値を有してもよい(例えば、0と1との間の実数、あるいは病状の可能性または重症度を示す複数の整数)。
したがって、特徴毎に、訓練コーパスの音声データ項目毎に1対の数値を得ることができる。図6Aおよび図6Bは、第1の特徴および第2の特徴について、数値対の2つの概念的プロットを示す。図6Aについては、第1の特徴の値と対応する診断値との間にはパターンまたは相関があるように見えないが、図6Bについては、第2の特徴の値と診断値との間にパターンまたは相関があるように見える。したがって、第2の特徴は、人に病状があるか否か判定するために有用な特徴である可能性が高く、第1の特徴はそうではないと結論付けることができる。
特徴選択スコア計算コンポーネント520は、特徴値と診断値との対を使用して、特徴について選択スコアを計算することができる。特徴選択スコア計算コンポーネント520は、特徴値と診断値との間においてパターンまたは相関を示す任意の適したスコアを計算することができる。例えば、特徴選択スコア計算コンポーネント520は、ランド指数、調節ランド指数、相互情報、調節相互情報、ピアソン相関、絶対ピアソン相関、スピアマン相関、または絶対スピアマン相関を計算することができる。
選択スコアは、病状を検出する際における特徴の有用性を示すことができる。例えば、高い選択スコアは、数学モデルを訓練するときにある特徴を使用すべきことを示すとしてよく、低い選択スコアは、数学モデルを訓練するときにその特徴を使用すべきでないことを示すとしてよい。
特徴安定性判定コンポーネント530は、特徴(音響特徴、言語特徴、または本明細書において説明した任意の他の特徴でもよい)が安定かまたは不安定か判定することができる。安定性判定を行うために、音声データ項目を複数のグループに分割することができる。このグループをフォールド(fold)と呼ぶこともある。例えば、音声データ項目を5つのフォールドに分割してもよい。ある実施態様では、各フォールドが、異なる性別および年齢グループに対してほぼ等しい数の音声データ項目を有するように、音声データ項目をフォールドに分割してもよい。
各フォールドの統計を他のフォールドの統計と比較することができる。例えば、第1フォールドについて、中央値(もしくは平均、あるいは分布の中心(center)または中央(middle)に関する任意の他の統計値)特徴値(Mで示す)を決定することができる。また、他のフォールドの組み合わせについて統計を計算することもできる。例えば、複数の他のフォールドの組み合わせについて、特徴値の中央値(Mで示す)、および四分位範囲、分散、または標準偏差というような、特徴値の変動性の統計的尺度(measuring)(Vで示す)を計算するのでもよい。第1フォールドの中央値が第2フォールドの中央値とは大きく異なり過ぎる場合、特徴は不安定であると判定することができる。例えば、
Figure 2020522028
である場合、特徴は不安定であると判定することができる。
ここで、Cは倍率である。次いで、このプロセスを他のフォールド毎に繰り返すことができる。例えば、前述のように、第2フォールドの中央値を他のフォールドの中央値および変動性と比較してもよい。
ある実施態様では、各フォールドを他のフォールドと比較した後、各フォールドの中央値が他のフォールドの中央値から離れ過ぎていない場合、特徴は安定であると判定することができる。逆に、いずれかのフォールドの中央値が他のフォールドの中央値から離れ過ぎている場合、特徴は不安定であると判定することができる。
ある実施態様では、特徴が安定か否かを示すために、特徴安定性判定コンポーネント530が特徴毎にブール値を出力することもできる。ある実施態様では、安定性判定コンポーネント530が特徴毎に安定性スコアを出力することもできる。例えば、安定性スコアは、あるフォールドと他のフォールドの中央値間の最も大きな距離(例えば、マハラノビス距離)として計算してもよい。
特徴選択計算コンポーネント540は、特徴選択スコア計算コンポーネント520から選択スコアを受け取り、更に特徴安定性判定コンポーネント530から安定性判定を受け取り、数学モデルを訓練するために使用される特徴の部分集合を選択することができる。特徴選択コンポーネント540は、最も高い選択スコアを有ししかも十分に安定である複数の特徴を選択することができる。
ある実施態様では、選択される特徴の数(または選択される特徴の最大数)を前もって設定してもよい。例えば、訓練データの量に基づいて数Nを決定してもよく、N個の特徴を選択すればよい。特徴の選択は、不安定な特徴を除去し(例えば、不安定であると判定された特徴、または安定性スコアが閾値よりも低い特徴)、次いで選択スコアが最も高いN個の特徴を選択することによって決定されてもよい。
ある実施態様では、選択される特徴の数が、選択スコアおよび安定性判定に基づいてもよい。例えば、特徴の選択が、不安定な特徴を除去し、次いで選択スコアが閾値よりも高い全ての特徴を選択することによって決定されてもよい。
ある実施態様では、特徴を選択するとき、選択スコアおよび安定性スコアを組み合わせてもよい。例えば、特徴毎に、複合スコア(combined score)を計算してもよく(特徴に対する選択スコアおよび安定性スコアを加算または乗算することによってというようにして)、この複合スコアを使用して特徴を選択してもよい。
次いで、モデル訓練コンポーネント550が、選択された特徴を使用して、数学モデルを訓練することができる。例えば、モデル訓練コンポーネント550は、訓練コーパスの音声データ項目を繰り返し、音声データ項目に対して選択された特徴を得て、次いで選択された特徴を使用して数学モデルを訓練することができる。ある実施態様では、モデル訓練の一部として、主成分分析または線形判別分析のような次元削減技法を、選択された特徴に適用してもよい。本明細書において説明する数学モデルの内任意のものというような、任意の適した数学モデルを訓練することができる。
ある実施態様では、ラッパー法のような他の技法を、特徴選択のために使用してもよく、または先に示した特徴選択技法と組み合わせて使用してもよい。ラッパー法は、1組の特徴を選択し、この選択した1組の特徴を使用して数学モデルを訓練し、次いで訓練したモデルを使用して1組の特徴の性能(performance)を評価することができる。可能な特徴の数が比較的少なく、および/または訓練時間が比較的短い場合、全ての可能な組の特徴を評価し、最良の結果が得られる(best performing)1組を選択してもよい。可能な特徴の数が比較的多く、および/または訓練時間が重要な要因である場合、良い結果が得られる(performs well)1組の特徴を繰り返し発見するために、最適化技法を使用してもよい。ある実施態様では、システム500を使用して1組の特徴を選択してもよく、次いで最終的な1組の特徴として、ラッパー法を使用して、これらの特徴から部分集合を選択してもよい。
図7は、病状を診断する数学モデルを訓練するための特徴を選択する実施態様例のフローチャートである。図7および本明細書における他のフローチャートにおいて、ステップの順序は一例であり、他の順序も可能であり、全てのステップが必要とは限らず、ステップを組み合わせること(全体的または部分的に)または細分化することもでき、更にある実施態様では、一部のステップを省略できる場合もあり、または他のステップを追加できる場合もある。本明細書において説明するフローチャートによって記述する方法はいずれも、例えば、本明細書において説明するコンピュータまたはシステムの内任意のものによって実装することができる。
ステップ710において、音声データ項目の訓練コーパスを入手する。訓練コーパスは、人の音声のオーディオ信号の表現、この音声が得られた人の医療診断の指示、および本明細書において説明した情報の内任意のものというような、任意の他の適した情報を含むことができる。
ステップ720において、訓練コーパスの音声データ項目毎に音声認識結果を得る。音声認識結果は、前もって計算され、訓練コーパスと共に格納されてもよく、または他の場所に格納されてもよい。音声認識結果は、筆記録、最も高いスコアを得た筆記録のリスト(例えば、N個の最良リスト)、可能な転記(transcription)のラティスというような任意の適した情報、ならびに単語、つなぎことば、または他の音声単位の開始時刻および終了時刻というようなタイミング情報を含むことができる。
ステップ730において、訓練コーパスの音声データ項目毎に音響特徴を計算する。音響特徴は、本明細書において説明した音響特徴の内任意のものというような、音声データ項目の音声認識結果を使用せずに計算された任意の特徴を含むことができる。音響特徴は、音声認識プロセスにおいて使用されるデータを含んでもよく、またはこのデータから計算されてもよい(例えば、メル周波数ケプストラル係数または知覚線形予測子)が、音響特徴は、音声データ項目内に存在する単語またはつなぎことばについての情報というような、音声認識結果を使用しない。
ステップ740において、訓練コーパスの音声データ項目毎に、言語特徴を計算する。言語特徴は、本明細書において説明した言語特徴の内任意のものというような、音声認識結果を使用して計算される任意の特徴を含むことができる。
ステップ750において、各音響特徴および各言語特徴について、特徴選択スコアを計算する。特徴について特徴選択スコアを計算するために、訓練コーパスにおける音声データ項目毎の特徴の値を、音声データ項目に対応する既知の診断値というような、他の情報と共に使用してもよい。特徴選択スコアは、絶対ピアソン相関を計算することによってというように、本明細書において説明した技法の内任意のものを使用して計算すればよい。ある実施態様では、特徴選択スコアは、人の人口統計学的情報に関する特徴というような、他の特徴についても同様に計算されてもよい。
ステップ760において、特徴選択スコアを使用して複数の特徴を選択する。例えば、最高の選択スコアを有する複数の(a number of)特徴を選択してもよい。ある実施態様では、特徴毎に安定性判定を計算してもよく、本明細書において説明した技法の内任意のものを使用することによってというようにして、特徴選択スコアおよび安定性判定の双方を使用して、複数の特徴を選択してもよい。
ステップ770において、選択された特徴を使用して数学モデルを訓練する。ニューラル・ネットワークまたはサポート・ベクター・マシンというような、任意の適した数学モデルを訓練すればよい。数学モデルを訓練した後、病状の診断を実行するために、図1Bの音声モジュール104、システム109等のような、生産システム内にデプロイすることができる。
図7のステップは、種々の方法で実行することができる。例えば、ある実施態様では、ステップ730および740は、ループ状に実行してもよく、訓練コーパスにおける音声データ項目の各々に対して繰り返し実行する。第1の繰り返しでは、第1音声データ項目について音響および言語特徴を計算してもよく、第2の繰り返しでは、第2音声データ項目について音響および言語特徴を計算してもよい等である。
病状を診断するためにデプロイされたモデルを使用するとき、診断対象の人から音声を得るために、この人に対して一連のプロンプトまたは質問を発することができる。図4のプロンプトの内任意のものというような、任意の適したプロンプトを使用すればよい。以上で説明したようにして特徴が選択された後、選択されたプロンプトが選択された特徴について有用な情報を提供するように、プロンプトを選択することができる。
例えば、選択された特徴が調子(pitch)であると仮定する。調子は、病状を診断するためには有用な特徴であると判定されているが、有用な調子特徴(pitch feature)を得るには、あるプロンプトが他のものよりも優れているという場合もある。非常に短い発声(例えば、はい/いいえの答え)は、調子を精度高く計算するための十分なデータを提供できない場合もあり、したがって、より長い応答を引き出す(generate)プロンプト程、調子についての情報を得る際には一層有用となることができる。
他の例をあげると、選択された特徴が単語の難しさ(word difficulty)であると仮定する。単語の難しさは、病状を診断するためには有用な特徴であると判定されているが、有用な単語の難しさの特徴を得るのには、あるプロンプトが他のものよりも優れているという場合もある。提示された一節を読むようにユーザに求めるプロンプトは、一般に、その一節における単語が発声される結果となり、したがって、単語の難しさの特徴は、このプロンプトが提示される毎に同じ値を有することになる。つまり、このプロンプトは、単語の難しさについての情報を得るには有用ではない。対照的に「あなたの一日について私に話して下さい」というような自由回答式質問にすると、応答における語彙の多様性が広がる結果となり、したがって、単語の難しさについて一層有用な情報を提供することができる。
また、1組のプロンプトを選択することによって、病状を診断するシステムの性能を向上させ、被評価者にとってより良い体験を提供することができる。被評価者毎に同じ1組のプロンプトを使用することによって、病状を診断するシステムは一層正確な結果を得ることができる。何故なら、複数の人々から収集されたデータの方が、異なるプロンプトをひとりひとりに使用した場合よりも、比較し易いからである。更に、定められた1組のプロンプトを使用することにより、人の評価を予測し易くなり、病状の評価に適した所望の持続時間の評価も予測し易くなる。例えば、ある人がアルツハイマー病にかかっているか否か評価するためには、より多くのデータ量を収集するためにより多くのプロンプトを使用することが容認できるが、スポーツ・イベントにおいてある人が脳震盪を起こしたか否か評価するためには、結果をより素早く得るために、使用するプロンプトの数を減らすことが必要となるのはもっともである。
ある実施態様では、プロンプト選択スコアを計算することによって、プロンプトを選択してもよい。訓練コーパスが、1つのプロンプトに対して複数の音声データ項目を有する場合があり、または数多くの音声データ項目を有する場合さえもある。例えば、訓練コーパスが、異なる人々によって使用されるプロンプトの例を含むこともあり、または同じプロンプトが同じ人によって複数回使用されることもある。
図8は、病状を診断するためにデプロイされたモデルと共に使用するためのプロンプトを選択する実施態様例のフローチャートである。
ステップ810から840は、プロンプト毎にプロンプト選択スコアを計算するために、訓練コーパスにおけるプロンプト(またはプロンプトの部分集合)毎に実行してもよい。
ステップ810において、プロンプトを得て、ステップ820において、このプロンプトに対応する音声データ項目を訓練コーパスから得る。
ステップ830において、このプロンプトに対応する音声データ項目毎に、医療診断スコアを計算する。例えば、音声データ項目に対する医療診断スコアは、数学モデル(例えば、図7において訓練された数学モデル)によって出力される数値であってもよく、人に病状がある可能性、および/またはその病状の重症度を示す。
ステップ840において、計算された医療診断スコアを使用して、プロンプトに対してプロンプト選択スコアを計算する。プロンプト選択スコアの計算は、先に説明したような、特徴選択スコアの計算と同様であってもよい。プロンプトに対応する音声データ項目毎に、1対の数値を得ることができる。各対について、この対の最初の数値は、音声データ項目から計算された医療診断スコアとしてもよく、この対の2番目の数値は、人について分かっている病状診断(例えば、この人に病状があること、またはこの病状の重症度を示すことがわかっている)としてもよい。これらの数値対をプロットすると、図6Aまたは図6Bと同様のプロットが得られ、プロンプトによっては、数値の対にパターンまたは相関がある場合とない場合が出る。
プロンプトに対するプロンプト選択スコアは、計算された医療診断スコアと既知の病状診断との間におけるパターンまたは相関を示す任意のスコアを含むことができる。例えば、プロンプト選択スコアは、ランド指標、調節ランド指標、相互情報、調節相互情報、ピアソン相関、絶対ピアソン相関、スピアマン相関、または絶対スピアマン相関を含んでもよい。
ステップ850において、他に処理すべきプロンプトが残っているか否か判定する。処理すべきプロンプトが残っている場合、処理はステップ810に進み、追加のプロンプトを処理することができる。全てのプロンプトが処理されている場合、処理はステップ860に進むことができる。
ステップ860において、プロンプト選択スコアを使用して、複数のプロンプトを選択する。例えば、最も高いプロンプト選択スコアを有する複数の(a number of)プロンプトを選択してもよい。ある実施態様では、プロンプト毎に安定性判定を計算してもよく、プロンプト選択スコアおよびプロンプト安定性スコアの双方を使用して、本明細書において説明した技法の内任意のものを使用することによってというようにして、複数のプロンプトを選択してもよい。
ステップ870において、選択されたプロンプトを、デプロイされた病状診断サービスと共に使用する。例えば、人を診断するとき、選択されたプロンプトを人に提示し、プロンプトの各々に対する応答において、この人の音声を得ることができる。
ある実施態様では、ラッパー法のような他の技法を、プロンプト選択のために使用してもよく、または先に提示したプロンプト選択技法と組み合わせて使用してもよい。ある実施態様では、図8のプロセスを使用して1組のプロンプトを選択してもよく、次いで、最終的な1組の特徴として、これらのプロンプトの部分集合を、ラッパー法を使用して選択してもよい。
ある実施態様では、病状診断サービスの作成に関与する人が、プロンプトの選択において補助してもよい。この人は、彼の知識または経験を使用して、選択された特徴に基づいてプロンプトを選択することができる。例えば、選択された特徴が単語の難しさである場合、この人はプロンプトを見直し、単語の難しさに関する有用な情報を提供する可能性が高い方からプロンプトを選択すればよい。この人は、選択された特徴の各々について有用な情報を提供する可能性が高い1つ以上のプロンプトを選択すればよい。
ある実施態様では、この人は、図8のプロセスによって選択されたプロンプトを見直し、病状診断システムの性能を向上させるために、プロンプトを追加または削除することができる。例えば、2つのプロンプトが各々単語の難しさについて有用な情報を提供することができるが、これら2つのプロンプトによって提供される情報が非常に冗長である場合もあり、双方のプロンプトを使用すると、これらの1つだけを使用する場合よりも有意な便益が得られないおそれもある。
ある実施態様では、プロンプト選択の後に、選択されたプロンプトに相応しい第2の数学モデルを訓練することもできる。図7において訓練された数学モデルは、1つの発声(utterance)(プロンプトに応答した)を処理して医療診断スコアを生成することができる。診断を実行するプロセスは、複数のプロンプトに対応する複数の発声を処理するステップを含み、次いで図7の数学モデルによって発声の各々を処理して、複数の医療診断スコアを生成することができる。総合的な医療診断について判定するために、複数の医療診断スコアを何らかの方法で組み合わせる必要がある場合もある。したがって、図7において訓練された数学モデルは、選択された1組のプロンプトに相応しくなくてもよい。
選択されたプロンプトが人を診断するセッションにおいて使用されるとき、プロンプトの各々をその人に提示して、プロンプトの各々に対応する発声を得ることができる。発声を別個に処理する代わりに、モデルによって発声を同時に処理して医療診断スコアを生成することもできる。したがって、モデルは、選択されたプロンプトの各々に対応する発声を同時に処理するように訓練されるので、選択されたプロンプトにモデルを適応させることができる。
図9は、1組の選択されたプロンプトに相応しい数学モデルを訓練する実施態様例のフローチャートである。ステップ910において、図7のプロセスを使用することによってというようにして、第1数学モデルを得る。ステップ920において、図8のプロセスによってというようにして、第1数学モデルを使用して、複数のプロンプトを選択する。
ステップ930において、複数の選択されたプロンプトに対応する複数の音声データ項目を同時に処理して医療診断スコアを生成する第2数学モデルを訓練する。第2数学モデルを訓練するとき、複数の選択されたプロンプトの各々に対応する音声データ項目によるセッションを含む訓練コーパスを使用することができる。この数学モデルを訓練するとき、数学モデルへの入力を、セッションからの、そして選択されたプロンプトの各々に対応する音声データ項目に固定してもよい。数学モデルの出力は、既知の医療診断に固定されてもよい。
次いで、このモデルのパラメータを訓練して、同時に医療診断スコアを生成するように音声データ項目を最適に処理することもできる。確率的勾配降下法のような、任意の適した訓練技法を使用することができる。
次いで、音声モジュール104、図1のサービス等のように、病状診断サービスの一部として、第2数学モデルをデプロイすることができる。第2数学モデルは、個別にではなく、発声を同時に処理するように訓練されているので、第2数学モデルは第1数学モデルよりも高い性能を発揮することができる。つまり、訓練は、全ての発声からの情報を組み合わせると、一層正しく病状診断スコアを生成することができる。
図10は、以上で説明した技法の内任意のものを実装するためのコンピューティング・デバイス1000の一実施態様のコンポーネントを示す。図10では、コンポーネントは、1つのコンピューティング・デバイス上にあるように示されているが、例えば、エンド・ユーザ・コンピューティング・デバイス(例えば、スマート・フォンまたはタブレット)および/またはサーバ・コンピューティング・デバイス(例えば、クラウド・コンピューティング)を含む、コンピューティング・デバイスのシステムのように、複数のコンピューティング・デバイス間で、コンポーネントを分散させることもできる。
コンピューティング・デバイス1000は、揮発性または不揮発性メモリ1010、1つ以上のプロセッサ1011、および1つ以上のネットワーク・インターフェース1012のような、コンピューティング・デバイスに典型的な任意のコンポーネントを含むことができる。また、コンピューティング・デバイス1000は、ディスプレイ、キーボード、およびタッチ・スクリーンのような、任意の入力および出力コンポーネントも含むことができる。また、コンピューティング・デバイス1000は、特定の機能を提供する種々のコンポーネントまたはモジュールも含むことができ、これらのコンポーネントまたはモジュールは、ソフトウェア、ハードウェア、またはこれらの組み合わせで実装することができる。以下に、実装の一例として、コンポーネントの様々な例について説明するが、他の実装では、追加のコンポーネントを含んでもよく、または以下で説明するコンポーネントの一部を除外してもよい。
コンピューティング・デバイス1000は、先に説明したように音声データ項目について音響特徴を計算することができる音響特徴計算コンポーネント1021を有することができる。コンピューティング・デバイス1000は、先に説明したように音声データ項目の言語特徴を計算することができる言語特徴計算コンポーネント1022を有することができる。コンピューティング・デバイス1000は、先に説明したように音声データ項目について音声認識結果を生成することができる音声認識コンポーネント1023を有することができる。コンピューティング・デバイス1000は、先に説明したように特徴に対して選択スコアを計算することができる特徴選択スコア計算コンポーネント1031を有することができる。コンピューティング・デバイス1000は、先に説明したように安定性判定を行うまたは安定性スコアを計算することができる特徴安定性スコア計算コンポーネント1032を有することができる。コンピューティング・デバイス1000は、先に説明したように選択スコアおよび/または安定性判定を使用して特徴を選択することができる特徴選択コンポーネント1033を有することができる。コンピューティング・デバイス1000は、先に説明したようにプロンプトに対して選択スコアを計算することができるプロンプト選択スコア計算コンポーネント1041を有することができる。コンピューティング・デバイス1000は、先に説明したように安定性判定を行うまたは安定性スコアを計算することができるプロンプト安定性スコア計算コンポーネント1042を有することができる。コンピューティング・デバイス1000は、先に説明したように選択スコアおよび/または安定性判定を使用してプロンプトを選択することができるプロンプト選択コンポーネント1043を有することができる。コンピューティング・デバイス1000は、先に説明したように数学モデルを訓練することができるモデル訓練コンポーネント1050を有することができる。コンピューティング・デバイス1000は、先に説明したように音声データ項目を処理して医療診断スコアを決定することができる病状診断コンポーネント1060を有することができる。
コンピューティング・デバイス1000は、訓練コーパス・データ・ストア1070のような、種々のデータ・ストアを含むこと、またはこれらにアクセスすることができる。データ・ストアは、ファイル、リレーショナル・データベースまたは非リレーショナル・データベース、あるいは任意の非一時的コンピュータ読み取り可能媒体のような、任意の周知の格納技術を使用することができる。
図11は、音声モジュール104の一実施形態を示す。特定の実施形態では、音声モジュール104は、図1Aに関して先に説明したような、デバイス音声モジュール104aおよび/またはバックエンド音声モジュール104bの内1つ以上と実質的に同様でよい。図示する実施形態では、音声モジュール104は、クエリ・モジュール1102、応答モジュール1104、検出モジュール1106、およびインターフェース・モジュール1108を含む。
一実施形態では、クエリ・モジュール1102は、ユーザに1つ以上の質問、プロンプト、要求(request)等を問いかける、および/または問い合わせる。特定の実施形態では、クエリ・モジュール1102は聞こえるようにおよび/または口頭で(verbally)ユーザに質問してもよい(例えば、一体化スピーカ、ヘッドホン、Bluetooth(登録商標)スピーカまたはヘッドホン等というような、コンピューティング・デバイス102のスピーカを使用する)。例えば、脳震盪のように、特定の潜在的な病状のために、ユーザにとって質問および/またはプロンプトを読むことが難しいという場合もあり、聞こえるようにユーザに質問することによって、診断を簡略化するおよび/または捗らせることができる。更に他の実施形態では、クエリ・モジュール1102が1つ以上の質問および/または他のプロンプトをユーザに(例えば、コンピューティング・デバイス102の電子ディスプレイ画面上等)に表示してもよく、他のユーザ(例えば、コーチ、親、医療専門家、管理者等)が1つ以上の質問および/または他のプロンプトをユーザに読み上げてもよい等があげられる。種々の実施形態では、1つ以上の病状の診断を促進するために、プロンプト選択コンポーネント1043に関して先に説明したように、1つ以上の質問またはプロンプトを選択してもよい。
特定の実施形態では、複数の異なるコンピューティング・デバイス102上に配置された複数のクエリ・モジュール1102が複数の異なるユーザに問い合わせる、および/または質問するのでもよい。例えば、複数の分散型クエリ・モジュール1102が、治験のために音声サンプルを収集し、病状を診断する機械学習モデルを訓練し、検査データを収集してプロンプトの選択を容易にする等も可能である。
一実施形態では、クエリ・モジュール1102が、知られている健康状態、病状の予め定められた段階等のような、予め定められた健康状態にあるユーザに質問して、および/または、そうでなければ問い合わせて、1つ以上の基準音声記録、訓練データ、またはその他のデータを収集する。特定の実施形態では、クエリ・モジュール1102が、潜在的な健康現象(medical event)またはその他のトリガに応答して、ユーザに質問するおよび/または、そうでなければ問い合わせる。クエリ・モジュール1102は、ウェアラブル・デバイスまたは移動体デバイスのようなコンピューティング・デバイス102のセンサからのデータに基づいて、および/または傷害が起きたらしいこと、疾病の1つ以上の兆候が検出されたこと等を示す他のトリガを受け取ったことに基づいて、医療評価を要求するユーザに応答して、ユーザに質問しテスト・ケース音声記録または他のテスト・ケース・データを収集することができる。例えば、衝突、落下、事故、および/またはその他の潜在的な脳震盪現象(例えば、スポーツ・イベントまたは他の活動における)に応答して、ユーザ(傷害を負った選手または他の人、コーチ、親、医療専門家、管理者等)が医療評価を要求してもよい(例えば、インターフェース・モジュール1108のグラフィカル・ユーザ・インターフェースを使用して、クエリ・モジュール1102からの1つ以上の質問、音声データおよび/または応答モジュール1104からの他のデータの収集、および/または検出モジュール1106からの医療評価等をトリガする)。特定の実施形態では、脳震盪は、ユーザの頭部に対する直接または間接的な力が原因で生ずる脳機能の乱れを含むことがある。脳震盪は、頭痛、不安定、混乱または他の脳器脳障害、異常行動および/または人格等の原因となり得る。
例えば、病状が脳震盪を含む実施形態では、クエリ・モジュール1102がユーザに聞こえるように質問し、および/またはユーザに関連するセンサ・データを収集して、ユーザの目が開いているか否か、痛みに応答してユーザの目が開いているか否か、音声に応答してユーザの目が開いているか否か、ユーザの目が自発的に開いているか否か、ユーザが口頭で応答を出すことができるか否か、ユーザが理解できない音を発しているか否か、ユーザが質問または他のプロンプトに不適切な単語で応答しているか否か、ユーザが混乱している(confused)か否か、ユーザが不調になっている(disoriented)か否か、ユーザが殆どまたは全く運動反応を示さないか否か、ユーザが牽引(extension)に対して痛みを訴えるか否か(例えば、腕の外転、前腕の回外等)、ユーザが異常な屈曲に対して痛みを訴えるか否か(例えば、前腕の回内、屈筋姿勢(flexor posturing)等)、ユーザの痛みが引いているか否か、ユーザが痛みの位置を特定できるか否か(例えば、故意に痛みが生じる動き)、ユーザがクエリ・モジュール1102からのことばによる/可聴コマンドに従うか否か等を検出することができる。ある実施形態では、クエリ・モジュール1102は、評価および/または診断を受けるユーザにいくつかの質問を発し、更に他の質問を管理者(例えば、医療専門家、コーチ、親、トレーナ等)に発することができる。例えば、クエリ・モジュール1102が、平衡欠如、運動失調、不調(disorientation)、混乱(confusion)、記憶喪失、うつろなまたは空虚な表情、見て分かる顔の怪我または他の怪我、観察された身体検査の結果(例えば、運動範囲、柔軟性、感覚、強さ、平衡試験、協調試験等)、および/またはその他の観察事項というような、評価および/または診断を受けるユーザにおいて管理者が観察した可能性がある1つ以上の痕跡(sign)について、管理者に質問するのでもよい。
特定の実施形態では、クエリ・モジュール1102は、潜在的な医療現象が発生したときにユーザが参加していたスポーツ・イベント、ユーザのチーム、日付けおよび/または時間、記憶検査の質問(memory test question)等について、ユーザに質問するおよび/または催促することができる。例えば、クエリ・モジュール1102は、ユーザに、「どこの会場に私たちは今日いるのか?」、「現在前半かまたは後半か?」、「この試合で最後に得点をあげたのは誰か?」、「先週または最後のゲームであなたはどのチームでプレーしたか?」、「あなたのチームは最後のゲームに勝ったか?」、「今は何月か?」、「今日の日付は?」、「今日は何曜日か?」、「今年は何年か?」、「今何時か?」という質問を、聞こえるようにおよび/または文書で行うことができ、ユーザに単語および/または数値を聞こえるように列挙し、それらを繰り返すようにユーザに指示することができ、ユーザに一連の写真を表示し、これら一連の写真の説明等を繰り返すようにユーザに指示することができる。クエリ・モジュール1102の1つ以上の質問および/またはプロンプトは、検出モジュール1106が、標準脳震盪評価ツール(SCAT:Standardized Concussion Assessment Tool)のスコア、SCAT2のスコア、SCAT3のスコア、SCAT5のスコア、グラスゴー・コーマ・スコア(GCS: Glasgow Coma Score)、マドックス・スコア(Maddocks Score)、脳震盪認識ツール(CRT: Concussion Recognition Tool)のスコア、および/または他の脳震盪のスコアを決定することを可能にするのでもよい。
一実施形態では、応答モジュール1104は、クエリ・モジュール1102からの1つ以上の質問および/または他のクエリに応答して、応答データ(例えば、口頭応答の音声データ、タイプ打ちされた応答のテキスト・データ、センサ・データ、カメラもしくは他の画像センサからの画像および/またはビデオ・データ、タッチ・スクリーンおよび/またはタッチパッドからのタッチ入力、加速度計および/またはジャイロスコープからの移動情報等)を受け取るように構成される。例えば、特定の実施形態では、応答モジュール1104は、コンピューティング・デバイス102(例えば、サッカー場、他のスポーツ・イベント等に持って行った移動体コンピューティング・デバイス102)のマイクロフォンを使用して、クエリ・モジュール1102からの1つ以上の質問または他のプロンプトに対するユーザの口頭応答(例えば、回答)を記録することができる。
一実施形態では、応答モジュール1104は、音声記録、センサ・データ等のような、受け取った応答データをコンピューティング・デバイス102,110のコンピュータ読み取り可能記憶媒体上に格納し、検出モジュール1106が、受け取った応答データにアクセスするおよび/または応答データを処理して、病状を診断および/または評価する、病状を診断および/または評価するモデルを訓練する等ができるように、インターフェース・モジュール1108が、受け取った応答データを1人以上の正規ユーザに提供できるように、および/または受け取った応答データが他の方法での使用のためにアクセス可能になるようにする。他の実施形態では、応答モジュール1104は、病状を診断および/または評価するために、受け取った応答データを直接検出モジュール1106に供給することもできる(例えば、データを他の方法で格納せず、一時的にデータを格納および/またはキャッシュせず等)。
応答モジュール1104は、基準応答データ(例えば、クエリ・モジュール1102からの1つ以上の基準質問またはプロンプトに応答して)、およびテスト・ケース応答データ(例えば、潜在的な医療事象等に基づいてクエリ・モジュールからの1つ以上のテスト・ケースの質問またはプロンプトに応答して)を別個に受け取ること、および/または格納することもできる。特定の実施形態では、応答モジュール1104はテスト・ケース応答データだけを受け取るのでもよく、検出モジュール1106は病状の評価または他の診断を、テスト・ケース・データおよび異なるユーザ(例えば、その病状があることがわかっている他のユーザ等)からのデータの分析に基づいて行うこともできる。応答モジュール1104は、受け取った応答データを、データベース、および/または検出モジュール1106、インターフェース・モジュール1108等によってアクセス可能な他の既定のデータ構造に格納する、および/または編成することもできる。
ユーザの応答の履歴(例えば、基準応答データ、テスト・ケース応答データ、評価、スコア等)を格納することによって、特定の実施形態では、検出モジュール1106が、医療事象に応答して、ユーザに対する病状を動的に評価することを、応答モジュール1104が可能にするのでもよい。例えば、応答モジュール1104は、ユーザの応答データを移動体コンピューティング・デバイス102上、データ・ネットワーク106,130を通じて移動体コンピューティング・デバイス102と通信するバックエンド・サーバ108上等に格納することができ、検出モジュール1106が、潜在的な医療事象に応答して現地において病状の評価について判定することを可能にする(例えば、潜在的な脳震盪事象に応答して、自動車事故に応答して等で、サッカーの試合または他のスポーツ・イベントにおいて、サイド・ラインまたはフィールド上で)。
一実施形態では、検出モジュール1106は、応答モジュール1104から受け取った1つ以上のユーザ応答の分析に基づいて、病状の評価および/または他の診断をユーザに提供するように構成される。種々の実施形態では、先に説明した検出モジュール1106は、音響特徴計算コンポーネント210、音声認識コンポーネント220、言語特徴計算コンポーネント230、および/または病状クラシファイア240を備えてもよく、これらと通信してもよく、および/または実質的にこれらと同様であってもよい。
一実施形態では、検出モジュール1106は、ユーザについてのテスト・ケース応答データ、および同じユーザについて以前に受け取った基準応答データ(例えば、ユーザに病状があるか否か、ユーザに病状がある可能性、その病状の推定重症度等)の双方に基づいて、ユーザに対する病状の評価または他の診断について判定することができる(例えば、ユーザの音声変化、ユーザの応答変化等について判定するため)。他の実施形態では、検出モジュール1106は、ユーザについてのテスト・ケース応答データに基づき、更に異なるユーザについての応答データ(例えば、病状が以前に診断されたことがある異なるユーザ等)に基づいて、ユーザに対する病状の評価または他の診断について判定することができる。更に他の実施形態では、検出モジュール1106は、ユーザについてのテスト・ケース応答データ、同じユーザについての基準応答データ、および異なるユーザについての応答データ等に基づいて、ユーザに対する病状の評価または他の診断について判定することができる。
特定の実施形態では、音響特徴計算コンポーネント210、音声認識コンポーネント220、言語特徴計算コンポーネント230、および/または病状クラシファイア240に関して先に説明したように、検出モジュール1106は1つ以上の音声特徴(例えば、音響特徴および/または言語特徴)を音声記録(例えば、基準応答データおよび/またはテスト・ケース応答データ)から抽出することができ、1つ以上の抽出した音声特徴を、病状と関連付けられたモデル(例えば、混合ガウス・モデル、音響モデル、言語モデル、ニューラル・ネットワーク、ディープ・ニューラル・ネットワーク、クラシファイア、サポート・ベクトル・マシン、多層パーセプトロン等のような機械学習モデル)に入力することができ、このモデルは、1つ以上の抽出した音声特徴に基づいて、病状に対する評価または他の診断を出力することができる。
更に他の実施形態では、抽出した音声特徴をモデルに入力して病状を診断することに加えて、検出モジュール1106は、ユーザに関連する他の補足データをモデルに入力して、その結果に基づいて病状を診断することもできる。例えば、検出モジュール1106がユーザのコンピューティング・デバイス102からのセンサ・データをモデルに入力し(例えば、抽出した音声特徴または他の音声データと共に)、ユーザに対して病状の評価または他の診断について判定するのでもよい。
一実施形態では、検出モジュール1106は、1つ以上の画像特徴を、コンピューティング・デバイス102のカメラというような画像センサからの画像データ(例えば、ユーザ、ユーザの顔、病状に関連するユーザの他の身体部分等の1つ以上の画像、ビデオ等)から抽出することができ、1つ以上の画像特徴をモデルに入力する(例えば、抽出した音声特徴等と共に)ことができる。更に他の実施形態では、検出モジュール1106は、評価または他の診断を、少なくとも部分的に、コンピューティング・デバイス102のタッチ・スクリーン、タッチパッド等の上においてユーザから受け取ったタッチ入力に基づいて行うこともできる。
例えば、クエリ・モジュール1102がコンピューティング・デバイス102の電子ディスプレイ上にインタラクティブ・ビデオ・ゲーム等を提供してもよく、インタラクティブ・ビデオ・ゲームが、病状の1つ以上の兆候についてユーザを検査するように構成されてもよく(例えば、反射神経、機敏さ、反応時間等を検査する)、検出モジュール1106が、インタラクティブ・ビデオ・ゲームの間にユーザから受け取ったタッチ入力から1つ以上の特徴(例えば、ビデオ・ゲームにおけるスコア、ユーザの反応時間、ユーザについてのタッチ精度測定基準(metrics)等)を抽出してもよく、そして1つ以上の抽出した特徴を、病状を診断するためにモデルに入力してもよい(例えば、1つ以上の抽出した音声特徴等と共に)。特定の実施形態では、検出モジュール1106は、加速度計、ジャイロスコープ、および/または移動体コンピューティング・デバイス102の他の動きセンサによって測定された、ユーザについての動き情報から1つ以上の特徴を抽出してもよく、1つ以上の抽出した特徴を、病状を診断するためにモデルに入力してもよい(例えば、1つ以上の抽出した音声特徴等と共に)。
先に説明したように、特定の実施形態では、検出モジュール1106は、脳震盪のような神経学的状態を含む病状に対する評価または他の診断について判定することもできる。他の実施形態では、検出モジュール1106は、鬱病、ストレス、脳卒中、認知的安定、気分、誠意、アルツハイマー病、パーキンソン病、癌等の内1つ以上を含む病状に対する評価または他の診断について判定することもできる。
特定の実施形態では、検出モジュール1106は、受け取った口頭応答データの1つ以上の音響特徴に基づいて、受け取った口頭応答データの1つ以上の言語特徴には関係なく(例えば、言語特徴を全く用いずに、1つ以上の予め定められた言語特徴のみを用いて、自動音声認識を全く用いずに等)、病状の評価または他の診断について判定するように構成することもできる。このように、ある実施形態では、検出モジュールの評価および/または診断は、受け取った口頭応答の言語および/または方言(dialect)とは無関係でよいので、検出モジュール1106は、受け取った口頭応答データの音響特徴を使用して、異なる言語でユーザに評価および/または診断を提供することができる。他の実施形態では、検出モジュール1106は、病状の評価および/または診断を、受け取った口頭応答データの音響特徴および言語特徴の双方に基づいて行うこともできる。
特定の実施形態では、検出モジュール1106が、ユーザの移動体コンピューティング・デバイス102上のみで、病状の評価および/または診断について判定することができる。例えば、緊急の状況等においては、できるだけ早く診断が必要とされる場合があり、記録された口頭応答を処理のためにバックエンド・サーバ108にアップロードする時間がない場合もあり、または移動体コンピューティング・デバイス102がデータ・ネットワーク106,130への接続ができない場合もあり、または十分高速な接続ができない場合もある。一実施形態では、検出モジュール1106は、移動体コンピューティング・デバイス102上で利用可能な処理パワー、揮発性メモリ容量、および/または不揮発性記憶容量を使用して実行するように構成された1つ以上のモデルを使用することもできる。例えば、追加の行列乗算を使用すれば評価および/または診断の精度を向上させることができるとしても、モデルにおける行列乗算を制限することによって(例えば、行列乗算を使用しない、既定数の行列乗算のみにする等)、移動体コンピューティング・デバイス上で検出モジュール1106によって使用されるモデルは、クラシファイアのサイズ(例えば、必要な揮発性および/または不揮発性記憶容量)を極力抑えることができる。
一実施形態では、検出モジュール1106は、移動体コンピューティング・デバイス102上で唯一のおよび/または排他的な評価および/または診断について判定する。更に他の実施形態では、検出モジュール1106が移動体コンピューティング・デバイス102上で第1評価および/または診断(例えば、第1スコア)について判定するのでもよく、他の検出モジュール1106が第2評価および/または診断(例えば、第2のスコア、より精度が高いおよび/またはより詳細な評価等)について判定するのでもよい。他の実施形態では、検出モジュール1106がバックエンド・サーバ・デバイス108上で唯一のおよび/または排他的な評価および/または診断について判定することもできる。
特定の実施形態では、複数の音声モジュール104が、治験参加者を含むユーザと、1つ以上の治験を実行するように構成されてもよい(例えば、参加者の音声データの分析に基づいて、医療処置の効能について判定する)。このような実施形態では、検出モジュール1106は、治験に関連する病状に対する医療処置の効能の評価について判定することができる。例えば、治験参加者のようなユーザを、少なくとも、医療処置を受けないプラシーボ・グループと、医療処置を受ける異なるグループとに分割してもよく、または異なる医療処置等を受ける複数のグループに分割してもよい。
複数の分散型検出モジュール1106が、プラシーボ・グループおよび医療処置を受ける1つ以上のグループの双方に対する病状の盲検評価を提供して、治験の1人以上の管理者が医療処置の効能について判定することを可能にするように構成することができる。例えば、検出モジュール1106が、病状の重症度、病状の1つ以上の兆候の重症度等を、プラシーボ・グループに対して、そして医療処置を受けるグループに対して判定し、これら2つを比較することができる。「盲検」評価("blind" assessment)とは、本明細書において使用する場合、参加者がプラシーボ・グループにいるのか、または医療処置を受けるグループにいるのかには基づかない評価のことである。例えば、特定の実施形態では、検出モジュール1106が、プラシーボ・グループの治験参加者、および医療処置を受けるグループの治験参加者の双方に、同じモデル、同じ分析等を使用してもよい。
特定の実施形態では、治験に関連する病状を処置するときの医療処置の効能だけに基づいて評価を行う代わりに、検出モジュール1106は、少なくとも部分的に、受け取った応答データの内、ユーザの生活の質を示す1つ以上のバイオマーカ(例えば、口頭応答データ、センサ・データ等)に基づいて評価を行うように構成される。例えば、治験と関連する病状を評価することに加えて、検出モジュール1106は、肉体的疲労、倦怠(tiredness)、精神的疲労、ストレス、心配、鬱病、および/またはユーザの生活の質に関連する他のパラメータを示す1つ以上の生活の質バイオマーカ(quality of life biomarker)を評価することもできる。バイオマーカとは、本明細書において使用する場合、ユーザの何らかの生物学的状態(state)および/または状況(condition)の、ユーザからの測定可能な指標を含む(例えば、疾病および/または傷害の存在、1つ以上の兆候の存在、ユーザの現在の生活の質等)。特定の実施形態では、バイオマーカは、音響特徴、言語特徴、センサ・データにおいて識別可能な特徴等のような、ユーザからのデータに応答して検出モジュール1106によって客観的に識別可能な特徴を含んでもよい。
特定の実施形態では、検出モジュール1106は、治験に合わせて参加者を篩に掛けるために、最初にユーザ(治験参加予定者)からの基準応答データを使用してもよい(例えば、ある病状を目的とする治験に対するユーザの適格性等を含む評価について判定する)。例えば、抗がん剤治療は有効であると言って差し支えないが、抗がん剤治療を使用する個人の生活の質にとっては有害になり得る。問診票または同様の手段を使用して処置または薬剤を受けることの生活の質および/または行動における結果を主観的に測定する代わりに、特定の実施形態では、検出モジュール1106が、ユーザからの口頭応答データにおけるバイオマーカまたは他の指標を客観的に使用して、ユーザ(例えば、治験参加者)における1つ以上の生活の質の変化を識別することができる。
特定の実施形態では、インターフェース・モジュール1108は、クエリ・モジュール1102と協働して、1つ以上の質問および/またはプロンプトをユーザに表示する(例えば、聞こえるようにユーザに質問する代わりに、聞こえるようにユーザに質問するのに加えて等)。応答モジュール1104は、1つ以上のユーザ・インターフェース・エレメント(例えば、再生ボタン、再演(replay)ボタン、次質問ボタン、直前質問ボタン等)を表示することができ、ユーザがクエリ・モジュール1102の1つ以上の質問を検索する(navigate through)ことを可能にする。一実施形態では、判定モジュール1106が、クエリ・モジュール1102からの質問に対するユーザからの回答が正しいかまたは正しくないか(例えば、機械学習モデル等を使用した音声分析に基づいて)判定することができ、インターフェース・モジュール1108が、回答が正しいかまたは正しくないか、記号で指示することができる(例えば、動的に、クエリ・モジュール1102の評価の管理中等に)。更に他の実施形態では、判定モジュール1106が、自動音声認識を使用して、応答モジュール1104からのユーザの音声応答を記録しこれをテキストに変換することができ、インターフェース・モジュール1108がこのテキストをユーザに表示することができる(例えば、動的に、リアル・タイムで表示する等)。
特定の実施形態では、インターフェース・モジュール1108は(例えば、クエリ・モジュール1102と協働して)、一節(例えば、文章、複数組の単語、文字、数値、単音節等を含む一節)を復唱するようにユーザに促すことができる。インターフェース・モジュール1108は、データが収集される毎に(例えば、基準応答データの集合体、テスト・ケース応答データの集合体、治験篩い分けデータの集合体、治験データの集合体等)、ユーザに同じ一節および/または1組の一節を復唱するように促してもよい。
ある実施形態では、インターフェース・モジュール1108は、評価されるユーザの1つ以上の健康診断を行うように、命令によって、評価の管理者(例えば、コーチ、親、医療専門家等)に促すこともできる。例えば、インターフェース・モジュール1108が、平衡検査、運動協調検査、運動範囲検査、柔軟性検査、触覚検査、強度検査等の命令を発する(provide)のでもよく、応答モジュール1104のために管理者が結果(例えば、管理者の観察)を記録するためのインターフェースを設けてもよい。
一実施形態では、インターフェース・モジュール1108が、応答モジュール1104から受け取った応答データ(例えば、音声記録、基準応答データ、テスト・ケース応答データ、センサ・データ等)へのアクセス、検出モジュール1106からの評価および/または他の診断へのアクセス等を、1人以上のユーザに付与する。インターフェース・モジュール1108は、複数の場所から(例えば、移動体コンピューティング・デバイス102上の移動体アプリから、バックエンド・サーバ108のウェブ・サーバにアクセスする異なるコンピューティング・デバイス102のウェブ・ブラウザから等)受け取った応答データ、評価および/または他の診断等に、ユーザをアクセスさせることができる。
例えば、インターフェース・モジュール1108が、基準応答データに基づく基準評価および/またはスコア、テスト・ケース応答データに基づくテスト・ケース評価および/またはスコア、後続の応答(例えば、以前に評価/診断された病状からの回復中における自宅での追跡評価)に基づく追跡評価および/またはスコア等を、ユーザに提示してもよく、各々は、1つ以上のコンピューティング・デバイス102上における同じグラフィカル・ユーザ・インターフェースを通じて、評価および/またはスコア毎に関連する応答データ等と共に提示される。インターフェース・モジュール1108は、比較のために、現在の(例えば、テスト・ケース(test case))評価および/またはスコアの次に、基準評価および/またはスコアを表示してもよく(例えば、並べて)、基準評価および/またはスコアと現在の(例えば、テキスト・ケース)評価および/またはスコアとの差等を表示することができる。一実施形態では、インターフェース・モジュール1108は、異なるカテゴリ毎にサブスコアを用いて、評価および/またはスコアの内訳等を表示してもよい。
ある実施形態では、インターフェース・モジュール1108が、応答データ、スコア、または他の評価等を、複数のスポーツ、チーム、学校等からのユーザのために集計し、これらを1つのグラフィカル・ユーザ・インターフェース内に表示することもできる。このように、インターフェース・モジュール1108は、より多くの情報に基づいた医学的判定を行うために、医療専門家、コーチ、管理者等に、ユーザの健康、傷害履歴等の履歴および/またはステータスを、完全度を高めて提供することができる。
特定の実施形態では、インターフェース・モジュール1108が、ユーザを認証し(例えば、ユーザ名およびパスワード、または他の認証資格証明書によって)、ユーザに関連付けられたアクセス制御許可に基づいて、音声記録または他の応答データ、評価または他の診断等へのアクセスをユーザに付与することによって、アクセス制御許可を実施することができる(例えば、個人保護、セキュリティ、HIPAA準拠等のため)。特定の実施形態では、インターフェース・モジュール1108は、異なるユーザに対して階層的アクセス制御許可を実施し、階層における各レベルにあるユーザは、階層における彼らのレベルよりも下であれば、任意のレベルに関連付けられたデータにアクセスすることができる。
例えば、音声モジュール104が、競技選手のために脳震盪および/または他の病状を診断するように構成される実施形態では、競技選手、親、および/または保護者が、競技選手自身の個人応答データ(例えば、音声記録、評価および/または他の診断に対するアクセス許可を得ることができ、コーチは、各チーム・メンバ(例えば、複数の競技選手または他のユーザ)についての同様のデータにアクセスすることができ、学校またはリーグの管理者は、複数のチームのチーム・メンバ(例えば、学校における各チーム、リーグにおける各チーム等)についての同様のデータにアクセスすることができ、地区または地域の管理者は、複数の学校またはリーグのチーム・メンバについての同様のデータにアクセスすることができる等があげられる。特定の実施形態では、インターフェース・モジュール1108が、個人専用にした情報を個人および彼らのコーチに提供するが、階層の他のレベルに対してはデータを平均化するまたは他の方法で匿名化する(例えば、チーム毎、学校毎、場所毎、リーグ毎等)というようにして、特定のユーザのためにデータ(例えば、音声記録および/またはセンサ・データのような応答データ、評価および/または他の診断等)を匿名化することもできる。
音声モジュール104が医療研究を行っている実施形態では、階層的アクセス制御許可によって、インターフェース・モジュール1108が、治験の1人以上の管理者に、ユーザについて格納されているデータ(例えば、格納されている基準記録口頭応答、テスト・ケース記録口頭応答、評価または他の診断等)へのアクセスを付与する可能性がある間、インターフェース・モジュール1108は、個々のユーザ(例えば、医療研究の参加者)が彼ら自身のデータの少なくとも一部(例えば、応答データ、評価または他の診断、応答データおよび評価の双方等)にアクセスするのを禁止することができる。
図12は、音声に基づく医療評価のための方法1200の一実施形態を示す。方法1200が開始すると、クエリ・モジュール1102がユーザに質問する(1202)(例えば、聞こえるようにコンピューティング・デバイス102のスピーカから、コンピューティング・デバイス102の電子画面上に文字で質問する等)。
応答モジュール1104は、ユーザの応答を受ける(1204)(例えば、コンピューティング・デバイス102のマイクロフォンからの口頭応答、コンピューティング・デバイス102のタッチ・スクリーンおよび/またはタッチパッドからのタッチ応答、コンピューティング・デバイス102の1つ以上のセンサからのセンサ入力、コンピューティング・デバイス102のマウスまたは他の入力デバイスからの選択またはクリック、コンピューティング・デバイス102のキーボードおよび/またはタッチ・スクリーン上におけるユーザによるテキスト応答入力等)。検出モジュール1106は、ユーザから受け取った(1204)応答の分析に基づいて、病状についてユーザを評価し(1206)、方法1200は終了する。
図13は、音声に基づく医療評価のための方法1300の一実施形態を示す。クエリ・モジュール1102は、コンピューティング・デバイス102のユーザ・インターフェース(例えば、マイクロフォン、電子表示画面、タッチ・スクリーン、および/または1つ以上の他のセンサ)を使用して、ユーザに1つ以上の質問を行う(query)(1302)。応答モジュール1104は、コンピューティング・デバイス102,108上において行われた1つ以上の質問(1302)に対するユーザの1つ以上の基準応答(例えば、データ・ファイルまたは他のデータ構造として、オーディオ記録のような口頭応答、テキスト応答、および/またはセンサ・データ等)を記録する(1304)。
検出モジュール1106は、潜在的な医療事象を検出する(1306)(例えば、ユーザが医療評価を要求したことに基づいて、センサからのデータに基づいて、および/または他のトリガを受け取ったことに基づいて)。検出モジュール1106が潜在的な医療事象を検出しない場合(1306)、方法1300は、検出モジュール1106が潜在的な医療事象を検出する(1306)まで、継続する。
検出モジュール1106が潜在的な医療事象(例えば、脳震盪の原因となったかもしれない影響(impact)または他の現象、鬱病、ストレス、脳卒中、認知的安定、気分、誠意、アルツハイマー病、パーキンソン病等のような潜在的な病状の指標、ユーザからの要求、および/または他のトリガ)を検出した(1306)ことに応答して、クエリ・モジュール1102は、コンピューティング・デバイス102のユーザ・インターフェースを使用して、ユーザに1つ以上の質問を再度行う(1308)。
応答モジュール1104は、コンピューティング・デバイス102,108上において、再度行われた1つ以上の質問(1308)に対するユーザの1つ以上のテスト・ケース応答を記録する(1310)。検出モジュール1106は、コンピューティング・デバイス102,108上において、記録された1つ以上の基準応答(1304)および記録された1つ以上のテスト・ケース応答(1310)の音声分析に基づいて、ユーザに病状(例えば、脳震盪、鬱病、ストレス、脳卒中、認知的安定、気分、誠意、アルツハイマー病、パーキンソン病等)がある可能性を評価する(1312)。方法1300は、検出モジュール1106が後続の潜在的な医療事象を検出する(1306)まで継続する。
種々の実施形態において、コンピューティング・デバイス102からユーザに質問する(例えば、聞こえるように、および/または他の方法で)手段は、音声モジュール104、デバイス音声モジュール104a、バックエンド音声モジュール104b、クエリ・モジュール1102、移動体コンピューティング・デバイス102、バックエンド・サーバ・コンピューティング・デバイス108、コンピューティング・デバイス102,108の電子スピーカ、ヘッドホン、コンピューティング・デバイス102,108の電子表示画面、ユーザ・インターフェース・デバイス、ネットワーク・インターフェース、移動体アプリケーション、プロセッサ、特定用途集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック、他のロジック・ハードウェア、および/または非一時的コンピュータ読み取り可能記憶媒体上に格納されている他の実行可能プログラム・コードを備えることができる。他の実施形態は、ユーザに質問するために、実質的に同様または同等の手段を備えればよい。
種々の実施形態において、コンピューティング・デバイス102,108上においてユーザの応答(例えば、口頭応答、文字応答、センサ・データ等)を受ける手段は、音声モジュール104、デバイス音声モジュール104a、バックエンド音声モジュール104b、応答モジュール1104、移動体コンピューティング・デバイス102、バックエンド・サーバ・コンピューティング・デバイス108、マイクロフォン、ユーザ入力デバイス、タッチ・スクリーン、タッチパッド、キーボード、マウス、加速度計、ジャイロスコープ、画像センサ、移動体アプリケーション、プロセッサ、特定用途集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック、他のロジック・ハードウェア、および/または非一時的コンピュータ読み取り可能記憶媒体上に格納されている他の実行可能プログラム・コードを備えることができる。他の実施形態は、応答を受け取るために、実質的に同様または同等の手段を備えればよい。
種々の実施形態において、ユーザから受け取った応答に基づいてユーザを病状について評価する手段は、音声モジュール104、デバイス音声モジュール104a、バックエンド音声モジュール104b、検出モジュール1106、移動体コンピューティング・デバイス102、バックエンド・サーバ・コンピューティング・デバイス108、移動体アプリケーション、機械学習、人工知能、音響特徴計算コンポーネント210、音声認識コンポーネント220、混合ガウス・モデル、音響モデル、言語モデル、ニューラル・ネットワーク、ディープ・ニューラル・ネットワーク、病状クラシファイア240、クラシファイア、サポート・ベクトル・マシン、多層パーセプトロン、プロセッサ、特定用途集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック、他のロジック・ハードウェア、および/または非一時的コンピュータ読み取り可能記憶媒体上に格納されている他の実行可能プログラム・コードを備えることができる。他の実施形態は、ユーザを病状について評価するために、実質的に同様または同等の手段を備えればよい。
種々の実施形態において、ユーザの階層において異なるユーザを認証する手段は、音声モジュール104、デバイス音声モジュール104a、バックエンド音声モジュール104b、インターフェース・モジュール1108、移動体コンピューティング・デバイス102、バックエンド・サーバ・コンピューティング・デバイス108、移動体アプリケーション、プロセッサ、特定用途集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック、他のロジック・ハードウェア、および/または非一時的コンピュータ読み取り可能記憶媒体上に格納されている他の実行可能プログラム・コードを備えることができる。他の実施形態は、異なるユーザを認証するために、実質的に同様または同等の手段を備えればよい。
種々の実施形態において、異なる記録および/または異なるユーザに対する異なる評価へのアクセスを付与する手段(例えば、ユーザの階層に対する階層的アクセス制御許可等に基づいて)は、音声モジュール104、デバイス音声モジュール104a、バックエンド音声モジュール104b、インターフェース・モジュール1108、移動体コンピューティング・デバイス102、バックエンド・サーバ・コンピューティング・デバイス108、移動体アプリケーション、プロセッサ、特定用途集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック、他のロジック・ハードウェア、および/または非一時的コンピュータ読み取り可能記憶媒体上に格納されている他の実行可能プログラム・コードを備えることができる。他の実施形態は、異なる記録および/または異なるユーザに対する異なる評価へのアクセスを付与するために、実質的に同様または同等の手段を備えればよい。
本明細書において説明した方法およびシステムは、部分的にまたは全体的に、コンピュータ・ソフトウェア、プログラム・コード、および/または命令をプロセッサ上で実行する機械によってデプロイすることもできる。「プロセッサ」とは、本明細書において使用する場合、少なくとも1つのプロセッサを含むことを意味し、文脈が明らかに別のことを示すのではない限り、複数および単数は相互可能であると理解されてしかるべきである。本開示の態様はいずれも、機械上の方法、機械の一部としてまたは機械に関係するシステムまたは装置(apparatus)、あるいは機械の1つ以上において実行するコンピュータ読み取り可能媒体において具体化されるコンピュータ・プログラム製品として実現することができる。プロセッサは、サーバ、クライアント、ネットワーク・インフラストラクチャ、移動体コンピューティング・プラットフォーム、静止コンピューティング・プラットフォーム、または他のコンピューティング・プラットフォームの一部であってもよい。プロセッサは、プログラム命令、コード、バイナリ命令等を実行することができる任意の種類の計算デバイスまたは処理デバイスとしてもよい。プロセッサは、1つのプロセッサ、ディジタル・プロセッサ、埋め込みプロセッサ、マイクロプロセッサ、あるいは格納されているプログラム・コードまたはプログラム命令の実行を直接または間接的に促進することができるコプロセッサ(マス・コプロセッサ、グラフィック・コプロセッサ、通信コプロセッサ等)のようなあらゆる変種等であってもよく、あるいは含んでもよい。加えて、プロセッサは、複数のプログラム、スレッド、およびコードの実行を可能にするのでもよい。プロセッサの性能を向上させるため、およびアプリケーションの同時処理を実行し易くために、複数のスレッドを同時に実行することもできる。一実施態様として、本明細書において説明した方法、プログラム・コード、プログラム命令等が1つ以上のスレッドにおいて実装されてもよい。スレッドが他のスレッドを生成する(spawn)こともでき、これらに関連付けて優先順位を割り当てることができ、プロセッサは、優先順位に基づいて、またはプログラム・コード内において与えられる命令に基づく任意の他の順序に基づいて、これらのスレッドを実行することができる。プロセッサは、本明細書および他の場所で説明されるような、方法、コード、命令、およびプログラムを格納するメモリを含むことができる。プロセッサは、本明細書および他の場所で説明されるような、方法、コード、および命令を格納することができる記憶媒体に、インターフェースを介してアクセスすることができる。方法、プログラム、コード、プログラム命令、またはコンピューティング・デバイスまたは処理デバイスによって実行することができる他のタイプの命令を格納するためにプロセッサに付随する記憶媒体には、CD−ROM、DVD、メモリ、ハード・ディスク、フラッシュ・ドライブ、RAM、ROM、キャッシュ等の内1つ以上を含むことができるが、これらに限定されなくてもよい。
プロセッサは、マルチプロセッサの速度および性能を向上させることができる1つ以上のコアを含んでもよい。実施形態では、プロセスは、デュアル・コア・プロセッサ、クアッド・コア・プロセッサ、または2つ以上の独立コア(ダイと呼ぶ)を組み合わせる他のチップ・レベル・マルチプロセッサ等であってもよい。
本明細書において説明した方法およびシステムは、部分的にまたは全体的に、サーバ、クライアント、ファイアウォール、ゲートウェイ、ハブ、ルータ、あるいは他のこのようなコンピュータおよび/またはネットワーキング・ハードウェア上でコンピュータ・ソフトウェアを実行する機械によってデプロイすることができる。ソフトウェア・プログラムは、ファイル・サーバ、プリント・サーバ、ドメイン・サーバ、インターネット・サーバ、イントラネット・サーバ、および二次サーバ、ホスト・サーバ、分散型サーバ等のような他の変種を含むことができるサーバと関連付けることができる。サーバは、メモリ、プロセッサ、コンピュータ読み取り可能媒体、記憶媒体、ポート(物理および仮想)、通信デバイス、ならびに他のサーバ、クライアント、機械、およびデバイスに有線またはワイヤレス媒体を通じてアクセスすることができるインターフェース等の内1つ以上を含むことができる。本明細書および他の場所で説明されるような方法、プログラム、またはコードは、サーバによって実行されてもよい。加えて、本願明細書において説明したような方法の実行に必要とされる他のデバイスは、サーバに関連するインフラストラクチャの一部として見なされてもよい。
サーバは、インターフェースを他のデバイスに提供することができる。他のデバイスには、限定ではなく、クライアント、他のサーバ、プリンタ、データベース・サーバ、プリント・サーバ、ファイル・サーバ、通信サーバ、分散型サーバ等が含まれる。加えて、このカプリング(coupling)および/または接続は、ネットワークを跨いだプログラムの遠隔実行を容易にすることができる。これらのデバイスの一部または全てをネットワーク接続することにより、本開示の範囲から逸脱することなく、1つ以上の場所におけるプログラムまたは方法の並列処理を容易にすることができる。加えて、インターフェースを介してサーバに取り付けられるデバイスはいずれも、方法、プログラム、コード、および/または命令を格納することができる少なくとも1つの記憶媒体を含むことができる。中央レポジトリが、異なるデバイス上で実行されるプログラム命令を提供してもよい。この実施態様では、遠隔レポジトリがプログラム・コード、命令、およびプログラムのための記憶媒体として作用することができる。
ソフトウェア・プログラムをクライアントと関連付けることもできる。クライアントには、ファイル・クライアント、プリント・クライアント、ドメイン・クライアント、インターネット・クライアント、イントラネット・クライアント、および二次クライアント、ホスト・クライアント、分散型クライアント等のような他の変種を含んでもよい。クライアントは、メモリ、プロセッサ、コンピュータ読み取り可能媒体、記憶媒体、ポート(物理および仮想)、通信デバイス、ならびに他のクライアント、サーバ、機械、およびデバイスに有線またはワイヤレス媒体を通じてアクセスすることができるインターフェース等の内1つ以上を含むことができる。本明細書および他の場所で説明されるような方法、プログラム、またはコードは、クライアントによって実行されてもよい。加えて、本明細書において説明したような方法の実行に必要とされる他のデバイスは、クライアントに関連するインフラストラクチャの一部として見なされてもよい。
クライアントは、インターフェースを他のデバイスに提供することができる。他のデバイスには、限定ではなく、サーバ、他のクライアント、プリンタ、データベース・サーバ、プリント・サーバ、ファイル・サーバ、通信サーバ、分散型サーバ等が含まれる。加えて、このカプリング(coupling)および/または接続は、ネットワークを跨いだプログラムの遠隔実行を容易にすることができる。これらのデバイスの一部または全てをネットワーク接続することにより、本開示の範囲から逸脱することなく、1つ以上の場所におけるプログラムまたは方法の並列処理を容易にすることができる。加えて、インターフェースを介してクライアントに取り付けられるデバイスはいずれも、方法、プログラム、アプリケーション、コード、および/または命令を格納することができる少なくとも1つの記憶媒体を含むことができる。中央レポジトリが、異なるデバイス上で実行されるプログラム命令を提供してもよい。この実施態様では、遠隔レポジトリがプログラム・コード、命令、およびプログラムのための記憶媒体として作用することができる。
本明細書において説明した方法およびシステムは、部分的にまたは全体的に、ネットワーク・インフラストラクチャを介してデプロイすることもできる。ネットワーク・インフラストラクチャは、コンピューティング・デバイス、サーバ、ルータ、ハブ、ファイアウォール、クライアント、パーソナル・コンピュータ、通信デバイス、ルーティング・デバイス、ならびに当技術分野において知られている他の能動および受動デバイス、モジュール、および/またはコンポーネントというようなエレメントを含むことができる。ネットワーク・インフラストラクチャと関連付けられるコンピューティングおよび/または非コンピューティング・デバイス(1つまたは複数)は、他のコンポーネント以外に、フラッシュ・メモリ、バッファ、スタック、RAM、ROM等のような記憶媒体を含むことができる。本明細書および他の場所において説明されるプロセス、方法、プログラム・コード、命令は、ネットワーク・インフラストラクチャ・エレメントの内1つ以上によって実行されてもよい。
本明細書および他の場所において説明された方法、プログラム・コード、および命令は、複数のセルを有するセルラ・ネットワーク上で実装することもできる。セルラ・ネットワークは、周波数分割多元接続(FDMA)ネットワーク、または符号分割多元接続(CDMA)ネットワークのいずれかであってもよい。セルラ・ネットワークは、移動体デバイス、セル・サイト、基地局、リピータ、アンテナ、タワー等を含むことができる。セルラ・ネットワークは、GSM(登録商標)、GPRS、3G、EVDO、メッシュ、または他のネットワーク・タイプであってもよい。
本明細書および他の場所において説明された方法、プログラム・コード、および命令は、移動体デバイス上において、または移動体デバイスを通じて実装することもできる。移動体デバイスは、ナビゲーション・デバイス、セル・フォン、移動体電話機、移動体パーソナル・ディジタル・アシスタント、ラップトップ、パームトップ、ネットブック、ページャ、電子書籍リーダ、音楽プレーヤ等を含むことができる。これらのデバイスは、他のコンポーネント以外にも、フラッシュ・メモリのような記憶媒体、バッファ、RAM、ROM、および1つ以上のコンピューティング・デバイスを含むことができる。移動体デバイスと関連付けられたコンピューティング・デバイスが、そこに格納されているプログラム・コード、方法、および命令を実行することを可能にしてもよい。あるいは、移動体デバイスは、他のデバイスと協調して命令を実行するように構成されてもよい。移動体デバイスは、サーバとインターフェースされた基地局と通信し、プログラム・コードを実行するように構成されてもよい。移動体デバイスは、ピア・ツー・ピア・ネットワーク、メッシュ・ネットワーク、または他の通信ネットワーク上で通信することもできる。プログラム・コードは、サーバに付帯する記憶媒体上に格納され、サーバ内に埋め込まれたコンピューティング・デバイスによって実行されてもよい。基地局は、コンピューティング・デバイスおよび記憶媒体を含むことができる。記憶デバイスは、基地局と関連付けられたコンピューティング・デバイスによって実行されるプログラム・コードおよび命令を格納することができる。
コンピュータ・ソフトウェア、プログラム・コード、および/または命令は、機械読み取り可能媒体上に格納され、および/または機械読み取り可能媒体上でアクセスすることができる。機械読み取り可能媒体は、ある時間間隔で計算するために使用されるディジタル・データを保持するコンピュータ・コンポーネント、デバイス、および記録媒体;ランダム・アクセス・メモリ(RAM)として知られる半導体ストレージ;光ディスク、ハード・ディスク、テープ、ドラム、カード、および他のタイプのような磁気ストレージの形態というような、通例ではより永続的な格納のための大容量ストレージ;プロセッサ・レジスタ、キャッシュ・メモリ、揮発性メモリ、不揮発性メモリ;CD、DVDのような光ストレージ;フラッシュ・メモリ(例えば、USBスティックまたはキー)、フロッピ・ディスク、磁気テープ、紙テープ、パンチ・カード、単体RAMディスク、Zipドライブ、リムーバブル大容量ストレージ、オフライン等のようなリムーバブル媒体;ダイナミック・メモリ、スタティック・メモリ、リード/ライト・ストレージ、可変ストレージ、読み取り専用、ランダム・アクセス、シーケンシャル・アクセス、位置アドレス可能、ファイル・アドレス可能、コンテンツ・アドレス可能、ネットワーク取付ストレージ、ストレージ・エリア・ネットワーク、バー・コード、磁気インク等のような他のコンピュータ・メモリを含むことができる。
本明細書において説明した方法およびシステムは、物理品目および/または無形品目を1つの状態から他の状態に変換することができる。また、本明細書において説明した方法およびシステムは、物理品目および/または無形品目を表すデータを1つの状態から他の状態に変換することができる。
本発明は、その主旨や本質的な特徴から逸脱することなく、他の特定形態で具体化することもできる。説明した実施形態は、あらゆる観点において、限定ではなく例示として解釈されてしかるべきである。したがって、本発明の範囲は、以上の説明によってではなく、添付した請求項によって示されるものとする。請求項の均等の意味および範囲に該当する全ての変更は、それらの範囲内に包含されるものとする。

Claims (25)

  1. 装置であって、
    移動体コンピューティング・デバイスのスピーカからユーザに聞こえるように質問するように構成されたクエリ・モジュールと、
    前記移動体コンピューティング・デバイスのマイクロフォンからユーザの口頭応答を受け取るように構成された応答モジュールと、
    前記ユーザから受け取った前記口頭応答の分析に基づいて、ユーザに対する病状の評価を行う(provide)ように構成された検出モジュールと、
    を備える、装置。
  2. 請求項1に記載の装置において、前記検出モジュールが、前記評価が、前記受け取った口頭応答の言語および方言の1つ以上とは無関係となるように、前記受け取った口頭応答の言語特徴を考慮せずに、前記受け取った口頭応答の1つ以上の音響特徴に基づいて、前記評価について判定するように構成される、装置。
  3. 請求項1に記載の装置において、前記ユーザが治験参加者を含み、前記評価が、前記病状に対する医療処置の効能の評価を含む、装置。
  4. 請求項3に記載の装置において、前記検出モジュールが、少なくとも、前記医療処置を受けないプラシーボ・グループと、前記医療処置を受けるグループとを含む複数の治験参加者のために移動体コンピューティング・デバイス上に配置された複数の分散型検出モジュールの内の1つを含み、前記複数の分散型検出モジュールが、前記プラシーボ・グループおよび前記医療処置を受けるグループの双方に対する前記病状の盲検評価を行うように構成される、装置。
  5. 請求項3に記載の装置において、前記医療処置の効能の評価が、少なくとも部分的に、前記受け取った口頭応答の内、前記ユーザの生活の質を示す1つ以上のバイオマーカに基づく、装置。
  6. 請求項5に記載の装置において、前記1つ以上のバイオマーカが、身体疲労、倦怠、精神疲労、ストレス、心配、および鬱病の内1つ以上を示す、装置。
  7. 請求項1に記載の装置において、前記ユーザが、治験参加予定者を含み、前記評価が、病状のための治験に対する前記ユーザの適格性を含む、装置。
  8. 請求項1に記載の装置において、前記評価が、前記移動体コンピューティング・デバイス上においてユーザに対して決定される第1スコアを含む、装置。
  9. 請求項8に記載の装置において、前記評価が、更に、ネットワークを通じて前記移動体コンピューティング・デバイスと通信するバックエンド・サーバ上においてユーザに対して決定される第2スコアを含む、装置。
  10. 請求項1に記載の装置において、前記病状が脳震盪を含む、装置。
  11. 請求項1に記載の装置において、前記病状が、鬱病、脳卒中、アルツハイマー病、およびパーキン層病の内1つ以上を含む、装置。
  12. 請求項1に記載の装置であって、更に、前記ユーザから受け取った口頭応答の記録、および複数の他のユーザから受け取った口頭応答の記録を、異なるユーザに、当該異なるユーザに対する階層的アクセス制御許可に基づいて、再生するように構成されたインターフェース・モジュールを備える、装置。
  13. 請求項1に記載の装置において、前記応答モジュールが、更に、前記移動体コンピューティング・デバイスの1つ以上のセンサからデータを受け取るように構成され、前記検出モジュールが、更に、少なくとも部分的に前記受け取ったデータに基づいて、前記分析を行うように構成される、装置。
  14. 請求項13に記載の装置において、前記1つ以上のセンサが画像センサを含み、前記受け取ったデータが前記ユーザの1つ以上の画像を含む、装置。
  15. 請求項13に記載の装置において、前記1つ以上のセンサがタッチ・スクリーンを含み、前記受け取ったデータが、前記ユーザを前記病状の1つ以上の兆候について検査するように構成されたインタラクティブ・ビデオ・ゲームの間に、前記ユーザから受け取ったタッチ入力を含む、装置。
  16. 請求項13に記載の装置において、前記1つ以上のセンサが、加速度計およびジャイロスコープの内1つ以上を含み、前記受け取ったデータが、前記ユーザによる移動体コンピューティング・デバイスの移動についての情報を含む、装置。
  17. システムであって、
    複数のユーザのためにコンピューティング・デバイス上に配置された複数の分散型音声モジュールであって、前記複数のユーザに質問し、前記コンピューティング・デバイス上で前記複数のユーザからの口頭応答を記録するように構成された、複数の分散型音声モジュールと、
    少なくとも、前記複数のユーザからの基準記録口頭応答と、前記複数のユーザからのテスト・ケース記録口頭応答と、少なくとも前記テスト・ケース記録口頭応答に対する病状の評価とを格納し、前記格納した基準記録口頭応答、テスト・ケース記録口頭応答、および評価を、前記複数の分散型音声モジュールを介して前記コンピューティング・デバイス上で前記複数のユーザの内少なくとも部分集合に供給するように構成されたバックエンド・サーバ・デバイスと、
    を備える、システム。
  18. 請求項17に記載のシステムにおいて、前記複数のユーザが、前記病状のための治験における参加者を含み、前記複数のユーザの部分集合が、前記格納された基準記録口頭応答、テスト・ケース記録口頭応答、および評価にアクセスする階層アクセス制御許可を有する、前記治験の1人以上の管理者を含む、システム。
  19. 請求項17に記載のシステムにおいて、前記複数の分散型音声モジュールが、前記基準記録口頭応答および前記テスト・ケース記録口頭応答に基づいて、前記コンピューティング・デバイス上で前記評価について判定するように構成される、システム。
  20. 請求項17に記載のシステムにおいて、前記バックエンド・サーバ・デバイスが、前記基準記録口頭応答および前記テスト・ケース記録口頭応答に基づいて、前記評価について判定するように構成される、システム。
  21. 装置であって、
    移動体コンピューティング・デバイスからユーザに聞こえるように質問する手段と、
    前記移動体コンピューティング・デバイス上において前記ユーザからの口頭応答を受け取る手段と、
    前記ユーザから受け取った口頭応答に基づいて、前記ユーザを病状に対して評価する手段と、
    を備える、装置。
  22. 請求項21に記載の装置であって、更に、
    ユーザの階層において異なるユーザを認証する手段と、
    前記ユーザの階層に対する階層アクセス制御許可に基づいて、異なる記録および異なる評価へのアクセスを前記異なるユーザに付与する手段と、
    を備える、装置。
  23. 方法であって、
    コンピューティング・デバイスのユーザ・インターフェースを使用して、ユーザに1つ以上の質問を行うステップと、
    コンピューティング・デバイス上で、前記1つ以上の質問に対する前記ユーザの1つ以上の基準口頭応答を記録するステップと、
    潜在的な脳震盪現象に応答して、コンピューティング・デバイスのユーザ・インターフェースを使用して、前記ユーザに前記1つ以上の質問を再度行うステップと、
    コンピューティング・デバイス上で、前記再度行われた1つ以上の質問に対する前記ユーザの1つ以上のテスト・ケース口頭応答を記録するステップと、
    コンピューティング・デバイス上で、前記記録された1つ以上の基準口頭応答および前記記録された1つ以上のテスト・ケース口頭応答の音声分析に基づいて、前記ユーザが脳震盪を起こしている可能性を評価するステップと、
    を含む、方法。
  24. 請求項23に記載の方法において、前記評価が、前記記録された1つ以上の基準口頭応答および前記記録された1つ以上のテスト・ケース口頭応答の言語および方言の内1つ以上とは無関係となるように、前記音声分析が、言語特徴を考慮せずに、1つ以上の音響特徴に基づく、方法。
  25. 請求項23に記載の方法であって、更に、画像センサ、タッチ・スクリーン、加速度計、およびジャイロスコープの内1つ以上から前記ユーザに関連するデータを受け取るステップを含み、前記評価が、更に、少なくとも部分的に前記受け取ったデータに基づく、方法。

JP2020511875A 2017-05-05 2018-05-07 音声に基づく医療評価 Active JP7208977B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022149805A JP2022180516A (ja) 2017-05-05 2022-09-21 音声に基づく医療評価

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762502584P 2017-05-05 2017-05-05
US62/502,584 2017-05-05
US201862614192P 2018-01-05 2018-01-05
US62/614,192 2018-01-05
PCT/US2018/031461 WO2018204935A1 (en) 2017-05-05 2018-05-07 Medical assessment based on voice

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022149805A Division JP2022180516A (ja) 2017-05-05 2022-09-21 音声に基づく医療評価

Publications (2)

Publication Number Publication Date
JP2020522028A true JP2020522028A (ja) 2020-07-27
JP7208977B2 JP7208977B2 (ja) 2023-01-19

Family

ID=64014871

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2020511875A Active JP7208977B2 (ja) 2017-05-05 2018-05-07 音声に基づく医療評価
JP2020511874A Active JP7208224B2 (ja) 2017-05-05 2018-05-07 病状を検出するモデルを構築するための音声特徴の選択
JP2022149805A Pending JP2022180516A (ja) 2017-05-05 2022-09-21 音声に基づく医療評価
JP2023000544A Pending JP2023052224A (ja) 2017-05-05 2023-01-05 病状を検出するモデルを構築するための音声特徴の選択

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2020511874A Active JP7208224B2 (ja) 2017-05-05 2018-05-07 病状を検出するモデルを構築するための音声特徴の選択
JP2022149805A Pending JP2022180516A (ja) 2017-05-05 2022-09-21 音声に基づく医療評価
JP2023000544A Pending JP2023052224A (ja) 2017-05-05 2023-01-05 病状を検出するモデルを構築するための音声特徴の選択

Country Status (4)

Country Link
US (7) US10152988B2 (ja)
EP (2) EP3618698A4 (ja)
JP (4) JP7208977B2 (ja)
WO (2) WO2018204935A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380376B1 (ko) * 2021-12-08 2022-04-01 주식회사 세븐포인트원 인공지능 콜을 이용한 음성 질의응답 기반의 치매 검사 방법 및 서버
US11432761B1 (en) 2021-12-08 2022-09-06 Sevenpointone Inc. Method and server for dementia test based on voice question and answer using artificial intelligence call
US12009009B2 (en) 2023-03-11 2024-06-11 Sonaphi Llc Systems and method of providing health information through use of a person's voice

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10939821B2 (en) * 2017-03-20 2021-03-09 Applications Technology (Apptek), Llc Systems and methods for diagnosing and analyzing concussions
WO2018204935A1 (en) 2017-05-05 2018-11-08 Canary Speech, LLC Medical assessment based on voice
US10910105B2 (en) * 2017-05-31 2021-02-02 International Business Machines Corporation Monitoring the use of language of a patient for identifying potential speech and related neurological disorders
US11114097B2 (en) * 2017-06-14 2021-09-07 Nec Corporation Notification system, notification method, and non-transitory computer readable medium storing program
US20190043623A1 (en) * 2017-08-04 2019-02-07 Thomas W. WATLINGTON, IV System and method for physiological and psychological support in home healthcare
US11436549B1 (en) 2017-08-14 2022-09-06 ClearCare, Inc. Machine learning system and method for predicting caregiver attrition
US11508479B2 (en) * 2017-10-16 2022-11-22 Optum, Inc. Automated question generation and response tracking
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
US11633103B1 (en) 2018-08-10 2023-04-25 ClearCare, Inc. Automatic in-home senior care system augmented with internet of things technologies
US11120226B1 (en) 2018-09-04 2021-09-14 ClearCare, Inc. Conversation facilitation system for mitigating loneliness
US20210219893A1 (en) * 2018-08-26 2021-07-22 Vocalis Health Ltd. System and method for measurement of vocal biomarkers of vitality and biological aging
US11631401B1 (en) * 2018-09-04 2023-04-18 ClearCare, Inc. Conversation system for detecting a dangerous mental or physical condition
US11380351B2 (en) * 2018-09-20 2022-07-05 Samsung Electronics Co., Ltd. System and method for pulmonary condition monitoring and analysis
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11159510B2 (en) 2018-12-05 2021-10-26 Bank Of America Corporation Utilizing federated user identifiers to enable secure information sharing
US11113370B2 (en) 2018-12-05 2021-09-07 Bank Of America Corporation Processing authentication requests to secured information systems using machine-learned user-account behavior profiles
US11048793B2 (en) 2018-12-05 2021-06-29 Bank Of America Corporation Dynamically generating activity prompts to build and refine machine learning authentication models
US11120109B2 (en) 2018-12-05 2021-09-14 Bank Of America Corporation Processing authentication requests to secured information systems based on machine-learned event profiles
US11036838B2 (en) 2018-12-05 2021-06-15 Bank Of America Corporation Processing authentication requests to secured information systems using machine-learned user-account behavior profiles
US11176230B2 (en) 2018-12-05 2021-11-16 Bank Of America Corporation Processing authentication requests to secured information systems based on user behavior profiles
WO2020128542A1 (en) * 2018-12-18 2020-06-25 Szegedi Tudományegyetem Automatic detection of neurocognitive impairment based on a speech sample
US10943588B2 (en) * 2019-01-03 2021-03-09 International Business Machines Corporation Methods and systems for managing voice response systems based on references to previous responses
US11133026B2 (en) * 2019-01-04 2021-09-28 International Business Machines Corporation Natural language processor for using speech to cognitively detect and analyze deviations from a baseline
US11350885B2 (en) * 2019-02-08 2022-06-07 Samsung Electronics Co., Ltd. System and method for continuous privacy-preserved audio collection
EP3931844A1 (en) * 2019-02-26 2022-01-05 Flatiron Health, Inc. Prognostic score based on health information
US11011188B2 (en) * 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
US11024327B2 (en) 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
US20210373596A1 (en) * 2019-04-02 2021-12-02 Talkgo, Inc. Voice-enabled external smart processing system with display
CA3136790A1 (en) * 2019-04-15 2020-10-22 Janssen Pharmaceutica Nv System and method for detecting cognitive decline using speech analysis
JP7327987B2 (ja) * 2019-04-25 2023-08-16 キヤノン株式会社 医療診断支援システム、医療診断支援装置、医療診断支援方法及びプログラム
US11547345B2 (en) * 2019-05-04 2023-01-10 Intraneuron Dynamic neuropsychological assessment tool
CN110263641A (zh) * 2019-05-17 2019-09-20 成都旷视金智科技有限公司 疲劳检测方法、装置及可读存储介质
EP3745412A1 (en) * 2019-05-28 2020-12-02 Corti ApS An intelligent computer aided decision support system
CN114206361A (zh) * 2019-05-30 2022-03-18 保险服务办公室股份有限公司 一种用于语音属性的机器学习的系统和方法
US11114113B2 (en) 2019-10-18 2021-09-07 LangAware, Inc. Multilingual system for early detection of neurodegenerative and psychiatric disorders
EP3809411A1 (en) * 2019-10-18 2021-04-21 LangAware, Inc. Multi-lingual system for early detection of alzheimer's disease
CN112908317B (zh) * 2019-12-04 2023-04-07 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统
JPWO2021111964A1 (ja) * 2019-12-04 2021-06-10
US11232570B2 (en) 2020-02-13 2022-01-25 Olympus Corporation System and method for diagnosing severity of gastritis
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
JP7450216B2 (ja) 2020-03-24 2024-03-15 パナソニックIpマネジメント株式会社 認知機能判定システム、及びプログラム
US20210298711A1 (en) * 2020-03-25 2021-09-30 Applications Technology (Apptek), Llc Audio biomarker for virtual lung function assessment and auscultation
CN112133284B (zh) * 2020-04-23 2023-07-07 中国医学科学院北京协和医院 一种医疗语音对话方法及装置
CA3179063A1 (en) * 2020-05-16 2021-11-25 Erik Edwards Machine learning systems and methods for multiscale alzheimer's dementia recognition through spontaneous speech
JP7410516B2 (ja) * 2020-06-19 2024-01-10 国立大学法人北海道大学 親子健康管理システム、親子健康分析装置、及び親子健康管理方法
US11417342B2 (en) 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
US20230233136A1 (en) * 2020-07-10 2023-07-27 Seoul National University R&Db Foundation Voice characteristic-based method and device for predicting alzheimer's disease
KR102659616B1 (ko) * 2020-07-10 2024-04-23 주식회사 이모코그 음성 특성 기반 알츠하이머병 예측 방법 및 장치
US11526796B2 (en) * 2020-07-15 2022-12-13 International Business Machines Corporation Qubit pulse calibration via canary parameter monitoring
US20220037022A1 (en) * 2020-08-03 2022-02-03 Virutec, PBC Ensemble machine-learning models to detect respiratory syndromes
EP3965116A1 (en) * 2020-09-02 2022-03-09 Koninklijke Philips N.V. Responding to emergency calls
WO2022055798A1 (en) * 2020-09-08 2022-03-17 Lifeline Systems Company Cognitive impairment detected through audio recordings
US11495211B2 (en) 2020-10-29 2022-11-08 International Business Machines Corporation Memory deterioration detection and amelioration
GB202019000D0 (en) 2020-12-02 2021-01-13 Accexible Impacto S L Detection of cognitive impairment
CA3217118A1 (en) * 2021-03-31 2022-10-06 Gabriela STEGMANN Systems and methods for digital speech-based evaluation of cognitive function
US11887583B1 (en) * 2021-06-09 2024-01-30 Amazon Technologies, Inc. Updating models with trained model update objects
CN113838450B (zh) * 2021-08-11 2022-11-25 北京百度网讯科技有限公司 音频合成及相应的模型训练方法、装置、设备及存储介质
US20230072242A1 (en) 2021-09-07 2023-03-09 Canary Speech, LLC Paired neural networks for diagnosing health conditions via speech
WO2023095136A1 (en) * 2021-11-24 2023-06-01 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University Subject diagnosis using speech analysis
WO2023094657A1 (en) * 2021-11-29 2023-06-01 Corti Aps Spoken language understanding by means of representations learned unsupervised
KR20240062495A (ko) * 2022-11-01 2024-05-10 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015107747A1 (ja) * 2014-01-17 2015-07-23 任天堂株式会社 情報処理システムおよび情報処理装置
US20160022193A1 (en) * 2014-07-24 2016-01-28 Sackett Solutions & Innovations, LLC Real time biometric recording, information analytics and monitoring systems for behavioral health management
WO2016028495A1 (en) * 2014-08-22 2016-02-25 Sri International Systems for speech-based assessment of a patient's state-of-mind
WO2017083480A1 (en) * 2015-11-12 2017-05-18 Avent, Inc. Patient outcome tracking platform

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067516A (en) 1997-05-09 2000-05-23 Siemens Information Speech and text messaging system with distributed speech recognition and speaker database transfers
JPH11197116A (ja) 1998-01-08 1999-07-27 Mitsubishi Electric Corp 健康管理装置
US6507790B1 (en) * 1998-07-15 2003-01-14 Horton, Inc. Acoustic monitor
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7062443B2 (en) 2000-08-22 2006-06-13 Silverman Stephen E Methods and apparatus for evaluating near-term suicidal risk using vocal parameters
US20030105638A1 (en) 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US20030115214A1 (en) 2001-12-17 2003-06-19 Nir Essar Medical reporting system and method
US7315821B2 (en) 2002-01-31 2008-01-01 Sanyo Electric Co., Ltd. System and method for health care information processing based on acoustic features
US6804654B2 (en) 2002-02-11 2004-10-12 Telemanager Technologies, Inc. System and method for providing prescription services using voice recognition
US7825488B2 (en) * 2006-05-31 2010-11-02 Advanced Analogic Technologies, Inc. Isolation structures for integrated circuits and modular methods of forming the same
US6696339B1 (en) * 2002-08-21 2004-02-24 Micron Technology, Inc. Dual-damascene bit line structures for microelectronic devices and methods of fabricating microelectronic devices
US20040210159A1 (en) 2003-04-15 2004-10-21 Osman Kibar Determining a psychological state of a subject
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US20120277594A1 (en) 2009-01-23 2012-11-01 Pryor Timothy R Mental health and well-being
TW200735878A (en) 2005-11-18 2007-10-01 Astrazeneca Ab Pharmaceutical compositions
US8478596B2 (en) * 2005-11-28 2013-07-02 Verizon Business Global Llc Impairment detection using speech
WO2007070661A2 (en) 2005-12-13 2007-06-21 Naryx Pharma, Inc. Methods of measuring symptoms of chronic rhinosinusitis
US20100286490A1 (en) 2006-04-20 2010-11-11 Iq Life, Inc. Interactive patient monitoring system using speech recognition
US7884727B2 (en) 2007-05-24 2011-02-08 Bao Tran Wireless occupancy and day-light sensing
JP5883647B2 (ja) 2008-11-07 2016-03-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 階層的アクセス制御による病院テレビ/モニタディスプレイ制御
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
WO2010132541A2 (en) 2009-05-14 2010-11-18 University Of Delaware Electromagnetic detection apparatus and methods
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US9087320B2 (en) * 2009-09-15 2015-07-21 Korrio, Inc. Sports collaboration and communication platform
AU2010357179A1 (en) 2010-07-06 2013-02-14 Rmit University Emotional and/or psychiatric state detection
US8784311B2 (en) 2010-10-05 2014-07-22 University Of Florida Research Foundation, Incorporated Systems and methods of screening for medical states using speech and other vocal behaviors
US20120310670A1 (en) 2011-06-01 2012-12-06 nPruv, Inc. Systems and methods for automated informed consent
US9055861B2 (en) 2011-02-28 2015-06-16 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice
US9514281B2 (en) 2011-05-03 2016-12-06 Graeme John HIRST Method and system of longitudinal detection of dementia through lexical and syntactic changes in writing
US9763617B2 (en) 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US20130158434A1 (en) * 2011-12-20 2013-06-20 Delta Electronics, Inc. Apparatus for voice assisted medical diagnosis
AU2013239327B2 (en) * 2012-03-29 2018-08-23 The University Of Queensland A method and apparatus for processing patient sounds
US9517373B2 (en) * 2012-07-06 2016-12-13 Danny Rendon Sprinkler head removal system and method
US20140073993A1 (en) * 2012-08-02 2014-03-13 University Of Notre Dame Du Lac Systems and methods for using isolated vowel sounds for assessment of mild traumatic brain injury
WO2014062441A1 (en) * 2012-10-16 2014-04-24 University Of Florida Research Foundation, Inc. Screening for neurologial disease using speech articulation characteristics
US20140113263A1 (en) 2012-10-20 2014-04-24 The University Of Maryland, Baltimore County Clinical Training and Advice Based on Cognitive Agent with Psychological Profile
US9135571B2 (en) * 2013-03-12 2015-09-15 Nuance Communications, Inc. Methods and apparatus for entity detection
US9295423B2 (en) 2013-04-03 2016-03-29 Toshiba America Electronic Components, Inc. System and method for audio kymographic diagnostics
US9495646B2 (en) * 2013-06-05 2016-11-15 The Trustees Of Columbia University In The City Of New York Monitoring health of dynamic system using speaker recognition techniques
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US20160004831A1 (en) 2014-07-07 2016-01-07 Zoll Medical Corporation Medical device with natural language processor
US9952685B2 (en) * 2014-07-22 2018-04-24 Logitech Europe S.A. Input device with means for altering the operating mode of the input device
US20160135706A1 (en) * 2014-11-14 2016-05-19 Zoll Medical Corporation Medical Premonitory Event Estimation
US20160135737A1 (en) 2014-11-17 2016-05-19 Elwha Llc Determining treatment compliance using speech patterns captured during use of a communication system
US20160140986A1 (en) 2014-11-17 2016-05-19 Elwha Llc Monitoring treatment compliance using combined performance indicators
US11122998B2 (en) 2015-03-12 2021-09-21 Akili Interactive Labs, Inc. Processor implemented systems and methods for measuring cognitive abilities
US20160335399A1 (en) 2015-03-16 2016-11-17 Outside The Leather, Llc System and method for a patient initiated medical interview using a voice-based medical history questionnaire
US20160278633A1 (en) * 2015-03-23 2016-09-29 International Business Machines Corporation Monitoring a person for indications of a brain injury
US11638550B2 (en) 2015-07-07 2023-05-02 Stryker Corporation Systems and methods for stroke detection
WO2017021944A2 (en) * 2015-08-06 2017-02-09 Avishai Abrahami Cognitive state alteration system integrating multiple feedback technologies
US10127929B2 (en) * 2015-08-19 2018-11-13 Massachusetts Institute Of Technology Assessing disorders through speech and a computational model
WO2017048730A1 (en) 2015-09-14 2017-03-23 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
US9899035B2 (en) * 2015-11-04 2018-02-20 Ioannis Kakadiaris Systems for and methods of intelligent acoustic monitoring
US11164596B2 (en) 2016-02-25 2021-11-02 Samsung Electronics Co., Ltd. Sensor assisted evaluation of health and rehabilitation
US11404170B2 (en) * 2016-04-18 2022-08-02 Soap, Inc. Method and system for patients data collection and analysis
US10796715B1 (en) * 2016-09-01 2020-10-06 Arizona Board Of Regents On Behalf Of Arizona State University Speech analysis algorithmic system and method for objective evaluation and/or disease detection
US10939821B2 (en) * 2017-03-20 2021-03-09 Applications Technology (Apptek), Llc Systems and methods for diagnosing and analyzing concussions
WO2018204935A1 (en) 2017-05-05 2018-11-08 Canary Speech, LLC Medical assessment based on voice
US10614689B2 (en) 2017-09-07 2020-04-07 Ridgewood Technology Partners, LLC Methods and systems for using pattern recognition to identify potential security threats

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015107747A1 (ja) * 2014-01-17 2015-07-23 任天堂株式会社 情報処理システムおよび情報処理装置
US20160022193A1 (en) * 2014-07-24 2016-01-28 Sackett Solutions & Innovations, LLC Real time biometric recording, information analytics and monitoring systems for behavioral health management
WO2016028495A1 (en) * 2014-08-22 2016-02-25 Sri International Systems for speech-based assessment of a patient's state-of-mind
WO2017083480A1 (en) * 2015-11-12 2017-05-18 Avent, Inc. Patient outcome tracking platform

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380376B1 (ko) * 2021-12-08 2022-04-01 주식회사 세븐포인트원 인공지능 콜을 이용한 음성 질의응답 기반의 치매 검사 방법 및 서버
US11432761B1 (en) 2021-12-08 2022-09-06 Sevenpointone Inc. Method and server for dementia test based on voice question and answer using artificial intelligence call
WO2023106516A1 (ko) * 2021-12-08 2023-06-15 주식회사 세븐포인트원 인공지능 콜을 이용한 질의응답 기반의 치매 검사 방법 및 서버
US12009009B2 (en) 2023-03-11 2024-06-11 Sonaphi Llc Systems and method of providing health information through use of a person's voice

Also Published As

Publication number Publication date
JP2020524310A (ja) 2020-08-13
JP7208977B2 (ja) 2023-01-19
US11756693B2 (en) 2023-09-12
US10311980B2 (en) 2019-06-04
EP3618698A1 (en) 2020-03-11
EP3619657A4 (en) 2021-02-17
US20190080804A1 (en) 2019-03-14
US20220293286A1 (en) 2022-09-15
US20180322894A1 (en) 2018-11-08
JP7208224B2 (ja) 2023-01-18
US11749414B2 (en) 2023-09-05
JP2023052224A (ja) 2023-04-11
WO2018204934A1 (en) 2018-11-08
EP3618698A4 (en) 2021-01-06
US10896765B2 (en) 2021-01-19
JP2022180516A (ja) 2022-12-06
US11348694B2 (en) 2022-05-31
US20180322961A1 (en) 2018-11-08
EP3619657A1 (en) 2020-03-11
US10152988B2 (en) 2018-12-11
WO2018204935A1 (en) 2018-11-08
US20210142917A1 (en) 2021-05-13
US20190311815A1 (en) 2019-10-10
US20230352194A1 (en) 2023-11-02

Similar Documents

Publication Publication Date Title
JP7208977B2 (ja) 音声に基づく医療評価
US11120895B2 (en) Systems and methods for mental health assessment
US10748644B2 (en) Systems and methods for mental health assessment
US20200365275A1 (en) System and method for assessing physiological state
Stipancic et al. Minimally detectable change and minimal clinically important difference of a decline in sentence intelligibility and speaking rate for individuals with amyotrophic lateral sclerosis
Buchwald et al. Finding levels of abstraction in speech production: Evidence from sound-production impairment
Tröger et al. Telephone-based dementia screening I: automated semantic verbal fluency assessment
CA3142423A1 (en) Systems and methods for machine learning of voice attributes
US11848079B2 (en) Biomarker identification
Nakai et al. Detecting abnormal word utterances in children with autism spectrum disorders: machine-learning-based voice analysis versus speech therapists
KR20220007275A (ko) 음성활동 평가를 이용한 기분삽화(우울삽화, 조증삽화) 조기 진단을 위한 정보 제공 방법
Lim et al. An integrated biometric voice and facial features for early detection of Parkinson’s disease
Farrús et al. Acoustic and prosodic information for home monitoring of bipolar disorder
McAllister et al. Crowdsourced perceptual ratings of voice quality in people with Parkinson's disease before and after intensive voice and articulation therapies: Secondary outcome of a randomized controlled trial
Kimani et al. Real-time public speaking anxiety prediction model for oral presentations
US10820851B2 (en) Diagnosing system for consciousness level measurement and method thereof
Davidow et al. Stuttering frequency, speech rate, speech naturalness, and speech effort during the production of voluntary stuttering
Md Nor et al. Identifying segmental and prosodic errors associated with the increasing word length effect in acquired apraxia of speech
US20240071412A1 (en) Method and system for predicting a mental condition of a speaker
Teferra Correlates and Prediction of Generalized Anxiety Disorder from Acoustic and Linguistic Features of Impromptu Speech
WO2023062512A1 (en) Real time evaluating a mechanical movement associated with a pronunciation of a phenome by a patient
Paruchuri ParkinSense: A Novel Approach to Remote Idiopathic Parkinson’s Disease Diagnosis, Severity Profiling, and Telemonitoring via Ensemble Learning and Multimodal Data Fusion on Webcam-Derived Digital Biomarkers
Lemkes Speech production analyses: Characterizing typical development versus childhood apraxia of speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230106

R150 Certificate of patent or registration of utility model

Ref document number: 7208977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150