本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
[適用例]
図1および図2を参照しながら、本実施の形態に係る推定装置100の適用例を説明する。図1は、本実施の形態に係る推定装置100の適用例を示す模式図である。図2は、本実施の形態に係る推定システム10の全体構成を示す模式図である。
ユーザ1は、推定システム10を用いることで、対象者2の音声障害の有無を診断するとともに、その音声障害の原因を推定することができる。なお、「ユーザ」は、クリニック、総合病院、および大学病院などに属する医師などの術者、医科大学の先生または生徒など、推定システム10を使用する者であればいずれであってもよい。なお、ユーザが所属する医科は、耳鼻咽喉科のような音声障害の治療を専門とするものに限らず、内科や歯科など、その他のものであってもよい。「対象者」は、クリニック、総合病院、および大学病院の患者、医科大学における被験者など、推定システム10の診断対象となる者であればいずれであってもよい。「音声障害」は、声がでない、声が出にくい、声が変化したなど、対象者2の音声に何らかの異常が発生している状態を含む。
図1に示すように、本実施の形態に係る推定システム10は、推定装置100を備える。推定装置100には、ディスプレイ300と、マイク400と、キーボード501と、マウス502とが接続されている。
ユーザ1は、対象者2に対して口頭で問診を行い、対象者2はその問診に対してマイク400を使って口頭で回答する。マイク400によって取得された対象者2の音声データは、推定装置100に入力される。また、対象者2による問診の結果に関する情報を含む問診データも、音声分析によってその内容が特定されて、推定装置100に入力される。
なお、図1に示す例では、問診に対して対象者2が口頭で回答することで、音声データとともに問診データも推定装置100に入力されるが、音声データおよび問診データは、それぞれ独立して推定装置100に入力されてもよい。たとえば、ユーザ1は、対象者2に「あー」などの決まった音声を所定期間(たとえば、4秒間)発してもらい、その音声データがマイク400を介して推定装置100に入力されてもよい。その一方で、ユーザ1は、対象者2から得た問診結果を、キーボード501およびマウス502を使って推定装置100に入力してもよい。また、図1に示すように、問診の内容およびその問診結果は、ディスプレイ300に表示されてもよい。
ユーザ1が熟練した耳鼻咽喉科の医師であれば、対象者2の音声を聞き、公知のGRBAS尺度などの評価法を用いて音声障害の有無を診断することができるが、音声障害の有無を診断することにおいては、術者ごとにその知見のレベルが異なるため、術者の知見のレベルに応じて診断結果がばらつき、その精度が低下する虞がある。たとえば、音声障害が生じて患者が内科に訪れた場合、内科の医師は耳鼻咽喉科の医師よりも音声障害の知見が乏しい可能性が高いため、その結果、高い精度の診断を得ることが難しい。
また、耳鼻咽喉科の医院など、音声障害に関する精密検査を行うための装置が用意されていればよいが、患者が最初に訪れた医院が耳鼻咽喉科以外の医院の場合には、そのような精密検査を行うための装置は通常用意されていないため、音声障害の原因を容易に推定することが難しい。
そこで、本実施の形態に係る推定システム10は、推定装置100が有するAI(人工知能:Artificial Intelligence)を利用して、対象者2の音声に関する情報を含む音声データおよび対象者2に対して行われた問診の結果に関する情報を含む問診データに基づき、音声障害の原因を自動的に推定する処理を実行するように構成されている。なお、推定装置100による音声障害の原因を推定する処理を「推定処理」とも称する。
具体的には、推定装置100は、対象者2の音声データおよび問診データが入力されると、入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する推定処理を実行する。なお、音声に関する情報は、対象者2の音声の波形そのものであってもよいし、音声の波形を解析することで得られる解析値であってもよい。
「推定モデル」は、たとえば、公知のニューラルネットワークやサポートベクターマシン(Support Vector Machine:SVM)、あるいはベイジアンネットワーク(Bayesian Network)などのネットワーク構造と、当該ネットワーク構造によって用いられるパラメータとを含み、音声データおよび問診データに基づく音声障害の原因の推定結果と、当該音声データおよび当該問診データに関連付けられた音声障害の原因とに基づき機械学習されることで最適化(調整)される。
具体的には、推定モデルは、音声データおよび問診データが入力されると、当該音声データに基づきネットワーク構造によって当該音声データの特徴を抽出するとともに、当該問診データに基づきネットワーク構造によって当該問診データの特徴を抽出する。そして、推定モデルは、抽出した音声データおよび問診データのそれぞれの特徴に基づき音声障害の原因を推定する。そして、推定モデルは、自身が推定した音声障害の原因と、入力された音声データおよび問診データに関連付けられた音声障害の原因(たとえば、専門の術者による確定診断結果)とに基づき、両者が一致すればパラメータを更新しない一方で、両者が一致しなければ両者が一致するようにパラメータを更新することで、パラメータを最適化する。このように、推定モデルは、入力データである音声データおよび問診データと、正解データである音声障害の原因(確定診断結果)とを含む教師データを利用して、パラメータが最適化されることで学習される。
なお、このような推定モデルを学習する処理を「学習処理」とも称する。また、学習処理によって最適化された推定モデルを、特に「学習済モデル」とも称する。つまり、本実施の形態においては、学習前の推定モデルおよび学習済みの推定モデルをまとめて「推定モデル」と総称する一方で、特に、学習済みの推定モデルを「学習済モデル」とも称する。
推定装置100によって学習済モデルを用いて推定処理が実行されると、その推定結果が、ディスプレイ300、および図示しないスピーカに出力される。
さらに、推定装置100による推定処理で取得された推定結果データは、推定処理時に用いられた音声データおよび問診データとともに、推定情報として管理センターに配置されたサーバ装置500に出力される。
たとえば、図2に示すように、推定システム10は、複数のローカルA~Cのそれぞれに配置されている。たとえば、ローカルAはクリニックであり、ローカルBは総合病院であり、ローカルCは大学病院である。各ローカルの院内において、ユーザ1である術者は、推定システム10を利用して対象者2である患者の音声障害の原因を推定する。各ローカルで取得された推定情報(音声データ,問診データ,推定結果データ)は、ネットワーク5を介して、管理センターに配置されたサーバ装置500に出力される。
管理センターにおいては、サーバ装置500が、各ローカルから取得した推定情報を蓄積して記憶し、ビッグデータとして保持する。
なお、サーバ装置500は、ローカルとは異なる管理センターに配置されるものに限らず、ローカル内に配置されてもよい。たとえば、ローカルA~Cのうちのいずれかのローカル内にサーバ装置500が配置されてもよい。また、1つのローカル内に複数の推定装置100が配置されてもよく、さらに、当該1つのローカル内に当該複数の推定装置100と通信可能なサーバ装置500が配置されてもよい。また、サーバ装置500は、クラウドサービスの形態で実現されてもよい。
各ローカルA~Cの推定装置100は、各自で推定モデルを保持しており、推定処理時に各自が保持する推定モデルを使用して音声障害の原因を推定する。各ローカルA~Cの推定装置100は、各自の学習処理によって各自の推定モデルを学習することで、学習済モデルを生成する。このようにして生成された学習済モデルは、ネットワーク5またはリムーバブルディスク550を介して、各ローカルA~Cからサーバ装置500に出力されてもよい。さらに、本実施の形態においては、サーバ装置500も推定モデルを保持している。サーバ装置500は、各ローカルA~Cの推定装置100から取得した推定情報を用いた学習処理によって推定モデルを学習することで、学習済モデルを生成し、ネットワーク5またはリムーバブルディスク550を介して、各ローカルA~Cの推定装置100に当該学習済モデルを配布してもよい。
なお、本実施の形態においては、各ローカルA~Cの推定装置100およびサーバ装置500のいずれも学習処理を実行する形態であるが、各ローカルA~Cの推定装置100のみが学習処理を実行する形態、あるいはサーバ装置500のみが学習処理を実行する形態であってもよい。なお、サーバ装置500のみが学習処理を実行する形態である場合、各ローカルA~Cの推定装置100が保持する推定モデル(学習済モデル)は、各ローカルA~Cの推定装置100間で共通化される。
また、サーバ装置500が推定装置100における推定処理の機能を有していてもよい。たとえば、各ローカルA~Cは、取得した音声データおよび問診データをサーバ装置500に送信し、サーバ装置500は、各ローカルA~Cから受信したそれぞれの音声データおよび問診データに基づき、それぞれにおける音声障害の原因の推定結果を算出してもよい。そして、サーバ装置500は、それぞれの推定結果を各ローカルA~Cに送信し、各ローカルA~Cは、サーバ装置500から受信した推定結果をディスプレイ300などに出力してもよい。このように、各ローカルA~Cとサーバ装置500とがクラウドサービスの形態で構成されてもよい。このようにすれば、サーバ装置500が推定モデル(学習済モデル)を保持してさえいれば、各ローカルA~Cは、推定モデル(学習済モデル)を保持することなく推定結果を得ることができる。
なお、ネットワーク5を介さずに、ローカルA~Cのそれぞれからも、リムーバブルディスク550を介して推定情報が管理センターに送られてもよい。また、ローカルA~Cのそれぞれの間においても、ネットワーク5またはリムーバブルディスク550を介して推定情報を互いに送り合ってもよい。
このように、本実施の形態に係る推定システム10によれば、推定装置100が有するAIを利用して、音声データおよび問診データに基づき音声障害の原因が自動的に推定される。AIを利用することで、ユーザ1では抽出できない対象者2の音声や問診結果の特徴を見出すことができ、これにより、ユーザ1は、自身の知見に頼ることなく、精度良く音声障害の原因を推定することができる。さらに、医学の進歩とともに、機械学習時に用いられる正解データである確定診断結果の精度も向上するため、機械学習によって推定モデルを学習させることによって、精度を向上させながら音声障害の原因を容易に推定することができる。
[推定装置のハードウェア構成]
図3を参照しながら、本実施の形態に係る推定装置100のハードウェア構成の一例を説明する。図3は、本実施の形態に係る推定装置100のハードウェア構成を示す模式図である。推定装置100は、たとえば、汎用コンピュータで実現されてもよいし、推定システム10専用のコンピュータで実現されてもよい。
図3に示すように、推定装置100は、主なハードウェア要素として、ディスプレイインターフェース103と、マイクインターフェース104と、周辺機器インターフェース105と、ネットワークコントローラ106と、メディア読取装置107と、メモリ109と、ストレージ110と、演算装置130とを備える。
ディスプレイインターフェース103は、ディスプレイ300を接続するためのインターフェースであり、推定装置100とディスプレイ300との間のデータの入出力を実現する。ディスプレイ300は、たとえば、LCD(Liquid Crystal Display)または有機ELD(Electro Luminescence Display)などで構成される。
マイクインターフェース104は、マイク400を接続するためのインターフェースであり、推定装置100とマイク400との間のデータの入出力を実現する。
周辺機器インターフェース105は、キーボード501およびマウス502などの周辺機器を接続するためのインターフェースであり、推定装置100と周辺機器との間のデータの入出力を実現する。
ネットワークコントローラ106は、ネットワーク5を介して、管理センターに配置されたサーバ装置500、および他のローカルに配置された他の推定装置100のそれぞれとの間でデータを送受信する。ネットワークコントローラ106は、たとえば、イーサネット(登録商標)、無線LAN(Local Area Network)、Bluetooth(登録商標)などの任意の通信方式に対応する。
メディア読取装置107は、リムーバブルディスク550に格納されている推定情報などの各種データを読み出す。
メモリ109は、演算装置130が任意のプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ109は、たとえば、DRAM(Dynamic Random Access Memory)またはSRAM(Static Random Access Memory)などの揮発性メモリデバイスで構成される。
ストレージ110は、推定処理および学習処理などに必要な各種のデータを格納する記憶領域を提供する。ストレージ110は、たとえば、ハードディスクまたはSSD(Solid State Drive)などの不揮発性メモリデバイスで構成される。
ストレージ110は、推定情報113と、推定モデル114(学習済モデル114a)と、学習用データセット116と、推定用プログラム120と、学習用プログラム121と、OS(Operating System)127と、音声障害データ128とを格納する。
推定情報113は、音声データ135と、問診データ138と、音声データ135および問診データ138に基づく推定処理によって取得された推定結果データ124とを含む。
音声データ135は、後述する図9に示すように、対象者2の音声の波形データを含む。問診データ138は、後述する図5に示すように対象者2に対する問診の結果を含む問診データテーブル1と、図6に示すように対象者2の属性(プロファイルなど)に関する属性データを含む問診データテーブル2とを含む。なお、本実施の形態においては、問診データとして、問診結果と、属性データとが含まれるが、属性データは、問診結果とは異なるデータとして存在してもよい。つまり、問診データには問診結果が含まれる一方で、属性データは含まれないものであってもよい。
推定結果データ124は、推定処理に用いられた音声データ135および問診データ138のそれぞれに関連付けられてストレージ110に格納される。つまり、推定処理が行われたときに参照されたデータと、当該推定処理による推定結果とが関連付けられる。
学習用データセット116は、推定モデル114の学習処理に用いられる一群の学習用データである。推定用プログラム120は、推定処理を実行するためのプログラムである。学習用プログラム121は、推定モデル114の学習処理を実行するためのプログラムであり、その一部には推定処理を実行するためのプログラムも含まれる。音声障害データ128は、後述する図7に示すように音声障害の原因に関する情報を含む音声障害データテーブルを含む。
演算装置130は、各種のプログラムを実行することで、推定処理および学習処理などの各種の処理を実行する演算主体であり、コンピュータの一例である。演算装置130は、たとえば、CPU(Central Processing Unit)132、FPGA(Field-Programmable Gate Array)134、およびGPU(Graphics Processing Unit)136などで構成される。
[サーバ装置のハードウェア構成]
図4を参照しながら、本実施の形態に係るサーバ装置500のハードウェア構成の一例を説明する。図4は、本実施の形態に係るサーバ装置500のハードウェア構成を示す模式図である。サーバ装置500は、たとえば、汎用コンピュータで実現されてもよいし、推定システム10専用のコンピュータで実現されてもよい。
図4に示すように、サーバ装置500は、主なハードウェア要素として、ディスプレイインターフェース503と、周辺機器インターフェース505と、ネットワークコントローラ506と、メディア読取装置507と、メモリ509と、ストレージ510と、演算装置530とを備える。
ディスプレイインターフェース503は、ディスプレイ350を接続するためのインターフェースであり、サーバ装置500とディスプレイ350との間のデータの入出力を実現する。ディスプレイ350は、たとえば、LCDまたは有機ELDなどで構成される。
周辺機器インターフェース505は、キーボード551およびマウス552などの周辺機器を接続するためのインターフェースであり、サーバ装置500と周辺機器との間のデータの入出力を実現する。
ネットワークコントローラ506は、ネットワーク5を介して、各ローカルに配置された推定装置100との間でデータを送受信する。ネットワークコントローラ506は、たとえば、イーサネット(登録商標)、無線LAN、Bluetooth(登録商標)などの任意の通信方式に対応してもよい。
メディア読取装置507は、リムーバブルディスク550に格納されている推定情報などの各種データを読み出す。
メモリ509は、演算装置530が任意のプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ509は、たとえば、DRAMまたはSRAMなどの揮発性メモリデバイスで構成される。
ストレージ510は、学習処理などに必要な各種のデータを格納する記憶領域を提供する。ストレージ510は、たとえば、ハードディスクまたはSSDなどの不揮発性メモリデバイスで構成される。
ストレージ510は、推定情報513と、推定モデル514(学習済モデル514a)と、学習用データセット516と、推定用プログラム520と、学習用プログラム521と、OS527と、音声障害データ528とを格納する。
推定情報513は、ネットワーク5を介してローカルに配置された推定装置100から取得した音声データ535および問診データ538と、音声データ535および問診データ538に基づく推定処理によって取得された推定結果データ524、あるいは各ローカルの推定装置100から取得した推定結果データ524とを含む。推定結果データ524は、推定処理に用いられた音声データ535および問診データ538に関連付けられてストレージ510に格納される。つまり、推定処理が行われたときに参照されたデータと、当該推定処理による推定結果とが関連付けられる。
学習用データセット516は、推定モデル514の学習処理に用いられる一群の学習用データである。推定用プログラム520は、推定処理を実行するためのプログラムである。学習用プログラム521は、推定モデル514の学習処理を実行するためのプログラムであり、その一部には推定処理を実行するためのプログラムも含まれる。音声障害データ528は、音声障害の原因に関するデータを含む。
なお、推定モデル514(学習済モデル514a)は、ローカルの推定装置100に送信されることで、推定装置100によって、推定モデル114(学習済モデル114a)として保持される。
演算装置530は、各種のプログラムを実行することで、学習処理などの各種の処理を実行する演算主体であり、コンピュータの一例である。演算装置530は、たとえば、CPU532、FPGA534、およびGPU536などで構成される。
[問診データ]
図5および図6を参照しながら、本実施の形態に係る問診データを説明する。図5は、本実施の形態に係る推定装置100が記憶する問診データテーブル1を示す模式図である。図6は、本実施の形態に係る推定装置が記憶する問診データテーブル2を示す模式図である。
図5に示すように、問診データテーブル1には、対象者2に対して行われる問診の内容と、当該問診の内容に対する回答である問診結果とが格納されている。本実施の形態において行われる問診には、複数の問診項目が含まれている。たとえば、問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣などの内容が含まれている。なお、問診データテーブル1には、これらの問診項目のうちの少なくともいずれか1つが含まれていればよく、その他の問診内容が含まれていてもよい。
対象者2に対する問診によって得られた問診結果は、ユーザ1によってキーボード501やマウス502などを用いて入力されることで、問診データテーブル1に格納される。たとえば、対象者2によって音声障害の症状として声が出ないと回答された場合、「音声障害の症状」の欄に含まれる「声が出ない、出にくい」の欄にフラグ(たとえば、「1」)が立てられる。このようにして、対象者2に対する問診によって得られた問診結果が、問診データテーブル1に格納される。
図6に示すように、問診データテーブル2には、対象者2の属性に関する内容を含む属性データが格納されている。たとえば、対象者2の属性に関する内容には、対象者2に紐付けられたID、対象者2の名前、年齢、性別、国籍(人種)、身長、体重、喫煙の有無、飲酒の有無、職業、および趣味などが含まれている。なお、問診データテーブル2には、これらの属性に関する内容のうちの少なくともいずれか1つが含まれていればよく、その他の属性に関する内容が含まれていてもよい。
対象者2に対する問診時において、当該対象者2の属性に関する内容が得られると、当該属性に関する内容が、ユーザ1によってキーボード501やマウス502などを用いて入力されることで、問診データテーブル2に格納される。たとえば、ID「a001」に紐付けられた対象者2について、名前として「山田太郎」、年齢として「65」歳、性別として「男」、国籍(人種)として「日本」、身長として「160」cm、体重として「55」kg、喫煙の有無として「有」、飲酒の有無として「有」、職業として「無職」、および趣味として「ゴルフ」を特定可能な情報が問診データテーブル2に格納される。このようにして、対象者2の属性に関する内容が、問診データテーブル2に格納される。
[音声障害データ]
図7を参照しながら、本実施の形態に係る音声障害データを説明する。図7は、本実施の形態に係る推定装置100が記憶する音声障害データテーブルを示す模式図である。
図7に示すように、音声障害データテーブルには、音声障害の原因に関する情報が格納されている。たとえば、音声障害の原因には、喉頭の組織異常、喉頭の炎症性疾患、喉頭の外傷、全身性疾患、呼吸器疾患、消化器疾患、心理的疾患、精神疾患、および神経疾患などが含まれている。なお、音声障害データテーブルには、これらの音声障害の原因のうちの少なくともいずれか1つが含まれていればよい。
推定装置100は、音声障害データテーブルに格納された音声障害の原因に関する情報を参照することで、音声データおよび問診データに基づく推定結果として音声障害の原因を出力する。
[推定装置による推定処理]
図8および図9を参照しながら、本実施の形態に係る推定装置100による推定処理を説明する。図8は、本実施の形態に係る推定装置100の機能構成を示す模式図である。図9は、本実施の形態に係る推定装置100による推定処理を説明するための模式図である。
図8に示すように、推定システム10が備える推定装置100は、音声データ入力部1135と、問診データ入力部1138と、推定部1130と、出力部1103とを有する。これらの各機能は、推定装置100の演算装置130がOS127および推定用プログラム120を実行することで実現される。
音声データ入力部1135には、マイク400によって取得された対象者2の音声に関する情報を含む音声データが入力される。なお、マイク400は、取得部の一例であり、取得部には、マイク400に限らず、音声データを取得するものであれば、いずれのものを適用してもよい。
問診データ入力部1138には、対象者2に対して行われた問診の結果に関する情報を含む問診データがキーボード501によって入力される。なお、キーボード501は、操作部の一例であり、操作部には、キーボード501に限らず、問診データを入力するものであれば、いずれのものを適用してもよい。入力された問診データに含まれる情報は、図5および図6で説明したように、問診データテーブルに格納される。
なお、音声データ入力部1135および問診データ入力部1138は、「入力部」の一例であり、各入力部が共通の入力部であってもよいし、各入力部が互いに独立した異なる入力部であってもよい。
推定部1130は、音声データ入力部1135に入力された音声データと問診データ入力部1138に入力された問診データとに基づき、推定モデル114(学習済モデル114a)を用いて音声障害の原因を推定する推定処理を実行する。なお、推定部1130は、音声データのみに基づいて推定処理を実行してもよいが、問診データについても参照する方が、入力データが多い分、より精度良くめまいの原因を推定することができる。
推定モデル114は、ネットワーク構造1142と、当該ネットワーク構造1142によって用いられるパラメータ1144とを含む。パラメータ1144は、ネットワーク構造1142による計算に用いられる重み付け係数と、推定の判定に用いられる判定値とを含む。
ネットワーク構造1142においては、音声データおよび問診データが入力層に入力される。そして、ネットワーク構造1142においては、たとえば、中間層によって、入力された音声データおよび問診データに対して重み付け係数が乗算されたり所定のバイアスが加算されたりするとともに所定の関数による計算が行われ、その計算結果が判定値と比較される。そして、ネットワーク構造1142においては、その計算および判定の結果が推定結果として出力層から出力される。なお、ネットワーク構造1142による計算および判定については、音声データおよび問診データに基づき音声障害の原因を推定できるものであれば、いずれの手法が用いられてもよい。
推定モデル114(学習済モデル114a)のネットワーク構造1142は、ニューラルネットワークやサポートベクターマシン、あるいはベイジアンネットワークなど、公知のネットワーク構造を用いればよい。さらに、ネットワーク構造1142として、ニューラルネットワークを用いる場合、中間層を多層構造にすることで、ディープラーニングによる処理を行うものであってもよい。
このような構成において、推定装置100は、音声データおよび問診データが入力されると、音声データおよび問診データのそれぞれにおける特徴を推定モデル114のネットワーク構造1142を用いて抽出し、抽出した特徴に基づき、音声障害の原因を推定する。
たとえば、音声障害の有無やその原因に応じて音声データに含まれる音声波形は異なる。推定装置100は、音声データに含まれる音声波形の特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。
また、音声障害の有無やその原因に応じて問診データテーブル1に格納された問診結果が異なる。問診結果は対象者2が回答するものであるため、その内容は対象者2によって様々であるが、音声障害の有無やその原因と、問診結果との間においては、何らかの相関関係が見出され得る。推定装置100は、問診データテーブル1に格納された問診結果の特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。
さらに、音声障害の有無やその原因に応じて問診データテーブル2に格納された属性データが異なる。たとえば、年齢が高ければ高いほど、加齢とともに音声障害を引き起こし易い。また、喫煙や飲酒をする者は、喫煙や飲酒をしない者よりも、音声障害を引き起こし易い。さらに、声を発する職業や趣味を有する者は、声を発しない職業や趣味を有する者よりも、音声障害を引き起こし易い。このように、音声障害の有無やその原因と、属性データとの間においては、何らかの相関関係が見出され得る。推定装置100は、問診データテーブル2に格納された属性データの特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。
出力部1103は、推定処理によって得られた推定結果データを、ディスプレイ300、またはサーバ装置500に出力する。
たとえば、図9に示すように、推定装置100は、入力された音声データおよび問診データに基づき音声障害の原因を推定すると、その推定結果を、ディスプレイ300に出力する。ディスプレイ300の画面上には、音声障害の原因として可能性の高い順に複数の候補が一覧表示されるとともに、各候補の正解確率も追加される。音声障害の原因として可能性が高いほど、正解確率も高くなるため、ユーザ1は、正解確率に基づき音声障害の原因を予想することができる。なお、各候補の正解確率に限らず、各候補のスコアが表示されてもよい。この場合、音声障害の原因として可能性が高いほど、スコアが高くなる。
[学習用データ]
図10は、本実施の形態に係る学習用データセットの一例を説明するための模式図である。図10においては、喉頭粘膜外傷を原因とした音声障害を有する対象者2に対応する学習用データの一例が示されている。
図10に示すように、学習用データには、音声障害を有する対象者2の音声データおよび問診データ(問診結果)と、当該対象者2に対する術者による確定診断結果(音声障害の原因)とが含まれており、確定診断結果(音声障害の原因)は、音声データおよび問診データ(問診結果)のそれぞれに関連付けられている。このように、本実施の形態に係る学習用データにおいては、推定処理で参照される音声データおよび問診データに対して、音声障害の原因が関連付けられる(ラベリングされる)。
図10に示す例は音声障害が喉頭粘膜外傷を原因としているが、その他の音声障害の原因についても、多くのサンプルが集められる。このような学習用データの集まりが学習用データセット116として、推定装置100に保持される。
[学習済モデルの生成]
図11を参照しながら、学習済モデル114aの生成の一例を説明する。図11は、本実施の形態に係る学習用データセット116に基づく学習済モデル114aの生成を説明するための模式図である。
図11に示すように、学習用データセット116は、当該学習用データセット116を生成する際のサンプルとなった対象者2の属性データに基づきカテゴリごとに分類することができる。たとえば、年齢(未成年者,現役世代,高齢者)、性別(男性,女性)、人種(アジア人,欧米人,アフリカ系)、身長(150cm未満,150以上)、体重(50kg未満,50kg以上)、喫煙の有無、職業、および趣味のそれぞれに対して、サンプルとなった対象者2の学習用データを割り当てることができる。なお、各カテゴリの層別は、適宜設定可能である。たとえば、年齢に関しては、所定の年齢差ごと、具体的には、0歳~3歳、4歳~6歳、7歳~9歳、…といったように、より詳細に層別することができる。
推定装置100は、カテゴリごとに分類することができる複数の学習用データセット116a~116qを用いて推定モデル114を学習させることで、学習済モデル114aを生成する。なお、学習用データは、カテゴリの分類の仕方によっては重複することがあるが、学習用データが重複する場合には、いずれかの学習用データのみを用いて推定モデル114を学習させればよい。
上述したように、音声障害の有無やその原因は、属性データに依存する傾向がある。このため、本実施の形態のように、属性データに基づき学習処理を実行すれば、属性データを考慮して音声障害の原因を推定可能な学習済モデル114aを生成することができる。
なお、図11に示す学習済モデル114aの生成は、サーバ装置500が保持する学習済モデル514aの生成についても適用可能である。たとえば、図11に示す学習用データセット116a~116oを、サーバ装置500が保持する学習用データセット516に適用してもよいし、図11に示す推定モデル114を、サーバ装置500が保持する推定モデル514に適用してもよい。
[推定装置の学習処理]
図12を参照しながら、推定装置100が実行する学習処理について説明する。図12は、本実施の形態に係る推定装置100が実行する学習処理の一例を説明するためのフローチャートである。図12に示す各ステップは、推定装置100の演算装置130がOS127および学習用プログラム121を実行することで実現される。
図12に示すように、推定装置100は、学習用データセット116の中から、学習に用いる学習用データを選択する(S1)。具体的には、推定装置100は、図11に示す学習用データセット群に含まれる学習用データセット116の中から、一または複数の学習用データを選択する。なお、推定装置100は、学習用データを自動で選択するものに限らず、ユーザ1が選択した学習用データを学習処理に用いてもよい。
推定装置100は、選択した学習用データに含まれる音声データおよび問診データを推定モデル114に入力する(S2)。なお、この問診データには、問診結果および属性データが含まれる。このとき、推定装置100には、音声データおよび問診データにラベリングされた正解データ(確定診断結果)は入力されない。推定装置100は、音声データおよび問診データの特徴に基づき、推定モデル114を用いて音声障害の有無やその原因を推定する推定処理を実行する(S3)。
推定装置100は、推定処理によって推定した音声障害の原因の推定結果と、学習処理に用いた学習用データに対応する正解データとの誤差に基づき、推定モデル114のパラメータ1144を更新する(S4)。
たとえば、推定装置100は、推定結果と正解データとを比較し、両者が一致すれば推定モデル114のパラメータ1144を維持する一方で、両者が一致しなければ両者が一致するように推定モデル114のパラメータ1144を更新する。
次に、推定装置100は、全ての学習用データに基づき学習したか否かを判定する(S5)。推定装置100は、全ての学習用データに基づき学習していない場合(S5でNO)、S1の処理に戻る。
一方、推定装置100は、全ての学習用データに基づき学習した場合(S5でYES)、学習済みの推定モデル114を学習済モデル114aとして記憶し(S6)、本処理を終了する。
このように、推定装置100は、学習用データに含まれる音声データおよび問診データに関連付けられた音声障害の原因(確定診断結果)を正解データとして、推定処理による音声データおよび問診データを用いた音声障害の原因の推定結果に基づき、推定モデル114を学習することで、学習済モデル114aを生成することができる。
さらに、推定装置100は、学習処理において、学習用データに加えて属性データを考慮して推定モデル114を学習するため、対象者2の属性データを考慮した学習済モデル114aを生成することができる。
[サーバ装置の学習処理]
図13を参照しながら、サーバ装置500が実行する学習処理について説明する。図13は、本実施の形態に係るサーバ装置500が実行する学習処理の一例を説明するためのフローチャートである。図13に示す各ステップは、サーバ装置500の演算装置530がOS527および学習用プログラム521を実行することで実現される。
図13に示すように、サーバ装置500は、学習用データセットの中から、学習に用いる学習用データを選択する(S501)。ここで、学習用データは、サーバ装置500によって蓄積して記憶されたビッグデータを利用して生成されたものであってもよい。たとえば、サーバ装置500は、各ローカルA~Cの推定装置100から取得した推定情報に含まれる音声データおよび問診データを利用して学習用データを生成しておき、生成した学習用データを用いて学習処理を実行してもよい。なお、サーバ装置500は、学習用データを自動で選択するものに限らず、ユーザ1が選択した学習用データを学習処理に用いてもよい。
サーバ装置500は、選択した学習用データに含まれる音声データおよび問診データを推定モデル514に入力する(S502)。なお、この問診データには、問診結果および属性データが含まれる。このとき、サーバ装置500には、音声データおよび問診データにラベリングされた正解データ(確定診断結果)は入力されない。サーバ装置500は、音声データおよび問診データの特徴に基づき、推定モデル514を用いて音声障害の有無やその原因を推定する推定処理を実行する(S503)。
サーバ装置500は、推定処理によって推定した音声障害の原因の推定結果と、学習処理に用いた学習用データに対応する正解データとの誤差に基づき、推定モデル514のパラメータを更新する(S504)。
たとえば、サーバ装置500は、推定結果と正解データとを比較し、両者が一致すれば推定モデル514のパラメータを維持する一方で、両者が一致しなければ両者が一致するように推定モデル514のパラメータを更新する。
次に、サーバ装置500は、全ての学習用データに基づき学習したか否かを判定する(S505)。サーバ装置500は、全ての学習用データに基づき学習していない場合(S505でNO)、S501の処理に戻る。
一方、サーバ装置500は、全ての学習用データに基づき学習した場合(S505でYES)、学習済みの推定モデル514を学習済モデル514aとして記憶する(S506)。その後、サーバ装置500は、生成した学習済モデル514aを各ローカルの推定装置100に送信し(S507)、本処理を終了する。
このように、サーバ装置500は、学習用データに含まれる音声データおよび問診データに関連付けられた音声障害の原因(確定診断結果)を正解データとして、推定処理による音声データおよび問診データを用いた音声障害の原因の推定結果に基づき、推定モデル514を学習することで、学習済モデル514aを生成することができる。
また、サーバ装置500は、学習処理において、学習用データに加えて属性データを考慮して推定モデル514を学習するため、対象者2の属性データを考慮した学習済モデル514aを生成することができる。
さらに、サーバ装置500は、学習処理に用いる学習用データとして、各ローカルA~Cの推定装置100から取得した推定情報に含まれる音声データおよび問診データを利用しているため、推定装置100ごとに実行される学習処理よりも、より多くの学習用データに基づいて学習処理を実行することができ、より精度良く音声障害の原因を推定可能な学習済モデル514aを生成することができる。
[推定装置のサービス提供処理]
図14を参照しながら、推定装置100が実行するサービス提供処理について説明する。図14は、本実施の形態に係る推定装置100が実行するサービス提供処理の一例を説明するためのフローチャートである。図14に示す各ステップは、推定装置100の演算装置130がOS127および推定用プログラム120を実行することで実現される。
図14に示すように、推定装置100は、サービス提供処理の開始条件が成立したか否かを判定する(S41)。開始条件は、たとえば、推定装置100の電源を立ち上げたときに成立してもよいし、推定装置100の電源を立ち上げた後にサービス提供処理に対応するモードに切り替えられたときに成立してもよい。あるいは、開始条件は、マイク400から対象者2の音声データが入力されたときに成立してもよい。開始条件は、推定装置100に対して何らかのアクションが行われたときに成立するものであればよい。
推定装置100は、開始条件が成立していない場合(S41でNO)、本処理を終了する。一方、推定装置100は、開始条件が成立した場合(S41でYES)、音声データおよび問診データが入力されたか否かを判定する(S42)。なお、この問診データには、問診結果および属性データが含まれる。推定装置100は、音声データおよび問診データが入力されていない場合(S42でNO)、S42の処理を繰り返す。
一方、推定装置100は、音声データおよび問診データが入力された場合(S42でYES)、音声データおよび問診データを学習済モデル114aに入力する(S43)。その後、推定装置100は、音声データおよび問診データの特徴に基づき、学習済モデル114aを用いて音声障害の原因を推定する推定処理を実行する(S44)。
その後、推定装置100は、推定処理によって得られた推定結果データを、ディスプレイ300やサーバ装置500などに出力し(S45)、本処理を終了する。
このように、推定装置100は、入力された音声データおよび問診データの特徴に基づき、学習済モデル114aを用いて音声障害の原因を推定するため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、学習済モデル114aは、学習処理によって機械学習されるため、推定装置100は、学習処理を実行する度に精度を向上させながら音声障害の原因を容易に推定することができる。
[主な構成]
以上のように、本実施の形態では以下のような開示を含む。
推定装置100は、対象者2の音声に関する情報を含む音声データおよび対象者2に対して行われた問診の結果に関する情報を含む問診データが入力される入力部(音声データ入力部1135,問診データ入力部1138)と、入力部(音声データ入力部1135,問診データ入力部1138)から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデル114(学習済モデル114a)に基づき、音声障害の原因を推定する推定部1130と、推定部1130による推定結果を出力する出力部1103とを備え、推定モデル114(学習済モデル114a)は、推定部1130による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因(確定診断結果)とに基づき機械学習される。
これにより、ユーザ1は、音声データおよび問診データを推定モデル114(学習済モデル114a)に入力することで、音声障害の原因を推定することができるため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、推定モデル114(学習済モデル114a)は、学習処理によって機械学習されることで、推定処理の精度を向上させることができるため、ユーザ1は、精度を向上させながら音声障害の原因を容易に推定することができる。
なお、推定モデル114の学習は、サーバ装置500によって実行される推定モデル514の学習によって実現されるものであってもよい。
図5に示すように、問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか1つの内容を含む。
これにより、ユーザ1は、音声障害の原因を推定するための情報として、様々な問診結果を集めることができる。
図6に示すように、問診データには、対象者2の属性に関する内容を含む属性データが追加される。
これにより、ユーザ1は、対象者2に対する問診結果に加えて、対象者2の属性に基づき、より精度良く音声障害の原因を推定することができる。
図6に示すように、対象者2の属性に関する内容は、対象者2の年齢、性別、人種、身長、体重、喫煙の有無、飲酒の有無、職業、および趣味のうちの少なくともいずれか1つの情報を含む。
これにより、ユーザ1は、音声障害の原因を推定するための情報として、対象者2に関する様々な属性を集めることができる。
図7に示すように、音声障害の原因は、喉頭の組織異常、喉頭の炎症性疾患、喉頭の外傷、全身性疾患、呼吸器疾患、消化器疾患、心理的疾患、精神疾患、および神経疾患のうちの少なくともいずれか1つを含む。
これにより、ユーザ1は、音声障害の原因として、様々な異常や疾患を推定することができる。
推定システム10は、対象者2の音声に関する情報を含む音声データを取得するマイク400と、対象者に対して行われた問診の結果に関する情報を含む問診データを入力するためのキーボード501と、音声障害の原因を推定する推定装置100とを備える。推定装置100は、マイク400によって取得された音声データが入力される音声データおよびキーボード501によって入力された問診データが入力される入力部(音声データ入力部1135,問診データ入力部1138)と、入力部(音声データ入力部1135,問診データ入力部1138)から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデル114(学習済モデル114a)に基づき、音声障害の原因を推定する推定部1130と、推定部1130による推定結果を出力する出力部1103とを含み、推定モデル114(学習済モデル114a)は、推定部1130による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因(確定診断結果)とに基づき機械学習される。
これにより、ユーザ1は、音声データおよび問診データを推定モデル114(学習済モデル114a)に入力することで、音声障害の原因を推定することができるため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、推定モデル114(学習済モデル114a)は、学習処理によって機械学習されることで、推定処理の精度を向上させることができるため、ユーザ1は、精度を向上させながら音声障害の原因を容易に推定することができる。
推定方法は、対象者2の音声に関する情報を含む音声データおよび対象者2に対して行われた問診の結果に関する情報を含む問診データが入力されるステップ(S43)と、音声データ、問診データ、および機械学習によって生成された推定モデル114(学習済モデル114a)に基づき、音声障害の原因を推定するステップ(S44)と、推定するステップによる推定結果を出力するステップ(S45)とを含み、推定モデル114(学習済モデル114a)は、推定するステップ(S4)による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因(確定診断結果)とに基づき機械学習される。
これにより、ユーザ1は、音声データおよび問診データを推定モデル114(学習済モデル114a)に入力することで、音声障害の原因を推定することができるため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、推定モデル114(学習済モデル114a)は、学習処理によって機械学習されることで、推定処理の精度を向上させることができるため、ユーザ1は、精度を向上させながら音声障害の原因を容易に推定することができる。
推定用プログラム120は、演算装置130に、対象者2の音声に関する情報を含む音声データおよび対象者2に対して行われた問診の結果に関する情報を含む問診データが入力されるステップ(S43)と、音声データ、問診データ、および機械学習によって生成された推定モデル114(学習済モデル114a)に基づき、音声障害の原因を推定するステップ(S44)と、推定するステップによる推定結果を出力するステップ(S45)とを実行させ、推定モデル114(学習済モデル114a)は、推定するステップ(S4)による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。
これにより、ユーザ1は、音声データおよび問診データを推定モデル114(学習済モデル114a)に入力することで、音声障害の原因を推定することができるため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、推定モデル114(学習済モデル114a)は、学習処理によって機械学習されることで、推定処理の精度を向上させることができるため、ユーザ1は、精度を向上させながら音声障害の原因を容易に推定することができる。
[変形例]
本発明は、上記の実施例に限られず、さらに種々の変形、応用が可能である。以下、本発明に適用可能な変形例について説明する。
(サービス提供処理時学習処理)
本実施の形態に係る推定装置100は、図14に示すように、サービス提供処理において学習処理を実行するものではないが、図15に示すように、変形例に係る推定装置100aは、サービス提供処理において学習処理を実行するものであってもよい。図15は、変形例に係る推定装置100aが実行するサービス提供処理の一例を説明するためのフローチャートである。なお、図15に示すS41~S45の処理は、図14に示すS41~S45の処理と同じであるため、図15においては、S46以降の処理についてのみ説明する。
図15に示すように、推定装置100aは、S41~S45の処理によって推定結果を出力した後、サービス提供時学習処理を実行する。具体的には、推定装置100aは、S45の後、誤り訂正のための正解データが入力されたか否かを判定する(S46)。たとえば、推定装置100aは、S45において出力された推定結果である音声障害の原因が、対象者2に対する術者による確定診断結果と異なる場合、確定診断結果をユーザ1が入力することで誤りを訂正したか否かを判定する。
推定装置100aは、誤り訂正のための正解データが入力されなかった場合(S46でNO)、本処理を終了する。一方、推定装置100aは、誤り訂正のための正解データが入力された場合(S46でYES)、推定結果と正解データとに基づき報酬を付与する(S47)。
たとえば、推定結果と正解データとの解離度が小さければ小さいほど、付与する報酬として値の小さいマイナスポイントを与え、両者の解離度が大きければ大きいほど、付与する報酬として値の大きいマイナスポイントを与えればよい。このように、推定装置100aは、推定結果と正解データとの解離度に応じて異なる値の報酬を付与する。なお、報酬はマイナスポイントに限らず、プラスポイントであってもよい。
推定装置100aは、付与した報酬に基づき、学習済モデル114aのパラメータ1144を更新する(S48)。たとえば、推定装置100aは、報酬として付与したマイナスポイントが0に近づくように学習済モデル114aのパラメータ1144を更新する。その後、推定装置100aは、本処理を終了する。
このように、変形例に係る推定装置100aは、サービス提供処理においても学習処理を実行するため、ユーザ1が使用すればするほど推定処理の精度が向上し、精度を向上させながら音声障害の原因を容易に推定することができる。
(カテゴリごとの学習済モデルの生成)
本実施の形態に係る推定装置100は、図11に示すように、カテゴリごとに分類された複数の学習用データセット116a~116qが含まれる学習用データセット群を用いて推定モデル114を学習させることで、1つの学習済モデル114aを生成するものであったが、図16に示すように、変形例に係る推定装置100bは、カテゴリごとに分類された複数の学習用データセットのそれぞれをカテゴリごとに用いて推定モデル114を学習させることで、カテゴリごとの学習済モデルを生成してもよい。図16は、変形例に係る学習用データセットに基づく学習済モデルの生成を説明するための模式図である。
図16に示すように、学習用データセット116は、当該学習用データセット116を生成する際のサンプルとなった対象者2の属性データに基づきカテゴリごとに分類することができる。たとえば、年齢(未成年者,現役世代,高齢者)、および性別(男性,女性)に基づき、6個のカテゴリに対して、学習用データセットが割り当てられる。
推定装置100bは、カテゴリごとに分類された複数の学習用データセット116t~116yのそれぞれをカテゴリごとに用いて推定モデル114を学習させることで、カテゴリごとの学習済モデル114t~114yを生成する。
このように、変形例に係る推定装置100bは、カテゴリごとに分類された複数の学習済モデル114t~114yを生成することができるため、対象者2の属性データに応じたより詳細な分析によって、より精度良く音声障害の原因を推定することができる。
なお、図16に示す例においては、音声障害の原因となる要因を考慮して分類されたカテゴリごとに学習用データを用意して、カテゴリごとの学習済モデルを生成してもよい。たとえば、音声障害になり易い喫煙者の学習用データを用意して、喫煙者専用の学習済モデルを生成してもよいし、音声障害になり易い職業や趣味の学習用データを用意して、音声障害になり易い職業や趣味を有する対象者専用の学習済モデルを生成してもよい。このようにすれば、対象者の属性に応じて学習された学習済モデルを用いて音声障害の原因を推定することができるため、より精度良く容易に音声障害の原因を推定することができる。
なお、図16に示す学習済モデル114t~114yの生成は、サーバ装置500が保持する学習済モデル514aの生成についても適用可能である。たとえば、図16に示す学習用データセット116t~116yを、サーバ装置500が保持する学習用データセット516に適用してもよいし、図16に示す学習済モデル114t~114yを、サーバ装置500が保持する学習済モデル514aに適用してもよい。
(カテゴリごとの学習済モデルを用いたサービス提供処理)
図17を参照しながら、カテゴリごとの学習済モデル114t~114yを用いて推定装置100bが実行するサービス提供処理について説明する。図17は、変形例に係る推定装置100bが実行するサービス提供処理の一例を説明するためのフローチャートである。図17に示す各ステップは、推定装置100bの演算装置130がOS127および推定用プログラム120を実行することで実現される。
図17に示すように、推定装置100bは、サービス提供処理の開始条件が成立したか否かを判定する(S141)。開始条件は、図14で示した開始条件と同じであるため、その説明を省略する。
推定装置100bは、開始条件が成立していない場合(S141でNO)、本処理を終了する。一方、推定装置100bは、開始条件が成立した場合(S141でYES)、音声データおよび問診データが入力されたか否かを判定する(S142)。なお、この問診データには、問診結果および属性データが含まれる。推定装置100bは、音声データおよび問診データが入力されていない場合(S142でNO)、S142の処理を繰り返す。
一方、推定装置100bは、音声データおよび問診データが入力された場合(S142でYES)、図16に示す学習済モデル群の中から属性データに対応する学習済モデルを選択する(S143)。たとえば、対象者2が高齢者の女性であれば、推定装置100bは、学習済モデル114yを選択する。
その後、推定装置100bは、音声データおよび問診データを学習済モデルに入力する(S144)。推定装置100bは、音声データおよび問診データの特徴に基づき、学習済モデルを用いて音声障害の原因を推定する推定処理を実行する(S145)。
その後、推定装置100bは、推定処理によって得られた推定結果を、ディスプレイ300やサーバ装置500などに出力し(S146)、本処理を終了する。
このように、変形例に係る推定装置100bは、対象者2の属性データに最も適した学習済モデルを用いて推定処理を実行することができるため、対象者2の属性データに応じたより詳細な分析によって、より精度良く音声障害の原因を推定することができる。
(学習処理)
本実施の形態に係る推定装置100は、学習処理によって推定モデル114のパラメータ1144を更新するものであったが、パラメータ1144を更新するものに限らず、学習処理によってネットワーク構造1142が更新される(たとえば、ネットワーク構造1142のアルゴリズムが更新される)ものであってもよい。また、本実施の形態に係るサーバ装置500は、学習処理によって推定モデル514のパラメータを更新するものであったが、パラメータを更新するものに限らず、学習処理によってニューラルネットワークなどのネットワーク構造が更新される(たとえば、ネットワーク構造のアルゴリズムが更新される)ものであってもよい。
(問診データの重み付け)
図5に示したように、問診データに含まれる問診の内容には、複数の問診項目が含まれており、各問診項目と音声障害の原因との間においては、何らかの相関関係が見出され得る。このため、各問診項目と音声障害の原因との間の相関関係を把握することができれば、音声障害の原因について、各問診項目に対して重み付けを行うことができる。
たとえば、図18は、変形例に係る推定装置100が記憶する問診データテーブル1-2を示す模式図である。図18に示すように、異形成、喉頭悪性腫瘍、急性喉頭炎、および喉頭粘膜外傷などの音声障害の原因に対して、相関関係が強いほど値が大きくなるように、各問診項目に対して重み付けが行われてもよい。そして、重み付けが行われた問診データを用いて、推定モデル114を機械学習させれば、より精度良く推定処理を実行可能な学習済モデル114aを生成することができる。
また、問診データにおける各問診項目に対する重み付けは、推定モデル114を用いた学習処理を利用してもよい。たとえば、図19は、変形例に係る学習用データに基づく学習済モデル114aの生成を説明するための模式図である。
図19に示すように、STEP1として、重み付けがなされていない問診データ(問診データ1)のみに対して確定診断結果をラベリングしたものを学習用データとして用意する。なお、問診データには、各問診項目に対する問診結果が格納されている。つまり、問診結果に対して確定診断結果が紐付けられている。
そして、用意した学習用データを推定モデル114に入力し、学習処理によって推定モデル114を機械学習させる。このように、重み付けがなされていない問診データのみに基づき学習処理を実行することで、各問診項目と音声障害の原因との間における純粋な相関関係を見出すことができる。つまり、ユーザ1は、どの問診項目に対応する問診結果がどのような音声障害の原因と相関関係があるかについて、学習処理を利用して特定することができる。
これにより、上述したような学習処理の結果を用いて、各問診項目に対する重み付けを行うことができ、各問診項目に対して重み付けが行われた問診データ(問診データ1-2)を得ることができる。
次に、STEP2として、重み付けが行われた問診データに音声データを加えたものに対して、確定診断結果をラベリングしたものを学習用データとして用意する。そして、用意した学習用データを推定モデル114に入力し、学習処理によって推定モデル114を機械学習させることで、重み付けが行われた問診データに基づき、学習済モデル114aを生成することができる。
このように、重み付けが行われた問診データに基づき生成された学習済モデル114aを用いて推定処理を実行すれば、重み付けが行われていない問診データに基づき生成された学習済モデル114aを用いて推定処理を実行するよりも、より効率良く音声障害の原因を推定することができ、その分推定処理の精度も向上させることができる。
(問診項目の選定)
図19を参照しながら説明したように、問診データを用いた音声障害の原因の推定結果と、当該問診データに関連付けられた正解データである音声障害の原因(確定診断結果)とに基づく機械学習を利用して、各問診項目に対する重み付けを行えば、音声障害の原因と関連性が強い問診項目を抽出することもできる。言い換えると、重み付けを行うことによって、音声障害の原因とは関連性がない、あるいは関連性が低い問診項目を抽出することもできる。よって、音声障害の原因とは関連性がない、あるいは関連性が低い問診項目について、省略することができる。
このように、問診項目は、問診データを用いた音声障害の原因の推定結果と、当該問診データに関連付けられた正解データである音声障害の原因(確定診断結果)とに基づく機械学習を利用して選定されてもよい。
これにより、ユーザ1は、対象者2に対して無駄な問診を行う必要がなく、また、推定処理における負担も軽減することができるため、その分、精度良く音声障害の原因を推定することができる。
(音声データの入力)
本実施の形態においては、推定モデル114(学習済モデル114a)に対して、対象者2が発した音声のデータをそのまま入力するものであったが、これに限らない。たとえば、推定モデル114(学習済モデル114a)に入力される音声データは、対象者2の音声のデータに対して所定の補正が行われた情報を含んでいてもよい。具体的には、推定モデル114(学習済モデル114a)に入力される音声データは、所定の演算によって得られた音声データの解析値を含んでいてもよい。このとき、推定モデル114(学習済モデル114a)を用いた推定処理や学習処理において精度を高めたり、処理速度を上げたりするように、音声データに対して所定の演算を行えば、精度を向上させながら音声障害の原因をより早く推定することができる。
また、音声障害の原因ごとに様々な音声データのサンプルを集めることは難しいため、シミュレーションによって作成された人工的な音声データを、学習用データとして採用してもよい。
たとえば、図20は、変形例に係る学習用データに含まれるシミュレーションによって作成される音声データを説明するための模式図である。図20に示すように、音声は、声門、喉頭蓋先端、舌根、口蓋垂、口腔、および口唇を通る空気の流れによって生じるため、この間の経路を円筒管モデルとして仮定して数値解析により人工的に音声データを生成することが可能である。
図20に示す円筒管モデル800は、音声障害を有していない対象者2の円筒管モデルである。音声データ850は、円筒管モデル800を用いて数値解析のシミュレーションにより生成した音声データである。
一方、図20に示す円筒管モデル900は、咽頭狭窄となっている対象者2の円筒管モデルである。円筒管モデル900においては、喉頭蓋先端と口蓋垂との間の経路を絞ることで、空気を流れにくくしている。このような咽頭狭窄となった円筒管モデル900を用いて音声データ950を取得すると、点線で示すように、咽頭狭窄となっている対象者2の人工音声を作り出すことができる。
このように、シミュレーションによって作成された人工的な音声データを用いれば、音声障害の原因ごとに様々な音声データのサンプルを容易に集めることができる。これにより、推定モデル114の機械学習を強化することができるため、精度を向上させながら音声障害の原因を容易に推定することができる。
(音声障害の程度の推定処理)
本実施の形態に係る推定システム10においては、推定装置100が音声障害の原因を推定するように構成されていた。しかしながら、図21に示す変形例に係る推定システム10aのように、推定装置700が音声障害の程度を推定してもよい。図21は、変形例に係る推定装置700の機能構成を示す模式図である。
音声障害の程度を定量的に評価する方法として、GRBAS尺度に代表されるような音声の聴覚心理的評価法が知られている。GRBASは、Grade、Rough、Breathy、Asthenic、Strainedの頭文字を表している。「G」(Grade)は、嗄声の全体的な重症度を評定する尺度であり、嗄声の性状は問われない。残りの「RBAS」は、嗄声の性状を表す。たとえば、「R」(Rough)は、粗ぞう性を表し、いわゆるガラガラ声、ダミ声などと表現される聴覚的印象である。「B」(Breathy)は、気息性を表し、いわゆるカサカサ声やハスキーボイスなどと表現される聴覚的印象である。「A」(Asthenic)は、無力性を表し、弱々しい聴覚的印象である。「S」(Strained)は、努力性を表し、たとえば、喉に力を入れて無理に声を出しているような聴覚的印象である。
G尺度は、嗄声がない場合を0、軽度の嗄声を1、中等度の嗄声を2、重度の嗄声を3と評点される。残りのR尺度、B尺度、A尺度、およびS尺度についても、G尺度と同様に、0~3の4段階で評点される。
上述したようなGRBAS尺度による評価は、あくまで術者などによる評価者の主観に基づいて行われるため、評価者ごとに評価結果がばらつき易い。そこで、変形例に係る推定システム10aでは、推定装置700が有するAI(人工知能:Artificial Intelligence)を利用して、対象者2の音声に関する情報を含む音声データに基づき、音声障害の程度としてGRBAS尺度に基づく点数を自動的に推定する処理を実行するように構成されている。
たとえば、図21に示すように、推定装置700は、図8に示した推定モデル114(図21では、区別するために「音声障害推定モデル114」としている)に加えて、GRBAS推定モデル714を有する。推定部7130は、音声データ入力部1135に入力された音声データに基づき、GRBAS推定モデル714(学習済モデル714a)を用いて音声障害の程度を推定する推定処理を実行する。なお、推定部7130は、音声データのみに基づいて音声障害の程度を推定するものに限らず、問診データ入力部1138から入力された問診データも加えて参照することで、音声障害の程度を推定してもよい。推定部7130は、図8に示す推定部1130の機能も有するため、音声データおよび問診データに基づき、音声障害の原因も推定可能である。
GRBAS推定モデル714は、ネットワーク構造7142と、当該ネットワーク構造7142によって用いられるパラメータ7144とを含む。パラメータ7144は、ネットワーク構造7142による計算に用いられる重み付け係数と、推定の判定に用いられる判定値とを含む。
ネットワーク構造7142においては、少なくとも音声データが入力層に入力される。そして、ネットワーク構造7142においては、たとえば、中間層によって、入力された音声データに対して重み付け係数が乗算されたり所定のバイアスが加算されたりするとともに所定の関数による計算が行われ、その計算結果が判定値と比較される。そして、ネットワーク構造7142においては、その計算および判定の結果が推定結果として出力層から出力される。なお、ネットワーク構造7142による計算および判定については、音声データに基づき音声障害の程度を推定できるものであれば、いずれの手法が用いられてもよい。
GRBAS推定モデル714(学習済モデル714a)のネットワーク構造7142は、ニューラルネットワークやサポートベクターマシン、あるいはベイジアンネットワークなど、公知のネットワーク構造を用いればよい。さらに、ネットワーク構造1142として、ニューラルネットワークを用いる場合、中間層を多層構造にすることで、ディープラーニングによる処理を行うものであってもよい。
GRBAS推定モデル714は、入力された音声データに基づき推定部7130によって推定されたGRBAS尺度に基づく点数と、当該音声データに関連付けられたGRBAS尺度に基づく点数(正解データ)とに基づき、機械学習されている。GRBAS推定モデル714は、機械学習されることで、パラメータ7144が最適化(調整)される。このようにしてGRBAS推定モデル714が学習されることで、学習済モデル714aが得られる。
このような構成において、推定装置700は、音声データが入力されると、音声データにおける特徴をGRBAS推定モデル714のネットワーク構造7142を用いて抽出し、抽出した特徴に基づき、GRBAS尺度に基づく点数を推定する。
出力部7103は、GRBAS推定モデル714を用いた推定処理によって得られた推定結果データ(GRBAS尺度に基づく点数のデータ)を、ディスプレイ300、またはサーバ装置500に出力する。なお、出力部7103は、推定部7130によって音声障害推定モデル114(学習済モデル114a)を用いて推定された音声障害の原因を示すデータとともに、GRBAS尺度に基づく点数のデータを出力してもよい。
たとえば、推定装置700は、入力された音声データに基づきGRBAS尺度に基づく点数を推定すると、その推定結果を、ディスプレイ300に出力する。ディスプレイ300の画面上には、音声障害の程度として、G尺度、R尺度、B尺度、A尺度、およびS尺度の各点数が表示される。なお、ディスプレイ300は、図9に示すような音声障害の原因の推定結果とともに、GRBAS尺度に基づく点数を表示してもよい。
このように、変形例に係る推定装置700において、推定部7130は、音声データ入力部1135から入力された音声データおよびGRBAS推定モデル714に基づき、対象者における音声障害の程度を推定し、出力部7103は、推定部7130によって推定された音声障害の程度を出力する。また、GRBAS推定モデル714は、推定部7130による推定結果と、音声データに関連付けられた音声障害の程度(たとえば、GRBAS尺度に基づく点数)とに基づき機械学習される。
これにより、ユーザである評価者は、自身の知見に頼ることなく、精度良く音声障害の程度を推定することができる。さらに、医学の進歩とともに、機械学習時に用いられる正解データである確定診断結果の精度も向上するため、機械学習によってGRBAS推定モデル714を学習させることによって、精度を向上させながら音声障害の程度を容易に推定することができる。
なお、図21に示す例では、推定装置700は、音声障害を推定するための音声障害推定モデル114と、音声障害の程度を推定するためのGRBAS推定モデル714とを別個に有しているが、推定装置700は、音声障害推定モデル114による推定機能とGRBAS推定モデル714による推定機能との両方を有する1つの推定モデルを有していてもよい。
今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。なお、本実施の形態で例示された構成および変形例で例示された構成は、適宜組み合わせることができる。