JP7239109B2

JP7239109B2 - 推定装置、推定システム、推定装置の作動方法、および推定用プログラム

Info

Publication number: JP7239109B2
Application number: JP2019109510A
Authority: JP
Inventors: 孝一大森; 一郎楯谷; 真太郎藤村; 英基吉川; 正人和田
Original assignee: Kyoto University; J Morita Manufaturing Corp
Current assignee: Kyoto University; J Morita Manufaturing Corp
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2023-03-14
Anticipated expiration: 2039-06-12
Also published as: JP2023054132A; JP2020201810A

Description

本発明は、推定装置、当該推定装置を備える推定システム、推定装置の作動方法、および推定用プログラムに関する。

従来、患者などの診断対象者の音声に基づき音声障害の原因を推定することが頻繁に行われている。たとえば、耳鼻咽喉科の医院などにおいて、医師などの術者は、患者の音声を聞き、公知のＧＲＢＡＳ尺度という評価法を用いて音声障害の有無やその原因を推定している。そして、術者は、音声障害が生じていると判断すると、精密検査によって音声障害の原因を確定診断する。

しかしながら、音声障害の有無を診断すること、および音声障害の原因を推定することにおいては、術者ごとにその知見のレベルが異なるため、術者の知見のレベルに応じて診断結果がばらつき、その精度が低下する虞がある。

また、耳鼻咽喉科の医院のように、音声障害に関する精密検査を行うための装置が用意されていればよいが、急性患者が最初に訪れた医院が耳鼻咽喉科以外の医院の場合には、そのような精密検査を行うための装置は通常用意されていないため、音声障害の原因を容易に推定することが難しい。

ここで、特許文献１には、音声障害の原因を推定することができる装置として、音声検査装置が開示されている。

特開平９－１７３３２０号公報

特許文献１に開示された音声検査装置によれば、対象者の音声データを所定の手法で演算するとともに、その演算結果と所定の境界値とを比較することで、喉頭および気管支などの呼吸器系の疾病の疑いおよび可能性の程度を判定している。しかしながら、この音声検査装置の場合、音声データのみに基づいて音声障害の原因を推定しており、さらに、音声データの演算手法および境界値は当初から決められたものであるため、推定結果の精度には限界がある。

本発明は、このような問題を解決するためになされたものであり、精度良く音声障害の原因を容易に推定することができる推定装置、当該推定装置を備える推定システム、推定装置の作動方法、および推定用プログラムを提供することを目的とする。

本発明に従えば、対象者における音声障害の原因を推定する推定装置が提供される。推定装置は、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データが入力される入力部と、入力部から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する推定部と、推定部による推定結果を出力する出力部とを備える。推定モデルは、推定部による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む。

本発明に従えば、対象者における音声障害の原因を推定する推定システムが提供される。推定システムは、対象者の音声に関する情報を含む音声データを取得する取得部と、対象者に対して行われた問診の結果に関する情報を含む問診データを入力するための操作部と、音声障害の原因を推定する推定装置とを備える。推定装置は、取得部によって取得された音声データが入力される音声データおよび操作部によって入力された問診データが入力される入力部と、入力部から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する推定部と、推定部による推定結果を出力する出力部とを含む。推定モデルは、推定部による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む。

本発明に従えば、対象者における音声障害の原因を推定する推定装置の作動方法が提供される。推定装置が実行する処理として、作動方法は、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データが入力されるステップと、音声データ、問診データ、および機械学習によって生成された推定モデルに基づき、音声障害の原因を推定するステップと、推定するステップによる推定結果を出力するステップとを含む。推定モデルは、推定するステップによる推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む。

本発明に従えば、対象者における音声障害の原因を推定する推定用プログラムが提供される。推定用プログラムは、コンピュータに、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データが入力されるステップと、音声データ、問診データ、および機械学習によって生成された推定モデルに基づき、音声障害の原因を推定するステップと、推定するステップによる推定結果を出力するステップとを実行させる。推定モデルは、推定するステップによる推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む。

本発明によれば、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データに基づいて、精度良く音声障害の原因を容易に推定することができる。

本実施の形態に係る推定装置の適用例を示す模式図である。本実施の形態に係る推定システムの全体構成を示す模式図である。本実施の形態に係る推定装置のハードウェア構成を示す模式図である。本実施の形態に係るサーバ装置のハードウェア構成を示す模式図である。本実施の形態に係る推定装置が記憶する問診データテーブル１を示す模式図である。本実施の形態に係る推定装置が記憶する問診データテーブル２を示す模式図である。本実施の形態に係る推定装置が記憶する音声障害データテーブルを示す模式図である。本実施の形態に係る推定装置の機能構成を示す模式図である。本実施の形態に係る推定装置による推定処理を説明するための模式図である。本実施の形態に係る学習用データセットの一例を説明するための模式図である。本実施の形態に係る学習用データセットに基づく学習済モデルの生成を説明するための模式図である。本実施の形態に係る推定装置が実行する学習処理の一例を説明するためのフローチャートである。本実施の形態に係るサーバ装置が実行する学習処理の一例を説明するためのフローチャートである。本実施の形態に係る推定装置が実行するサービス提供処理の一例を説明するためのフローチャートである。変形例に係る推定装置が実行するサービス提供処理の一例を説明するためのフローチャートである。変形例に係る学習用データセットに基づく学習済モデルの生成を説明するための模式図である。変形例に係る推定装置が実行するサービス提供処理の一例を説明するためのフローチャートである。変形例に係る推定装置が記憶する問診データテーブル１－２を示す模式図である。変形例に係る学習用データに基づく学習済モデルの生成を説明するための模式図である。変形例に係る学習用データに含まれるシミュレーションによって作成される音声データを説明するための模式図である。変形例に係る推定装置の機能構成を示す模式図である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

［適用例］
図１および図２を参照しながら、本実施の形態に係る推定装置１００の適用例を説明する。図１は、本実施の形態に係る推定装置１００の適用例を示す模式図である。図２は、本実施の形態に係る推定システム１０の全体構成を示す模式図である。

ユーザ１は、推定システム１０を用いることで、対象者２の音声障害の有無を診断するとともに、その音声障害の原因を推定することができる。なお、「ユーザ」は、クリニック、総合病院、および大学病院などに属する医師などの術者、医科大学の先生または生徒など、推定システム１０を使用する者であればいずれであってもよい。なお、ユーザが所属する医科は、耳鼻咽喉科のような音声障害の治療を専門とするものに限らず、内科や歯科など、その他のものであってもよい。「対象者」は、クリニック、総合病院、および大学病院の患者、医科大学における被験者など、推定システム１０の診断対象となる者であればいずれであってもよい。「音声障害」は、声がでない、声が出にくい、声が変化したなど、対象者２の音声に何らかの異常が発生している状態を含む。

図１に示すように、本実施の形態に係る推定システム１０は、推定装置１００を備える。推定装置１００には、ディスプレイ３００と、マイク４００と、キーボード５０１と、マウス５０２とが接続されている。

ユーザ１は、対象者２に対して口頭で問診を行い、対象者２はその問診に対してマイク４００を使って口頭で回答する。マイク４００によって取得された対象者２の音声データは、推定装置１００に入力される。また、対象者２による問診の結果に関する情報を含む問診データも、音声分析によってその内容が特定されて、推定装置１００に入力される。

なお、図１に示す例では、問診に対して対象者２が口頭で回答することで、音声データとともに問診データも推定装置１００に入力されるが、音声データおよび問診データは、それぞれ独立して推定装置１００に入力されてもよい。たとえば、ユーザ１は、対象者２に「あー」などの決まった音声を所定期間（たとえば、４秒間）発してもらい、その音声データがマイク４００を介して推定装置１００に入力されてもよい。その一方で、ユーザ１は、対象者２から得た問診結果を、キーボード５０１およびマウス５０２を使って推定装置１００に入力してもよい。また、図１に示すように、問診の内容およびその問診結果は、ディスプレイ３００に表示されてもよい。

ユーザ１が熟練した耳鼻咽喉科の医師であれば、対象者２の音声を聞き、公知のＧＲＢＡＳ尺度などの評価法を用いて音声障害の有無を診断することができるが、音声障害の有無を診断することにおいては、術者ごとにその知見のレベルが異なるため、術者の知見のレベルに応じて診断結果がばらつき、その精度が低下する虞がある。たとえば、音声障害が生じて患者が内科に訪れた場合、内科の医師は耳鼻咽喉科の医師よりも音声障害の知見が乏しい可能性が高いため、その結果、高い精度の診断を得ることが難しい。

また、耳鼻咽喉科の医院など、音声障害に関する精密検査を行うための装置が用意されていればよいが、患者が最初に訪れた医院が耳鼻咽喉科以外の医院の場合には、そのような精密検査を行うための装置は通常用意されていないため、音声障害の原因を容易に推定することが難しい。

そこで、本実施の形態に係る推定システム１０は、推定装置１００が有するＡＩ（人工知能：Artificial Intelligence）を利用して、対象者２の音声に関する情報を含む音声データおよび対象者２に対して行われた問診の結果に関する情報を含む問診データに基づき、音声障害の原因を自動的に推定する処理を実行するように構成されている。なお、推定装置１００による音声障害の原因を推定する処理を「推定処理」とも称する。

具体的には、推定装置１００は、対象者２の音声データおよび問診データが入力されると、入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する推定処理を実行する。なお、音声に関する情報は、対象者２の音声の波形そのものであってもよいし、音声の波形を解析することで得られる解析値であってもよい。

「推定モデル」は、たとえば、公知のニューラルネットワークやサポートベクターマシン（Support Vector Machine：SVM）、あるいはベイジアンネットワーク（Bayesian Network）などのネットワーク構造と、当該ネットワーク構造によって用いられるパラメータとを含み、音声データおよび問診データに基づく音声障害の原因の推定結果と、当該音声データおよび当該問診データに関連付けられた音声障害の原因とに基づき機械学習されることで最適化（調整）される。

具体的には、推定モデルは、音声データおよび問診データが入力されると、当該音声データに基づきネットワーク構造によって当該音声データの特徴を抽出するとともに、当該問診データに基づきネットワーク構造によって当該問診データの特徴を抽出する。そして、推定モデルは、抽出した音声データおよび問診データのそれぞれの特徴に基づき音声障害の原因を推定する。そして、推定モデルは、自身が推定した音声障害の原因と、入力された音声データおよび問診データに関連付けられた音声障害の原因（たとえば、専門の術者による確定診断結果）とに基づき、両者が一致すればパラメータを更新しない一方で、両者が一致しなければ両者が一致するようにパラメータを更新することで、パラメータを最適化する。このように、推定モデルは、入力データである音声データおよび問診データと、正解データである音声障害の原因（確定診断結果）とを含む教師データを利用して、パラメータが最適化されることで学習される。

なお、このような推定モデルを学習する処理を「学習処理」とも称する。また、学習処理によって最適化された推定モデルを、特に「学習済モデル」とも称する。つまり、本実施の形態においては、学習前の推定モデルおよび学習済みの推定モデルをまとめて「推定モデル」と総称する一方で、特に、学習済みの推定モデルを「学習済モデル」とも称する。

推定装置１００によって学習済モデルを用いて推定処理が実行されると、その推定結果が、ディスプレイ３００、および図示しないスピーカに出力される。

さらに、推定装置１００による推定処理で取得された推定結果データは、推定処理時に用いられた音声データおよび問診データとともに、推定情報として管理センターに配置されたサーバ装置５００に出力される。

たとえば、図２に示すように、推定システム１０は、複数のローカルＡ～Ｃのそれぞれに配置されている。たとえば、ローカルＡはクリニックであり、ローカルＢは総合病院であり、ローカルＣは大学病院である。各ローカルの院内において、ユーザ１である術者は、推定システム１０を利用して対象者２である患者の音声障害の原因を推定する。各ローカルで取得された推定情報（音声データ，問診データ，推定結果データ）は、ネットワーク５を介して、管理センターに配置されたサーバ装置５００に出力される。

管理センターにおいては、サーバ装置５００が、各ローカルから取得した推定情報を蓄積して記憶し、ビッグデータとして保持する。

なお、サーバ装置５００は、ローカルとは異なる管理センターに配置されるものに限らず、ローカル内に配置されてもよい。たとえば、ローカルＡ～Ｃのうちのいずれかのローカル内にサーバ装置５００が配置されてもよい。また、１つのローカル内に複数の推定装置１００が配置されてもよく、さらに、当該１つのローカル内に当該複数の推定装置１００と通信可能なサーバ装置５００が配置されてもよい。また、サーバ装置５００は、クラウドサービスの形態で実現されてもよい。

各ローカルＡ～Ｃの推定装置１００は、各自で推定モデルを保持しており、推定処理時に各自が保持する推定モデルを使用して音声障害の原因を推定する。各ローカルＡ～Ｃの推定装置１００は、各自の学習処理によって各自の推定モデルを学習することで、学習済モデルを生成する。このようにして生成された学習済モデルは、ネットワーク５またはリムーバブルディスク５５０を介して、各ローカルＡ～Ｃからサーバ装置５００に出力されてもよい。さらに、本実施の形態においては、サーバ装置５００も推定モデルを保持している。サーバ装置５００は、各ローカルＡ～Ｃの推定装置１００から取得した推定情報を用いた学習処理によって推定モデルを学習することで、学習済モデルを生成し、ネットワーク５またはリムーバブルディスク５５０を介して、各ローカルＡ～Ｃの推定装置１００に当該学習済モデルを配布してもよい。

なお、本実施の形態においては、各ローカルＡ～Ｃの推定装置１００およびサーバ装置５００のいずれも学習処理を実行する形態であるが、各ローカルＡ～Ｃの推定装置１００のみが学習処理を実行する形態、あるいはサーバ装置５００のみが学習処理を実行する形態であってもよい。なお、サーバ装置５００のみが学習処理を実行する形態である場合、各ローカルＡ～Ｃの推定装置１００が保持する推定モデル（学習済モデル）は、各ローカルＡ～Ｃの推定装置１００間で共通化される。

また、サーバ装置５００が推定装置１００における推定処理の機能を有していてもよい。たとえば、各ローカルＡ～Ｃは、取得した音声データおよび問診データをサーバ装置５００に送信し、サーバ装置５００は、各ローカルＡ～Ｃから受信したそれぞれの音声データおよび問診データに基づき、それぞれにおける音声障害の原因の推定結果を算出してもよい。そして、サーバ装置５００は、それぞれの推定結果を各ローカルＡ～Ｃに送信し、各ローカルＡ～Ｃは、サーバ装置５００から受信した推定結果をディスプレイ３００などに出力してもよい。このように、各ローカルＡ～Ｃとサーバ装置５００とがクラウドサービスの形態で構成されてもよい。このようにすれば、サーバ装置５００が推定モデル（学習済モデル）を保持してさえいれば、各ローカルＡ～Ｃは、推定モデル（学習済モデル）を保持することなく推定結果を得ることができる。

なお、ネットワーク５を介さずに、ローカルＡ～Ｃのそれぞれからも、リムーバブルディスク５５０を介して推定情報が管理センターに送られてもよい。また、ローカルＡ～Ｃのそれぞれの間においても、ネットワーク５またはリムーバブルディスク５５０を介して推定情報を互いに送り合ってもよい。

このように、本実施の形態に係る推定システム１０によれば、推定装置１００が有するＡＩを利用して、音声データおよび問診データに基づき音声障害の原因が自動的に推定される。ＡＩを利用することで、ユーザ１では抽出できない対象者２の音声や問診結果の特徴を見出すことができ、これにより、ユーザ１は、自身の知見に頼ることなく、精度良く音声障害の原因を推定することができる。さらに、医学の進歩とともに、機械学習時に用いられる正解データである確定診断結果の精度も向上するため、機械学習によって推定モデルを学習させることによって、精度を向上させながら音声障害の原因を容易に推定することができる。

［推定装置のハードウェア構成］
図３を参照しながら、本実施の形態に係る推定装置１００のハードウェア構成の一例を説明する。図３は、本実施の形態に係る推定装置１００のハードウェア構成を示す模式図である。推定装置１００は、たとえば、汎用コンピュータで実現されてもよいし、推定システム１０専用のコンピュータで実現されてもよい。

図３に示すように、推定装置１００は、主なハードウェア要素として、ディスプレイインターフェース１０３と、マイクインターフェース１０４と、周辺機器インターフェース１０５と、ネットワークコントローラ１０６と、メディア読取装置１０７と、メモリ１０９と、ストレージ１１０と、演算装置１３０とを備える。

ディスプレイインターフェース１０３は、ディスプレイ３００を接続するためのインターフェースであり、推定装置１００とディスプレイ３００との間のデータの入出力を実現する。ディスプレイ３００は、たとえば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬＤ（Electro Luminescence Display）などで構成される。

マイクインターフェース１０４は、マイク４００を接続するためのインターフェースであり、推定装置１００とマイク４００との間のデータの入出力を実現する。

周辺機器インターフェース１０５は、キーボード５０１およびマウス５０２などの周辺機器を接続するためのインターフェースであり、推定装置１００と周辺機器との間のデータの入出力を実現する。

ネットワークコントローラ１０６は、ネットワーク５を介して、管理センターに配置されたサーバ装置５００、および他のローカルに配置された他の推定装置１００のそれぞれとの間でデータを送受信する。ネットワークコントローラ１０６は、たとえば、イーサネット（登録商標）、無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式に対応する。

メディア読取装置１０７は、リムーバブルディスク５５０に格納されている推定情報などの各種データを読み出す。

メモリ１０９は、演算装置１３０が任意のプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ１０９は、たとえば、ＤＲＡＭ（Dynamic Random Access Memory）またはＳＲＡＭ（Static Random Access Memory）などの揮発性メモリデバイスで構成される。

ストレージ１１０は、推定処理および学習処理などに必要な各種のデータを格納する記憶領域を提供する。ストレージ１１０は、たとえば、ハードディスクまたはＳＳＤ（Solid State Drive）などの不揮発性メモリデバイスで構成される。

ストレージ１１０は、推定情報１１３と、推定モデル１１４（学習済モデル１１４ａ）と、学習用データセット１１６と、推定用プログラム１２０と、学習用プログラム１２１と、ＯＳ（Operating System）１２７と、音声障害データ１２８とを格納する。

推定情報１１３は、音声データ１３５と、問診データ１３８と、音声データ１３５および問診データ１３８に基づく推定処理によって取得された推定結果データ１２４とを含む。

音声データ１３５は、後述する図９に示すように、対象者２の音声の波形データを含む。問診データ１３８は、後述する図５に示すように対象者２に対する問診の結果を含む問診データテーブル１と、図６に示すように対象者２の属性（プロファイルなど）に関する属性データを含む問診データテーブル２とを含む。なお、本実施の形態においては、問診データとして、問診結果と、属性データとが含まれるが、属性データは、問診結果とは異なるデータとして存在してもよい。つまり、問診データには問診結果が含まれる一方で、属性データは含まれないものであってもよい。

推定結果データ１２４は、推定処理に用いられた音声データ１３５および問診データ１３８のそれぞれに関連付けられてストレージ１１０に格納される。つまり、推定処理が行われたときに参照されたデータと、当該推定処理による推定結果とが関連付けられる。

学習用データセット１１６は、推定モデル１１４の学習処理に用いられる一群の学習用データである。推定用プログラム１２０は、推定処理を実行するためのプログラムである。学習用プログラム１２１は、推定モデル１１４の学習処理を実行するためのプログラムであり、その一部には推定処理を実行するためのプログラムも含まれる。音声障害データ１２８は、後述する図７に示すように音声障害の原因に関する情報を含む音声障害データテーブルを含む。

演算装置１３０は、各種のプログラムを実行することで、推定処理および学習処理などの各種の処理を実行する演算主体であり、コンピュータの一例である。演算装置１３０は、たとえば、ＣＰＵ（Central Processing Unit）１３２、ＦＰＧＡ（Field-Programmable Gate Array）１３４、およびＧＰＵ（Graphics Processing Unit）１３６などで構成される。

［サーバ装置のハードウェア構成］
図４を参照しながら、本実施の形態に係るサーバ装置５００のハードウェア構成の一例を説明する。図４は、本実施の形態に係るサーバ装置５００のハードウェア構成を示す模式図である。サーバ装置５００は、たとえば、汎用コンピュータで実現されてもよいし、推定システム１０専用のコンピュータで実現されてもよい。

図４に示すように、サーバ装置５００は、主なハードウェア要素として、ディスプレイインターフェース５０３と、周辺機器インターフェース５０５と、ネットワークコントローラ５０６と、メディア読取装置５０７と、メモリ５０９と、ストレージ５１０と、演算装置５３０とを備える。

ディスプレイインターフェース５０３は、ディスプレイ３５０を接続するためのインターフェースであり、サーバ装置５００とディスプレイ３５０との間のデータの入出力を実現する。ディスプレイ３５０は、たとえば、ＬＣＤまたは有機ＥＬＤなどで構成される。

周辺機器インターフェース５０５は、キーボード５５１およびマウス５５２などの周辺機器を接続するためのインターフェースであり、サーバ装置５００と周辺機器との間のデータの入出力を実現する。

ネットワークコントローラ５０６は、ネットワーク５を介して、各ローカルに配置された推定装置１００との間でデータを送受信する。ネットワークコントローラ５０６は、たとえば、イーサネット（登録商標）、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式に対応してもよい。

メディア読取装置５０７は、リムーバブルディスク５５０に格納されている推定情報などの各種データを読み出す。

メモリ５０９は、演算装置５３０が任意のプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ５０９は、たとえば、ＤＲＡＭまたはＳＲＡＭなどの揮発性メモリデバイスで構成される。

ストレージ５１０は、学習処理などに必要な各種のデータを格納する記憶領域を提供する。ストレージ５１０は、たとえば、ハードディスクまたはＳＳＤなどの不揮発性メモリデバイスで構成される。

ストレージ５１０は、推定情報５１３と、推定モデル５１４（学習済モデル５１４ａ）と、学習用データセット５１６と、推定用プログラム５２０と、学習用プログラム５２１と、ＯＳ５２７と、音声障害データ５２８とを格納する。

推定情報５１３は、ネットワーク５を介してローカルに配置された推定装置１００から取得した音声データ５３５および問診データ５３８と、音声データ５３５および問診データ５３８に基づく推定処理によって取得された推定結果データ５２４、あるいは各ローカルの推定装置１００から取得した推定結果データ５２４とを含む。推定結果データ５２４は、推定処理に用いられた音声データ５３５および問診データ５３８に関連付けられてストレージ５１０に格納される。つまり、推定処理が行われたときに参照されたデータと、当該推定処理による推定結果とが関連付けられる。

学習用データセット５１６は、推定モデル５１４の学習処理に用いられる一群の学習用データである。推定用プログラム５２０は、推定処理を実行するためのプログラムである。学習用プログラム５２１は、推定モデル５１４の学習処理を実行するためのプログラムであり、その一部には推定処理を実行するためのプログラムも含まれる。音声障害データ５２８は、音声障害の原因に関するデータを含む。

なお、推定モデル５１４（学習済モデル５１４ａ）は、ローカルの推定装置１００に送信されることで、推定装置１００によって、推定モデル１１４（学習済モデル１１４ａ）として保持される。

演算装置５３０は、各種のプログラムを実行することで、学習処理などの各種の処理を実行する演算主体であり、コンピュータの一例である。演算装置５３０は、たとえば、ＣＰＵ５３２、ＦＰＧＡ５３４、およびＧＰＵ５３６などで構成される。

［問診データ］
図５および図６を参照しながら、本実施の形態に係る問診データを説明する。図５は、本実施の形態に係る推定装置１００が記憶する問診データテーブル１を示す模式図である。図６は、本実施の形態に係る推定装置が記憶する問診データテーブル２を示す模式図である。

図５に示すように、問診データテーブル１には、対象者２に対して行われる問診の内容と、当該問診の内容に対する回答である問診結果とが格納されている。本実施の形態において行われる問診には、複数の問診項目が含まれている。たとえば、問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣などの内容が含まれている。なお、問診データテーブル１には、これらの問診項目のうちの少なくともいずれか１つが含まれていればよく、その他の問診内容が含まれていてもよい。

対象者２に対する問診によって得られた問診結果は、ユーザ１によってキーボード５０１やマウス５０２などを用いて入力されることで、問診データテーブル１に格納される。たとえば、対象者２によって音声障害の症状として声が出ないと回答された場合、「音声障害の症状」の欄に含まれる「声が出ない、出にくい」の欄にフラグ（たとえば、「１」）が立てられる。このようにして、対象者２に対する問診によって得られた問診結果が、問診データテーブル１に格納される。

図６に示すように、問診データテーブル２には、対象者２の属性に関する内容を含む属性データが格納されている。たとえば、対象者２の属性に関する内容には、対象者２に紐付けられたＩＤ、対象者２の名前、年齢、性別、国籍（人種）、身長、体重、喫煙の有無、飲酒の有無、職業、および趣味などが含まれている。なお、問診データテーブル２には、これらの属性に関する内容のうちの少なくともいずれか１つが含まれていればよく、その他の属性に関する内容が含まれていてもよい。

対象者２に対する問診時において、当該対象者２の属性に関する内容が得られると、当該属性に関する内容が、ユーザ１によってキーボード５０１やマウス５０２などを用いて入力されることで、問診データテーブル２に格納される。たとえば、ＩＤ「ａ００１」に紐付けられた対象者２について、名前として「山田太郎」、年齢として「６５」歳、性別として「男」、国籍（人種）として「日本」、身長として「１６０」ｃｍ、体重として「５５」ｋｇ、喫煙の有無として「有」、飲酒の有無として「有」、職業として「無職」、および趣味として「ゴルフ」を特定可能な情報が問診データテーブル２に格納される。このようにして、対象者２の属性に関する内容が、問診データテーブル２に格納される。

［音声障害データ］
図７を参照しながら、本実施の形態に係る音声障害データを説明する。図７は、本実施の形態に係る推定装置１００が記憶する音声障害データテーブルを示す模式図である。

図７に示すように、音声障害データテーブルには、音声障害の原因に関する情報が格納されている。たとえば、音声障害の原因には、喉頭の組織異常、喉頭の炎症性疾患、喉頭の外傷、全身性疾患、呼吸器疾患、消化器疾患、心理的疾患、精神疾患、および神経疾患などが含まれている。なお、音声障害データテーブルには、これらの音声障害の原因のうちの少なくともいずれか１つが含まれていればよい。

推定装置１００は、音声障害データテーブルに格納された音声障害の原因に関する情報を参照することで、音声データおよび問診データに基づく推定結果として音声障害の原因を出力する。

［推定装置による推定処理］
図８および図９を参照しながら、本実施の形態に係る推定装置１００による推定処理を説明する。図８は、本実施の形態に係る推定装置１００の機能構成を示す模式図である。図９は、本実施の形態に係る推定装置１００による推定処理を説明するための模式図である。

図８に示すように、推定システム１０が備える推定装置１００は、音声データ入力部１１３５と、問診データ入力部１１３８と、推定部１１３０と、出力部１１０３とを有する。これらの各機能は、推定装置１００の演算装置１３０がＯＳ１２７および推定用プログラム１２０を実行することで実現される。

音声データ入力部１１３５には、マイク４００によって取得された対象者２の音声に関する情報を含む音声データが入力される。なお、マイク４００は、取得部の一例であり、取得部には、マイク４００に限らず、音声データを取得するものであれば、いずれのものを適用してもよい。

問診データ入力部１１３８には、対象者２に対して行われた問診の結果に関する情報を含む問診データがキーボード５０１によって入力される。なお、キーボード５０１は、操作部の一例であり、操作部には、キーボード５０１に限らず、問診データを入力するものであれば、いずれのものを適用してもよい。入力された問診データに含まれる情報は、図５および図６で説明したように、問診データテーブルに格納される。

なお、音声データ入力部１１３５および問診データ入力部１１３８は、「入力部」の一例であり、各入力部が共通の入力部であってもよいし、各入力部が互いに独立した異なる入力部であってもよい。

推定部１１３０は、音声データ入力部１１３５に入力された音声データと問診データ入力部１１３８に入力された問診データとに基づき、推定モデル１１４（学習済モデル１１４ａ）を用いて音声障害の原因を推定する推定処理を実行する。なお、推定部１１３０は、音声データのみに基づいて推定処理を実行してもよいが、問診データについても参照する方が、入力データが多い分、より精度良くめまいの原因を推定することができる。

推定モデル１１４は、ネットワーク構造１１４２と、当該ネットワーク構造１１４２によって用いられるパラメータ１１４４とを含む。パラメータ１１４４は、ネットワーク構造１１４２による計算に用いられる重み付け係数と、推定の判定に用いられる判定値とを含む。

ネットワーク構造１１４２においては、音声データおよび問診データが入力層に入力される。そして、ネットワーク構造１１４２においては、たとえば、中間層によって、入力された音声データおよび問診データに対して重み付け係数が乗算されたり所定のバイアスが加算されたりするとともに所定の関数による計算が行われ、その計算結果が判定値と比較される。そして、ネットワーク構造１１４２においては、その計算および判定の結果が推定結果として出力層から出力される。なお、ネットワーク構造１１４２による計算および判定については、音声データおよび問診データに基づき音声障害の原因を推定できるものであれば、いずれの手法が用いられてもよい。

推定モデル１１４（学習済モデル１１４ａ）のネットワーク構造１１４２は、ニューラルネットワークやサポートベクターマシン、あるいはベイジアンネットワークなど、公知のネットワーク構造を用いればよい。さらに、ネットワーク構造１１４２として、ニューラルネットワークを用いる場合、中間層を多層構造にすることで、ディープラーニングによる処理を行うものであってもよい。

このような構成において、推定装置１００は、音声データおよび問診データが入力されると、音声データおよび問診データのそれぞれにおける特徴を推定モデル１１４のネットワーク構造１１４２を用いて抽出し、抽出した特徴に基づき、音声障害の原因を推定する。

たとえば、音声障害の有無やその原因に応じて音声データに含まれる音声波形は異なる。推定装置１００は、音声データに含まれる音声波形の特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。

また、音声障害の有無やその原因に応じて問診データテーブル１に格納された問診結果が異なる。問診結果は対象者２が回答するものであるため、その内容は対象者２によって様々であるが、音声障害の有無やその原因と、問診結果との間においては、何らかの相関関係が見出され得る。推定装置１００は、問診データテーブル１に格納された問診結果の特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。

さらに、音声障害の有無やその原因に応じて問診データテーブル２に格納された属性データが異なる。たとえば、年齢が高ければ高いほど、加齢とともに音声障害を引き起こし易い。また、喫煙や飲酒をする者は、喫煙や飲酒をしない者よりも、音声障害を引き起こし易い。さらに、声を発する職業や趣味を有する者は、声を発しない職業や趣味を有する者よりも、音声障害を引き起こし易い。このように、音声障害の有無やその原因と、属性データとの間においては、何らかの相関関係が見出され得る。推定装置１００は、問診データテーブル２に格納された属性データの特徴を抽出して、その傾向を掴むことで、音声障害の原因を推定する。

出力部１１０３は、推定処理によって得られた推定結果データを、ディスプレイ３００、またはサーバ装置５００に出力する。

たとえば、図９に示すように、推定装置１００は、入力された音声データおよび問診データに基づき音声障害の原因を推定すると、その推定結果を、ディスプレイ３００に出力する。ディスプレイ３００の画面上には、音声障害の原因として可能性の高い順に複数の候補が一覧表示されるとともに、各候補の正解確率も追加される。音声障害の原因として可能性が高いほど、正解確率も高くなるため、ユーザ１は、正解確率に基づき音声障害の原因を予想することができる。なお、各候補の正解確率に限らず、各候補のスコアが表示されてもよい。この場合、音声障害の原因として可能性が高いほど、スコアが高くなる。

［学習用データ］
図１０は、本実施の形態に係る学習用データセットの一例を説明するための模式図である。図１０においては、喉頭粘膜外傷を原因とした音声障害を有する対象者２に対応する学習用データの一例が示されている。

図１０に示すように、学習用データには、音声障害を有する対象者２の音声データおよび問診データ（問診結果）と、当該対象者２に対する術者による確定診断結果（音声障害の原因）とが含まれており、確定診断結果（音声障害の原因）は、音声データおよび問診データ（問診結果）のそれぞれに関連付けられている。このように、本実施の形態に係る学習用データにおいては、推定処理で参照される音声データおよび問診データに対して、音声障害の原因が関連付けられる（ラベリングされる）。

図１０に示す例は音声障害が喉頭粘膜外傷を原因としているが、その他の音声障害の原因についても、多くのサンプルが集められる。このような学習用データの集まりが学習用データセット１１６として、推定装置１００に保持される。

［学習済モデルの生成］
図１１を参照しながら、学習済モデル１１４ａの生成の一例を説明する。図１１は、本実施の形態に係る学習用データセット１１６に基づく学習済モデル１１４ａの生成を説明するための模式図である。

図１１に示すように、学習用データセット１１６は、当該学習用データセット１１６を生成する際のサンプルとなった対象者２の属性データに基づきカテゴリごとに分類することができる。たとえば、年齢（未成年者，現役世代，高齢者）、性別（男性，女性）、人種（アジア人，欧米人，アフリカ系）、身長（１５０ｃｍ未満，１５０以上）、体重（５０ｋｇ未満，５０ｋｇ以上）、喫煙の有無、職業、および趣味のそれぞれに対して、サンプルとなった対象者２の学習用データを割り当てることができる。なお、各カテゴリの層別は、適宜設定可能である。たとえば、年齢に関しては、所定の年齢差ごと、具体的には、０歳～３歳、４歳～６歳、７歳～９歳、…といったように、より詳細に層別することができる。

推定装置１００は、カテゴリごとに分類することができる複数の学習用データセット１１６ａ～１１６ｑを用いて推定モデル１１４を学習させることで、学習済モデル１１４ａを生成する。なお、学習用データは、カテゴリの分類の仕方によっては重複することがあるが、学習用データが重複する場合には、いずれかの学習用データのみを用いて推定モデル１１４を学習させればよい。

上述したように、音声障害の有無やその原因は、属性データに依存する傾向がある。このため、本実施の形態のように、属性データに基づき学習処理を実行すれば、属性データを考慮して音声障害の原因を推定可能な学習済モデル１１４ａを生成することができる。

なお、図１１に示す学習済モデル１１４ａの生成は、サーバ装置５００が保持する学習済モデル５１４ａの生成についても適用可能である。たとえば、図１１に示す学習用データセット１１６ａ～１１６ｏを、サーバ装置５００が保持する学習用データセット５１６に適用してもよいし、図１１に示す推定モデル１１４を、サーバ装置５００が保持する推定モデル５１４に適用してもよい。

［推定装置の学習処理］
図１２を参照しながら、推定装置１００が実行する学習処理について説明する。図１２は、本実施の形態に係る推定装置１００が実行する学習処理の一例を説明するためのフローチャートである。図１２に示す各ステップは、推定装置１００の演算装置１３０がＯＳ１２７および学習用プログラム１２１を実行することで実現される。

図１２に示すように、推定装置１００は、学習用データセット１１６の中から、学習に用いる学習用データを選択する（Ｓ１）。具体的には、推定装置１００は、図１１に示す学習用データセット群に含まれる学習用データセット１１６の中から、一または複数の学習用データを選択する。なお、推定装置１００は、学習用データを自動で選択するものに限らず、ユーザ１が選択した学習用データを学習処理に用いてもよい。

推定装置１００は、選択した学習用データに含まれる音声データおよび問診データを推定モデル１１４に入力する（Ｓ２）。なお、この問診データには、問診結果および属性データが含まれる。このとき、推定装置１００には、音声データおよび問診データにラベリングされた正解データ（確定診断結果）は入力されない。推定装置１００は、音声データおよび問診データの特徴に基づき、推定モデル１１４を用いて音声障害の有無やその原因を推定する推定処理を実行する（Ｓ３）。

推定装置１００は、推定処理によって推定した音声障害の原因の推定結果と、学習処理に用いた学習用データに対応する正解データとの誤差に基づき、推定モデル１１４のパラメータ１１４４を更新する（Ｓ４）。

たとえば、推定装置１００は、推定結果と正解データとを比較し、両者が一致すれば推定モデル１１４のパラメータ１１４４を維持する一方で、両者が一致しなければ両者が一致するように推定モデル１１４のパラメータ１１４４を更新する。

次に、推定装置１００は、全ての学習用データに基づき学習したか否かを判定する（Ｓ５）。推定装置１００は、全ての学習用データに基づき学習していない場合（Ｓ５でＮＯ）、Ｓ１の処理に戻る。

一方、推定装置１００は、全ての学習用データに基づき学習した場合（Ｓ５でＹＥＳ）、学習済みの推定モデル１１４を学習済モデル１１４ａとして記憶し（Ｓ６）、本処理を終了する。

このように、推定装置１００は、学習用データに含まれる音声データおよび問診データに関連付けられた音声障害の原因（確定診断結果）を正解データとして、推定処理による音声データおよび問診データを用いた音声障害の原因の推定結果に基づき、推定モデル１１４を学習することで、学習済モデル１１４ａを生成することができる。

さらに、推定装置１００は、学習処理において、学習用データに加えて属性データを考慮して推定モデル１１４を学習するため、対象者２の属性データを考慮した学習済モデル１１４ａを生成することができる。

［サーバ装置の学習処理］
図１３を参照しながら、サーバ装置５００が実行する学習処理について説明する。図１３は、本実施の形態に係るサーバ装置５００が実行する学習処理の一例を説明するためのフローチャートである。図１３に示す各ステップは、サーバ装置５００の演算装置５３０がＯＳ５２７および学習用プログラム５２１を実行することで実現される。

図１３に示すように、サーバ装置５００は、学習用データセットの中から、学習に用いる学習用データを選択する（Ｓ５０１）。ここで、学習用データは、サーバ装置５００によって蓄積して記憶されたビッグデータを利用して生成されたものであってもよい。たとえば、サーバ装置５００は、各ローカルＡ～Ｃの推定装置１００から取得した推定情報に含まれる音声データおよび問診データを利用して学習用データを生成しておき、生成した学習用データを用いて学習処理を実行してもよい。なお、サーバ装置５００は、学習用データを自動で選択するものに限らず、ユーザ１が選択した学習用データを学習処理に用いてもよい。

サーバ装置５００は、選択した学習用データに含まれる音声データおよび問診データを推定モデル５１４に入力する（Ｓ５０２）。なお、この問診データには、問診結果および属性データが含まれる。このとき、サーバ装置５００には、音声データおよび問診データにラベリングされた正解データ（確定診断結果）は入力されない。サーバ装置５００は、音声データおよび問診データの特徴に基づき、推定モデル５１４を用いて音声障害の有無やその原因を推定する推定処理を実行する（Ｓ５０３）。

サーバ装置５００は、推定処理によって推定した音声障害の原因の推定結果と、学習処理に用いた学習用データに対応する正解データとの誤差に基づき、推定モデル５１４のパラメータを更新する（Ｓ５０４）。

たとえば、サーバ装置５００は、推定結果と正解データとを比較し、両者が一致すれば推定モデル５１４のパラメータを維持する一方で、両者が一致しなければ両者が一致するように推定モデル５１４のパラメータを更新する。

次に、サーバ装置５００は、全ての学習用データに基づき学習したか否かを判定する（Ｓ５０５）。サーバ装置５００は、全ての学習用データに基づき学習していない場合（Ｓ５０５でＮＯ）、Ｓ５０１の処理に戻る。

一方、サーバ装置５００は、全ての学習用データに基づき学習した場合（Ｓ５０５でＹＥＳ）、学習済みの推定モデル５１４を学習済モデル５１４ａとして記憶する（Ｓ５０６）。その後、サーバ装置５００は、生成した学習済モデル５１４ａを各ローカルの推定装置１００に送信し（Ｓ５０７）、本処理を終了する。

このように、サーバ装置５００は、学習用データに含まれる音声データおよび問診データに関連付けられた音声障害の原因（確定診断結果）を正解データとして、推定処理による音声データおよび問診データを用いた音声障害の原因の推定結果に基づき、推定モデル５１４を学習することで、学習済モデル５１４ａを生成することができる。

また、サーバ装置５００は、学習処理において、学習用データに加えて属性データを考慮して推定モデル５１４を学習するため、対象者２の属性データを考慮した学習済モデル５１４ａを生成することができる。

さらに、サーバ装置５００は、学習処理に用いる学習用データとして、各ローカルＡ～Ｃの推定装置１００から取得した推定情報に含まれる音声データおよび問診データを利用しているため、推定装置１００ごとに実行される学習処理よりも、より多くの学習用データに基づいて学習処理を実行することができ、より精度良く音声障害の原因を推定可能な学習済モデル５１４ａを生成することができる。

［推定装置のサービス提供処理］
図１４を参照しながら、推定装置１００が実行するサービス提供処理について説明する。図１４は、本実施の形態に係る推定装置１００が実行するサービス提供処理の一例を説明するためのフローチャートである。図１４に示す各ステップは、推定装置１００の演算装置１３０がＯＳ１２７および推定用プログラム１２０を実行することで実現される。

図１４に示すように、推定装置１００は、サービス提供処理の開始条件が成立したか否かを判定する（Ｓ４１）。開始条件は、たとえば、推定装置１００の電源を立ち上げたときに成立してもよいし、推定装置１００の電源を立ち上げた後にサービス提供処理に対応するモードに切り替えられたときに成立してもよい。あるいは、開始条件は、マイク４００から対象者２の音声データが入力されたときに成立してもよい。開始条件は、推定装置１００に対して何らかのアクションが行われたときに成立するものであればよい。

推定装置１００は、開始条件が成立していない場合（Ｓ４１でＮＯ）、本処理を終了する。一方、推定装置１００は、開始条件が成立した場合（Ｓ４１でＹＥＳ）、音声データおよび問診データが入力されたか否かを判定する（Ｓ４２）。なお、この問診データには、問診結果および属性データが含まれる。推定装置１００は、音声データおよび問診データが入力されていない場合（Ｓ４２でＮＯ）、Ｓ４２の処理を繰り返す。

一方、推定装置１００は、音声データおよび問診データが入力された場合（Ｓ４２でＹＥＳ）、音声データおよび問診データを学習済モデル１１４ａに入力する（Ｓ４３）。その後、推定装置１００は、音声データおよび問診データの特徴に基づき、学習済モデル１１４ａを用いて音声障害の原因を推定する推定処理を実行する（Ｓ４４）。

その後、推定装置１００は、推定処理によって得られた推定結果データを、ディスプレイ３００やサーバ装置５００などに出力し（Ｓ４５）、本処理を終了する。

このように、推定装置１００は、入力された音声データおよび問診データの特徴に基づき、学習済モデル１１４ａを用いて音声障害の原因を推定するため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、学習済モデル１１４ａは、学習処理によって機械学習されるため、推定装置１００は、学習処理を実行する度に精度を向上させながら音声障害の原因を容易に推定することができる。

[主な構成］
以上のように、本実施の形態では以下のような開示を含む。

推定装置１００は、対象者２の音声に関する情報を含む音声データおよび対象者２に対して行われた問診の結果に関する情報を含む問診データが入力される入力部（音声データ入力部１１３５，問診データ入力部１１３８）と、入力部（音声データ入力部１１３５，問診データ入力部１１３８）から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデル１１４（学習済モデル１１４ａ）に基づき、音声障害の原因を推定する推定部１１３０と、推定部１１３０による推定結果を出力する出力部１１０３とを備え、推定モデル１１４（学習済モデル１１４ａ）は、推定部１１３０による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因（確定診断結果）とに基づき機械学習される。

これにより、ユーザ１は、音声データおよび問診データを推定モデル１１４（学習済モデル１１４ａ）に入力することで、音声障害の原因を推定することができるため、ユーザ自身の知見に頼って音声障害の原因を推定するよりも、精度良く音声障害の原因を推定することができる。さらに、推定モデル１１４（学習済モデル１１４ａ）は、学習処理によって機械学習されることで、推定処理の精度を向上させることができるため、ユーザ１は、精度を向上させながら音声障害の原因を容易に推定することができる。

なお、推定モデル１１４の学習は、サーバ装置５００によって実行される推定モデル５１４の学習によって実現されるものであってもよい。

図５に示すように、問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む。

これにより、ユーザ１は、音声障害の原因を推定するための情報として、様々な問診結果を集めることができる。

図６に示すように、問診データには、対象者２の属性に関する内容を含む属性データが追加される。

これにより、ユーザ１は、対象者２に対する問診結果に加えて、対象者２の属性に基づき、より精度良く音声障害の原因を推定することができる。

図６に示すように、対象者２の属性に関する内容は、対象者２の年齢、性別、人種、身長、体重、喫煙の有無、飲酒の有無、職業、および趣味のうちの少なくともいずれか１つの情報を含む。

これにより、ユーザ１は、音声障害の原因を推定するための情報として、対象者２に関する様々な属性を集めることができる。

図７に示すように、音声障害の原因は、喉頭の組織異常、喉頭の炎症性疾患、喉頭の外傷、全身性疾患、呼吸器疾患、消化器疾患、心理的疾患、精神疾患、および神経疾患のうちの少なくともいずれか１つを含む。

これにより、ユーザ１は、音声障害の原因として、様々な異常や疾患を推定することができる。

推定システム１０は、対象者２の音声に関する情報を含む音声データを取得するマイク４００と、対象者に対して行われた問診の結果に関する情報を含む問診データを入力するためのキーボード５０１と、音声障害の原因を推定する推定装置１００とを備える。推定装置１００は、マイク４００によって取得された音声データが入力される音声データおよびキーボード５０１によって入力された問診データが入力される入力部（音声データ入力部１１３５，問診データ入力部１１３８）と、入力部（音声データ入力部１１３５，問診データ入力部１１３８）から入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデル１１４（学習済モデル１１４ａ）に基づき、音声障害の原因を推定する推定部１１３０と、推定部１１３０による推定結果を出力する出力部１１０３とを含み、推定モデル１１４（学習済モデル１１４ａ）は、推定部１１３０による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因（確定診断結果）とに基づき機械学習される。

推定方法は、対象者２の音声に関する情報を含む音声データおよび対象者２に対して行われた問診の結果に関する情報を含む問診データが入力されるステップ（Ｓ４３）と、音声データ、問診データ、および機械学習によって生成された推定モデル１１４（学習済モデル１１４ａ）に基づき、音声障害の原因を推定するステップ（Ｓ４４）と、推定するステップによる推定結果を出力するステップ（Ｓ４５）とを含み、推定モデル１１４（学習済モデル１１４ａ）は、推定するステップ（Ｓ４）による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因（確定診断結果）とに基づき機械学習される。

推定用プログラム１２０は、演算装置１３０に、対象者２の音声に関する情報を含む音声データおよび対象者２に対して行われた問診の結果に関する情報を含む問診データが入力されるステップ（Ｓ４３）と、音声データ、問診データ、および機械学習によって生成された推定モデル１１４（学習済モデル１１４ａ）に基づき、音声障害の原因を推定するステップ（Ｓ４４）と、推定するステップによる推定結果を出力するステップ（Ｓ４５）とを実行させ、推定モデル１１４（学習済モデル１１４ａ）は、推定するステップ（Ｓ４）による推定結果と、音声データおよび問診データに関連付けられた音声障害の原因とに基づき機械学習される。

［変形例］
本発明は、上記の実施例に限られず、さらに種々の変形、応用が可能である。以下、本発明に適用可能な変形例について説明する。

（サービス提供処理時学習処理）
本実施の形態に係る推定装置１００は、図１４に示すように、サービス提供処理において学習処理を実行するものではないが、図１５に示すように、変形例に係る推定装置１００ａは、サービス提供処理において学習処理を実行するものであってもよい。図１５は、変形例に係る推定装置１００ａが実行するサービス提供処理の一例を説明するためのフローチャートである。なお、図１５に示すＳ４１～Ｓ４５の処理は、図１４に示すＳ４１～Ｓ４５の処理と同じであるため、図１５においては、Ｓ４６以降の処理についてのみ説明する。

図１５に示すように、推定装置１００ａは、Ｓ４１～Ｓ４５の処理によって推定結果を出力した後、サービス提供時学習処理を実行する。具体的には、推定装置１００ａは、Ｓ４５の後、誤り訂正のための正解データが入力されたか否かを判定する（Ｓ４６）。たとえば、推定装置１００ａは、Ｓ４５において出力された推定結果である音声障害の原因が、対象者２に対する術者による確定診断結果と異なる場合、確定診断結果をユーザ１が入力することで誤りを訂正したか否かを判定する。

推定装置１００ａは、誤り訂正のための正解データが入力されなかった場合（Ｓ４６でＮＯ）、本処理を終了する。一方、推定装置１００ａは、誤り訂正のための正解データが入力された場合（Ｓ４６でＹＥＳ）、推定結果と正解データとに基づき報酬を付与する（Ｓ４７）。

たとえば、推定結果と正解データとの解離度が小さければ小さいほど、付与する報酬として値の小さいマイナスポイントを与え、両者の解離度が大きければ大きいほど、付与する報酬として値の大きいマイナスポイントを与えればよい。このように、推定装置１００ａは、推定結果と正解データとの解離度に応じて異なる値の報酬を付与する。なお、報酬はマイナスポイントに限らず、プラスポイントであってもよい。

推定装置１００ａは、付与した報酬に基づき、学習済モデル１１４ａのパラメータ１１４４を更新する（Ｓ４８）。たとえば、推定装置１００ａは、報酬として付与したマイナスポイントが０に近づくように学習済モデル１１４ａのパラメータ１１４４を更新する。その後、推定装置１００ａは、本処理を終了する。

このように、変形例に係る推定装置１００ａは、サービス提供処理においても学習処理を実行するため、ユーザ１が使用すればするほど推定処理の精度が向上し、精度を向上させながら音声障害の原因を容易に推定することができる。

（カテゴリごとの学習済モデルの生成）
本実施の形態に係る推定装置１００は、図１１に示すように、カテゴリごとに分類された複数の学習用データセット１１６ａ～１１６ｑが含まれる学習用データセット群を用いて推定モデル１１４を学習させることで、１つの学習済モデル１１４ａを生成するものであったが、図１６に示すように、変形例に係る推定装置１００ｂは、カテゴリごとに分類された複数の学習用データセットのそれぞれをカテゴリごとに用いて推定モデル１１４を学習させることで、カテゴリごとの学習済モデルを生成してもよい。図１６は、変形例に係る学習用データセットに基づく学習済モデルの生成を説明するための模式図である。

図１６に示すように、学習用データセット１１６は、当該学習用データセット１１６を生成する際のサンプルとなった対象者２の属性データに基づきカテゴリごとに分類することができる。たとえば、年齢（未成年者，現役世代，高齢者）、および性別（男性，女性）に基づき、６個のカテゴリに対して、学習用データセットが割り当てられる。

推定装置１００ｂは、カテゴリごとに分類された複数の学習用データセット１１６ｔ～１１６ｙのそれぞれをカテゴリごとに用いて推定モデル１１４を学習させることで、カテゴリごとの学習済モデル１１４ｔ～１１４ｙを生成する。

このように、変形例に係る推定装置１００ｂは、カテゴリごとに分類された複数の学習済モデル１１４ｔ～１１４ｙを生成することができるため、対象者２の属性データに応じたより詳細な分析によって、より精度良く音声障害の原因を推定することができる。

なお、図１６に示す例においては、音声障害の原因となる要因を考慮して分類されたカテゴリごとに学習用データを用意して、カテゴリごとの学習済モデルを生成してもよい。たとえば、音声障害になり易い喫煙者の学習用データを用意して、喫煙者専用の学習済モデルを生成してもよいし、音声障害になり易い職業や趣味の学習用データを用意して、音声障害になり易い職業や趣味を有する対象者専用の学習済モデルを生成してもよい。このようにすれば、対象者の属性に応じて学習された学習済モデルを用いて音声障害の原因を推定することができるため、より精度良く容易に音声障害の原因を推定することができる。

なお、図１６に示す学習済モデル１１４ｔ～１１４ｙの生成は、サーバ装置５００が保持する学習済モデル５１４ａの生成についても適用可能である。たとえば、図１６に示す学習用データセット１１６ｔ～１１６ｙを、サーバ装置５００が保持する学習用データセット５１６に適用してもよいし、図１６に示す学習済モデル１１４ｔ～１１４ｙを、サーバ装置５００が保持する学習済モデル５１４ａに適用してもよい。

（カテゴリごとの学習済モデルを用いたサービス提供処理）
図１７を参照しながら、カテゴリごとの学習済モデル１１４ｔ～１１４ｙを用いて推定装置１００ｂが実行するサービス提供処理について説明する。図１７は、変形例に係る推定装置１００ｂが実行するサービス提供処理の一例を説明するためのフローチャートである。図１７に示す各ステップは、推定装置１００ｂの演算装置１３０がＯＳ１２７および推定用プログラム１２０を実行することで実現される。

図１７に示すように、推定装置１００ｂは、サービス提供処理の開始条件が成立したか否かを判定する（Ｓ１４１）。開始条件は、図１４で示した開始条件と同じであるため、その説明を省略する。

推定装置１００ｂは、開始条件が成立していない場合（Ｓ１４１でＮＯ）、本処理を終了する。一方、推定装置１００ｂは、開始条件が成立した場合（Ｓ１４１でＹＥＳ）、音声データおよび問診データが入力されたか否かを判定する（Ｓ１４２）。なお、この問診データには、問診結果および属性データが含まれる。推定装置１００ｂは、音声データおよび問診データが入力されていない場合（Ｓ１４２でＮＯ）、Ｓ１４２の処理を繰り返す。

一方、推定装置１００ｂは、音声データおよび問診データが入力された場合（Ｓ１４２でＹＥＳ）、図１６に示す学習済モデル群の中から属性データに対応する学習済モデルを選択する（Ｓ１４３）。たとえば、対象者２が高齢者の女性であれば、推定装置１００ｂは、学習済モデル１１４ｙを選択する。

その後、推定装置１００ｂは、音声データおよび問診データを学習済モデルに入力する（Ｓ１４４）。推定装置１００ｂは、音声データおよび問診データの特徴に基づき、学習済モデルを用いて音声障害の原因を推定する推定処理を実行する（Ｓ１４５）。

その後、推定装置１００ｂは、推定処理によって得られた推定結果を、ディスプレイ３００やサーバ装置５００などに出力し（Ｓ１４６）、本処理を終了する。

このように、変形例に係る推定装置１００ｂは、対象者２の属性データに最も適した学習済モデルを用いて推定処理を実行することができるため、対象者２の属性データに応じたより詳細な分析によって、より精度良く音声障害の原因を推定することができる。

（学習処理）
本実施の形態に係る推定装置１００は、学習処理によって推定モデル１１４のパラメータ１１４４を更新するものであったが、パラメータ１１４４を更新するものに限らず、学習処理によってネットワーク構造１１４２が更新される（たとえば、ネットワーク構造１１４２のアルゴリズムが更新される）ものであってもよい。また、本実施の形態に係るサーバ装置５００は、学習処理によって推定モデル５１４のパラメータを更新するものであったが、パラメータを更新するものに限らず、学習処理によってニューラルネットワークなどのネットワーク構造が更新される（たとえば、ネットワーク構造のアルゴリズムが更新される）ものであってもよい。

（問診データの重み付け）
図５に示したように、問診データに含まれる問診の内容には、複数の問診項目が含まれており、各問診項目と音声障害の原因との間においては、何らかの相関関係が見出され得る。このため、各問診項目と音声障害の原因との間の相関関係を把握することができれば、音声障害の原因について、各問診項目に対して重み付けを行うことができる。

たとえば、図１８は、変形例に係る推定装置１００が記憶する問診データテーブル１－２を示す模式図である。図１８に示すように、異形成、喉頭悪性腫瘍、急性喉頭炎、および喉頭粘膜外傷などの音声障害の原因に対して、相関関係が強いほど値が大きくなるように、各問診項目に対して重み付けが行われてもよい。そして、重み付けが行われた問診データを用いて、推定モデル１１４を機械学習させれば、より精度良く推定処理を実行可能な学習済モデル１１４ａを生成することができる。

また、問診データにおける各問診項目に対する重み付けは、推定モデル１１４を用いた学習処理を利用してもよい。たとえば、図１９は、変形例に係る学習用データに基づく学習済モデル１１４ａの生成を説明するための模式図である。

図１９に示すように、ＳＴＥＰ１として、重み付けがなされていない問診データ（問診データ１）のみに対して確定診断結果をラベリングしたものを学習用データとして用意する。なお、問診データには、各問診項目に対する問診結果が格納されている。つまり、問診結果に対して確定診断結果が紐付けられている。

そして、用意した学習用データを推定モデル１１４に入力し、学習処理によって推定モデル１１４を機械学習させる。このように、重み付けがなされていない問診データのみに基づき学習処理を実行することで、各問診項目と音声障害の原因との間における純粋な相関関係を見出すことができる。つまり、ユーザ１は、どの問診項目に対応する問診結果がどのような音声障害の原因と相関関係があるかについて、学習処理を利用して特定することができる。

これにより、上述したような学習処理の結果を用いて、各問診項目に対する重み付けを行うことができ、各問診項目に対して重み付けが行われた問診データ（問診データ１－２）を得ることができる。

次に、ＳＴＥＰ２として、重み付けが行われた問診データに音声データを加えたものに対して、確定診断結果をラベリングしたものを学習用データとして用意する。そして、用意した学習用データを推定モデル１１４に入力し、学習処理によって推定モデル１１４を機械学習させることで、重み付けが行われた問診データに基づき、学習済モデル１１４ａを生成することができる。

このように、重み付けが行われた問診データに基づき生成された学習済モデル１１４ａを用いて推定処理を実行すれば、重み付けが行われていない問診データに基づき生成された学習済モデル１１４ａを用いて推定処理を実行するよりも、より効率良く音声障害の原因を推定することができ、その分推定処理の精度も向上させることができる。

（問診項目の選定）
図１９を参照しながら説明したように、問診データを用いた音声障害の原因の推定結果と、当該問診データに関連付けられた正解データである音声障害の原因（確定診断結果）とに基づく機械学習を利用して、各問診項目に対する重み付けを行えば、音声障害の原因と関連性が強い問診項目を抽出することもできる。言い換えると、重み付けを行うことによって、音声障害の原因とは関連性がない、あるいは関連性が低い問診項目を抽出することもできる。よって、音声障害の原因とは関連性がない、あるいは関連性が低い問診項目について、省略することができる。

このように、問診項目は、問診データを用いた音声障害の原因の推定結果と、当該問診データに関連付けられた正解データである音声障害の原因（確定診断結果）とに基づく機械学習を利用して選定されてもよい。

これにより、ユーザ１は、対象者２に対して無駄な問診を行う必要がなく、また、推定処理における負担も軽減することができるため、その分、精度良く音声障害の原因を推定することができる。

（音声データの入力）
本実施の形態においては、推定モデル１１４（学習済モデル１１４ａ）に対して、対象者２が発した音声のデータをそのまま入力するものであったが、これに限らない。たとえば、推定モデル１１４（学習済モデル１１４ａ）に入力される音声データは、対象者２の音声のデータに対して所定の補正が行われた情報を含んでいてもよい。具体的には、推定モデル１１４（学習済モデル１１４ａ）に入力される音声データは、所定の演算によって得られた音声データの解析値を含んでいてもよい。このとき、推定モデル１１４（学習済モデル１１４ａ）を用いた推定処理や学習処理において精度を高めたり、処理速度を上げたりするように、音声データに対して所定の演算を行えば、精度を向上させながら音声障害の原因をより早く推定することができる。

また、音声障害の原因ごとに様々な音声データのサンプルを集めることは難しいため、シミュレーションによって作成された人工的な音声データを、学習用データとして採用してもよい。

たとえば、図２０は、変形例に係る学習用データに含まれるシミュレーションによって作成される音声データを説明するための模式図である。図２０に示すように、音声は、声門、喉頭蓋先端、舌根、口蓋垂、口腔、および口唇を通る空気の流れによって生じるため、この間の経路を円筒管モデルとして仮定して数値解析により人工的に音声データを生成することが可能である。

図２０に示す円筒管モデル８００は、音声障害を有していない対象者２の円筒管モデルである。音声データ８５０は、円筒管モデル８００を用いて数値解析のシミュレーションにより生成した音声データである。

一方、図２０に示す円筒管モデル９００は、咽頭狭窄となっている対象者２の円筒管モデルである。円筒管モデル９００においては、喉頭蓋先端と口蓋垂との間の経路を絞ることで、空気を流れにくくしている。このような咽頭狭窄となった円筒管モデル９００を用いて音声データ９５０を取得すると、点線で示すように、咽頭狭窄となっている対象者２の人工音声を作り出すことができる。

このように、シミュレーションによって作成された人工的な音声データを用いれば、音声障害の原因ごとに様々な音声データのサンプルを容易に集めることができる。これにより、推定モデル１１４の機械学習を強化することができるため、精度を向上させながら音声障害の原因を容易に推定することができる。

（音声障害の程度の推定処理）
本実施の形態に係る推定システム１０においては、推定装置１００が音声障害の原因を推定するように構成されていた。しかしながら、図２１に示す変形例に係る推定システム１０ａのように、推定装置７００が音声障害の程度を推定してもよい。図２１は、変形例に係る推定装置７００の機能構成を示す模式図である。

音声障害の程度を定量的に評価する方法として、ＧＲＢＡＳ尺度に代表されるような音声の聴覚心理的評価法が知られている。ＧＲＢＡＳは、Ｇｒａｄｅ、Ｒｏｕｇｈ、Ｂｒｅａｔｈｙ、Ａｓｔｈｅｎｉｃ、Ｓｔｒａｉｎｅｄの頭文字を表している。「Ｇ」（Ｇｒａｄｅ）は、嗄声の全体的な重症度を評定する尺度であり、嗄声の性状は問われない。残りの「ＲＢＡＳ」は、嗄声の性状を表す。たとえば、「Ｒ」（Ｒｏｕｇｈ）は、粗ぞう性を表し、いわゆるガラガラ声、ダミ声などと表現される聴覚的印象である。「Ｂ」（Ｂｒｅａｔｈｙ）は、気息性を表し、いわゆるカサカサ声やハスキーボイスなどと表現される聴覚的印象である。「Ａ」（Ａｓｔｈｅｎｉｃ）は、無力性を表し、弱々しい聴覚的印象である。「Ｓ」（Ｓｔｒａｉｎｅｄ）は、努力性を表し、たとえば、喉に力を入れて無理に声を出しているような聴覚的印象である。

Ｇ尺度は、嗄声がない場合を０、軽度の嗄声を１、中等度の嗄声を２、重度の嗄声を３と評点される。残りのＲ尺度、Ｂ尺度、Ａ尺度、およびＳ尺度についても、Ｇ尺度と同様に、０～３の４段階で評点される。

上述したようなＧＲＢＡＳ尺度による評価は、あくまで術者などによる評価者の主観に基づいて行われるため、評価者ごとに評価結果がばらつき易い。そこで、変形例に係る推定システム１０ａでは、推定装置７００が有するＡＩ（人工知能：Artificial Intelligence）を利用して、対象者２の音声に関する情報を含む音声データに基づき、音声障害の程度としてＧＲＢＡＳ尺度に基づく点数を自動的に推定する処理を実行するように構成されている。

たとえば、図２１に示すように、推定装置７００は、図８に示した推定モデル１１４（図２１では、区別するために「音声障害推定モデル１１４」としている）に加えて、ＧＲＢＡＳ推定モデル７１４を有する。推定部７１３０は、音声データ入力部１１３５に入力された音声データに基づき、ＧＲＢＡＳ推定モデル７１４（学習済モデル７１４ａ）を用いて音声障害の程度を推定する推定処理を実行する。なお、推定部７１３０は、音声データのみに基づいて音声障害の程度を推定するものに限らず、問診データ入力部１１３８から入力された問診データも加えて参照することで、音声障害の程度を推定してもよい。推定部７１３０は、図８に示す推定部１１３０の機能も有するため、音声データおよび問診データに基づき、音声障害の原因も推定可能である。

ＧＲＢＡＳ推定モデル７１４は、ネットワーク構造７１４２と、当該ネットワーク構造７１４２によって用いられるパラメータ７１４４とを含む。パラメータ７１４４は、ネットワーク構造７１４２による計算に用いられる重み付け係数と、推定の判定に用いられる判定値とを含む。

ネットワーク構造７１４２においては、少なくとも音声データが入力層に入力される。そして、ネットワーク構造７１４２においては、たとえば、中間層によって、入力された音声データに対して重み付け係数が乗算されたり所定のバイアスが加算されたりするとともに所定の関数による計算が行われ、その計算結果が判定値と比較される。そして、ネットワーク構造７１４２においては、その計算および判定の結果が推定結果として出力層から出力される。なお、ネットワーク構造７１４２による計算および判定については、音声データに基づき音声障害の程度を推定できるものであれば、いずれの手法が用いられてもよい。

ＧＲＢＡＳ推定モデル７１４（学習済モデル７１４ａ）のネットワーク構造７１４２は、ニューラルネットワークやサポートベクターマシン、あるいはベイジアンネットワークなど、公知のネットワーク構造を用いればよい。さらに、ネットワーク構造１１４２として、ニューラルネットワークを用いる場合、中間層を多層構造にすることで、ディープラーニングによる処理を行うものであってもよい。

ＧＲＢＡＳ推定モデル７１４は、入力された音声データに基づき推定部７１３０によって推定されたＧＲＢＡＳ尺度に基づく点数と、当該音声データに関連付けられたＧＲＢＡＳ尺度に基づく点数（正解データ）とに基づき、機械学習されている。ＧＲＢＡＳ推定モデル７１４は、機械学習されることで、パラメータ７１４４が最適化（調整）される。このようにしてＧＲＢＡＳ推定モデル７１４が学習されることで、学習済モデル７１４ａが得られる。

このような構成において、推定装置７００は、音声データが入力されると、音声データにおける特徴をＧＲＢＡＳ推定モデル７１４のネットワーク構造７１４２を用いて抽出し、抽出した特徴に基づき、ＧＲＢＡＳ尺度に基づく点数を推定する。

出力部７１０３は、ＧＲＢＡＳ推定モデル７１４を用いた推定処理によって得られた推定結果データ（ＧＲＢＡＳ尺度に基づく点数のデータ）を、ディスプレイ３００、またはサーバ装置５００に出力する。なお、出力部７１０３は、推定部７１３０によって音声障害推定モデル１１４（学習済モデル１１４ａ）を用いて推定された音声障害の原因を示すデータとともに、ＧＲＢＡＳ尺度に基づく点数のデータを出力してもよい。

たとえば、推定装置７００は、入力された音声データに基づきＧＲＢＡＳ尺度に基づく点数を推定すると、その推定結果を、ディスプレイ３００に出力する。ディスプレイ３００の画面上には、音声障害の程度として、Ｇ尺度、Ｒ尺度、Ｂ尺度、Ａ尺度、およびＳ尺度の各点数が表示される。なお、ディスプレイ３００は、図９に示すような音声障害の原因の推定結果とともに、ＧＲＢＡＳ尺度に基づく点数を表示してもよい。

このように、変形例に係る推定装置７００において、推定部７１３０は、音声データ入力部１１３５から入力された音声データおよびＧＲＢＡＳ推定モデル７１４に基づき、対象者における音声障害の程度を推定し、出力部７１０３は、推定部７１３０によって推定された音声障害の程度を出力する。また、ＧＲＢＡＳ推定モデル７１４は、推定部７１３０による推定結果と、音声データに関連付けられた音声障害の程度（たとえば、ＧＲＢＡＳ尺度に基づく点数）とに基づき機械学習される。

これにより、ユーザである評価者は、自身の知見に頼ることなく、精度良く音声障害の程度を推定することができる。さらに、医学の進歩とともに、機械学習時に用いられる正解データである確定診断結果の精度も向上するため、機械学習によってＧＲＢＡＳ推定モデル７１４を学習させることによって、精度を向上させながら音声障害の程度を容易に推定することができる。

なお、図２１に示す例では、推定装置７００は、音声障害を推定するための音声障害推定モデル１１４と、音声障害の程度を推定するためのＧＲＢＡＳ推定モデル７１４とを別個に有しているが、推定装置７００は、音声障害推定モデル１１４による推定機能とＧＲＢＡＳ推定モデル７１４による推定機能との両方を有する１つの推定モデルを有していてもよい。

今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。なお、本実施の形態で例示された構成および変形例で例示された構成は、適宜組み合わせることができる。

１ユーザ、２対象者、５ネットワーク、１０，１０ａ推定システム、１００，１００ａ，１００ｂ，７００推定装置、１０３，５０３ディスプレイインターフェース、１０４マイクインターフェース、１０５，５０５周辺機器インターフェース、１０６，５０６ネットワークコントローラ、１０７，５０７メディア読取装置、１０９，５０９メモリ、１１０，５１０ストレージ、１１３，５１３推定情報、１１４，５１４推定モデル（音声障害推定モデル）、１１４ａ，５１４ａ，７１４ａ学習済モデル、１１６，５１６学習用データセット、１２０，５２０推定用プログラム、１２１，５２１学習用プログラム、１２４，５２４推定結果データ、１２８，５２８音声障害データ、１３０，５３０演算装置、１３５，５３５，８５０，９５０音声データ、３００，３５０ディスプレイ、４００マイク、５００サーバ装置、５０１，５５１キーボード、５０２，５５２マウス、５５０リムーバブルディスク、７１４ＧＲＢＡＳ推定モデル、８００，９００円筒管モデル、１１０３，７１０３出力部、１１３０，７１３０推定部、１１３５音声データ入力部、１１３８問診データ入力部、１１４２，７１４２ネットワーク構造、１１４４，７１４４パラメータ。

Claims

対象者における音声障害の原因を推定する推定装置であって、
前記対象者の音声に関する情報を含む音声データおよび前記対象者に対して行われた問診の結果に関する情報を含む問診データが入力される入力部と、
前記入力部から入力された前記音声データおよび前記問診データ、並びに機械学習によって生成された推定モデルに基づき、前記音声障害の原因を推定する推定部と、
前記推定部による推定結果を出力する出力部とを備え、
前記推定モデルは、前記推定部による推定結果と、前記音声データおよび前記問診データに関連付けられた前記音声障害の原因とに基づき機械学習され、
前記問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む、推定装置。
前記問診は、複数の問診項目を含み、
前記問診データは、前記複数の問診項目のそれぞれに対応付けられ、かつ所定の重み付けが施されている、請求項１に記載の推定装置。
前記重み付けは、前記問診データを用いた前記音声障害の原因の推定結果と、当該問診データに関連付けられた前記音声障害の原因とに基づく機械学習を利用してなされる、請求項２に記載の推定装置。
前記複数の問診項目は、前記問診データを用いた前記音声障害の原因の推定結果と、当該問診データに関連付けられた前記音声障害の原因とに基づく機械学習を利用して選定されている、請求項２または請求項３に記載の推定装置。
前記音声データは、前記対象者の音声のデータに対して所定の補正が行われた情報を含む、請求項１～請求項４のいずれか１項に記載の推定装置。
前記推定モデルの機械学習時において、前記音声データは、シミュレーションによって作成された音声に関する情報を含む、請求項１～請求項５のいずれか１項に記載の推定装置。
前記問診データには、前記対象者の属性に関する内容を含む属性データが追加される、請求項１～請求項６のいずれか１項に記載の推定装置。
前記対象者の属性に関する内容は、前記対象者の年齢、性別、人種、身長、体重、喫煙の有無、飲酒の有無、職業、および趣味のうちの少なくともいずれか１つの情報を含む、請求項７に記載の推定装置。
前記音声障害の原因は、喉頭の組織異常、喉頭の炎症性疾患、喉頭の外傷、全身性疾患、呼吸器疾患、消化器疾患、心理的疾患、精神疾患、および神経疾患のうちの少なくともいずれか１つを含む、請求項１～請求項８のいずれか１項に記載の推定装置。
前記推定部は、前記入力部から入力された前記音声データおよび前記推定モデルに基づき、前記対象者における音声障害の程度を推定し、
前記出力部は、前記推定部によって推定された前記音声障害の程度を出力し、
前記推定モデルは、前記推定部による推定結果と、前記音声データに関連付けられた前記音声障害の程度とに基づき機械学習される、請求項１～請求項９のいずれか１項に記載の推定装置。
対象者における音声障害の原因を推定する推定システムであって、
前記対象者の音声に関する情報を含む音声データを取得する取得部と、
前記対象者に対して行われた問診の結果に関する情報を含む問診データを入力するための操作部と、
前記音声障害の原因を推定する推定装置とを備え、
前記推定装置は、
前記取得部によって取得された前記音声データが入力される音声データおよび前記操作部によって入力された前記問診データが入力される入力部と、
前記入力部から入力された前記音声データおよび前記問診データ、並びに機械学習によって生成された推定モデルに基づき、前記音声障害の原因を推定する推定部と、
前記推定部による推定結果を出力する出力部とを含み、
前記推定モデルは、前記推定部による推定結果と、前記音声データおよび前記問診データに関連付けられた前記音声障害の原因とに基づき機械学習され、
前記問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む、推定システム。
対象者における音声障害の原因を推定する推定装置の作動方法であって、
前記推定装置が実行する処理として、
前記作動方法は、
前記対象者の音声に関する情報を含む音声データおよび前記対象者に対して行われた問診の結果に関する情報を含む問診データが入力されるステップと、
前記音声データ、前記問診データ、および機械学習によって生成された推定モデルに基づき、前記音声障害の原因を推定するステップと、
前記推定するステップによる推定結果を出力するステップとを含み、
前記推定モデルは、前記推定するステップによる推定結果と、前記音声データおよび前記問診データに関連付けられた前記音声障害の原因とに基づき機械学習され、
前記問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む、推定装置の作動方法。
対象者における音声障害の原因を推定する推定用プログラムであって、
前記推定用プログラムは、コンピュータに、
前記対象者の音声に関する情報を含む音声データおよび前記対象者に対して行われた問診の結果に関する情報を含む問診データが入力されるステップと、
前記音声データ、前記問診データ、および機械学習によって生成された推定モデルに基づき、前記音声障害の原因を推定するステップと、
前記推定するステップによる推定結果を出力するステップとを実行させ、
前記推定モデルは、前記推定するステップによる推定結果と、前記音声データおよび前記問診データに関連付けられた前記音声障害の原因とに基づき機械学習され、
前記問診は、音声障害が起きたきっかけ、音声障害の経過、音声障害の症状、音声障害以外の症状、病歴、および生活習慣のうちの少なくともいずれか１つの内容を含む、推定用プログラム。