JP6731631B2 - Cognitive function evaluation device, program - Google Patents
Cognitive function evaluation device, program Download PDFInfo
- Publication number
- JP6731631B2 JP6731631B2 JP2016036269A JP2016036269A JP6731631B2 JP 6731631 B2 JP6731631 B2 JP 6731631B2 JP 2016036269 A JP2016036269 A JP 2016036269A JP 2016036269 A JP2016036269 A JP 2016036269A JP 6731631 B2 JP6731631 B2 JP 6731631B2
- Authority
- JP
- Japan
- Prior art keywords
- cognitive function
- feature amount
- voice data
- function evaluation
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、認知機能評価装置、プログラムに関する。本発明は、より詳しくは、対象者の音声により対象者の認知機能を評価する認知機能評価装置に関する。また、本発明は、コンピュータを認知機能評価装置として機能させるプログラム、コンピュータで認知機能評価方法を実現するプログラムに関する。 The present invention, cognitive function evaluation device, about the program. The present invention is more particularly directed to cognitive evaluation equipment for evaluating the cognitive function of a subject by speech of the subject. The present invention also relates to a program that causes a computer to function as a cognitive function evaluation device, and a program that realizes a cognitive function evaluation method on a computer.
従来、音声データから韻律特徴量を抽出し、音声データの韻律特徴量から、音声データの発話者について認知機能障害の危険度を算出する技術が提案されている(たとえば、特許文献1参照)。引用文献1には、音声データから抽出される複数種類の韻律特徴量の組み合わせと、組み合わせた韻律特徴量の各々に対する重み付けとに基づいて、認知機能障害の危険度を算出する技術が記載されている。引用文献1では、韻律特徴量は、音声の周波数成分に関する特徴量、音声のフォルマント構造に関する特徴量、音声の大きさに関する特徴量、発話速度に関する特徴量、質問に回答するまでの反応時間に関する特徴量の少なくとも1つを含んでいる。そして、それぞれの特徴量は、収集した音声から1つずつの値が求められている。
Conventionally, a technique has been proposed in which a prosody feature amount is extracted from voice data and the risk level of cognitive impairment for a speaker of the voice data is calculated from the prosody feature amount of the voice data (for example, refer to Patent Document 1). The cited
特許文献1では、収集した音声から複数種類の韻律特徴量を求めているが、1種類の韻律特徴量は1種類の値で表されている。そのため、比較的多くの種類の韻律特徴量が必要である。
In
本発明は、認知機能を評価するための特徴量の抽出を容易にした認知機能評価装置を提供することを目的とする。さらに、本発明は、コンピュータを認知機能評価装置として機能させるプログラムと、コンピュータで認知機能評価方法を実現するプログラムとを提供することを目的とする。 The present invention shall be the object of the invention to provide a cognitive test system to facilitate the extraction of the feature amount for evaluating cognitive functions. A further object of the present invention is to provide a program that causes a computer to function as a cognitive function evaluation device, and a program that implements a cognitive function evaluation method on the computer.
本発明に係る認知機能評価装置は、取得部と特徴抽出部と推定部とを備える。前記取得部は、発話区間における対象者の音声データを取得する。前記特徴抽出部は、発話区間の前記音声データから前記対象者の認知機能を反映する特徴量を抽出する。前記推定部は、前記特徴量の変化に基づいて前記対象者の認知機能を推定する。前記特徴量は、前記音声データの所定の抽出期間における韻律情報を反映した1種類の変量の時系列データで表されている。 The cognitive function evaluation device according to the present invention includes an acquisition unit, a feature extraction unit, and an estimation unit. The acquisition unit acquires the voice data of the target person in the utterance section. The feature extraction unit extracts a feature amount that reflects the cognitive function of the target person from the voice data in the utterance section. The estimation unit estimates the cognitive function of the subject based on the change in the feature amount. The feature amount is represented by one type of variable time series data that reflects prosody information in a predetermined extraction period of the voice data.
本発明に係るプログラムは、コンピュータを認知機能評価装置として機能させるためのプログラムである。 A program according to the present invention is a program for causing a computer to function as a cognitive function evaluation device.
また、本発明に係る別のプログラムは、コンピュータで認知機能評価方法を実現するためのプログラムである。 Another program according to the present invention is a program for realizing a cognitive function evaluation method on a computer.
本発明の構成によれば、認知機能を評価するための特徴量の抽出が容易であるという利点を有する。 According to the configuration of the present invention, there is an advantage that it is easy to extract the feature amount for evaluating the cognitive function.
以下に説明する認知機能評価装置は、人の発話に基づいて認知機能を評価するように構成されている。認知機能の評価は、人の音声に含まれるピッチ周波数とフォルマントとの少なくとも一方を用いて行う。そのため、発話内容を理解することなく人の認知機能を評価することが可能である。 The cognitive function evaluation device described below is configured to evaluate the cognitive function based on the utterance of a person. The cognitive function is evaluated using at least one of the pitch frequency and formant contained in the human voice. Therefore, a person's cognitive function can be evaluated without understanding the utterance content.
図1に示すように、認知機能評価装置10は、対象者の音声データを取得する取得部11を備え、取得部11が取得した音声データから特徴量を抽出する特徴抽出部12を備える。さらに、認知機能評価装置10は、特徴量の変化に基づいて対象者の認知機能を推定する推定部13を備える。対象者は、主として高齢者を想定しているが、若年性アルツハイマー症の疑いがある人でもよい。高齢者は、福祉施設に入居している高齢者、デイサービスセンターを利用する高齢者、独居の高齢者、あるいはサービス付き高齢者向け住宅に居住する高齢者など、主として見守りの必要がある高齢者を想定する。
As shown in FIG. 1, the cognitive
取得部11は、マイクロフォンから入力される対象者の音声信号をデジタルデータである音声データに変換するアナログ−デジタル変換を行う構成、またはデジタルデータに変換された状態で記録されている対象者の音声データが入力される構成が採用される。すなわち、取得部11としては、アナログ信号をデジタル信号に変換する構成と、デジタル信号が入力される構成とのどちらを採用してもよい。ここでは、前者の構成を採用していると仮定する。なお、マイクロフォンは認知機能評価装置10と一体に設けられていてもよい。
The
ところで、人が発話する際には、一般的に、音声が継続的に生じる期間と、音声が休止する期間とが生じる。音声の休止は、特徴抽出部12が、音圧と時間とにより判断する。すなわち、特徴抽出部12は、音声が生じていない状態を音圧に基づいて検出し、この状態が所定の判定時間にわたって継続している場合に音声が休止している無音区間と判定する。判定時間は、たとえば300[ms]以上500[ms]以下程度に設定される。なお、対象者に応じて判定時間を短縮あるいは延長することが可能である。また、特徴抽出部12は、音声が生じている状態を音圧に基づいて検出し、この状態が無音区間を挟まずに継続している場合に音声が継続的に生じている発話区間と判定する。なお、発話区間には、制限時間が設定されていることが望ましい。制限時間は、たとえば15[s]以上30[s]以下程度に設定される。
By the way, when a person speaks, generally, there are a period in which voice is continuously generated and a period in which voice is stopped. The pause of the voice is determined by the
特徴抽出部12は、図2のように、音声データにおける1つの発話区間Tsについて、所定の抽出期間Txごとに求めた変量Vaの時系列データを特徴量とする。変量Vaは、ピッチ周波数とフォルマントとの少なくとも一方から求められる。特徴抽出部12は、ピッチ周波数とフォルマントとを求めるために、短時間の窓関数を用いた短時間フーリエ変換、あるいはウェーブレット変換を行って、音声データのスペクトルを分析する。フォルマントを用いて変量Vaを求める場合、第一フォルマントから第三フォルマントまでの3種類を用いればよいが、2種類以下あるいは4種類以上のフォルマントを用いることも可能である。
As shown in FIG. 2, the
上述したように、特徴抽出部12が求める特徴量は、発話区間Tsでの抽出期間Txごとの韻律情報を反映した1種類の変量Vaの時系列データで表される。すなわち、発話区間Tsに複数の抽出期間Txが含まれ、かつ抽出期間Txごとに求めた変量Vaが音声データの韻律情報を反映するように、抽出期間Txが設定される。抽出期間Txは、たとえば0.5[s]以上2[s]以下程度に設定される。ここでは、抽出期間Txを1[s]に定めている。
As described above, the feature amount obtained by the
ところで、本件の発明者らは、抽出期間Txの長さを適切に定め、抽出期間Txにおけるピッチ周波数またはフォルマントの代表値を適切に定めることによって、正常な対象者と認知機能が低下した対象者との音声を区別できるという知見を得た。すなわち、発話区間Tsにおいて、抽出期間Txのピッチ周波数またはフォルマントの代表値は、正常な対象者の音声では変化が比較的小さく、認知機能が低下した対象者の音声では変化が比較的大きくなるという知見が得られた。 By the way, the inventors of the present invention appropriately determine the length of the extraction period Tx, and appropriately determine the representative value of the pitch frequency or the formant in the extraction period Tx, so that the normal subject and the subject whose cognitive function is deteriorated. We obtained the knowledge that the voices of and can be distinguished. That is, in the utterance period Ts, the change in the pitch frequency or the representative value of the formant in the extraction period Tx is relatively small in the voice of the normal subject and is relatively large in the voice of the subject whose cognitive function is deteriorated. Knowledge was obtained.
いま、特徴量をピッチ周波数から求める場合を想定する。この場合、抽出期間Txにおけるピッチ周波数の代表値は、平均値、中央値、最頻値、最大値、最小値などから選択される。望ましくは、抽出期間Txにおける代表値は、抽出期間Txにおけるピッチ周波数の平均値、中央値、最頻値から選択される。さらに、代表値は、所定範囲の数値で表されるように規格化される。 Now, assume that the feature amount is obtained from the pitch frequency. In this case, the representative value of the pitch frequency in the extraction period Tx is selected from an average value, a median value, a mode value, a maximum value, a minimum value and the like. Desirably, the representative value in the extraction period Tx is selected from the average value, the median value, and the mode value of the pitch frequencies in the extraction period Tx. Further, the representative value is standardized so as to be represented by a numerical value in a predetermined range.
たとえば、ピッチ周波数が500[Hz]である場合を「1」に定めておき、特徴抽出部12は、抽出期間Txにおける代表値が500[Hz]のn倍であるときに、「n」を抽出期間Txの変量Vaに定める。この場合、特徴抽出部12は、抽出期間Txにおける代表値が500[Hz]のn分の1である場合、「−n」を抽出期間Txの変量Vaに定める。この変量Vaは一例であって、たとえば、ピッチ周波数が300[Hz]である場合を「0」に定めておき、特徴抽出部12は、抽出期間Txにおける代表値が300[Hz]×2nであるときに、「n」を抽出期間Txの変量Vaに定めてもよい。いずれにしても、特徴抽出部12は、抽出期間Txにおけるピッチ周波数の代表値を規格化した値を変量Vaとして算出する。
For example, the case where the pitch frequency is 500 [Hz] is set to “1”, and the
特徴抽出部12は、複数のフォルマントから変量Vaを求めることが可能であり、またピッチ周波数とフォルマントとから変量Vaを求めることが可能である。この場合、抽出期間Txについて複数の代表値が求められるから、特徴抽出部12は、複数の代表値を合成した後に、合成値を規格化した値を変量Vaに定める。複数の代表値を合成するにあたっては代表値に応じた重み付けを行うことが望ましい。
The
特徴抽出部12は、発話区間Tsにおいて抽出期間Txごとに変量Vaを求めるから、発話区間Tsにおいて複数個の変量Vaが得られる。この変量Vaの時系列データが特徴量であって、特徴量は、ピッチ周波数とフォルマントとの少なくとも一方に基づいて求めているから、音声データの抽出期間Txにおける韻律情報を反映している。また、変量Vaは1種類の情報に集約されているから、特徴量は1種類の情報の時系列データとして表される。しかも、特徴量は、規格化されているから、実際の音声データに対して所定の範囲内の数値で表される。変量Vaは、たとえば、閉区間[−10,10]を値域とするように規格化される。また、特徴抽出部12は、変量Vaを整数値で表すために、上述のようにして求めた変量Vaを整数値にまるめてもよい。
Since the
特徴抽出部12が求めた特徴量は、認知機能が正常であれば変化が比較的少なく、認知機能が低下すると変化が大きくなるという知見が得られている。そこで、推定部13は、特徴量の変化に基づいて認知機能を推定する。たとえば、1回の発話区間Tsにおいて図3のような特徴量が得られた場合を想定する。図3に示す例では、変量Vaが0以上9以下の範囲で推移しており、変量Vaが0の期間を除いたとしても、変量Vaの差は4程度である。すなわち、この例は特徴量の変化が比較的大きいと言える。
It has been found that the feature amount obtained by the
推定部13は、特徴量の変化を評価するひとつの方法として、発話区間Tsにおける特徴量の最大値と最小値との差(レンジ)の大きさを用いる。図3に示す例では、最大値が9、最小値が0であるから、レンジは9である。推定部13は、特徴量の評価にレンジの大きさを用いる場合、レンジに対する閾値を設定し、レンジが閾値を超えると認知機能の低下と評価すればよい。また、レンジの大きさに基づいて認知機能を複数段階に分類することも可能である。
The
推定部13において特徴量を評価する方法は、上述した例に限らない。たとえば、推定部13が、発話区間Tsにおいて、変量Vaが0である2つの抽出期間Txの間における特徴量が単峰性か否かを評価し、単峰性ではない場合に認知機能が低下していると評価してもよい。つまり、変量Vaが0である2つの抽出期間Txの間で極小になる状態が生じていると認知機能が低下していると評価される。また、この場合、推定部13は、単峰性であっても、レンジの大きさが所定の閾値を超えると認知機能が低下していると評価してもよい。
The method of evaluating the feature amount in the
ところで、推定部13は、特徴量の変化に基づいて認知機能を評価しているから、特徴量の変化を強調するほうが、認知機能の評価が容易になる。そのため、発話区間Tsにおいて抽出期間Txごとに得られる変量Vaの時系列データのうち隣接する所定の複数個の変量Vaを加算した値を一時点のデータとする時系列データで特徴量が表されていてもよい。たとえば、変量Vaの時系列データをV(1)、V(2)、…、V(i)、…で表すとき、D(2)=V(2)+V(1)、…、D(i)=V(i)+V(i−1)、…とした、時系列データD(1)、D(2)、…、D(i)、…を求める。ここに、iは、発話区間Tsにおけるi番目の抽出期間Txを意味する。
By the way, since the
図3に示した特徴量から時系列データD(1)、D(2)、…、D(i)、…を求めると、図4に示す新たな特徴量が得られる。図3と図4とを比較すればわかるように、図4に示す特徴量は、図3に示す特徴量よりも変化が強調されているから、特徴量の変化の評価が容易である。たとえば、図3に示す特徴量のレンジは9であったのに対して、図4に示す特徴量のレンジは15である。また、図4に示す特徴量は、図3に示す特徴量に比べると、変量Vaが0である2つの抽出期間Txの間での勾配が強調されており、変化が生じている。推定部13が閾値を10に設定しているとすれば、図4のような特徴量が得られた場合は、推定部13は対象者の認知機能が低下していると評価する。
When the time series data D(1), D(2),..., D(i),... Are obtained from the feature amount shown in FIG. 3, the new feature amount shown in FIG. 4 is obtained. As can be seen by comparing FIG. 3 with FIG. 4, the change in the feature amount shown in FIG. 4 is emphasized more than the feature amount shown in FIG. 3, and therefore the change in the feature amount can be easily evaluated. For example, the range of the characteristic amount shown in FIG. 3 is 9, whereas the range of the characteristic amount shown in FIG. 4 is 15. Further, in the feature amount shown in FIG. 4, compared with the feature amount shown in FIG. 3, the gradient between the two extraction periods Tx in which the variable amount Va is 0 is emphasized, and a change occurs. Assuming that the
上述した構成例では、1回の発話区間Tsの音声データに基づいて認知機能が正常か否かを判断している。この構成に対して、推定部13が、複数回の発話区間Tsの音声データから得られる特徴量を比較することによって、対象者の認知機能が正常か否かを判断する構成を採用してもよい。すなわち、認知機能評価装置10は、図5に示すように、複数回の発話区間Tsにおける特徴量を記憶する記憶部14を備える。認知機能評価装置10は、音声データを、原則として毎日取得することが望ましい。もちろん、認知機能評価装置10が音声データを取得する頻度は、1週間に1回程度でもよく、また1日に複数回であってもよい。
In the above-described configuration example, whether or not the cognitive function is normal is determined based on the voice data of one utterance section Ts. In contrast to this configuration, the
記憶部14には、上述したように、複数の発話区間Tsの音声データからそれぞれ求めた複数の特徴量が記憶される。推定部13は、記憶部14に格納された複数の特徴量について類似の程度を評価し、特徴量の類似の程度に基づいて対象者の認知機能を評価する。この場合、対象者の認知機能が正常であるときの特徴量が記憶部14に保存されていることが望ましい。対象者の認知機能が正常であるときの特徴量が記憶部14に保存されていれば、推定部13は、発話区間Tsごとに得られた特徴量と正常時の特徴量との類似性を評価することにより、対象者の認知機能の変化を推定することが可能である。
As described above, the
推定部13は、類似性の評価に、たとえば特徴量における変量Vaの平均値の差分を用い、差分が所定の閾値を超えると認知機能が低下している可能性があると判断する。特徴量の類似性の評価によって、認知機能の低下が疑われる場合、さらに特徴量の変化を用いて、認知機能が低下しているか否かを評価すればよい。
The
上述した認知機能評価装置10は、プログラムに従って動作するプロセッサを備える。すなわち、認知機能評価装置10は、主要なハードウェア要素としてコンピュータを備える。この種のプロセッサは、メモリを別に必要とするMPU(Micro-Processing Unit)、単一のデバイスにメモリを備えるマイコン(Microcontroller)などから選択される。認知機能評価装置10は、対象者が管理する端末装置で構成することが可能であるが、図1、図5に示しているように、対象者が管理する端末装置21は音声を入力するための装置として用い、認知機能評価装置10は、この端末装置21と通信するコンピュータサーバ100で構成されることが望ましい。コンピュータサーバ100は、1台のコンピュータで構成されるほか、コンピュータネットワークを通して通信する複数台のコンピュータが連携して、ユーザからは1台のコンピュータのように振る舞う構成であってもよい。また、コンピュータサーバ100は、クラウドコンピューティングシステムとして構築されていてもよい。
The cognitive
プログラムは、メモリのうちのROM(Read Only Memory)に格納された状態で提供されるほか、コンピュータで読取可能な光ディスク、外部記憶装置、メモリカードなどの記録媒体で提供することも可能である。また、インターネットのような電気通信回線を通してプログラムが提供されてもよい。記憶媒体または電気通信回線を通して提供されるプログラムは、書換可能な不揮発性のメモリに格納される。 The program may be provided in a state of being stored in a ROM (Read Only Memory) of the memory, or may be provided in a computer-readable recording medium such as an optical disk, an external storage device, or a memory card. Further, the program may be provided through a telecommunication line such as the Internet. The program provided through the storage medium or the electric communication line is stored in a rewritable nonvolatile memory.
対象者が管理する端末装置21は、スマートフォン、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータなどから選択される。以下では、対象者がスマートフォンを携行している場合を想定する。認知機能評価装置10は、インターネットのような電気通信回線を通してスマートフォンと通信するコンピュータサーバ100において実現される。また、認知機能評価装置10を利用するために、スマートフォンにおいてアプリケーションプログラム(いわゆる、「アプリ」)を実行する構成例を想定する。
The
この構成例では、アプリが起動されているスマートフォンにおいて、対象者が音声を入力すると、コンピュータサーバ100で実現されている認知機能評価装置10に音声データが引き渡される。スマートフォンに入力される音声は、認知機能の評価のために特定の文章を読み上げるような音声よりも会話時の自然な音声であることが望ましい。したがって、スマートフォンに入力される音声は、通話を行う際の音声、あるいは音声による自然言語でウェブサービスを利用する際の音声などを用いることが望ましい。
In this configuration example, when the subject inputs a voice on the smartphone in which the application is activated, the voice data is handed over to the cognitive
対象者の認知機能の評価結果は、対象者の認知機能が正常であれば対象者に通知してもよいが、対象者の認知機能が軽度認知障害とみなされる程度まで低下している場合には、認知機能の低下に対応可能な第三者に通知することが望ましい。ここでは、認知機能が軽度認知障害とみなされる程度に低下した場合に、認知機能が認知障害の範囲であるとみなす。また、以下では、認知機能が軽度認知障害である程度を「予兆レベル」という。 The evaluation result of the cognitive function of the subject may be notified to the subject if the cognitive function of the subject is normal, but if the cognitive function of the subject has declined to the extent that it is considered to be mild cognitive impairment. Should inform a third party who can respond to a decline in cognitive function. Here, the cognitive function is considered to be within the range of cognitive impairment when the cognitive function is reduced to the extent that it is considered to be mild cognitive impairment. Further, in the following, the degree to which the cognitive function is mild cognitive impairment is referred to as a “sign level”.
そのため、図1、図5に示しているように、認知機能評価装置10は、対象者の認知機能が予兆レベルまで低下していると推定部13が評価したときに、第三者が管理する他装置22に通知する通知部15を備えることが望ましい。他装置22は、たとえば対象者の家族が管理する端末装置、対象者のかかりつけの医師、介護士などが管理する端末装置である。この端末装置は、たとえば、スマートフォン、タブレット端末、パーソナルコンピュータなどから選択される。
Therefore, as shown in FIGS. 1 and 5, the cognitive
このように、認知機能評価装置10が対象者の認知機能を評価した結果、対象者の認知機能が予兆レベルまで低下していると推定される場合、通知部15を通して第三者に通知することが可能である。対象者の認知機能が予兆レベルまで低下していることを第三者に通知することにより、対象者に認知障害が生じているか否かを早期に診断すること、あるいは認知障害の早期の治療を行うことなどにつながる。
In this way, when the cognitive
上述した構成例では、対象者が端末装置21を利用することを前提にしているが、対象者の認知機能が低下している場合、端末装置21を扱うことができない可能性がある。そこで、認知機能評価装置10は、対話機能を有したコミュニケーションロボットから音声データを取得してもよい。一般に、コミュニケーションロボットは、人との対話を模擬する機能を有するか、他の人との対話を仲介する機能を有している。そのため、認知機能評価装置10は、コミュニケーションロボットと連携すれば、対象者の音声データを取得することが可能である。
In the configuration example described above, it is premised that the target person uses the
この構成例を図6に示す。基本的な構成は、図1、図5に示した構成例と同様であり、端末装置21に代えてコミュニケーションロボット23を用いている。コミュニケーションロボット23は、マイクロフォン231およびスピーカ232を備え、会話の内容に応じて外観を変化させる構成を備えている。外観を変化させるとは、形態、動き、光、色などを変化させることを意味する。また、コミュニケーションロボット23は、単体で対象者との対話を行うことを可能にする制御装置230を備える。さらに、コミュニケーションロボット23は、インターネットのような電気通信回線を通してコンピュータサーバ100と通信する通信部233を備えている。すなわち、コミュニケーションロボット23は、制御装置230が取得した情報だけではなく、通信部233を通してコンピュータサーバ100から取得した情報を併用して対象者との対話を行う。
An example of this configuration is shown in FIG. The basic configuration is the same as the configuration example shown in FIGS. 1 and 5, and a
このようにコミュニケーションロボット23が対象者と対話することにより、コンピュータサーバ100は、対象者の音声データを取得することが可能である。したがって、コンピュータサーバ100で認知機能評価装置10が実現されていれば、認知機能評価装置10は、コミュニケーションロボット23を通して取得した音声データに基づいて、対象者の認知機能を評価することが可能になる。
By the
なお、コミュニケーションロボット23は、対象者と一対一に対応していない場合があるから、コミュニケーションロボット23から受け取った音声データを用いて対象者の認知機能を評価する場合には、発話した対象者を特定する必要がある。そのため、図6に示す認知機能評価装置10は、対象者を特定する認証部16を備えている。認証部16は、音声データから取り出した声紋の情報によって対象者を特定する構成を想定している。ただし、コミュニケーションロボット23が対象者を撮影するカメラを備え、かつカメラが撮影した画像のデータを認知機能評価装置10が取得する場合には、認証部16は、画像のデータに基づく顔認証を行う構成であってもよい。
Since the
上述した構成例の認知機能評価装置10は、取得部11と特徴抽出部12と推定部13とを備える。取得部11は、発話区間Tsにおける対象者の音声データを取得する。特徴抽出部12は、発話区間Tsの音声データから対象者の認知機能を反映する特徴量を抽出する。推定部13は、特徴量の変化に基づいて対象者の認知機能を推定する。特徴量は、音声データの所定の抽出期間Txにおける韻律情報を反映した1種類の変量の時系列データで表されている。
The cognitive
この構成によれば、発話区間Tsにおいて抽出期間Txごとに韻律情報を反映した1種類の変量を抽出し、この変量の時系列データを特徴量とするから、特徴量の抽出が容易である。また、特徴量が1種類の変量Vaで表されているから、認知機能の評価を容易に行うことが可能である。 According to this configuration, one kind of variable reflecting the prosody information is extracted for each extraction period Tx in the utterance section Ts, and the time-series data of this variable is used as the characteristic amount, so that the characteristic amount can be easily extracted. Further, since the feature amount is represented by one type of variable Va, it is possible to easily evaluate the cognitive function.
推定部13は、特徴量の最大値と最小値との差分と、特徴量における変量Vaの時間変化との少なくとも一方に基づいて対象者の認知機能を評価することが望ましい。
It is desirable that the
この構成によれば、推定部13は特徴量を用いて複雑な計算を行うことなく対象者の認知機能を評価することができる。
With this configuration, the
変量Vaは、音声データから抽出期間Txごとに抽出されるピッチ周波数を所定範囲の数値で表していることが望ましい。また、変量Vaは、音声データから抽出期間Txごとに抽出される所定の複数個のフォルマントを合成した値を所定範囲の数値で表してもよい。あるいは、変量Vaは、音声データから抽出期間Txごとに抽出されるピッチ周波数と音声データから抽出期間Txごとに抽出される所定の複数個のフォルマントとを合成した値を所定範囲の数値で表すこともできる。 It is desirable that the variable Va represents the pitch frequency extracted from the voice data for each extraction period Tx, as a numerical value within a predetermined range. In addition, the variable Va may be represented by a value in a predetermined range, which is a value obtained by combining a plurality of predetermined formants extracted from the voice data for each extraction period Tx. Alternatively, the variable Va represents a value obtained by combining a pitch frequency extracted from the voice data in each extraction period Tx and a plurality of predetermined formants extracted from the voice data in each extraction period Tx, with a numerical value in a predetermined range. Can also
すなわち、変量Vaは、音声データから求められるピッチ周波数とフォルマントとの少なくとも一方から求められる。したがって、変量Vaは音声データの韻律を反映した情報であり、しかも1種類の変量Vaで表される。また、変量Vaは所定範囲の数値で表されるように規格化されるから、個人差の影響を抑制して客観的な評価が可能である。 That is, the variable Va is obtained from at least one of the pitch frequency and formant obtained from the voice data. Therefore, the variable Va is information that reflects the prosody of the voice data, and is represented by one type of variable Va. In addition, since the variable Va is standardized so as to be represented by a numerical value within a predetermined range, it is possible to suppress the influence of individual differences and perform an objective evaluation.
特徴量は、変量Vaの時系列データのうち隣接する所定の複数個の変量Vaを加算した値を一時点のデータとする時系列データで表されていることが望ましい。 The characteristic amount is preferably represented by time-series data in which a value obtained by adding a plurality of adjacent predetermined variable amounts Va among the time-series data of the variable Va is used as data at a temporary point.
たとえば、変量Vaの時系列データにおいて隣接する2個の変量Vaを加算した値を時間軸に沿って並べた時系列データを特徴量に用いると変量Vaの変化が強調される。したがって、推定部13は、特徴量の変化を評価しやすくなり、認知機能の評価の精度を高めることが可能である。
For example, when the time series data in which two adjacent variables Va are added in the time series data of the variable Va are arranged along the time axis as the feature amount, the change of the variable Va is emphasized. Therefore, the
また、認知機能評価装置10は、複数回の発話区間Tsにおける特徴量を記憶する記憶部14を備えていることが望ましい。この場合、推定部13は、記憶部14が記憶している複数回の発話区間Tsにおける特徴量の類似の程度を評価し、類似の程度に応じて対象者の認知機能を推定することが望ましい。
Further, it is desirable that the cognitive
この構成によれば、複数回の発話区間Tsにおいて初期の発話区間Tsが正常時の発話区間Tsであるとすれば、複数回の発話区間Tsでの特徴量の類似の程度が低下した場合に、対象者の認知機能が低下したと推定することが可能である。この構成では、対象者の音声の個人差の影響を抑制して対象者の認知機能を評価することが可能である。 According to this configuration, assuming that the initial utterance section Ts is the normal utterance section Ts in the plurality of utterance sections Ts, when the degree of similarity of the feature amounts in the plurality of utterance sections Ts decreases. It is possible to estimate that the cognitive function of the subject has deteriorated. With this configuration, it is possible to evaluate the cognitive function of the subject while suppressing the influence of individual differences in the voice of the subject.
認知機能評価装置10において、推定部13が対象者の認知機能について認知障害の範囲と推定した場合に、他装置22に通知する通知部15をさらに備えることが望ましい。
It is preferable that the cognitive
この構成によれば、認知機能が認知障害の範囲と推定される程度まで低下すると、他装置22に通知されるから、第三者から対象者に、検査あるいは治療を受けさせるように促すことが可能になる。
According to this configuration, when the cognitive function declines to the extent that it is estimated to be within the range of cognitive impairment, the
この構成例における認知機能評価方法は、発話区間Tsにおける対象者の音声データから所定の抽出期間Txごとに特徴量を抽出するステップと、特徴量の変化に基づいて対象者の認知機能を推定するステップとを備える。特徴量は、音声データの所定の抽出期間Txにおける韻律情報を反映した1種類の変量の時系列データで表されている。 In the cognitive function evaluation method in this configuration example, a step of extracting a feature amount from the voice data of the subject in the utterance section Ts for each predetermined extraction period Tx, and estimating the cognitive function of the subject based on the change in the feature amount. And steps. The feature amount is represented by one type of variable time series data that reflects prosody information in a predetermined extraction period Tx of voice data.
この方法によれば、特徴量が1種類の変量Vaで表されているから、認知機能の評価を容易に行うことが可能である。 According to this method, since the feature amount is represented by one type of variable Va, it is possible to easily evaluate the cognitive function.
この構成例におけるプログラムは、コンピュータを認知機能評価装置10として機能させるためのプログラムである。あるいは、この構成例におけるプログラムは、コンピュータで認知機能評価方法を実現するためのプログラムである。
The program in this configuration example is a program for causing a computer to function as the cognitive
なお、上述した実施形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることはもちろんのことである。 The above-described embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and other than this embodiment, as long as it does not deviate from the technical idea of the present invention, various types according to the design etc. Of course, it can be changed.
10 認知機能評価装置
11 取得部
12 特徴抽出部
13 推定部
14 記憶部
15 通知部
22 他装置
Ts 発話区間
Tx 抽出期間
Va 変量
10 cognitive
Claims (10)
発話区間の前記音声データから前記対象者の認知機能を反映する特徴量を抽出する特徴抽出部と、
前記特徴量の変化に基づいて前記対象者の認知機能を推定する推定部とを備え、
前記特徴量は、前記音声データの所定の抽出期間における韻律情報を反映した1種類の変量の時系列データで表されている
ことを特徴とする認知機能評価装置。 An acquisition unit that acquires the voice data of the target person in the utterance section,
A feature extraction unit that extracts a feature amount that reflects the cognitive function of the subject from the voice data in the utterance section;
An estimation unit that estimates the cognitive function of the subject based on the change in the feature amount,
The cognitive function evaluation apparatus is characterized in that the feature amount is represented by one type of variable time series data that reflects prosody information in a predetermined extraction period of the voice data.
請求項1記載の認知機能評価装置。 The cognitive function according to claim 1, wherein the estimating unit evaluates the cognitive function of the subject based on at least one of a difference between the maximum value and the minimum value of the feature amount and a temporal change of the variable amount in the feature amount. Functional evaluation device.
請求項1又は2記載の認知機能評価装置。 The cognitive function evaluation device according to claim 1 or 2, wherein the variable represents a pitch frequency extracted from the voice data for each extraction period by a numerical value in a predetermined range.
請求項1又は2記載の認知機能評価装置。 The cognitive function evaluation apparatus according to claim 1, wherein the variable represents a value obtained by combining a plurality of predetermined formants extracted from the voice data for each extraction period, with a numerical value in a predetermined range.
請求項1又は2記載の認知機能評価装置。 The variable is a value obtained by synthesizing a pitch frequency extracted from the voice data for each extraction period and a plurality of predetermined formants extracted from the voice data for each extraction period as a numerical value in a predetermined range. The cognitive function evaluation device according to claim 1 or 2.
請求項3〜5のいずれか1項に記載の認知機能評価装置。 The feature quantity is represented by time-series data in which a value obtained by adding a plurality of adjacent predetermined variables among the time-series data of the variables is data of a temporary point. The cognitive function evaluation device described in 1.
前記複数回の発話区間における前記特徴量を記憶する記憶部をさらに備え、
前記推定部は、
前記記憶部が記憶している前記複数回の発話区間における前記特徴量の類似の程度を評価し、前記類似の程度に応じて前記対象者の認知機能を推定する
請求項1〜6のいずれか1項に記載の認知機能評価装置。 There are multiple utterance sections,
Further comprising a storage unit that stores the feature amount in the plurality of utterance intervals,
The estimation unit is
7. The cognitive function of the subject is estimated according to the degree of similarity of the feature amounts in the plurality of utterance sections stored in the storage unit, and the degree of similarity is estimated. The cognitive function evaluation device according to item 1.
請求項1〜7のいずれか1項に記載の認知機能評価装置。 The cognitive function evaluation device according to claim 1, further comprising a notification unit that notifies another device when the estimation unit estimates the cognitive function of the target person as a range of cognitive impairment.
前記認知機能評価装置は、 The cognitive function evaluation device,
発話区間における対象者の音声データから所定の抽出期間ごとに特徴量を抽出する特徴抽出部と、 A feature extraction unit that extracts a feature amount for each predetermined extraction period from the voice data of the target person in the utterance section,
前記特徴量の変化に基づいて前記対象者の認知機能を推定する推定部とを備え、 An estimation unit that estimates the cognitive function of the subject based on the change in the feature amount,
前記特徴量は、前記音声データの所定の抽出期間における韻律情報を反映した1種類の変量の時系列データで表されている The feature amount is represented by one type of variable time series data that reflects prosody information in a predetermined extraction period of the voice data.
ことを特徴とするプログラム。 A program characterized by that.
前記認知機能評価方法は、 The cognitive function evaluation method,
発話区間における対象者の音声データから所定の抽出期間ごとに特徴量を抽出するステップと、 A step of extracting a feature amount for each predetermined extraction period from the voice data of the target person in the utterance section,
前記特徴量の変化に基づいて前記対象者の認知機能を推定するステップとを備え、 Estimating the cognitive function of the subject based on the change in the feature amount,
前記特徴量は、前記音声データの所定の抽出期間における韻律情報を反映した1種類の変量の時系列データで表されている The feature amount is represented by one type of variable time series data that reflects prosody information in a predetermined extraction period of the voice data.
ことを特徴とするプログラム。 A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016036269A JP6731631B2 (en) | 2016-02-26 | 2016-02-26 | Cognitive function evaluation device, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016036269A JP6731631B2 (en) | 2016-02-26 | 2016-02-26 | Cognitive function evaluation device, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017148431A JP2017148431A (en) | 2017-08-31 |
JP6731631B2 true JP6731631B2 (en) | 2020-07-29 |
Family
ID=59739349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016036269A Active JP6731631B2 (en) | 2016-02-26 | 2016-02-26 | Cognitive function evaluation device, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6731631B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6748965B2 (en) * | 2016-09-27 | 2020-09-02 | パナソニックIpマネジメント株式会社 | Cognitive function evaluation device, cognitive function evaluation method, and program |
JP6268628B1 (en) | 2017-11-02 | 2018-01-31 | パナソニックIpマネジメント株式会社 | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program |
JP6337362B1 (en) | 2017-11-02 | 2018-06-06 | パナソニックIpマネジメント株式会社 | Cognitive function evaluation apparatus and cognitive function evaluation system |
JP7117491B2 (en) * | 2018-03-09 | 2022-08-15 | パナソニックIpマネジメント株式会社 | Cognitive function evaluation system and program |
US20210000411A1 (en) * | 2018-03-29 | 2021-01-07 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and recording medium |
JP7174589B2 (en) * | 2018-10-10 | 2022-11-17 | 大和ハウス工業株式会社 | Health status determination system |
CN111210838B (en) * | 2019-12-05 | 2023-09-15 | 中国船舶工业综合技术经济研究院 | Evaluation method for speech cognition |
JP6712028B1 (en) * | 2020-01-09 | 2020-06-17 | 株式会社エクサウィザーズ | Cognitive function determination device, cognitive function determination system and computer program |
KR20240027914A (en) * | 2022-08-23 | 2024-03-05 | 한국전기연구원 | Cognitive ability assessment device, mobile terminal and utterance acquisition device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4876207B2 (en) * | 2010-06-11 | 2012-02-15 | 国立大学法人 名古屋工業大学 | Cognitive impairment risk calculation device, cognitive impairment risk calculation system, and program |
JP2012010955A (en) * | 2010-06-30 | 2012-01-19 | Terumo Corp | Health condition monitoring device |
CA2720892A1 (en) * | 2010-11-12 | 2012-05-12 | The Regents Of The University Of California | Enhancing cognition in the presence of distraction and/or interruption |
WO2016028495A1 (en) * | 2014-08-22 | 2016-02-25 | Sri International | Systems for speech-based assessment of a patient's state-of-mind |
-
2016
- 2016-02-26 JP JP2016036269A patent/JP6731631B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017148431A (en) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6731631B2 (en) | Cognitive function evaluation device, program | |
JP7353592B2 (en) | Regular verbal screening for heart disease | |
JP5930432B2 (en) | Identify people near the user of the mobile device through social graphs, conversation models, and user context | |
Adeel et al. | Lip-reading driven deep learning approach for speech enhancement | |
Frid et al. | Computational diagnosis of Parkinson's disease directly from natural speech using machine learning techniques | |
JP6268717B2 (en) | State estimation device, state estimation method, and computer program for state estimation | |
JP6604113B2 (en) | Eating and drinking behavior detection device, eating and drinking behavior detection method, and eating and drinking behavior detection computer program | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
JP2005275410A (en) | Separation of speech signal using neutral network | |
JP6268628B1 (en) | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program | |
JP6748965B2 (en) | Cognitive function evaluation device, cognitive function evaluation method, and program | |
JP6695057B2 (en) | Cognitive function evaluation device, cognitive function evaluation method, and program | |
Ferdous et al. | Investigating correlation between verbal interactions and perceived stress | |
Usman et al. | Heart rate detection and classification from speech spectral features using machine learning | |
Jiao et al. | Online speaking rate estimation using recurrent neural networks | |
JP6268916B2 (en) | Abnormal conversation detection apparatus, abnormal conversation detection method, and abnormal conversation detection computer program | |
KR20180105716A (en) | Estimation method, estimation program, estimation device and estimation system | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
JP4631464B2 (en) | Physical condition determination device and program thereof | |
JP4775961B2 (en) | Pronunciation estimation method using video | |
Saudi et al. | Computer aided recognition of vocal folds disorders by means of RASTA-PLP | |
JP2006230446A (en) | Health-condition estimating equipment | |
JP6515899B2 (en) | Voice interactive apparatus and control method thereof | |
WO2021200189A1 (en) | Information processing device, information processing method, and program | |
WO2021132289A1 (en) | Pathological condition analysis system, pathological condition analysis device, pathological condition analysis method, and pathological condition analysis program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20170124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200619 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6731631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |