JP2007003835A

JP2007003835A - 疲労状態推定方法、疲労状態推定装置及びそのプログラム

Info

Publication number: JP2007003835A
Application number: JP2005183988A
Authority: JP
Inventors: Kota Hidaka; 浩太日高
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-23
Filing date: 2005-06-23
Publication date: 2007-01-11

Abstract

【課題】実時間で簡便に疲労状態を推定可能にする。
【解決手段】学習音声に基づき予め被検者の疲労状態での音声特徴量ベクトルの出現確率、及び非疲労状態での音声特徴量ベクトルの出現確率を音声特徴量ベクトルに対応付けた符号帳110CBを作成しておき、検査時に、被検者の入力音声に含まれる音声特徴量を抽出し、抽出した音声特徴量に基づいて符号帳の対応する音声特徴量ベクトルを判定し、判定した音声特徴量ベクトルに対応する疲労状態での音声特徴量ベクトルの出現確率と、非疲労状態での音声特徴量ベクトルの出現確率を取得し、得られた疲労状態及び非疲労状態での音声特徴量ベクトルの出現確率から疲労状態尤度及び非疲労状態尤度を算出し、疲労状態尤度と非疲労状態尤度に基づいて入力音声の各音声部分で話者が疲労状態にあったか否かを推定し、推定結果を表出する。
【選択図】図１

Description

本発明は、話者の音声を分析し、分析結果に基づいて話者の疲労状態を推定する方法、装置及びそのプログラムに関する。

細かい部品の手作業による組み立て、目視による品質検査、車両の運転などにおいて、作業者、検査者、運転者が疲労すると、不良品の増加、事故発生などの原因となり得る。特に車両の運転手の身体的疲労は運転時の反射動作を遅くし、事故を起こす可能性を高くする。従って、定期的又は不定期的に疲労の程度を自分で、又は管理者が簡便に検査でき、疲労度が非常に高い場合は、被検者又は管理者に警告を出すことができれば、都合がよい。あるいは、家庭における日常生活においても、疲労度を簡便に検査できれば、健康の管理に役に立つ。

疲労度を評価する従来の方法及び装置として、予め設定された作業時間にわたり特定の作業を行い、その作業時間の前後でその作業者の反応を試験測定することにより、作業者の疲労度を評価する方法及び装置が知られている。例えば特許文献１では、モニタ画面上の単純な波形が移動して消滅することを繰り返す映像を被験者に観察させ、その繰り返しごとに、その図形が１回目の図形と一致しているかを判別させ、その正解率で疲労度を判定している。
特開２００４−２６７３３９号公報。「音響・音声工学」、古井貞煕、近代科学社、１９９２。「音声符号化」、守谷健弘、電子情報通信学会、１９９８。「ディジタル音声処理」、古井貞煕、東海大学出版会、１９８５。「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」、嵯峨山茂樹、博士論文、１９９８。 Y.Linde, A.Buzo and R.M.Gray, "An algorithm for vector Quantizer design", IEEE Trans. Commun., vol. Com-288, pp.84-95, 1980 。

しかしながら、上述のような従来の評価方法では、例えば、車両を運転している途中で、運転者の疲労状態を測定することは容易でない。即ち、本来の仕事を行いながら疲労状態の測定を行うことはできないという問題があった。
この発明は、そのような問題を解決するためになされたものであり、作業しながらでも簡便に疲労状態の推定が可能な疲労状態推定方法、装置及びそのプログラムを提供することである。

この発明による疲労度推定方法及び装置は、
話者の音声からフレームごとに複数の音声特徴量の組を抽出し、
予め複数の疲労レベルに分類され、分類された複数の疲労レベルのそれぞれにおける音声特徴量ベクトルの出現確率が格納された符号帳を用い、上記音声特徴量の組から対応する音声特徴量ベクトルと、その音声特徴量ベクトルの各疲労レベルにおける出現確率を得て、
１フレーム以上の与えられた判定区間にわたる上記疲労状態と非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度と非疲労状態となる尤度をそれぞれ算出し、
上記疲労状態となる尤度と上記非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定し、
推定した疲労状態を表出する。

本発明は、被検者の音声から音声特徴量を抽出し、その音声特徴量に基づいて被検者の疲労状態を判定するため、被検者は音声を入力するだけでよく、仕事を行いながらでも実時間で簡便に疲労状態を推定することができる。

以下、本発明の実施の形態について、図面を用いて説明する。
図１は、本発明の実施の形態に係る疲労状態推定装置の機能構成を示すブロック図である。この実施例の疲労状態推定装置１００は、記憶手段１１０と、音声特徴量抽出手段１２０と、音声特徴量ベクトル判定手段１３０と、出現確率取得手段１４０と、尤度算出手段１５０と、疲労状態推定手段１６０と、推定結果表出手段１７０とから構成されている。例えばこの疲労状態推定装置１００がタクシーの運転席の近くに設置され、運転手が基地局との交信時に使用するマイクロホンにより集音された音声信号がこの装置１００に入力される。あるいは、この発明の装置がオフィスの電話機と隣接又は電話機内に設置され、電話機の送話用マイクロホンから音声信号を取り出し、この発明の装置１００に入力する。もちろん、この発明の疲労状態推定装置１００内にマイクロホンを設けて、そのマイクロホンで集音した音声信号を使用してもよい。あるいは、この発明の疲労状態推定装置を被検者とは離れた例えば管理者室に設け、無線回線、電話回線あるいはインターネット電話回線を通して被検者からの音声信号を受信して疲労状態推定装置１００に入力し、被検者の疲労状態を管理者が遠隔地で監視するようにしてもよい。

記憶手段１１０には符号帳110CBが格納されている。符号帳110CBは学習音声を用いて予め生成された符号帳であって、被検者から疲労状態及び非疲労状態で収集した音声に含まれる予め決めた音声特徴量の組のすべてから周知のアルゴリズムで予め決めた数のベクトルに量子化した音声特徴量ベクトル（量子化音声特徴量ベクトル又は代表音声特徴量ベクトルとも呼ばれる）と、それらの各音声特徴量ベクトルの疲労状態及び非疲労状態における音声特徴量ベクトルの出現確率とが各コードに対応して格納されている。
音声特徴量抽出手段１２０はバッファ１２０Ａと音声分析手段１２０Ｂを有しており、入力音声信号を一定長（フレーム長）ごとに区切られて番号が付加されてバッファ１２０Ａに順次格納される。バッファ１２０Ａの容量は音声の所定フレーム数分を必要とし、満杯になった後は最も古いフレームが破棄され、最新のフレームの音声信号が取り込まれる。音声分析手段１２０Ｂは、バッファ１２０Ａ内の所定番目のフレームを分析対象の現フレームとしてそのフレームの予め決めた種類の音声特徴量の組を抽出する。予め決めた種類の音声特徴量としては、少なくとも基本周波数（又はピッチ周期）、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む。

音声特徴量ベクトル判定手段１３０は、音声特徴量抽出手段１２０が抽出した音声特徴量の組に対し、符号帳110CB中の最も近い音声特徴量ベクトルを探索し、そのベクトルであると判定する。出現確率取得手段１４０は、判定された音声特徴量ベクトルに対応する疲労状態及び非疲労状態での出現確率をそれぞれ符号帳110CBから読み取る。
尤度算出手段１５０は、与えられた判定区間、例えば入力音声の音声小段落区間に渡ってフレームごとに順次抽出した音声特徴量の組に対してこの符号帳110CBから読み取られた音声特徴量ベクトルに対応する疲労状態及び非疲労状態での出現確率に基づいて、疲労状態及び非疲労状態となる尤度をそれぞれ算出する。判定区間より十分長い検査期間、例えば数分から数１０分、にわたって順次算出された疲労状態及び非疲労状態となる尤度を蓄積する。検査期間は予め決めた一定長でもよいし、音声から検出される音声段落区間であってもよい。

疲労状態推定手段１６０は、検査期間にわたって蓄積された判定区間毎の疲労状態となる尤度と非疲労状態となる尤度に基づいて被検者が疲労状態か否かを判定し、その検査期間にわたる判定結果から、被検者が疲労状態か否かを推定する。さらに、疲労状態と推定された場合はその疲労のレベルが予め決めた複数の段階的レベル（例えば軽度、中度、重度）のどれに属するかを判定する。
推定結果表出手段１７０は、疲労状態推定手段１６０により推定された被検者の疲労状態を表示するか例えば合成音声で被検者あるいは管理者に対し表出する。推定結果表出手段１７０を表示器で構成する場合は、過去のデータと対比して表示してもよい。

図２は、疲労状態推定装置１００の具体的構成の一例を示す図である。図２に示すように、話者の音声を収集する入力部１１６と、音声処理方法に基づいて話者の音声を処理するＣＰＵ(Central Processing Unit)１１１と、制御用のパラメータを記憶するＲＯＭ(Read Only Memory)１１２と、ＣＰＵ１１１の動作中にその動作に必要とするプログラムやデータ等を記憶するＲＡＭ(Random Access Memory)１１３と、アプリケーションソフトや所定データを不揮発かつ書き換え可能に記憶するEEPROM(Electrically Erasable Programmable Memory)１１４と、液晶画面などのモニタ画面を有し、処理経過、疲労状態推定結果、その他の情報を必要に応じて表示する表示部１１５とによって実現される。

図１における音声特徴量抽出手段１２０、音声特徴量ベクトル判定手段１３０、出現確率取得手段１４０、尤度算出手段１５０、疲労状態推定手段１６０の機能は、それぞれの機能を実施するプログラムをＣＰＵ１１１により実行することにより実現される。それらのプログラムはEEPROM１１４に格納されており、実行時には必要なプログラムがＲＡＭ１１３に読み込まれ、ＣＰＵ１１１により実行される。EEPROM１１４にはその他、後述する符号帳が格納されており、また、前述の入力音声信号が一時的に取り込まれるバッファとしても機能し、更に必要に応じて、得られた推定疲労状態のデータを格納する。

ＲＯＭ１１２にはＣＰＵ１１１を立ち上げるためのプログラム、その他のプログラム及び制御用のパラメータ等を記憶する。ＲＡＭ１１３にはＣＰＵ１１１の動作中に必要とするプログラムやデータ等が記憶される。
以下、本発明の実施の形態に係る疲労状態推定装置１００の動作について説明する。図３は、本発明の実施の形態に係る疲労状態推定装置１００の動作を説明するためのフローチャートである。
まず、学習音声を用いて生成された符号帳であって、学習音声に含まれる所定の音声特徴量の組（パラメータの組）である音声特徴量ベクトルの各値が疲労状態及び非疲労状態でそれぞれ出現する出現確率をその音声特徴量ベクトルに対応して保持する符号帳が予め作成され、図１の記憶手段１１０に格納される（ステップＳ３１０）。符号帳作成の詳細とともに後述するが、音声特徴量ベクトルは、特許文献２に開示されているような音声のフレームごとに検出する少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分のいずれか１つ以上のパラメータの組を含むベクトルである。

次に、音声特徴量抽出手段１２０のバッファ１２０Ａに話者の音声が取り込まれ、音声分析手段１２０Ｂによりその取り込まれた入力音声から予め決めた複数種類の音声特徴量の組（音声特徴量ベクトル）を抽出する（ステップＳ３２０）。
抽出した音声特徴量ベクトルに最も近い音声特徴量ベクトルが符号帳から音声特徴量ベクトル判別手段１３０により判別され（ステップＳ３３０）、出現確率取得手段１４０によりこの判別した音声特徴量ベクトルの、疲労状態及び非疲労状態での出現確率をそれぞれ符号帳110CBから読み出し（ステップＳ３４０）、これらステップＳ３２０，Ｓ３３０，Ｓ３４０を判定区間（例えば音声小段落区間又は一定区間）にわたって繰り返す。得られたこれらの出現確率に基づいて尤度算出手段１５０により、疲労状態となる尤度及び非疲労状態となる尤度を算出し、蓄積する（ステップＳ３５０）。

ステップＳ３６０で検査期間が終了したか判定し、終了してなければステップＳ３２０〜Ｓ３５０を再度実行する。検査期間が終了したならば、ステップＳ３７０に移り、まず、ステップＳ３５０で算出した疲労状態及び非疲労状態となる尤度に基づいて、判定区間ごとに話者の疲労状態が疲労状態推定手段１６０によって推定される。疲労の状態の判定は、各判定区間の疲労状態と非疲労状態の尤度比を閾値と比較し、それより大きければ疲労状態と判定し、そうでなければ非疲労状態と判定する。
次に、検査期間内の疲労状態の推定を行う。この推定は、検査期間内で疲労状態と判定された判定区間の尤度比の総和と、非疲労状態と判定された判定区間の尤度比の総和を比較し、前者が大きければ疲労状態と推定し、そうでなければ非疲労状態と推定する。あるいは前記総和をその検査期間の全判定区間数（又は全フレーム数）で割り算した値（以下これを疲労レベルと呼ぶことにする）を予め決めた状態推定閾値と比較し、それより大きければ疲労状態と推定し、そうでなければ非疲労状態と推定してもよい。上述において、疲労状態と非疲労状態の尤度比の代わりに尤度差を使用してもよい。

検査期間が疲労状態と推定された場合は、前記疲労レベルを前期状態推定閾値より大きい第１レベル閾値及びそれより大きい第２レベル閾値と比較し、第１レベル閾値以下であれば軽度の疲労状態であると判定し、疲労レベルが第１レベル閾値より大で第２レベル閾値以下の場合は中度の疲労状態であると判定し、前記疲労レベルが第２レベル閾値より大であれば重度の疲労状態であると判定する。ステップＳ３８０で、上記推定された疲労レベルを推定結果表出手段１７０により、例えば画像又は合成音声で表出する。
以下に、上記の各ステップでの処理について詳細に説明する。まず、各ステップでの処理についての詳細な説明に先立ち、上記の音声特徴量の組について説明する。音声特徴量としては、音声スペクトル等の情報に比べて、雑音環境下でも安定して得られ、かつ疲労状態か否かの判定が話者依存性の低いものを用いる。このような条件を満たす音声特徴量として、本発明の実施の形態では、基本周波数f₀、パワーｐ、動的特徴量d(t)、無声区間T_S等を抽出する。

これらの音声特徴量の抽出法は公知であり、その詳細については、例えば、非特許文献１、非特許文献２、非特許文献３、非特許文献４等を参照されたい。
ここで、上記の動的特徴量d(t)は、以下の式(1) によって定義され、その時間変化量は発話速度の尺度となるパラメータである。

ここで、ｔは時刻、C_k(t)は時刻ｔにおけるｋ次のＬＰＣケプストラム係数、±F₀は対象とするフレーム（以下、現フレームという）の前後のフレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）をいう。なお、動的特徴量d(t)としては、特許文献３に定義されたものを用いるのでもよい。
ＬＰＣケプストラム係数の次数ｋは、１からＫまでの整数のいずれかである。動的特徴量d(t)の単位時間当たりの極大点の数、または、単位時間当たりの変化率はダイナミックメジャーとも呼ばれ、発話速度の尺度となる。

以下では、１フレームの長さ（以下、フレーム長という）を100msとし、このフレームの開始時刻から50msずらして次のフレームを形成するものとする。また、フレーム毎に、基本周波数f₀'、平均パワーp'を算出するものとする。さらに、現フレームの基本周波数f₀'と、現フレームからｉフレーム前の基本周波数f₀'及び現フレームからｉフレーム後の基本周波数f₀'のそれぞれと差分Δf₀'(-i)、Δf₀'(i)と、をとる。平均パワーp'についても同様に、現フレームの平均パワーp'と、現フレームからｉフレーム前の平均パワーp'及び現フレームからｉフレーム後の平均パワーp'のそれぞれと差分Δp'(-i)、Δp'(i)と、をとる。

次に、これらフレーム毎の、基本周波数f₀'、基本周波数の差分Δf₀'(-i)、Δf₀'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)を規格化する。以下では、基本周波数f₀'、基本周波数の差分Δf₀'(-i)、Δf₀'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)のそれぞれを、単に、f₀'、Δf₀'(-i)、Δf₀'(i)、p'、Δp'(-i)、Δp'(i)と表し、規格化されたものを、それぞれ、f₀"、Δf₀"(-i)、Δf₀"(i)、p”、Δp"(-i)、Δp"(i)と表す。
この規格化は、例えば、f₀'、Δf₀'(-i)、Δf₀'(i)のそれぞれを、例えば、処理対象の音声データ全体の平均基本周波数で割算することによって行うのでもよい。また、処理対象の音声データ全体の平均基本周波数の代わりに、後述する音声小段落や音声段落毎の平均基本周波数や、数秒や数分等の時間内での平均基本周波数等を用いるのでもよい。

同様に、p'についても、処理対象の音声データ全体の平均パワーで割算し、規格化又は標準化する。また、処理対象の音声データ全体の平均パワーの代わりに、後述する音声小段落や音声段落毎の平均パワーや、数秒や数分等の時間内での平均パワー等を用いるのでもよい。ここで、上記のｉの値を、例えば、４とする。
ダイナミックメジャーは、以下のように算出する。まず、現フレームの開始時刻を中心に現フレームより十分長い時間幅2T₁（ただしT₁は例えばフレーム長の１０倍程度とする）の区間を設ける。次に、この区間内における動的特徴量d(t)の時間変化の極大点を算出し、極大点の個数d_p（以下、単にd_pという）を計数する。

また、ダイナミックメジャーの差分値も、以下に述べるようにして算出しておく。即ち、現フレームの開始時刻のT₂前の時刻を中心とする幅2T₁内の区間におけるd_pから、現フレームのd_pを差し引いた差成分Δd_p(-T₂)を求める。同様に、現フレームの終了時刻のT₃後の時刻を中心とする幅2T₁内の区間におけるd_pを、現フレームのd_pから差し引いた差成分Δd_p(T₃)を求める。
上記の、T₁、T₂、T₃の値は、それぞれ、フレーム長より十分長いものとし、以下では、T₁＝T₂＝T₃＝450msとする。ただし、これらの値に限られるものではない。また、フレームの前後の無声区間の長さを、それぞれ、t_SR、t_SFとする。ステップＳ３２０では、上記のf₀"、Δf₀"(-i)、Δf₀"(i)、p”、Δp"(-i)、Δp"(i）、d_p、Δd_p(-T₂)、Δd_p(T₃)等（以下、それぞれをパラメータと呼ぶ）の値をフレーム毎に抽出する。

上記のf₀"、Δf₀"(-i)、Δf₀"(i)、p"、Δp"(-i)、Δp"(i)、d_p、Δd_p(-T₂)、Δd_p(T₃)等のパラメータの中から予め選択された１つ以上のパラメータの組、例えば(f₀",p",d_p)を音声特徴量ベクトルと定義する。符号帳110CBには予め決めたエントリ数の各符号に対応して被検者の学習音声から求めた量子化された音声特徴量代表ベクトルと、その音声特徴量ベクトルの各疲労状態での出現確率が記録されている。
ステップＳ３２０では、入力音声を対象に、音声特徴量ベクトルを規定する上記選択されたパラメータの組の値を入力音声信号のフレームごとに算出し、符号帳中の対応する音声特徴量ベクトルを判定し、その音声特徴量ベクトルに対応する疲労状態での出現確率と非疲労状態での出現確率を得る。

次に、図４を参照してステップＳ３３０の疲労状態尤度及び非疲労状態尤度を算出する処理について説明する。
ステップＳ３３０では、ステップＳ３３１〜Ｓ３３３により、音声小段落及び音声段落を抽出する。次に、ステップＳ３３４、Ｓ３３５で、疲労状態尤度及び非疲労状態尤度を算出する。この実施例では音声小段落を、話者が疲労状態か否かを判定する最小の単位とし、音声段落は、例えば、400ms程度またはそれ以上の無声区間ではさまれた、少なくとも１つ以上の音声小段落を含む区間であるものとする。図５に音声小段落S_j-1, S_j, S_j+1と音声段落B, B+1の関係を概念的に示す。

音声段落等の抽出には、まず、入力音声データの無声区間と有声区間を抽出する（Ｓ３３１）。有声区間であるか無声区間であるかの判定（以下、単に、有声／無声の判定という）は、周期性の有無の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値に基づいて行われることが多い。
具体的には、入力信号の短時間スペクトルからスペクトル包絡を除去し、得られた予測残差の自己相関関数（以下、変形相関関数という）を算出し、変形相関関数のピーク値が所定の閾値より大きいか否かによって有声／無声の判定を行う。また、そのようなピークが得られる相関処理の遅延時間に基づいて、ピッチ周期1/f₀の抽出を行う。

上記では、フレーム毎に各音声特徴量を音声データから抽出する場合について述べたが、音声データが、例えば、ＣＥＬＰ(Code-Excited Linear Prediction)などにより、既にフレーム毎に符号化（即ち、分析）されている場合は、この符号化で得られる係数または符号を用いて音声特徴量を生成するのでもよい。ＣＥＬＰによって得られる符号（以下、ＣＥＬＰ符号という）には、一般に、線形予測係数、利得係数、ピッチ周期等が含まれる。そのため、ＣＥＬＰ符号を復号して上記の音声特徴量を得ることができる。
具体的には、復号された利得係数の絶対値または二乗値をパワーとして用い、ピッチ成分の利得係数と非周期成分の利得係数との比に基づいて有声／無声の判定を行うことができる。また、復号されたピッチ周期の逆数をピッチ周波数、即ち基本周波数として用いることができる。また、上記の式(1) で説明した動的特徴量の計算に使用するＬＰＣケプストラム係数は、ＣＥＬＰ符号を復号して得られたものを変換して求めることができる。

また、ＣＥＬＰ符号にＬＳＰ（Line Spectrum Pair）係数が含まれていれば、ＬＳＰ係数を一旦ＬＰＣケプストラム係数に変換し、変換して得られたＬＰＣケプストラム係数から求めてもよい。このように、ＣＥＬＰ符号には本発明で使用できる音声特徴量が含まれているので、ＣＥＬＰ符号を復号し、フレーム毎に必要な音声特徴量の組を取り出すことができる。
図４に戻って、有声区間の両側の無声区間の時間t_SR、t_SFがそれぞれ予め決めたt_Ｓ以上になるとき、その無声区間によって囲まれた有声区間を含む信号部分を音声小段落S_jとして抽出する（Ｓ３３２）。以下では、この無声区間の時間t_Sの値を、例えば、t_S＝400msとする。

次に、この音声小段落S_j内の、好ましくは後半部の有声区間内の平均パワーｐ_Qと、この音声小段落S_jの平均パワー値P_jの定数β倍とを比較し、ｐ_Q＜βP_jであれば、その音声小段落S_jを末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現在の末尾音声小段落までを音声段落と決定して抽出する（Ｓ３３３）。
音声小段落の抽出は、上記の有声区間を囲む無声区間の時間がt_S以上となるという条件で行う。図５に、音声小段落としてS_j-1、S_j、S_j+1を示し、以下では音声小段落S_ｊを処理対象の音声小段落とする。音声小段落S_ｊは、Q_ｊ個の有声区間から構成され、音声小段落S_ｊの平均パワーをP_jとする。

また、音声小段落S_ｊに含まれるｑ番目の有声区間V_ｑ（q＝1, 2, …, Q）の平均パワーをp_ｑと表す。音声小段落S_ｊが音声段落Ｂの末尾の音声小段落であるか否かは、音声小段落S_ｊを構成する後半部分の有声区間の平均パワーに基づいて判定する。具体的には、以下の式(2) に示す条件が満たされるか否かで判定する。

この条件を満たすとき、音声小段落S_jが音声段落Ｂの末尾音声小段落であると判定する。
ここで、αはQ_j/2以下の値をとる整数であり、βは例えば0.5〜1.5程度の値をとる定数である。これらの値は、音声段落の抽出を最適化するように、予め実験により決めておく。ただし、有声区間の平均パワーp_qは、その有声区間内の全フレームの平均パワーである。本発明の実施の形態では、例えばα＝３、β＝0.8とする。上記のようにすることによって、隣接する末尾音声小段落間の音声小段落の集合を音声段落と判定できる。あるいは、音声小段落を固定長t(s)、シフト幅S(s)と決めてもよい。例えばt(s)=S(s)=1msecの固定長、シフト幅としてもよい。音声段落についてもΔＳの無声区間で囲まれた区間としてもよい。

再び図４に戻って、疲労状態の尤度を算出する処理（Ｓ３３４、Ｓ３３５）について説明する（以下、この処理を疲労状態判定処理という）。まず、ステップＳ３１０で予め作成した符号帳に記録される音声特徴量ベクトルに合わせて、ステップＳ３２０で抽出した入力音声小段落中の音声特徴量の組をベクトル量子化し、符号列C₁, C₂, C₃, …を得る（Ｓ３３４）。
ステップＳ３３５での疲労状態尤度の算出に先立って、図６を用いて符号帳の作成方法について説明する。まず、多数の学習用音声を被験者から採取し、疲労状態にあるときの発話と非疲労状態にあるときの発話とを識別できるようにラベルを付ける（Ｓ３１１）。

ステップＳ３１１で上記のラベル付けを行ったら、ラベル付けされた音声データから、ステップＳ３２０での処理と同様に予め決めたパラメータの組の音声特徴量、例えば(f₀",p",d_p)の値を音声特徴量ベクトル値としてフレームごとに抽出する（Ｓ３１２）。ラベル付けによって得られる疲労状態または非疲労状態の情報と、疲労状態または非疲労状態とされたラベル区間（ラベル付けされた音声区間）について得られる音声特徴量ベクトルとを用いて、ＬＢＧアルゴリズムに従って所定エントリ数の符号帳を作成する（Ｓ３１３）。ＬＢＧアルゴリズムは公知であり、その詳細は、例えば、非特許文献５を参照されたい。

符号帳に記録されるｍビット符号のエントリの数（以下、符号長サイズという）は、2^m個（ｍは、１以上の整数）であり、エントリのインデックスとしてコードＣが用いられる。即ち、インデックスにはｍビットの符号（C＝00…0, 00…1, …,11…1）が用いられる。
符号帳には、このコードＣに対応させて、フレーム長より十分長い所望の区間、例えば学習音声のラベル区間に得られる全音声特徴量ベクトルを使って上記ＬＢＧアルゴリズムにより決められた代表ベクトルを符号帳の音声特徴量代表ベクトルとして記録しておく。その際、各音声特徴量を、例えば、その平均値と標準偏差で規格化してもよい。以下の説明では、符号帳の音声特徴量代表ベクトルも単に音声特徴量ベクトルと呼ぶ。

入力音声データから抽出した音声特徴量のパラメータのうち、疲労状態判定処理に使用するパラメータの組は、上記の符号帳作成に用いたパラメータの組と同じものである。疲労状態または非疲労状態の音声小段落を特定するために、音声小段落中のコードＣ（エントリのインデックス）に対応させて、各疲労状態での出現確率と非疲労状態での出現確率をそれぞれ算出する。従って、符号帳には、上記のコードＣと、音声特徴量ベクトルと、疲労状態での出現確率と非疲労状態での出現確率とが対応して記録されている。
以下に、ステップＳ３３５で行う話者が疲労状態にあるときの尤度である疲労状態尤度の算出、及び、ステップＳ３３６で行う非疲労状態にあるときの尤度である非疲労状態尤度の算出方法の一例について説明する。まず、学習音声中のラベル区間に含まれるフレームの数をｎとし、それぞれのフレームについて得られる音声特徴量の組の時系列に対応するコードが時系列でC_１, C_２, …, C_ｎとなっているものとする。

前述のように、ラベル区間は、符号帳を作成する処理のステップＳ３１１で、ラベルが付けられた１つの音声区間である。ステップＳ３３５、Ｓ３３６で算出される、ラベル区間Ａの疲労状態尤度P_Afat及び非疲労状態尤度P_Anrmは、それぞれ、以下の式(3) 及び式(4) に示すように表される。

ここで、P_fat(C_i｜C₁…C_i-1)は、コード列C₁, …, C_i-1の次にコードC_iが疲労状態となる条件付出現確率、P_nrm(C_i｜C₁…C_i-1)は、同様にコード列C₁, …, C_i-1の次にコードC_iが非疲労状態となる条件付出現確率である。また、P_fat(C_i)は、符号帳を作成する処理において、音声が疲労状態とラベル付けされた部分に存在した音声特徴量ベクトルに対応するコードC_iの総個数を数え、その総個数を、全音声データ中の疲労状態とラベル付けされた部分音声データの全コード数（＝フレーム数）で割算した値である。一方、P_nrm(C_i)は、コードC_iが非疲労状態とラベル付けされた部分に存在した個数を、非疲労状態とラベル付けされた音声データの全コード数で割算した値である。

以下では、各条件付出現確率をN-gram(N<i)モデルで近似し、疲労状態尤度及び非疲労状態尤度の計算を簡単にする。N-gramモデルは、ある時点でのある事象の出現がその直前のN-1個の事象の出現に依存すると近似するモデルである。ここで、N=3のときはtrigram、N=2のときはbigram、N=1のときはunigramとよばれる。このモデルでは、例えば、ｎ番目のフレームにコードC_iが出現する確率P(C_i)は、P(C_i)＝P(C_i｜C_i-N+1…C_i-1)とされる。
上記の式(3) 及び式(4) 中の各条件付出現確率P_fat(C_i｜C₁…C_i-1)、P_nrm(C_i｜C₁…C_i-1)にN-gramモデルを適用すると、各条件付出現確率は以下の式(5) 及び式(6) に示すように近似される。

P_fat(C_i｜C₁…C_i-1)＝P_fat(C_i｜C_i-N+1…C_i-1) (5)
P_nrm(C_i｜C₁…C_i-1)＝P_nrm(C_i｜C_i-N+1…C_i-1) (6)
上記の式(5) のP_fat(C_i｜C_i-N+1…C_i-1)及び式(6) のP_nrm(C_i｜C_i-N+1…C_i-1)は、通常、符号帳から全て得られるようになっているが、一部のものについては、学習音声から得られないものもある。その場合は、他の条件付出現確率や単独出現確率から補間によって求めたものでもよい。例えば、低次（即ち、コード列が短い）の条件付出現確率と単独出現確率等とから高次（即ち、コード列が長い）の条件付出現確率を補間して求めることができる。

以下に、この補間の方法について説明する。以下では、上記のtrigram (N=3)、bigram (N=2)、及び、unigram (N=1)を例にとり説明する。各出現確率は、trigram (N=3)では、P_fat(C_i｜C_i-2C_i-1）、P_nrm(C_i｜C_i-2C_i-1)、bigram (N=2)では、P_fat(C_i｜C_i-1)、P_nrm(C_i｜C_i-1)、そして、unigram (N=1)では、P_fat(C_i)、P_nrm(C_i)と表される。
この補間の方法では、P_fat(C_i｜C_i-2C_i-1)及びP_nrm(C_i｜C_i-2C_i-1)を、上記の疲労状態での３つの出現確率、非疲労状態での３つの出現確率を用い、以下の式(7) 及び式(8) に基づいて算出する。

ここで、上記のλ_fat1、λ_fat2、λ_fat3は、trigramの疲労状態とラベル付けされた学習データのフレーム数をｎとし、時系列でコードC₁, C₂, …, C_nが得られたとき、以下のように表される。

ただし、λ_fat1、λ_fat2、λ_fat3を求めるときの音声データは、符号帳を作成するときの音声データ以外のものとする。符号帳を作成するときの音声データと同じ音声データを用いると、λ_fat1＝1、λ_fat2＝λ_fat3＝0の自明な解となってしまうからである。同様に、λ_nrm1、λ_nrm2、λ_nrm3も求められる。
次に、trigramを用い、ラベル区間Ａのフレーム数がF_Aであり、得られたコードがC₁, C₂, …, C_FAのとき、このラベル区間Ａの疲労状態尤度P_Afat及び非疲労状態尤度P_Anrmは、それぞれ、以下の式(9) 及び式(10)に示すように表される。

P_Afat＝P_fat(C₃｜C₁C₂)…P_fat(C_FA｜C_FA-2C_FA=1) (9)
P_Anrm＝P_nrm(C₃｜C₁C₂)…P_nrm(C_FA｜C_FA-2C_FA-1) (10)
本発明の実施の形態では、上記のように補間と、疲労状態尤度P_Afat及び非疲労状態尤度P_Anrmの算出とができるように、上記の例では、trigram (N=3)、bigram (N=2)、及び、unigram (N=1)を各コードについて算出しておき、符号帳に格納しておくものとする。つまり、符号帳には、各コードに対応して、音声特徴量ベクトルと、その疲労状態での出現確率と、非疲労状態での出現確率との組が格納される。

疲労状態での音声特徴量ベクトルの出現確率としては、各コードが過去のフレームで出現したコードと無関係に疲労状態で出現する確率（単独出現確率）、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが疲労状態で出現する条件付出現確率、またはそれら両方を使用する。同様に、非疲労状態での出現確率、そのコードが過去のフレームで出現したコードと無関係に非疲労状態で出現する単独出現確率、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが非疲労状態で出現する条件付出現確率、またはそれら両方を使用する。

図７に、符号帳に記録される内容の一例を示す。符号帳におけるｈ番目のエントリのコードをChで表し、例えばC1は第１番目のエントリのコードを表すものとする。コードC1, C2, C3, …は、符号帳の各音声特徴量ベクトルに対応したコード（インデックス）を表し、それぞれｍビットの値"00…00"、"00…01"、"00…10"、…である。符号帳には各コードC1, C2, …毎に、その音声特徴量ベクトルと、その単独出現確率が、各疲労状態及び非疲労状態について格納され、条件付出現確率が各疲労状態及び非疲労状態についてそれぞれ組として格納されている。

以下では、表記を簡略化するため、各符号を区別せずＣで表し、入力音声信号の音声特徴量ベクトル時系列に対応する符号時系列をC₁, C₂, C₃...と表す。またこの発明に好適な音声特徴量の組の例として、パラメータf₀"、p"、d_pを使用し、符号帳サイズ（音声特徴量ベクトルの数）が2⁵の場合の疲労状態及び非疲労状態での、条件付出現確率をtrigramで近似した例について説明する。
図８は、音声データの処理を説明するための模式図である。時刻ｔから始まる音声小段落のうち、第１フレームから第４フレームまでを符号i〜i+3を付して示し、フレーム長及びフレームシフトを、上記のように、それぞれ、100ms、50msとしている。ここでは、フレーム番号ｉ（時刻t〜t+100）のフレームについてコードC₁が、フレーム番号i+1（時刻t+50〜t+150）のフレームについてコードC₂が、フレーム番号i+2（時刻t+100〜t+200）のフレームについてコードC₃が、そして、フレーム番号i+1（時刻t+50〜t+150）のフレームについてコードC₄が得られているものとする。即ち、フレーム順にコードがC₁、C₂、C₃、C₄であるとする。

この場合、フレーム番号i+2以上のフレームでは、trigramが計算できる。いま、音声小段落Ｓの疲労状態尤度をP_Sfat、非疲労状態尤度をP_Snrmとすると、第４フレームまでの各尤度はそれぞれ、以下の式(11)及び式(12)によって与えられる。
P_Sfat＝P_fat(C₃｜C₁C₂)P_fat(C₄｜C₂C₃) (11)
P_Snrm＝P_nrm(C₃｜C₁C₂)P_nrm(C₄｜C₂C₃) (12)
この例では、符号帳からコードC₃、C₄の疲労状態及び非疲労状態の各単独出現確率を求め、コードC₂の次にコードC₃が疲労状態及び非疲労状態で出現する条件付出現確率を求め、さらに、コードC₃が連続するコードC₁C₂の次に疲労状態及び非疲労状態で出現し、コードC₄が連続するコードC₂C₃の次に疲労状態及び非疲労状態で出現する条件付出現確率を求めると以下のようになる。

P_fat(C₃｜C₁C₂)＝λ_fat1P_fat(C₃｜C₁C₂)+λ_fat2P_fat(C₃｜C₂)+λ_fat3P_fat(C₃) (13)
P_fat(C₄｜C₂C₃)＝λ_fat1P_fat(C₄｜C₂C₃)+λ_fat2P_fat(C₄｜C₃)+λ_fat3P_fat(C₄) (14)
P_nrm(C₃｜C₁C₂)＝λ_nrm1P_nrm(C₃｜C₁C₂)+λ_nrm2P_nrm(C₃｜C₂)+λ_rnm3P_nrm(C₃) (15)
P_nrm(C₄｜C₂C₃)＝λ_nrm1P_nrm(C₄｜C₂C₃)+λ_nrm2P_nrm(C₄｜C₃)+λ_nrm3P_nrm(C₄) (16)
上記の式(13)〜(16)を用いることによって、式(11)と(12)とで示される第３フレームまでの疲労状態尤度P_Sfatと非疲労状態尤度をP_Snrmが求まる。ここで、条件付出現確率P_fat(C₃｜C₁C₂)及びP_nrm(C₃｜C₁C₂)は、フレーム番号i+2以降で計算できる。

以上の説明は、第４フレームi+3までの計算についてであったが、フレーム数F_Sの音声小段落Ｓについても同様に適用できる。例えば、フレーム数F_Sの音声小段落Ｓのそれぞれのフレームから得られたコードがC₁、C₂、…、C_FAのとき、この音声小段落Ｓが疲労状態になる尤度P_Sfatと非疲労状態になる尤度P_Snrmを以下の式(17)及び式(18)に示すように計算する。

上記のように算出した尤度が、P_Sfat＞P_Snrm、であれば、その音声小段落Ｓは、疲労状態であると判定する（Ｓ３５０）。逆に、P_Sfat≦P_Snrmであれば、実質的に非疲労状態と判定されることになる。同様に、P_Sfat/P_Snrm＞１、であることを疲労状態と判定するための条件とするのでもよい。また、正の重み係数Ｗに対しW^FAP_Sfat＞P_Snrm、を満足することを条件とすることにより、あるいは
R_E=(logP_Sfat-logP_Snrm)/FA>W (19)
を満足することを条件とすることにより、小段落のフレーム数FAに応じて重み付けの影響を増減するようにしてもよい。

あるいは、疲労状態出現確率P_fatの音声小段落にわたる総和ΣP_fatと非疲労状態出現確率P_nrmの音声小段落にわたる総和ΣP_nrmから疲労状態尤度P_Afatと非疲労状態尤度P_Anrmを次式

のように求め、P_Afat＞P_Anrmならその音声小段落は疲労状態であると判定し、P_Afat≦P_Anrmであれば非疲労状態と判定してもよい。あるいは、これら条件付出現確率の総積あるいは条件付出現確率の総和を重み付け比較して音声小段落の疲労状態／非疲労状態を判定してもよい。

本発明に係る疲労状態推定方法、装置及び処理プログラムは、実時間の音声入力に基づき話者の疲労状態／非疲労状態を推定することができ、例えば車両の運転手の運転時の疲労状態を監視することなどに適用できる。

本発明の実施の形態に係る疲労状態推定装置の機能構成を示すブロック図。本発明の実施の形態に係る疲労状態推定装置の具体的構成の一例を示す図。本発明の実施の形態に係る疲労状態推定装置の動作を説明するためのフローチャート。ステップＳ３３０での処理を説明するためのフローチャート。音声小段落、音声段落等を説明するための概念図。ステップＳ３１０での処理を説明するためのフローチャート。符号帳の記載例を示す図。音声データの処理を説明するための模式図。

Claims

話者の音声から話者の疲労状態を推定する疲労状態推定方法であって、
(a) 被検者の音声からフレームごとに予め決めた音声特徴量の組を抽出するステップと、
(b) 疲労状態と非疲労状態のそれぞれにおける音声特徴量ベクトルの出現確率が上記被検者の学習音声から予め求められ格納された符号帳を用い、上記音声特徴量の組から対応する音声特徴量ベクトルと、その音声特徴量ベクトルの疲労状態及び非疲労状態における出現確率を得るステップと、
(c) １フレーム以上の与えられた判定区間にわたる上記疲労状態と非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度と非疲労状態となる尤度をそれぞれ算出するステップと、
(d) 上記疲労状態となる尤度と上記非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定するステップと、
(e) 推定した疲労状態を表出するステップ、
とを含むことを特徴とする疲労状態推定方法。
請求項１記載の方法において、上記ステップ(d) は、疲労状態の尤度と非疲労状態の尤度との差分を算出し、上記算出した差分を予め設定した閾値と比較することにより上記被検者が疲労状態にあるかを判定するステップであることを特徴とする疲労状態推定方法。
請求項１記載の方法において、上記ステップ(d) は、疲労状態の尤度と非疲労状態の尤度の比を算出し、上記算出した比を予め設定した閾値と比較することにより上記被検者が疲労状態にあるかを判定するステップであることを特徴とする疲労状態推定方法。
請求項１記載の方法において、上記ステップ(d) は、
(d-1) 各判定区間に対し上記ステップ(a)〜(c)を実行するごとに算出した上記疲労状態及び非疲労状態となる尤度を蓄積することを与えられた検査期間にわたって繰り返すステップと、
(d-2) 蓄積された上記疲労状態及び非疲労状態となる尤度に基づいて上記被検者が疲労状態であるか否かを推定するステップ、
とを含むことを特徴とする疲労状態推定方法。
請求項４記載の方法において、上記ステップ(d-2) は、上記検査期間内の各判定区間ごとに、疲労状態の尤度と非疲労状態の尤度との差分を算出し、上記算出した差分が予め設定した状態推定閾値を超える場合は疲労状態と判定するステップと、疲労状態と判定されたすべての判定区間の上記尤度の差分の総和を上記検査期間内の全判定区関数で割り算して疲労レベルを得て、上記疲労レベルを上記状態推定閾値より大のレベル閾値と比較し、上記疲労レベルが上記レベル閾値以下であれば第１の疲労状態と推定し、上記レベル閾値より大であれば第２の疲労状態と推定するステップとを含み、上記ステップ(e) は、上記疲労レベルの推定された疲労状態を表出することを特徴とする疲労状態推定方法。
請求項４記載の方法において、上記ステップ(d-2) は、上記検査期間内の各判定区間ごとに、疲労状態の尤度と非疲労状態の尤度との尤度比を算出し、上記算出した尤度比が予め設定した状態推定閾値を超える場合は疲労状態と判定するステップと、疲労状態と判定されたすべての判定区間の上記尤度比の総和を上記検査期間内の全判定区関数で割り算して疲労レベルを得て、上記疲労レベルを上記状態推定閾値より大のレベル閾値と比較し、上記疲労レベルが上記レベル閾値以下であれば第１の疲労状態と推定し、上記レベル閾値より大であれば第２の疲労状態と推定するステップとを含み、上記ステップ(e) は、上記疲労レベルの推定された疲労状態を表出することを特徴とする疲労状態推定方法。
請求項１乃至６のいずれか記載の方法において、上記音声特徴量の組は、少なくとも基本周波数、パワー、動的特徴量の時間変化特性、またはそれらのフレーム間差分を含むことを特徴とする疲労状態推定方法。
被検者の疲労状態を推定する疲労状態推定装置であって、
被検者の音声からフレームごとに予め決めた音声特徴量の組を抽出する音声特徴量抽出手段と、
疲労状態と非疲労状態のそれぞれにおける音声特徴量ベクトルの出現確率が上記被検者の学習音声から予め求められ格納された符号帳を記憶する記憶手段と、
上記音声特徴量の組から対応する音声特徴量ベクトルを判定する音声特徴量ベクトル判定手段と、
上記判定した音声特徴量ベクトルの疲労状態及び非疲労状態における出現確率をそれぞれ上記符号帳から得る出現確率取得手段と、
１フレーム以上の当てられた判定区間にわたる上記疲労状態及び非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度及び非疲労状態となる尤度をそれぞれ算出する尤度算出手段と、
上記疲労状態となる尤度及び非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定する疲労状態推定手段と、
推定した上記疲労状態を表出する手段、
とを含むことを特徴とする疲労状態推定装置。
請求項１乃至７のいずれか記載の疲労状態推定方法を実施する処理ステップを記述したコンピュータで実行可能なプログラム。