JP2007003835A - 疲労状態推定方法、疲労状態推定装置及びそのプログラム - Google Patents

疲労状態推定方法、疲労状態推定装置及びそのプログラム Download PDF

Info

Publication number
JP2007003835A
JP2007003835A JP2005183988A JP2005183988A JP2007003835A JP 2007003835 A JP2007003835 A JP 2007003835A JP 2005183988 A JP2005183988 A JP 2005183988A JP 2005183988 A JP2005183988 A JP 2005183988A JP 2007003835 A JP2007003835 A JP 2007003835A
Authority
JP
Japan
Prior art keywords
fatigue state
fatigue
likelihood
speech
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005183988A
Other languages
English (en)
Inventor
Kota Hidaka
浩太 日高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005183988A priority Critical patent/JP2007003835A/ja
Publication of JP2007003835A publication Critical patent/JP2007003835A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】実時間で簡便に疲労状態を推定可能にする。
【解決手段】学習音声に基づき予め被検者の疲労状態での音声特徴量ベクトルの出現確率、及び非疲労状態での音声特徴量ベクトルの出現確率を音声特徴量ベクトルに対応付けた符号帳110CBを作成しておき、検査時に、被検者の入力音声に含まれる音声特徴量を抽出し、抽出した音声特徴量に基づいて符号帳の対応する音声特徴量ベクトルを判定し、判定した音声特徴量ベクトルに対応する疲労状態での音声特徴量ベクトルの出現確率と、非疲労状態での音声特徴量ベクトルの出現確率を取得し、得られた疲労状態及び非疲労状態での音声特徴量ベクトルの出現確率から疲労状態尤度及び非疲労状態尤度を算出し、疲労状態尤度と非疲労状態尤度に基づいて入力音声の各音声部分で話者が疲労状態にあったか否かを推定し、推定結果を表出する。
【選択図】図1

Description

本発明は、話者の音声を分析し、分析結果に基づいて話者の疲労状態を推定する方法、装置及びそのプログラムに関する。
細かい部品の手作業による組み立て、目視による品質検査、車両の運転などにおいて、作業者、検査者、運転者が疲労すると、不良品の増加、事故発生などの原因となり得る。特に車両の運転手の身体的疲労は運転時の反射動作を遅くし、事故を起こす可能性を高くする。従って、定期的又は不定期的に疲労の程度を自分で、又は管理者が簡便に検査でき、疲労度が非常に高い場合は、被検者又は管理者に警告を出すことができれば、都合がよい。あるいは、家庭における日常生活においても、疲労度を簡便に検査できれば、健康の管理に役に立つ。
疲労度を評価する従来の方法及び装置として、予め設定された作業時間にわたり特定の作業を行い、その作業時間の前後でその作業者の反応を試験測定することにより、作業者の疲労度を評価する方法及び装置が知られている。例えば特許文献1では、モニタ画面上の単純な波形が移動して消滅することを繰り返す映像を被験者に観察させ、その繰り返しごとに、その図形が1回目の図形と一致しているかを判別させ、その正解率で疲労度を判定している。
特開2004−267339号公報。 「音響・音声工学」、古井貞煕、近代科学社、1992。 「音声符号化」、守谷健弘、電子情報通信学会、1998。 「ディジタル音声処理」、古井貞煕、東海大学出版会、1985。 「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」、嵯峨山茂樹、博士論文、1998。 Y.Linde, A.Buzo and R.M.Gray, "An algorithm for vector Quantizer design", IEEE Trans. Commun., vol. Com-288, pp.84-95, 1980 。
しかしながら、上述のような従来の評価方法では、例えば、車両を運転している途中で、運転者の疲労状態を測定することは容易でない。即ち、本来の仕事を行いながら疲労状態の測定を行うことはできないという問題があった。
この発明は、そのような問題を解決するためになされたものであり、作業しながらでも簡便に疲労状態の推定が可能な疲労状態推定方法、装置及びそのプログラムを提供することである。
この発明による疲労度推定方法及び装置は、
話者の音声からフレームごとに複数の音声特徴量の組を抽出し、
予め複数の疲労レベルに分類され、分類された複数の疲労レベルのそれぞれにおける音声特徴量ベクトルの出現確率が格納された符号帳を用い、上記音声特徴量の組から対応する音声特徴量ベクトルと、その音声特徴量ベクトルの各疲労レベルにおける出現確率を得て、
1フレーム以上の与えられた判定区間にわたる上記疲労状態と非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度と非疲労状態となる尤度をそれぞれ算出し、
上記疲労状態となる尤度と上記非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定し、
推定した疲労状態を表出する。
本発明は、被検者の音声から音声特徴量を抽出し、その音声特徴量に基づいて被検者の疲労状態を判定するため、被検者は音声を入力するだけでよく、仕事を行いながらでも実時間で簡便に疲労状態を推定することができる。
以下、本発明の実施の形態について、図面を用いて説明する。
図1は、本発明の実施の形態に係る疲労状態推定装置の機能構成を示すブロック図である。この実施例の疲労状態推定装置100は、記憶手段110と、音声特徴量抽出手段120と、音声特徴量ベクトル判定手段130と、出現確率取得手段140と、尤度算出手段150と、疲労状態推定手段160と、推定結果表出手段170とから構成されている。例えばこの疲労状態推定装置100がタクシーの運転席の近くに設置され、運転手が基地局との交信時に使用するマイクロホンにより集音された音声信号がこの装置100に入力される。あるいは、この発明の装置がオフィスの電話機と隣接又は電話機内に設置され、電話機の送話用マイクロホンから音声信号を取り出し、この発明の装置100に入力する。もちろん、この発明の疲労状態推定装置100内にマイクロホンを設けて、そのマイクロホンで集音した音声信号を使用してもよい。あるいは、この発明の疲労状態推定装置を被検者とは離れた例えば管理者室に設け、無線回線、電話回線あるいはインターネット電話回線を通して被検者からの音声信号を受信して疲労状態推定装置100に入力し、被検者の疲労状態を管理者が遠隔地で監視するようにしてもよい。
記憶手段110には符号帳110CBが格納されている。符号帳110CBは学習音声を用いて予め生成された符号帳であって、被検者から疲労状態及び非疲労状態で収集した音声に含まれる予め決めた音声特徴量の組のすべてから周知のアルゴリズムで予め決めた数のベクトルに量子化した音声特徴量ベクトル(量子化音声特徴量ベクトル又は代表音声特徴量ベクトルとも呼ばれる)と、それらの各音声特徴量ベクトルの疲労状態及び非疲労状態における音声特徴量ベクトルの出現確率とが各コードに対応して格納されている。
音声特徴量抽出手段120はバッファ120Aと音声分析手段120Bを有しており、入力音声信号を一定長(フレーム長)ごとに区切られて番号が付加されてバッファ120Aに順次格納される。バッファ120Aの容量は音声の所定フレーム数分を必要とし、満杯になった後は最も古いフレームが破棄され、最新のフレームの音声信号が取り込まれる。音声分析手段120Bは、バッファ120A内の所定番目のフレームを分析対象の現フレームとしてそのフレームの予め決めた種類の音声特徴量の組を抽出する。予め決めた種類の音声特徴量としては、少なくとも基本周波数(又はピッチ周期)、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む。
音声特徴量ベクトル判定手段130は、音声特徴量抽出手段120が抽出した音声特徴量の組に対し、符号帳110CB中の最も近い音声特徴量ベクトルを探索し、そのベクトルであると判定する。出現確率取得手段140は、判定された音声特徴量ベクトルに対応する疲労状態及び非疲労状態での出現確率をそれぞれ符号帳110CBから読み取る。
尤度算出手段150は、与えられた判定区間、例えば入力音声の音声小段落区間に渡ってフレームごとに順次抽出した音声特徴量の組に対してこの符号帳110CBから読み取られた音声特徴量ベクトルに対応する疲労状態及び非疲労状態での出現確率に基づいて、疲労状態及び非疲労状態となる尤度をそれぞれ算出する。判定区間より十分長い検査期間、例えば数分から数10分、にわたって順次算出された疲労状態及び非疲労状態となる尤度を蓄積する。検査期間は予め決めた一定長でもよいし、音声から検出される音声段落区間であってもよい。
疲労状態推定手段160は、検査期間にわたって蓄積された判定区間毎の疲労状態となる尤度と非疲労状態となる尤度に基づいて被検者が疲労状態か否かを判定し、その検査期間にわたる判定結果から、被検者が疲労状態か否かを推定する。さらに、疲労状態と推定された場合はその疲労のレベルが予め決めた複数の段階的レベル(例えば軽度、中度、重度)のどれに属するかを判定する。
推定結果表出手段170は、疲労状態推定手段160により推定された被検者の疲労状態を表示するか例えば合成音声で被検者あるいは管理者に対し表出する。推定結果表出手段170を表示器で構成する場合は、過去のデータと対比して表示してもよい。
図2は、疲労状態推定装置100の具体的構成の一例を示す図である。図2に示すように、話者の音声を収集する入力部116と、音声処理方法に基づいて話者の音声を処理するCPU(Central Processing Unit)111と、制御用のパラメータを記憶するROM(Read Only Memory)112と、CPU111の動作中にその動作に必要とするプログラムやデータ等を記憶するRAM(Random Access Memory)113と、アプリケーションソフトや所定データを不揮発かつ書き換え可能に記憶するEEPROM(Electrically Erasable Programmable Memory)114と、液晶画面などのモニタ画面を有し、処理経過、疲労状態推定結果、その他の情報を必要に応じて表示する表示部115とによって実現される。
図1における音声特徴量抽出手段120、音声特徴量ベクトル判定手段130、出現確率取得手段140、尤度算出手段150、疲労状態推定手段160の機能は、それぞれの機能を実施するプログラムをCPU111により実行することにより実現される。それらのプログラムはEEPROM114に格納されており、実行時には必要なプログラムがRAM113に読み込まれ、CPU111により実行される。EEPROM114にはその他、後述する符号帳が格納されており、また、前述の入力音声信号が一時的に取り込まれるバッファとしても機能し、更に必要に応じて、得られた推定疲労状態のデータを格納する。
ROM112にはCPU111を立ち上げるためのプログラム、その他のプログラム及び制御用のパラメータ等を記憶する。RAM113にはCPU111の動作中に必要とするプログラムやデータ等が記憶される。
以下、本発明の実施の形態に係る疲労状態推定装置100の動作について説明する。図3は、本発明の実施の形態に係る疲労状態推定装置100の動作を説明するためのフローチャートである。
まず、学習音声を用いて生成された符号帳であって、学習音声に含まれる所定の音声特徴量の組(パラメータの組)である音声特徴量ベクトルの各値が疲労状態及び非疲労状態でそれぞれ出現する出現確率をその音声特徴量ベクトルに対応して保持する符号帳が予め作成され、図1の記憶手段110に格納される(ステップS310)。符号帳作成の詳細とともに後述するが、音声特徴量ベクトルは、特許文献2に開示されているような音声のフレームごとに検出する少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分のいずれか1つ以上のパラメータの組を含むベクトルである。
次に、音声特徴量抽出手段120のバッファ120Aに話者の音声が取り込まれ、音声分析手段120Bによりその取り込まれた入力音声から予め決めた複数種類の音声特徴量の組(音声特徴量ベクトル)を抽出する(ステップS320)。
抽出した音声特徴量ベクトルに最も近い音声特徴量ベクトルが符号帳から音声特徴量ベクトル判別手段130により判別され(ステップS330)、出現確率取得手段140によりこの判別した音声特徴量ベクトルの、疲労状態及び非疲労状態での出現確率をそれぞれ符号帳110CBから読み出し(ステップS340)、これらステップS320,S330,S340を判定区間(例えば音声小段落区間又は一定区間)にわたって繰り返す。得られたこれらの出現確率に基づいて尤度算出手段150により、疲労状態となる尤度及び非疲労状態となる尤度を算出し、蓄積する(ステップS350)。
ステップS360で検査期間が終了したか判定し、終了してなければステップS320〜S350を再度実行する。検査期間が終了したならば、ステップS370に移り、まず、ステップS350で算出した疲労状態及び非疲労状態となる尤度に基づいて、判定区間ごとに話者の疲労状態が疲労状態推定手段160によって推定される。疲労の状態の判定は、各判定区間の疲労状態と非疲労状態の尤度比を閾値と比較し、それより大きければ疲労状態と判定し、そうでなければ非疲労状態と判定する。
次に、検査期間内の疲労状態の推定を行う。この推定は、検査期間内で疲労状態と判定された判定区間の尤度比の総和と、非疲労状態と判定された判定区間の尤度比の総和を比較し、前者が大きければ疲労状態と推定し、そうでなければ非疲労状態と推定する。あるいは前記総和をその検査期間の全判定区間数(又は全フレーム数)で割り算した値(以下これを疲労レベルと呼ぶことにする)を予め決めた状態推定閾値と比較し、それより大きければ疲労状態と推定し、そうでなければ非疲労状態と推定してもよい。上述において、疲労状態と非疲労状態の尤度比の代わりに尤度差を使用してもよい。
検査期間が疲労状態と推定された場合は、前記疲労レベルを前期状態推定閾値より大きい第1レベル閾値及びそれより大きい第2レベル閾値と比較し、第1レベル閾値以下であれば軽度の疲労状態であると判定し、疲労レベルが第1レベル閾値より大で第2レベル閾値以下の場合は中度の疲労状態であると判定し、前記疲労レベルが第2レベル閾値より大であれば重度の疲労状態であると判定する。ステップS380で、上記推定された疲労レベルを推定結果表出手段170により、例えば画像又は合成音声で表出する。
以下に、上記の各ステップでの処理について詳細に説明する。まず、各ステップでの処理についての詳細な説明に先立ち、上記の音声特徴量の組について説明する。音声特徴量としては、音声スペクトル等の情報に比べて、雑音環境下でも安定して得られ、かつ疲労状態か否かの判定が話者依存性の低いものを用いる。このような条件を満たす音声特徴量として、本発明の実施の形態では、基本周波数f0、パワーp、動的特徴量d(t)、無声区間TS等を抽出する。
これらの音声特徴量の抽出法は公知であり、その詳細については、例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4等を参照されたい。
ここで、上記の動的特徴量d(t)は、以下の式(1) によって定義され、その時間変化量は発話速度の尺度となるパラメータである。
Figure 2007003835
ここで、tは時刻、Ck(t)は時刻tにおけるk次のLPCケプストラム係数、±F0は対象とするフレーム(以下、現フレームという)の前後のフレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)をいう。なお、動的特徴量d(t)としては、特許文献3に定義されたものを用いるのでもよい。
LPCケプストラム係数の次数kは、1からKまでの整数のいずれかである。動的特徴量d(t)の単位時間当たりの極大点の数、または、単位時間当たりの変化率はダイナミックメジャーとも呼ばれ、発話速度の尺度となる。
以下では、1フレームの長さ(以下、フレーム長という)を100msとし、このフレームの開始時刻から50msずらして次のフレームを形成するものとする。また、フレーム毎に、基本周波数f0'、平均パワーp'を算出するものとする。さらに、現フレームの基本周波数f0'と、現フレームからiフレーム前の基本周波数f0'及び現フレームからiフレーム後の基本周波数f0'のそれぞれと差分Δf0'(-i)、Δf0'(i)と、をとる。平均パワーp'についても同様に、現フレームの平均パワーp'と、現フレームからiフレーム前の平均パワーp'及び現フレームからiフレーム後の平均パワーp'のそれぞれと差分Δp'(-i)、Δp'(i)と、をとる。
次に、これらフレーム毎の、基本周波数f0'、基本周波数の差分Δf0'(-i)、Δf0'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)を規格化する。以下では、基本周波数f0'、基本周波数の差分Δf0'(-i)、Δf0'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)のそれぞれを、単に、f0'、Δf0'(-i)、Δf0'(i)、p'、Δp'(-i)、Δp'(i)と表し、規格化されたものを、それぞれ、f0"、Δf0"(-i)、Δf0"(i)、p”、Δp"(-i)、Δp"(i)と表す。
この規格化は、例えば、f0'、Δf0'(-i)、Δf0'(i)のそれぞれを、例えば、処理対象の音声データ全体の平均基本周波数で割算することによって行うのでもよい。また、処理対象の音声データ全体の平均基本周波数の代わりに、後述する音声小段落や音声段落毎の平均基本周波数や、数秒や数分等の時間内での平均基本周波数等を用いるのでもよい。
同様に、p'についても、処理対象の音声データ全体の平均パワーで割算し、規格化又は標準化する。また、処理対象の音声データ全体の平均パワーの代わりに、後述する音声小段落や音声段落毎の平均パワーや、数秒や数分等の時間内での平均パワー等を用いるのでもよい。ここで、上記のiの値を、例えば、4とする。
ダイナミックメジャーは、以下のように算出する。まず、現フレームの開始時刻を中心に現フレームより十分長い時間幅2T1(ただしT1は例えばフレーム長の10倍程度とする)の区間を設ける。次に、この区間内における動的特徴量d(t)の時間変化の極大点を算出し、極大点の個数dp(以下、単にdpという)を計数する。
また、ダイナミックメジャーの差分値も、以下に述べるようにして算出しておく。即ち、現フレームの開始時刻のT2前の時刻を中心とする幅2T1内の区間におけるdpから、現フレームのdpを差し引いた差成分Δdp(-T2)を求める。同様に、現フレームの終了時刻のT3後の時刻を中心とする幅2T1内の区間におけるdpを、現フレームのdpから差し引いた差成分Δdp(T3)を求める。
上記の、T1、T2、T3の値は、それぞれ、フレーム長より十分長いものとし、以下では、T1=T2=T3=450msとする。ただし、これらの値に限られるものではない。また、フレームの前後の無声区間の長さを、それぞれ、tSR、tSFとする。ステップS320では、上記のf0"、Δf0"(-i)、Δf0"(i)、p”、Δp"(-i)、Δp"(i)、dp、Δdp(-T2)、Δdp(T3)等(以下、それぞれをパラメータと呼ぶ)の値をフレーム毎に抽出する。
上記のf0"、Δf0"(-i)、Δf0"(i)、p"、Δp"(-i)、Δp"(i)、dp、Δdp(-T2)、Δdp(T3)等のパラメータの中から予め選択された1つ以上のパラメータの組、例えば(f0",p",dp)を音声特徴量ベクトルと定義する。符号帳110CBには予め決めたエントリ数の各符号に対応して被検者の学習音声から求めた量子化された音声特徴量代表ベクトルと、その音声特徴量ベクトルの各疲労状態での出現確率が記録されている。
ステップS320では、入力音声を対象に、音声特徴量ベクトルを規定する上記選択されたパラメータの組の値を入力音声信号のフレームごとに算出し、符号帳中の対応する音声特徴量ベクトルを判定し、その音声特徴量ベクトルに対応する疲労状態での出現確率と非疲労状態での出現確率を得る。
次に、図4を参照してステップS330の疲労状態尤度及び非疲労状態尤度を算出する処理について説明する。
ステップS330では、ステップS331〜S333により、音声小段落及び音声段落を抽出する。次に、ステップS334、S335で、疲労状態尤度及び非疲労状態尤度を算出する。この実施例では音声小段落を、話者が疲労状態か否かを判定する最小の単位とし、音声段落は、例えば、400ms程度またはそれ以上の無声区間ではさまれた、少なくとも1つ以上の音声小段落を含む区間であるものとする。図5に音声小段落Sj-1, Sj, Sj+1と音声段落B, B+1の関係を概念的に示す。
音声段落等の抽出には、まず、入力音声データの無声区間と有声区間を抽出する(S331)。有声区間であるか無声区間であるかの判定(以下、単に、有声/無声の判定という)は、周期性の有無の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値に基づいて行われることが多い。
具体的には、入力信号の短時間スペクトルからスペクトル包絡を除去し、得られた予測残差の自己相関関数(以下、変形相関関数という)を算出し、変形相関関数のピーク値が所定の閾値より大きいか否かによって有声/無声の判定を行う。また、そのようなピークが得られる相関処理の遅延時間に基づいて、ピッチ周期1/f0の抽出を行う。
上記では、フレーム毎に各音声特徴量を音声データから抽出する場合について述べたが、音声データが、例えば、CELP(Code-Excited Linear Prediction)などにより、既にフレーム毎に符号化(即ち、分析)されている場合は、この符号化で得られる係数または符号を用いて音声特徴量を生成するのでもよい。CELPによって得られる符号(以下、CELP符号という)には、一般に、線形予測係数、利得係数、ピッチ周期等が含まれる。そのため、CELP符号を復号して上記の音声特徴量を得ることができる。
具体的には、復号された利得係数の絶対値または二乗値をパワーとして用い、ピッチ成分の利得係数と非周期成分の利得係数との比に基づいて有声/無声の判定を行うことができる。また、復号されたピッチ周期の逆数をピッチ周波数、即ち基本周波数として用いることができる。また、上記の式(1) で説明した動的特徴量の計算に使用するLPCケプストラム係数は、CELP符号を復号して得られたものを変換して求めることができる。
また、CELP符号にLSP(Line Spectrum Pair)係数が含まれていれば、LSP係数を一旦LPCケプストラム係数に変換し、変換して得られたLPCケプストラム係数から求めてもよい。このように、CELP符号には本発明で使用できる音声特徴量が含まれているので、CELP符号を復号し、フレーム毎に必要な音声特徴量の組を取り出すことができる。
図4に戻って、有声区間の両側の無声区間の時間tSR、tSFがそれぞれ予め決めたt以上になるとき、その無声区間によって囲まれた有声区間を含む信号部分を音声小段落Sjとして抽出する(S332)。以下では、この無声区間の時間tSの値を、例えば、tS=400msとする。
次に、この音声小段落Sj内の、好ましくは後半部の有声区間内の平均パワーpQと、この音声小段落Sjの平均パワー値Pjの定数β倍とを比較し、pQ<βPjであれば、その音声小段落Sjを末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現在の末尾音声小段落までを音声段落と決定して抽出する(S333)。
音声小段落の抽出は、上記の有声区間を囲む無声区間の時間がtS以上となるという条件で行う。図5に、音声小段落としてSj-1、Sj、Sj+1を示し、以下では音声小段落Sを処理対象の音声小段落とする。音声小段落Sは、Q個の有声区間から構成され、音声小段落Sの平均パワーをPjとする。
また、音声小段落Sに含まれるq番目の有声区間V(q=1, 2, …, Q)の平均パワーをpと表す。音声小段落Sが音声段落Bの末尾の音声小段落であるか否かは、音声小段落Sを構成する後半部分の有声区間の平均パワーに基づいて判定する。具体的には、以下の式(2) に示す条件が満たされるか否かで判定する。
Figure 2007003835
この条件を満たすとき、音声小段落Sjが音声段落Bの末尾音声小段落であると判定する。
ここで、αはQj/2以下の値をとる整数であり、βは例えば0.5〜1.5程度の値をとる定数である。これらの値は、音声段落の抽出を最適化するように、予め実験により決めておく。ただし、有声区間の平均パワーpqは、その有声区間内の全フレームの平均パワーである。本発明の実施の形態では、例えばα=3、β=0.8とする。上記のようにすることによって、隣接する末尾音声小段落間の音声小段落の集合を音声段落と判定できる。あるいは、音声小段落を固定長t(s)、シフト幅S(s)と決めてもよい。例えばt(s)=S(s)=1msecの固定長、シフト幅としてもよい。音声段落についてもΔSの無声区間で囲まれた区間としてもよい。
再び図4に戻って、疲労状態の尤度を算出する処理(S334、S335)について説明する(以下、この処理を疲労状態判定処理という)。まず、ステップS310で予め作成した符号帳に記録される音声特徴量ベクトルに合わせて、ステップS320で抽出した入力音声小段落中の音声特徴量の組をベクトル量子化し、符号列C1, C2, C3, …を得る(S334)。
ステップS335での疲労状態尤度の算出に先立って、図6を用いて符号帳の作成方法について説明する。まず、多数の学習用音声を被験者から採取し、疲労状態にあるときの発話と非疲労状態にあるときの発話とを識別できるようにラベルを付ける(S311)。
ステップS311で上記のラベル付けを行ったら、ラベル付けされた音声データから、ステップS320での処理と同様に予め決めたパラメータの組の音声特徴量、例えば(f0",p",dp)の値を音声特徴量ベクトル値としてフレームごとに抽出する(S312)。ラベル付けによって得られる疲労状態または非疲労状態の情報と、疲労状態または非疲労状態とされたラベル区間(ラベル付けされた音声区間)について得られる音声特徴量ベクトルとを用いて、LBGアルゴリズムに従って所定エントリ数の符号帳を作成する(S313)。LBGアルゴリズムは公知であり、その詳細は、例えば、非特許文献5を参照されたい。
符号帳に記録されるmビット符号のエントリの数(以下、符号長サイズという)は、2m個(mは、1以上の整数)であり、エントリのインデックスとしてコードCが用いられる。即ち、インデックスにはmビットの符号(C=00…0, 00…1, …,11…1)が用いられる。
符号帳には、このコードCに対応させて、フレーム長より十分長い所望の区間、例えば学習音声のラベル区間に得られる全音声特徴量ベクトルを使って上記LBGアルゴリズムにより決められた代表ベクトルを符号帳の音声特徴量代表ベクトルとして記録しておく。その際、各音声特徴量を、例えば、その平均値と標準偏差で規格化してもよい。以下の説明では、符号帳の音声特徴量代表ベクトルも単に音声特徴量ベクトルと呼ぶ。
入力音声データから抽出した音声特徴量のパラメータのうち、疲労状態判定処理に使用するパラメータの組は、上記の符号帳作成に用いたパラメータの組と同じものである。疲労状態または非疲労状態の音声小段落を特定するために、音声小段落中のコードC(エントリのインデックス)に対応させて、各疲労状態での出現確率と非疲労状態での出現確率をそれぞれ算出する。従って、符号帳には、上記のコードCと、音声特徴量ベクトルと、疲労状態での出現確率と非疲労状態での出現確率とが対応して記録されている。
以下に、ステップS335で行う話者が疲労状態にあるときの尤度である疲労状態尤度の算出、及び、ステップS336で行う非疲労状態にあるときの尤度である非疲労状態尤度の算出方法の一例について説明する。まず、学習音声中のラベル区間に含まれるフレームの数をnとし、それぞれのフレームについて得られる音声特徴量の組の時系列に対応するコードが時系列でC, C, …, Cとなっているものとする。
前述のように、ラベル区間は、符号帳を作成する処理のステップS311で、ラベルが付けられた1つの音声区間である。ステップS335、S336で算出される、ラベル区間Aの疲労状態尤度PAfat及び非疲労状態尤度PAnrmは、それぞれ、以下の式(3) 及び式(4) に示すように表される。
Figure 2007003835
ここで、Pfat(Ci|C1…Ci-1)は、コード列C1, …, Ci-1の次にコードCiが疲労状態となる条件付出現確率、Pnrm(Ci|C1…Ci-1)は、同様にコード列C1, …, Ci-1の次にコードCiが非疲労状態となる条件付出現確率である。また、Pfat(Ci)は、符号帳を作成する処理において、音声が疲労状態とラベル付けされた部分に存在した音声特徴量ベクトルに対応するコードCiの総個数を数え、その総個数を、全音声データ中の疲労状態とラベル付けされた部分音声データの全コード数(=フレーム数)で割算した値である。一方、Pnrm(Ci)は、コードCiが非疲労状態とラベル付けされた部分に存在した個数を、非疲労状態とラベル付けされた音声データの全コード数で割算した値である。
以下では、各条件付出現確率をN-gram(N<i)モデルで近似し、疲労状態尤度及び非疲労状態尤度の計算を簡単にする。N-gramモデルは、ある時点でのある事象の出現がその直前のN-1個の事象の出現に依存すると近似するモデルである。ここで、N=3のときはtrigram、N=2のときはbigram、N=1のときはunigramとよばれる。このモデルでは、例えば、n番目のフレームにコードCiが出現する確率P(Ci)は、P(Ci)=P(Ci|Ci-N+1…Ci-1)とされる。
上記の式(3) 及び式(4) 中の各条件付出現確率Pfat(Ci|C1…Ci-1)、Pnrm(Ci|C1…Ci-1)にN-gramモデルを適用すると、各条件付出現確率は以下の式(5) 及び式(6) に示すように近似される。
Pfat(Ci|C1…Ci-1)=Pfat(Ci|Ci-N+1…Ci-1) (5)
Pnrm(Ci|C1…Ci-1)=Pnrm(Ci|Ci-N+1…Ci-1) (6)
上記の式(5) のPfat(Ci|Ci-N+1…Ci-1)及び式(6) のPnrm(Ci|Ci-N+1…Ci-1)は、通常、符号帳から全て得られるようになっているが、一部のものについては、学習音声から得られないものもある。その場合は、他の条件付出現確率や単独出現確率から補間によって求めたものでもよい。例えば、低次(即ち、コード列が短い)の条件付出現確率と単独出現確率等とから高次(即ち、コード列が長い)の条件付出現確率を補間して求めることができる。
以下に、この補間の方法について説明する。以下では、上記のtrigram (N=3)、bigram (N=2)、及び、unigram (N=1)を例にとり説明する。各出現確率は、trigram (N=3)では、Pfat(Ci|Ci-2Ci-1)、Pnrm(Ci|Ci-2Ci-1)、bigram (N=2)では、Pfat(Ci|Ci-1)、Pnrm(Ci|Ci-1)、そして、unigram (N=1)では、Pfat(Ci)、Pnrm(Ci)と表される。
この補間の方法では、Pfat(Ci|Ci-2Ci-1)及びPnrm(Ci|Ci-2Ci-1)を、上記の疲労状態での3つの出現確率、非疲労状態での3つの出現確率を用い、以下の式(7) 及び式(8) に基づいて算出する。
Figure 2007003835
ここで、上記のλfat1、λfat2、λfat3は、trigramの疲労状態とラベル付けされた学習データのフレーム数をnとし、時系列でコードC1, C2, …, Cnが得られたとき、以下のように表される。
Figure 2007003835
ただし、λfat1、λfat2、λfat3を求めるときの音声データは、符号帳を作成するときの音声データ以外のものとする。符号帳を作成するときの音声データと同じ音声データを用いると、λfat1=1、λfat2=λfat3=0の自明な解となってしまうからである。同様に、λnrm1、λnrm2、λnrm3も求められる。
次に、trigramを用い、ラベル区間Aのフレーム数がFAであり、得られたコードがC1, C2, …, CFAのとき、このラベル区間Aの疲労状態尤度PAfat及び非疲労状態尤度PAnrmは、それぞれ、以下の式(9) 及び式(10)に示すように表される。
PAfat=Pfat(C3|C1C2)…Pfat(CFA|CFA-2CFA=1) (9)
PAnrm=Pnrm(C3|C1C2)…Pnrm(CFA|CFA-2CFA-1) (10)
本発明の実施の形態では、上記のように補間と、疲労状態尤度PAfat及び非疲労状態尤度PAnrmの算出とができるように、上記の例では、trigram (N=3)、bigram (N=2)、及び、unigram (N=1)を各コードについて算出しておき、符号帳に格納しておくものとする。つまり、符号帳には、各コードに対応して、音声特徴量ベクトルと、その疲労状態での出現確率と、非疲労状態での出現確率との組が格納される。
疲労状態での音声特徴量ベクトルの出現確率としては、各コードが過去のフレームで出現したコードと無関係に疲労状態で出現する確率(単独出現確率)、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが疲労状態で出現する条件付出現確率、またはそれら両方を使用する。同様に、非疲労状態での出現確率、そのコードが過去のフレームで出現したコードと無関係に非疲労状態で出現する単独出現確率、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが非疲労状態で出現する条件付出現確率、またはそれら両方を使用する。
図7に、符号帳に記録される内容の一例を示す。符号帳におけるh番目のエントリのコードをChで表し、例えばC1は第1番目のエントリのコードを表すものとする。コードC1, C2, C3, …は、符号帳の各音声特徴量ベクトルに対応したコード(インデックス)を表し、それぞれmビットの値"00…00"、"00…01"、"00…10"、…である。符号帳には各コードC1, C2, …毎に、その音声特徴量ベクトルと、その単独出現確率が、各疲労状態及び非疲労状態について格納され、条件付出現確率が各疲労状態及び非疲労状態についてそれぞれ組として格納されている。
以下では、表記を簡略化するため、各符号を区別せずCで表し、入力音声信号の音声特徴量ベクトル時系列に対応する符号時系列をC1, C2, C3...と表す。またこの発明に好適な音声特徴量の組の例として、パラメータf0"、p"、dpを使用し、符号帳サイズ(音声特徴量ベクトルの数)が25の場合の疲労状態及び非疲労状態での、条件付出現確率をtrigramで近似した例について説明する。
図8は、音声データの処理を説明するための模式図である。時刻tから始まる音声小段落のうち、第1フレームから第4フレームまでを符号i〜i+3を付して示し、フレーム長及びフレームシフトを、上記のように、それぞれ、100ms、50msとしている。ここでは、フレーム番号i(時刻t〜t+100)のフレームについてコードC1が、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードC2が、フレーム番号i+2(時刻t+100〜t+200)のフレームについてコードC3が、そして、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードC4が得られているものとする。即ち、フレーム順にコードがC1、C2、C3、C4であるとする。
この場合、フレーム番号i+2以上のフレームでは、trigramが計算できる。いま、音声小段落Sの疲労状態尤度をPSfat、非疲労状態尤度をPSnrmとすると、第4フレームまでの各尤度はそれぞれ、以下の式(11)及び式(12)によって与えられる。
PSfat=Pfat(C3|C1C2)Pfat(C4|C2C3) (11)
PSnrm=Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
この例では、符号帳からコードC3、C4の疲労状態及び非疲労状態の各単独出現確率を求め、コードC2の次にコードC3が疲労状態及び非疲労状態で出現する条件付出現確率を求め、さらに、コードC3が連続するコードC1C2の次に疲労状態及び非疲労状態で出現し、コードC4が連続するコードC2C3の次に疲労状態及び非疲労状態で出現する条件付出現確率を求めると以下のようになる。
Pfat(C3|C1C2)=λfat1Pfat(C3|C1C2)+λfat2Pfat(C3|C2)+λfat3Pfat(C3) (13)
Pfat(C4|C2C3)=λfat1Pfat(C4|C2C3)+λfat2Pfat(C4|C3)+λfat3Pfat(C4) (14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λrnm3Pnrm(C3) (15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4) (16)
上記の式(13)〜(16)を用いることによって、式(11)と(12)とで示される第3フレームまでの疲労状態尤度PSfatと非疲労状態尤度をPSnrmが求まる。ここで、条件付出現確率Pfat(C3|C1C2)及びPnrm(C3|C1C2)は、フレーム番号i+2以降で計算できる。
以上の説明は、第4フレームi+3までの計算についてであったが、フレーム数FSの音声小段落Sについても同様に適用できる。例えば、フレーム数FSの音声小段落Sのそれぞれのフレームから得られたコードがC1、C2、…、CFAのとき、この音声小段落Sが疲労状態になる尤度PSfatと非疲労状態になる尤度PSnrmを以下の式(17)及び式(18)に示すように計算する。
Figure 2007003835
上記のように算出した尤度が、PSfat>PSnrm、であれば、その音声小段落Sは、疲労状態であると判定する(S350)。逆に、PSfat≦PSnrmであれば、実質的に非疲労状態と判定されることになる。同様に、PSfat/PSnrm>1、であることを疲労状態と判定するための条件とするのでもよい。また、正の重み係数Wに対しWFAPSfat>PSnrm、を満足することを条件とすることにより、あるいは
RE=(logPSfat-logPSnrm)/FA>W (19)
を満足することを条件とすることにより、小段落のフレーム数FAに応じて重み付けの影響を増減するようにしてもよい。
あるいは、疲労状態出現確率Pfatの音声小段落にわたる総和ΣPfatと非疲労状態出現確率Pnrmの音声小段落にわたる総和ΣPnrmから疲労状態尤度PAfatと非疲労状態尤度PAnrmを次式
Figure 2007003835
のように求め、PAfat>PAnrmならその音声小段落は疲労状態であると判定し、PAfat≦PAnrmであれば非疲労状態と判定してもよい。あるいは、これら条件付出現確率の総積あるいは条件付出現確率の総和を重み付け比較して音声小段落の疲労状態/非疲労状態を判定してもよい。
本発明に係る疲労状態推定方法、装置及び処理プログラムは、実時間の音声入力に基づき話者の疲労状態/非疲労状態を推定することができ、例えば車両の運転手の運転時の疲労状態を監視することなどに適用できる。
本発明の実施の形態に係る疲労状態推定装置の機能構成を示すブロック図。 本発明の実施の形態に係る疲労状態推定装置の具体的構成の一例を示す図。 本発明の実施の形態に係る疲労状態推定装置の動作を説明するためのフローチャート。 ステップS330での処理を説明するためのフローチャート。 音声小段落、音声段落等を説明するための概念図。 ステップS310での処理を説明するためのフローチャート。 符号帳の記載例を示す図。 音声データの処理を説明するための模式図。

Claims (9)

  1. 話者の音声から話者の疲労状態を推定する疲労状態推定方法であって、
    (a) 被検者の音声からフレームごとに予め決めた音声特徴量の組を抽出するステップと、
    (b) 疲労状態と非疲労状態のそれぞれにおける音声特徴量ベクトルの出現確率が上記被検者の学習音声から予め求められ格納された符号帳を用い、上記音声特徴量の組から対応する音声特徴量ベクトルと、その音声特徴量ベクトルの疲労状態及び非疲労状態における出現確率を得るステップと、
    (c) 1フレーム以上の与えられた判定区間にわたる上記疲労状態と非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度と非疲労状態となる尤度をそれぞれ算出するステップと、
    (d) 上記疲労状態となる尤度と上記非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定するステップと、
    (e) 推定した疲労状態を表出するステップ、
    とを含むことを特徴とする疲労状態推定方法。
  2. 請求項1記載の方法において、上記ステップ(d) は、疲労状態の尤度と非疲労状態の尤度との差分を算出し、上記算出した差分を予め設定した閾値と比較することにより上記被検者が疲労状態にあるかを判定するステップであることを特徴とする疲労状態推定方法。
  3. 請求項1記載の方法において、上記ステップ(d) は、疲労状態の尤度と非疲労状態の尤度の比を算出し、上記算出した比を予め設定した閾値と比較することにより上記被検者が疲労状態にあるかを判定するステップであることを特徴とする疲労状態推定方法。
  4. 請求項1記載の方法において、上記ステップ(d) は、
    (d-1) 各判定区間に対し上記ステップ(a)〜(c)を実行するごとに算出した上記疲労状態及び非疲労状態となる尤度を蓄積することを与えられた検査期間にわたって繰り返すステップと、
    (d-2) 蓄積された上記疲労状態及び非疲労状態となる尤度に基づいて上記被検者が疲労状態であるか否かを推定するステップ、
    とを含むことを特徴とする疲労状態推定方法。
  5. 請求項4記載の方法において、上記ステップ(d-2) は、上記検査期間内の各判定区間ごとに、疲労状態の尤度と非疲労状態の尤度との差分を算出し、上記算出した差分が予め設定した状態推定閾値を超える場合は疲労状態と判定するステップと、疲労状態と判定されたすべての判定区間の上記尤度の差分の総和を上記検査期間内の全判定区関数で割り算して疲労レベルを得て、上記疲労レベルを上記状態推定閾値より大のレベル閾値と比較し、上記疲労レベルが上記レベル閾値以下であれば第1の疲労状態と推定し、上記レベル閾値より大であれば第2の疲労状態と推定するステップとを含み、上記ステップ(e) は、上記疲労レベルの推定された疲労状態を表出することを特徴とする疲労状態推定方法。
  6. 請求項4記載の方法において、上記ステップ(d-2) は、上記検査期間内の各判定区間ごとに、疲労状態の尤度と非疲労状態の尤度との尤度比を算出し、上記算出した尤度比が予め設定した状態推定閾値を超える場合は疲労状態と判定するステップと、疲労状態と判定されたすべての判定区間の上記尤度比の総和を上記検査期間内の全判定区関数で割り算して疲労レベルを得て、上記疲労レベルを上記状態推定閾値より大のレベル閾値と比較し、上記疲労レベルが上記レベル閾値以下であれば第1の疲労状態と推定し、上記レベル閾値より大であれば第2の疲労状態と推定するステップとを含み、上記ステップ(e) は、上記疲労レベルの推定された疲労状態を表出することを特徴とする疲労状態推定方法。
  7. 請求項1乃至6のいずれか記載の方法において、上記音声特徴量の組は、少なくとも基本周波数、パワー、動的特徴量の時間変化特性、またはそれらのフレーム間差分を含むことを特徴とする疲労状態推定方法。
  8. 被検者の疲労状態を推定する疲労状態推定装置であって、
    被検者の音声からフレームごとに予め決めた音声特徴量の組を抽出する音声特徴量抽出手段と、
    疲労状態と非疲労状態のそれぞれにおける音声特徴量ベクトルの出現確率が上記被検者の学習音声から予め求められ格納された符号帳を記憶する記憶手段と、
    上記音声特徴量の組から対応する音声特徴量ベクトルを判定する音声特徴量ベクトル判定手段と、
    上記判定した音声特徴量ベクトルの疲労状態及び非疲労状態における出現確率をそれぞれ上記符号帳から得る出現確率取得手段と、
    1フレーム以上の当てられた判定区間にわたる上記疲労状態及び非疲労状態のそれぞれにおける上記音声特徴量ベクトルの上記出現確率に基づいて疲労状態となる尤度及び非疲労状態となる尤度をそれぞれ算出する尤度算出手段と、
    上記疲労状態となる尤度及び非疲労状態となる尤度に基づいて上記被検者の疲労状態を推定する疲労状態推定手段と、
    推定した上記疲労状態を表出する手段、
    とを含むことを特徴とする疲労状態推定装置。
  9. 請求項1乃至7のいずれか記載の疲労状態推定方法を実施する処理ステップを記述したコンピュータで実行可能なプログラム。
JP2005183988A 2005-06-23 2005-06-23 疲労状態推定方法、疲労状態推定装置及びそのプログラム Pending JP2007003835A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005183988A JP2007003835A (ja) 2005-06-23 2005-06-23 疲労状態推定方法、疲労状態推定装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005183988A JP2007003835A (ja) 2005-06-23 2005-06-23 疲労状態推定方法、疲労状態推定装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2007003835A true JP2007003835A (ja) 2007-01-11

Family

ID=37689529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005183988A Pending JP2007003835A (ja) 2005-06-23 2005-06-23 疲労状態推定方法、疲労状態推定装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2007003835A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086027A (ja) * 2018-11-20 2020-06-04 東京瓦斯株式会社 音声再生システムおよびプログラム
KR20200114596A (ko) * 2019-03-29 2020-10-07 연세대학교 산학협력단 휴대용 단말을 이용한 사용자 음성 피로도 원격 관리 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086027A (ja) * 2018-11-20 2020-06-04 東京瓦斯株式会社 音声再生システムおよびプログラム
JP7284570B2 (ja) 2018-11-20 2023-05-31 東京瓦斯株式会社 音声再生システムおよびプログラム
KR20200114596A (ko) * 2019-03-29 2020-10-07 연세대학교 산학협력단 휴대용 단말을 이용한 사용자 음성 피로도 원격 관리 장치
KR102239077B1 (ko) * 2019-03-29 2021-04-09 연세대학교 산학협력단 휴대용 단말을 이용한 사용자 음성 피로도 원격 관리 장치

Similar Documents

Publication Publication Date Title
TWI280560B (en) Classification of audio signals
TWI275253B (en) Method and encoder for encoding a signal
JP4630136B2 (ja) ストレス状態推定緩和装置及びそのプログラム
WO2017088364A1 (zh) 动态选择语音模型的语音识别方法及装置
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
US8175868B2 (en) Voice judging system, voice judging method and program for voice judgment
RU2554554C2 (ru) Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи
CN109979486B (zh) 一种语音质量评估方法及装置
KR20110013390A (ko) 신호판정방법, 신호판정장치, 프로그램, 신호판정시스템
JP4580190B2 (ja) 音声処理装置、音声処理方法およびそのプログラム
US8532986B2 (en) Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP2007003835A (ja) 疲労状態推定方法、疲労状態推定装置及びそのプログラム
JP2002505450A (ja) ハイブリッド被刺激線形予測スピーチ符号化装置及び方法
US20100057448A1 (en) Multicodebook source-dependent coding and decoding
CA2388691A1 (en) Non-intrusive speech-quality assessment
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Korse et al. Entropy Coding of Spectral Envelopes for Speech and Audio Coding Using Distribution Quantization.
Oppermann et al. What’s That Phthong? Automated Classification of Dialectal Mono-and Standard Diphthongs
JP4691327B2 (ja) 情報処理装置および情報処理プログラム
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
US20110119067A1 (en) Apparatus for signal state decision of audio signal
JP6234134B2 (ja) 音声合成装置
Haagen et al. Waveform interpolation
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法