JP4568826B2

JP4568826B2 - 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム

Info

Publication number: JP4568826B2
Application number: JP2005261008A
Authority: JP
Inventors: 達也北村; 浩典竹本; 整治足立; パーハム・モクタリ; 清志本多
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-09-08
Filing date: 2005-09-08
Publication date: 2010-10-27
Anticipated expiration: 2025-09-08
Also published as: JP2007068847A

Description

この発明は、音声信号から当該音声の発声の際の声門閉鎖区間を検出することが可能な声門閉鎖区間検出装置および声門閉鎖区間検出方法に関する。

人の声帯ヒダは、発声中１秒間に１００回以上、ときには１，０００回も振動する。このため、個々の振動の状態を肉眼で直接見ることはできない。

そこで、声帯の振動の様子を観察するためにこれを可視化する方法には、喉頭の画像を機器の応用によって可視化する直接的な方法と、声門の開閉運動のみを検出記録する間接的な方法とに大別することができる。直接的観測法には喉頭高速度映画、喉頭ストロボスコピー、フォトキモグラフィ、半導体撮像素子法などがあり、間接的観測法には、光電グロトグラフィ、電気グロトグラフィ（Electro-glottogram：EGG）、超音波グロトグラフィなどがある。

このうち、ＥＧＧは、左右の甲状軟骨板外側の皮膚面に電極をおいて高周波電流を流しておき、声門の開閉による電気的インピーダンスの変化を検出記録する方法である。

非特許文献１によれば、図７に示すとおり、発声中の声帯粘膜の運動は決して単純な左右方向の開閉運動ではなく、上下方向の波動を伴った３次元の運動である。図７において、１〜３は、声門の開大期、３〜７は閉小期、７〜１０は閉鎖期をそれぞれ示す。

しかし、喉頭での発声を考える際には、気流に直角な平面上での声門面積の変化が最も問題になるので、声帯振動の観測に当たっては、声門面積波形（声門面積を時間の関数として表示したもの）を把握することが、最も重要な課題となる。

図８は、このような声門面積波形を示す図である。声門面積波形では、振動サイクルごとに、上述した開大期、閉小期、閉鎖期の３つの位相を区別する。１回の振動に要する時間を、基本周期という。また単位時間当たりの振動回数を、基本周波数という。音声の基本周期は、声帯振動の基本周期に一致する。したがって音声の基本周波数は、声帯振動の基本周波数に等しい。

一方で、音声の伝送・認識において、声道伝達特性を正確に推定することは極めて重要であり、その推定のための方法の１つとして、従来、線形予測法が用いられている。しかしながら、通常の線形予測法を用いて正確な声道伝達特性を得るためには、励起源が単一のインパルスあるいは白色雑音でなければならない。ところが、現実には、このような仮定は成り立たず、ホルマント周波数推定には励起源の影響が生じる。

このような励起源の影響を軽減する方法には、分析窓長を１ピッチ周期以下と短くして声門閉止（閉鎖）期間すなわち自由振動区間のみ推定し、これを分析対象とする方法（たとえば、非特許文献２を参照）や、残差情報を参照することで線形予測モデルに適合する音声標本点を選択する標本選択線形予測法において、標本の選択処理を予測誤差の大局的な特徴を考慮して行い、かつこの処理を２段階行って、声門開口期間の音声標本を非予測標本から除く「２段標本選択線形予測法」などが提案されている（たとえば、非特許文献３を参照）。
日本音声言語医学会編，医歯薬出版株式会社，「第２版声の検査法」ｐ．９７−ｐ．９９，１９９４年 K.Steiglitz and B.Dickinson: "The use of time-domain selection for improved linear prediction", IEEE Tran. Acoust., Speech & Signal process, ASSp-25, pp.34-39(1977) 三好義昭，大和一晴，柳田益造、角所収著：「２段階標本選択線形予測法による高ピッチ音声の分析」，電子情報通信学会論文誌Ａ Vol. J70-A No.8 pp.1146-1156 1987年8月

しかしながら、前者においては、自然音声の声門閉止区間を正確に推定するのは一般に困難であり、後者にあっては、残差の絶対値がしきい値以上となるものを被予測標本から除くという処理を行うものの声門の状態の観察結果との対比が行われている訳ではない。

また、声門の閉鎖区間を簡単に検出できれば、ボイストレーニングなどにおいては、明瞭な発声の指標として使用することが期待でき、また、言語聴覚療法においては、声門閉鎖不全音声の診断やリハビリの支援に活用できることが期待できるものの、上述した声帯振動の観察方法は、自然発声中の観察には不向きであったり、測定には被験者に身体的あるいは精神的な負担を強いるためにリハビリなどの用途には不向きであるなどの問題点があった。

本発明は、上述したような問題点を解決するためになされたものであって、その目的は、自然な発声状態における声門の閉鎖区間の検出を簡単な構成で可能とする声門閉鎖区間検出装置および声門閉鎖区間検出方法を提供することである。

このような目的を達成するために、本発明の１つの局面にしたがうと、声門閉鎖区間検出装置であって、入力された音声信号のうち、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出する帯域抽出手段と、抽出された音声信号の強度に基づいて、声門閉鎖区間を判定する演算手段とを備える。

好ましくは、帯域抽出手段は、通過帯域を可変に変更できる帯域通過型フィルタ手段を含み、声門閉鎖区間検出装置は、入力された音声信号を周波数分析して、喉頭腔共鳴に対応する周波数帯域を特定して、帯域通過型フィルタ手段の通過帯域として設定するための通過帯域設定手段をさらに備え、演算手段は、抽出された音声信号の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を声門閉鎖区間と判定する。

好ましくは、通過帯域設定手段は、音声信号の周波数スペクトルに基づいて、第４ホルマントを喉頭腔共鳴に対応する周波数と判定する。

この発明の他の局面に従うと、メモリと音声入力装置と演算装置とを備えるコンピュータに、声門閉鎖区間検出の処理を実行させるための声門閉鎖区間検出プログラムであって、被験者の音声を音声入力装置が音声信号に変換し、メモリに格納された音声信号のデータから、演算装置が、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出するステップと、演算装置が、抽出された音声信号の強度に基づいて、声門閉鎖区間を判定するステップとをコンピュータに実行させる。

好ましくは、抽出するステップは、演算装置が、入力された音声信号を周波数分析して、喉頭腔共鳴に対応する周波数帯域を特定するステップと、演算装置が、特定された喉頭腔共鳴に対応する周波数帯域を帯域通過型フィルタ手段の通過帯域として設定するステップとを含み、判定するステップは、演算装置が、帯域通過型フィルタ手段の出力の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を声門閉鎖区間と判定するステップを含む。

本発明に係る声門閉鎖区間検出装置および声門閉鎖区間検出方法によれば、特殊な装置を必要とせず、簡単な装置構成で、声門の閉鎖区間の検出を行うことが可能である。

また、本発明に係る声門閉鎖区間検出装置および声門閉鎖区間検出方法によれば、発声の内容によらず、被験者の自然な発声状態において、声門の閉鎖区間の検出を行うことが可能である。

以下、図面を参照して本発明の実施の形態について説明する。
［ハードウェア構成］
図１は、本発明の声門閉鎖区間検出方法が適用される声門閉鎖区間検出装置１００の一例を示すブロック図である。

図１を参照して、声門閉鎖区間検出装置１００は、基本的には、パーソナルコンピュータに音声処理インタフェースを設けることで構成される。

すなわち、この声門閉鎖区間検出装置１００は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）１１８などの光ディスク上の情報を読込むための光ディスクドライブ１０８およびフレキシブルディスク（Flexible Disk、以下ＦＤ）１１６に情報を読み書きするためのＦＤドライブ１０６を備えたコンピュータ本体１０２と、コンピュータ本体１０２に接続された表示装置としてのモニタ１０４と、同じくコンピュータ本体１０２に接続された入力装置としてのキーボード１１０およびマウス１１２と、音声入力装置としてのマイク１３２と、音声出力装置としてのスピーカ１３４とを含む。

このコンピュータ本体１０２は、光ディスクドライブ１０８およびＦＤドライブ１０６に加えて、それぞれバスＢＳに接続された演算処理部であるＣＰＵ（Central Processing Unit ）１２０と、ＲＯＭ（Read Only Memory) およびＲＡＭ（Random Access Memory）を含むメモリ１２２と、直接アクセスメモリ装置、たとえば、ハードディスク１２４と、マイク１３２またはスピーカ１３４とデータの授受を行うための音声処理インタフェース部１２８とを含んでいる。

なお、ＣＤ−ＲＯＭ１１８は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（Digital Versatile Disc）やメモリカードなどでもよく、その場合は、コンピュータ本体１０２には、これらの媒体を読取ることが可能なドライブ装置が設けられる。

本発明の声門閉鎖区間検出装置の主要部は、コンピュータハードウェアと、ＣＰＵ１２０により実行される声門閉鎖区間検出装置を制御するためのソフトウェアとにより構成される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ１１８、ＦＤ１１６等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドライブ１０８またはＦＤドライブ１０６等により記憶媒体から読取られてハードディスク１２４に一旦格納される。または、当該装置がネットワーク３１０に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク１２４にコピーされる。そうしてさらにハードディスク１２４からメモリ１２２中のＲＡＭに読出されてＣＰＵ１２０により実行される。なお、ネットワーク接続されている場合には、ハードディスク１２４に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

図１に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＦＤ１１６、ＣＤ−ＲＯＭ１１８、ハードディスク１２４等の記憶媒体に記憶されたソフトウェアである。

なお、一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該声門閉鎖区間検出装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて声門閉鎖区間検出装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体（およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号）が実施の形態を構成すると考えることができる。

図２は、図１に示した音声処理インタフェース部１２８の構成をより詳しく説明するための機能ブロック図である。なお、図２においては、マイク１３２からの音声信号の入力処理に関する部分のみを抜き出して示す。

図２を参照して、切換器２０２は、マイク１３２からアナログの音声信号を直接受け取るとともに、マイク１３２からの音声信号が通過帯域可変のバンドパスフィルタ（以下、ＢＰＦと呼ぶ）２００を通過した後の信号を受ける。ＢＰＦ２００の通過帯域および切換器２０２がいずれの信号を選択するかについては、ＣＰＵ１２０により制御される。

切換器２０２の出力は、Ａ／Ｄ変換器２０４によりデジタル信号に変換された後、バッファメモリ部２０６に格納される。周波数分析部２０８は、バッファメモリ部２０６に格納された音声信号に対して周波数スペクトルを求めて、ＣＰＵ１２０に対して出力する。

ＣＰＵ１２０は、周波数スペクトルに基づいて、後に説明するように喉頭腔共鳴に相当するホルマント（第４ホルマント）の周波数領域を検出し、これに基づいて、第４ホルマントの領域を通過させるようにＢＰＦ２００の通過帯域を制御する。また、ＣＰＵ１２０での処理の結果は、たとえば、表示装置１０４に表示される。

なお、図２においては、ＢＰＦ２００としては、アナログ方式の帯域可変フィルタを用いるものとして説明した。しかしながら、ＢＰＦ２００と切換器２０２とをＡ／Ｄ変換器２０４の後段に配置して、デジタル方式の帯域可変フィルタを用いることも可能である。あるいは、マイク１３２からの音声信号をＡ／Ｄ変換器２０４がデジタル信号に変換して直接バッファメモリ部２０６に格納することとし、このバッファメモリ２０６内の音声信号データに対して、ＣＰＵ１２０が演算処理を行うことで、デジタルフィルタ処理を行うこととしてもよい。

また、バッファメモリ部２０６は、必ずしも音声処理インタフェース部１２８内に設けられる必要はなく、たとえば、メモリ１２２またはハードディスク１２４をバッファメモリとして使用してもよい。さらに、周波数分析部２０８についても、必ずしも音声処理インタフェース部１２８内に設けられる必要はなく、たとえば、ＣＰＵ１２０のフーリエ変換などの演算処理により同等の処理を行うことも可能である。

図３は、等価回路モデルで求めた声道伝達特性における声門開口面積Ａｇの影響を結果を示す図である。

図３においては、声門開口面積Ａｇを０．０ｃｍ²(声門閉鎖)、０．１ｃｍ²、０．２ｃｍ²の３段階に変化させている。この図から声門の開放により３．１ｋＨｚのホルマント（低周波側から４番目のピーク：第４ホルマント）が消失することがわかる。このホルマントは、喉頭腔により生じるホルマント(喉頭腔共鳴)と一致する。

従って、喉頭腔共鳴は声門の閉鎖区間で出現し、開放区間で消失することが予測される。したがって、この喉頭腔共鳴の周期内変動を検出することによって音声から声門閉鎖区間を抽出できると考えられる。

図４は、図１および図２に示した声門閉鎖区間検出装置１００の動作を説明するためのフローチャートである。

図４を参照して、まず、ＣＰＵ１２０により制御されて、切換器２０２はマイク１３２から直接受け取った信号をＡ／Ｄ変換器２０４に与え、バッファメモリ部２０６にデジタル化された音声信号が格納される。このバッファメモリ部２０６中のデータに対して、周波数分析部２０８が、周波数分析を行う（Ｓ１００）。

周波数分析の結果得られる周波数スペクトルをＣＰＵ１２０が解析することにより、被験者の第４ホルマントの周波数領域を特定する（Ｓ１０２）。

続いて、ＣＰＵ１２０は、第４ホルマントの音声信号を通過させるようにＢＰＦ２００の通過帯域を調整する（Ｓ１０４）。特に限定されないが、たとえば、第４ホルマントのピーク位置がわかれば、これに対して周波数の上下について所定の周波数分だけの帯域の信号を通過させるように調整することとしてもよい。

このようにＢＰＦ２００の通過帯域を調整した後、ＣＰＵ１２０は、切換器２０２を制御して、ＢＰＦ２００を通過した信号が、バッファメモリ部２０６に格納されるように調整する。以後は、同一の被験者についての同一の入力条件については、調整されたＢＰＦ２００からの信号強度に応じて、声門の閉鎖区間を検出する（Ｓ１０６）。すなわち、声門の閉鎖区間においては、ＢＰＦ２００からの信号強度が大きくなるので、しきい値を設定して、ＣＰＵ１２０は、信号強度がこのしきい値を超える区間は、声門閉鎖区間であると判定できる。特に限定されないが、このようなしきい値は、ユーザが表示装置１０４に出力される測定結果を見て、マニュアルで設定してもよいし、ＣＰＵ１２０が、ＢＰＦ２００を通過した信号の強度に応じて、たとえば、その最高強度の絶対値の所定割合となるように設定してもよい。

（実験結果）
図５および図６は、男女各１名が座位で持続発声した日本語母音／ａ／および／ｉ／を無響室にて収録した結果を示す図である。図５は、男性の測定結果を、図６は女性の測定結果をそれぞれ示す。

図５および図６示した実験においては、音声と同時にＥＧＧ信号も収録した。ＥＧＧ信号はカットオフ１．６Ｈｚのハイパスフィルタにより直流成分を除去した。これらの信号は標本化周波数４８ｋＨｚ、量子化１６ｂｉｔで収録した。音声とＥＧＧ信号の間には声門からマイクロホンまでの距離に対応する時間差が存在するため、ＥＧＧ信号をこの時間差分シフトさせた。

また、ＢＰＦ２００としては、理想的なフィルタ特性のフーリエ級数に窓関数をかける方法でＦＩＲ（Finite Impulse Response）型のバンドパスフィルタを作成した。窓関数として１０１点のハミング窓を用いた。

音声データのスペクトログラムから男性話者のバンドパスフィルタの通過帯域は２．８ｋＨｚから３．８ｋＨｚ、女性話者の通過帯域は３．８ｋＨｚから４．８ｋＨｚと決定した。音声データにこのバンドパスフィルタをかけ、その出力とEGG 信号とを比較した。

図５および図６では、母音の３０ｍｓｅｃの音声波形、対応するＥＧＧ信号、およびバンドパスフィルタの出力（第４ホルマント信号）ならびに比較のために第２ホルマント信号も示している。ＥＧＧ信号は声帯の接触面積に比例するため、その値の大きい区間が声門閉鎖区間となる。

図５および図６から、声門閉鎖区間においてバンドパスフィルタの出力の振幅が相対的に大きくなることがわかる。この結果は、図３に示したシミュレーション結果と同様に、実音声でもピッチ周期のうち声門閉鎖区間で喉頭腔共鳴(第４ホルマント)が出現し、声門開放区間においてこの共鳴が消失することを示している。声帯振動の１周期内で声門は急激に閉鎖し緩徐に開放する。バンドパスフィルタ出力もこれに対応し、声門閉鎖の開始時点で振幅が急激に増加し、その後ゆるやかに振幅が減衰する。

従って、バンドパスフィルタ出力、すなわち、第４ホルマントに対応する信号の包絡線では、明確にオン・オフの変化が検出でき、しきい値処理により声門閉鎖区間を判定できる。これに対して、第２ホルマントではなだらかに減衰し、明確なオン・オフの変化が検出できない。

以上説明したとおり、母音の喉頭腔共鳴パターンが１ピッチ周期内で変動することを利用して、声門閉鎖区間を検出すること可能となる。本発明の声門閉鎖区間の検出方法は、後舌母音にも適用でき、より自然な発声状態における声門開閉を記録することが可能である。また、この方法は、基本的に、マイクロホンとバンドパスフィルタを用いれば、音声入出力機能を有するコンピュータで実現できる。さらに、喉頭腔共鳴は他のホルマントと異なり母音によらずほぼ一定した周波数帯域に現れるため、バンドパスフィルタの通過帯域を一旦決めればどの母音でも利用することができる。

また、ボイストレーニングなどにおいて、検出された声門閉鎖区間を、明瞭な発声の指標として使用することが可能である。あるいは、言語聴覚療法においては、声門閉鎖不全音声の診断やリハビリの支援に活用できる。

なお、以上の説明では、単に、声門の閉鎖区間の検出について説明した。しかし、一般に、音声処理技術は、発声時に声門が閉じていることを前提としている。従って、音声の特徴量抽出の際には声門閉鎖区間のみから抽出する必要がある。本発明の声門の閉鎖区間の検出方法を使って声門閉鎖区間を検出し、そこから特徴量抽出を行うという応用も可能である。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の声門閉鎖区間検出方法が適用される声門閉鎖区間検出装置１００の一例を示すブロック図である。音声処理インタフェース部１２８の構成をより詳しく説明するための機能ブロック図である。等価回路モデルで求めた声道伝達特性における声門開口面積Ａｇの影響を結果を示す図である。声門閉鎖区間検出装置１００の動作を説明するためのフローチャートである。男性被験者が座位で持続発声した日本語母音／ａ／および／ｉ／を無響室にて収録した結果を示す図である。女性被験者が座位で持続発声した日本語母音／ａ／および／ｉ／を無響室にて収録した結果を示す図である。発声中の声帯粘膜の運動を示す概念図である。声門面積波形を示す図である。

符号の説明

１００声門閉鎖区間検出装置、１０２コンピュータ本体、１０４表示装置、１０６ＦＤドライブ、１０８光ディスクドライブ、１１０キーボード、１１２マウス、１１６フレキシブルディスク、１１８ＣＤ−ＲＯＭ、１２０ＣＰＵ、１２２メモリ、１２４ハードディスク、１２８音声処理インタフェース部、１３２マイク、１３４スピーカ、２００ＢＰＦ、２０２切換器、２０４Ａ／Ｄ変換器、２０６バッファメモリ部。

Claims

入力された音声信号のうち、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出する帯域抽出手段と、
抽出された前記音声信号の強度に基づいて、声門閉鎖区間を判定する演算手段とを備える、声門閉鎖区間検出装置。
前記帯域抽出手段は、通過帯域を可変に変更できる帯域通過型フィルタ手段を含み、
入力された前記音声信号を周波数分析して、前記喉頭腔共鳴に対応する周波数帯域を特定して、前記帯域通過型フィルタ手段の前記通過帯域として設定するための通過帯域設定手段をさらに備え、
前記演算手段は、前記抽出された音声信号の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を前記声門閉鎖区間と判定する、請求項１記載の声門閉鎖区間検出装置。
前記通過帯域設定手段は、前記音声信号の周波数スペクトルに基づいて、第４ホルマントを前記喉頭腔共鳴に対応する周波数と判定する、請求項２記載の声門閉鎖区間検出装置。
メモリと音声入力装置と演算装置とを備えるコンピュータに、声門閉鎖区間検出の処理を実行させるための声門閉鎖区間検出プログラムであって、
被験者の音声を前記音声入力装置が音声信号に変換し、前記メモリに格納された前記音声信号のデータから、前記演算装置が、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出するステップと、
前記演算装置が、抽出された前記音声信号の強度に基づいて、声門閉鎖区間を判定するステップとをコンピュータに実行させる、声門閉鎖区間検出プログラム。
前記抽出するステップは、
前記演算装置が、入力された前記音声信号を周波数分析して、前記喉頭腔共鳴に対応する周波数帯域を特定するステップと、
前記演算装置が、特定された前記喉頭腔共鳴に対応する周波数帯域を帯域通過型フィルタ手段の通過帯域として設定するステップとを含み、
前記判定するステップは、
前記演算装置が、前記帯域通過型フィルタ手段の出力の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を前記声門閉鎖区間と判定するステップを含む、請求項４記載の声門閉鎖区間検出プログラム。