JP2003330478A

JP2003330478A - 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Info

Publication number: JP2003330478A
Application number: JP2002141390A
Authority: JP
Inventors: Perham Moktari; パーハムモクタリ; Campbell Nick; ニックキャンベル
Original assignee: ATR Advanced Telecommunications Research Institute International; Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International
Priority date: 2002-05-16
Filing date: 2002-05-16
Publication date: 2003-11-19
Anticipated expiration: 2022-05-16
Also published as: CA2483607C; WO2003098597A1; JP3673507B2; US7627468B2; US20050246168A1; CA2483607A1

Abstract

(57)【要約】【課題】音声波形の特徴を高い信頼性で示す部分を決
定できるようにする。【解決手段】この装置は、データから音声波形のうち
の所定周波数領域のエネルギーの時間軸上の分布を算出
し、当該分布および音声波形のピッチに基づいて、音声
波形の各節のうち、話者によって安定して発生されてい
る領域を抽出する音響・韻律分析部９２と、データから
音声波形のスペクトルの時間軸上の分布を算出し、その
時間軸上の分布に基づいて、音声波形のうち、その変化
が話者により良好に制御されている領域を推定するケプ
ストラム分析部９４と、話者によって安定して発生され
ている領域として抽出され、かつ話者によってその変化
が良好に制御されていると推定された領域を音声波形の
高信頼性部分として決定する擬似音節中心の抽出部９６
とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、一般的には音声
波形からその特徴を高い信頼性で示す部分を抽出するた
めの技術に関し、特に、音声波形の発生源の状態を高い
信頼性で推定するために有効な領域を、音声波形から抽
出するための技術に関する。

【０００２】

【従来の技術】［用語の定義１］最初に、この節で使用
される用語について定義する。

【０００３】「緊張音」（ｐｒｅｓｓｅｄｓｏｕｎ
ｄ）とは、発声の際に声門が緊張しているために声門を
気流が通過しにくく、かつ通過をする際の気流の加速度
が大きくなるように発声される音のことをいう。この場
合、声門気流波形はサインカーブから大きく変形し、そ
の微分波形の傾きが局部的に大きくなる。音声がこうし
た特徴を有する場合、「緊張性」の音声であると呼ぶこ
とにする。

【０００４】「気息音」（ｂｒｅａｔｈｙｓｏｕｎ
ｄ）とは、発声の際に声門に緊張がないために気流が通
過しやすく、その結果声門気流波形がサインカーブに近
くなるように発声される音をいう。この場合、声門気流
波形の微分波形の傾きが局部的に大きくなることはな
い。音声がこうした特徴を有する場合、「気息性」の音
声であると呼ぶことにする。

【０００５】「地声」（モーダル、ｍｏｄａｌ）とは、
緊張音と気息音との中間の発声のことをいう。

【０００６】「ＡＱ指数」（ＡｍｐｌｉｔｕｄｅＱｕ
ｏｔｉｅｎｔ）とは、声門（声帯）気流の波形のピーク
ツーピークの振幅を、声門気流の波形の微分の振幅の最
小値で除した値のことをいう。

【０００７】［従来の技術］音声認識と並んで重要な音
声研究分野に、音声合成がある。最近の信号処理技術の
発達により、音声合成が既に多くの分野で利用されてい
る。しかし、今までの音声合成は単にテキスト情報を音
声化しているだけともいえ、人間が発話する際のような
微妙な感情の表現までは行なえない。

【０００８】たとえば、人間が発話する際には、怒り、
喜び、および悲しみなどの情報が、発話内容以外の情
報、つまり声色などにより伝達される。このように発話
に付随する、言語以外の情報をパラ言語情報と呼ぶ。こ
れらはテキスト情報のみでは表わせない情報である。し
かし従来の音声合成では、こうしたパラ言語情報を伝達
することは難しかった。マンマシンインタフェースをよ
り効率的なものとするためには、テキスト情報だけでは
なくパラ言語情報も音声合成の際に伝えられるようにす
ることが望ましい。

【０００９】こうした問題を解決するために、種々の発
話スタイルで連続的に音声合成を行なおうとする試みが
ある。ひとつの具体的な方策として次のようなものがあ
る。すなわち、発話を録音してデータ処理可能な形でデ
ータベース化し、さらにその中で所望の特徴(怒り、喜
び、悲しみなど)を表わすと思われる発話単位にそれら
の特徴を示すラベルを付ける。音声合成の際には所望の
パラ言語情報に対応したラベルが付けられた音声を利用
する。

【００１０】しかし、十分な広さの発話スタイルをカバ
ーできるようにデータベースを構築しようとすれば、膨
大な量の録音音声を処理しなければならない。そのため
に、自動的にオペレータの介在なく確実にそうした特徴
の抽出とラベル付け処理とを行なえるようにする必要が
ある。

【００１１】以下、パラ言語情報の一例を挙げる。発話
スタイルの一つとして、緊張音と気息音という区別があ
る。緊張音では声門が緊張しているために、どちらかと
いうと強い発声となる。一方気息音では、音声はサイン
カーブに近く、強いという印象はない。したがって緊張
音と気息音という区別も発話スタイルの一つとして重要
であり、その程度を数量化できれば、パラ言語情報とし
て利用できる可能性がある。

【００１２】緊張音と気息音との音質を区別する音響学
的な指標については、今までにも数多くの研究がなされ
てきた。たとえば文末にリストした参考文献１を参照さ
れたい。しかし、そうした研究の多くは、持続的に安定
して母音を発音している間に録音された発話（または
歌）を対象としたものに限定されていた。実際、膨大な
量の発話の録音データから得られた音響測定データに基
づいて、緊張性と気息性との程度を信頼性高く計量しな
ければならないというのは非常に大きな問題であり、か
つ実現された場合には非常に有用となるであろう。

【００１３】スペクトルドメインでの音源の属性を推定
しようとする様々な手段が提案されて来たが、それより
も直接的な推定が、声門気流の波形とその導関数との組
み合わせによって得られるはずである。そうした推定の
一例が文末の参考文献２において提案されたＡＱ指数で
ある。

【００１４】参考文献２では、ＡＱ指数の一つの利点と
して、音圧レベル（ＳＰＬ）から比較的独立しているこ
と、およびその値が主として発音の質的なものに依存し
ていることがあげられている。他の利点として考えられ
るのは、このパラメータが純粋に振幅ドメインのもので
あって、種々の発話スタイルに応じた、推定された声門
波形の時間ドメインの特徴量を測定する際の誤差源に対
して比較的免疫性があることである。また、参考文献２
の著者らによれば、様々な発音スタイルで「ａ」という
母音を持続して発音した場合、４人の男性と４人の女性
との全てに対して、発音を気息性のものから緊張性に変
えていくにしたがって、ＡＱ指数の値は単調に減少した
とのことである（参考文献２の第１３６頁）。したがっ
てＡＱ指数は、ここで我々が解決しようとしている問題
に関して有効である可能性が高い。ただし、ＡＱ指数が
有効となるためには、次の条件が満足される必要があ
る。

【００１５】１）録音された通常の発話について、ロ
バストでかつ信頼性高くＡＱ指数を測定できること、お
よび２）そうした条件で測定された知覚上の特徴が顕著な部
分を確認することができること。

【００１６】

【発明が解決しようとする課題】このような条件を満足
させるためには、自然に発話された音声などの物理量を
表わす音声波形から、いかにして信頼性高く音声波形の
特徴を表わすパラメータを抽出できるかが重要である。
特に音声の場合のように、発話が話者によりその細部ま
で完全にはコントロールされているわけでない場合、ま
た様々な人が様々なスタイルで発話する場合には、パラ
メータを抽出すべき部分として信頼性がおける場所と、
そうでない場所とが存在することが考えられる。そのた
め、音声波形のうちのどの部分を処理対象とするかが重
要である。またそのために、日本語のように音節が発音
の単位となる場合、音節の中心部（仮にこれを「音節
核」と呼ぶ。）を誤りなく抽出できるようにすることが
必要である。

【００１７】したがって、本発明の目的は、音声波形の
特徴を高い信頼性で示す部分を決定することを可能とす
ることである。本発明のほかの目的は、本発明のさらに
他の目的は、音節核を高い信頼性で抽出できるようにす
ることである。

【００１８】

【課題を解決するための手段】本発明の第１の局面は、
複数個の節に分解可能な、物理的量を表わす音声波形の
データに基づいて、音声波形の特徴を高い信頼性で示す
部分を決定するための装置と、そうした装置としてコン
ピュータを動作させるプログラムに関する。この装置
は、データから音声波形のうちの所定周波数領域のエネ
ルギーの時間軸上の分布を算出し、当該分布および音声
波形のピッチに基づいて、音声波形の各節のうち、音声
波形の発生源によって安定して発生されている領域を抽
出するための抽出手段と、データから音声波形のスペク
トルの時間軸上の分布を算出し、当該スペクトルの時間
軸上の分布に基づいて、音声波形のうち、その変化が発
生源により良好に制御されている領域を推定するための
推定手段と、推定手段の出力と、発生源によって安定し
て発生されている領域として抽出手段により抽出され、
かつ発生源によってその変化が良好に制御されていると
推定手段によって推定された領域を音声波形の高信頼性
部分として決定するための手段とを含む。

【００１９】抽出手段による抽出結果と、推定手段によ
る推定結果との双方に基づいて音声波形の高信頼性部分
を決定するので、決定結果がより確実なものとなる。

【００２０】抽出手段は、データに基づいて、音声波形
の各区間が有声区間か否かを判定するための有声判定手
段と、音声波形の所定周波数領域のエネルギーの時間軸
上の分布の波形の極小部で音声波形を節に分離するため
の手段と、音声波形のうち、各節内で、当該節内のエネ
ルギーのピークを含み、かつ有声判定手段により有声区
間であると判定された区間であって、かつ所定周波数領
域のエネルギーが所定のしきい値以上である領域を抽出
するための手段とを含んでもよい。

【００２１】有声と判定された区間であって、かつ所定
周波数領域のエネルギーが所定のしきい値以上である領
域が抽出されるので、発話者が安定して発声している区
間を確実に抽出できる。

【００２２】また好ましくは、推定手段は、音声波形に
対する線形予測分析を行ないフォルマント周波数の推定
値を出力するための線形予測手段と、データを用いて、
線形予測手段によるフォルマント周波数の推定値の非信
頼性の時間軸上の分布を算出するための第１の算出手段
と、線形予測手段の出力に基づいて、音声波形の時間軸
上のスペクトル変化の局所的な分散の、時間軸上の分布
を算出するための第２の算出手段と、第１の算出手段に
より算出されたフォルマント周波数の推定値の非信頼性
の時間軸上の分布と、第２の算出手段により算出された
音声波形のスペクトル変化の局所的な分散の時間軸上の
分布との双方に基づいて、音声波形の変化が発生源によ
り良好に制御されている領域を推定するための手段とを
含む。

【００２３】フォルマント周波数の推定値の非信頼性
と、音声波形の時間軸上のスペクトル変化の局所的な分
散との双方に基づいて、音声波形の変化が発生源により
良好に制御されている領域が推定される。振動変化の発
生源（たとえば発話者）が明確な意図をもって振動を制
御している領域が推定できるので、そうした領域から振
動の特徴量を算出すれば、算出された特徴量の信頼性が
高くなることが期待できる。

【００２４】決定するための手段は、推定手段により音
声波形の変化が発生源により良好に制御されていると推
定された領域のうち、抽出手段により抽出された領域に
含まれる領域を音声波形の高信頼性部分として決定する
ための手段を含んでもよい。

【００２５】音声波形の変化が発生源により良好に制御
されていると推定された領域であって、かつ発生源によ
り音声波形が安定に発生されているもののみを高信頼性
部分として決定する。したがって真に信頼性が高い部分
を抽出できる。

【００２６】本発明の他の局面は、音声信号を擬似音節
に分離し、さらに各擬似音節の核部分を抽出するための
擬似音節核抽出装置と、そうした装置としてコンピュー
タを動作させるプログラムとに関する。この擬似音節核
抽出装置は、音声信号の各区間が有声区間か否かを判定
するための有声判定手段と、音声信号の所定周波数領域
のエネルギーの時間的な分布の波形の極小部で音声信号
を擬似音節に分離するための手段と、音声信号のうち、
各擬似音節内でのエネルギーのピークを含み、かつ有声
判定手段により有声区間であると判定された区間であっ
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域を当該擬似音節の核として抽出するため
の手段とを含む。

【００２７】有声区間であると判定された区間であっ
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域が擬似音節の核として抽出されるので、
発話者が安定して発声しているときの音声を抽出するこ
とができる。

【００２８】本発明のさらに他の局面は、音声信号の特
徴を高い信頼性で示す部分を決定するための装置と、そ
うした装置としてコンピュータを動作させるプログラム
とに関する。当該装置は、音声信号に対する線形予測分
析を行なうための線形予測手段と、線形予測手段による
フォルマントの推定値と、音声信号とに基づいて、フォ
ルマントの推定値の非信頼性の時間軸上の分布を算出す
るための第１の算出手段と、線形予測手段による線形予
測分析の結果に基づいて、音声信号のスペクトル変化の
局所的な分散の時間軸上の分布を算出するための第２の
算出手段と、第１の算出手段により算出されたフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布と、第
２の算出手段により算出された音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、音声波形の変化が発生源により良好に制御されてい
る領域を推定するための手段とを含む。

【００２９】フォルマントの推定値の非信頼性の時間軸
上の分布も、音声信号のスペクトル変化の局所的な分散
の時間軸上の分布も、その極小部ではいずれも音声信号
のうちでその発生源により音声波形の発生が良好に制御
されている部分を示す。これらの双方を用いて領域を推
定するので、音声波形の発生が良好に制御されている部
分を信頼性高く特定することができる。

【００３０】

【発明の実施の形態】以下に述べる本発明の実施の形態
は、コンピュータおよびコンピュータ上で動作するソフ
トウェアにより実現される。もちろん、以下に述べる機
能の一部又は全部を、ソフトウェアでなくハードウェア
で実現することも可能である。

【００３１】［用語の定義２］以下、本実施の形態の説
明で使用される用語について定義する。

【００３２】「擬似音節」とは、音声信号から所定の信
号処理によって決定される信号の切れ目のことを指し、
日本語音声の場合の音節を推定したものに対応する。

【００３３】「ソノラントエネルギー」とは、音声信号
のうちで、所定周波数（たとえば６０Ｈｚ〜３ｋＨｚの
周波数領域）のエネルギーのことをいい、デシベルで表
わされる。

【００３４】「信頼性の中心」（ｃｅｎｔｅｒｏｆ
ｒｅｌｉａｂｉｌｉｔｙ）とは、音声波形に対する信号
処理の結果、音声波形のうちで、対象となる音声波形の
特徴を信頼性高く抽出することができるとみなされるこ
ととなった領域のことをいう。

【００３５】「ディップ」とは、グラフなどの図形がく
びれた部分のことをいう。特に、時間の関数として変化
するような値の時間軸上の分布により形成される波形の
うち、極小値に対応する部分をいう。

【００３６】「非信頼性」とは、信頼性のなさを表わす
尺度のことをいう。非信頼性は信頼性の逆の概念であ
る。

【００３７】図１に、本実施の形態で利用されるコンピ
ュータシステム２０の外観図を、図２にコンピュータシ
ステム２０のブロック図を、それぞれ示す。なおここに
示すコンピュータシステム２０はあくまで一例であり、
この他にも種々の構成が可能である。

【００３８】図１を参照して、コンピュータシステム２
０は、コンピュータ４０と、いずれもこのコンピュータ
４０に接続されたモニタ４２、キーボード４６、および
マウス４８を含む。コンピュータ４０にはさらに、ＣＤ
−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−Ｏｎｌ
ｙＭｅｍｏｒｙ）ドライブ５０と、ＦＤ（Ｆｌｅｘｉ
ｂｌｅＤｉｓｋ）ドライブ５２とが内蔵されている。

【００３９】図２を参照して、コンピュータシステム２
０はさらに、コンピュータ４０に接続されるプリンタ４
４を含むが、これは図１には示していない。またコンピ
ュータ４０はさらに、ＣＤ−ＲＯＭドライブ５０および
ＦＤドライブ５２に接続されたバス６６と、いずれもバ
ス６６に接続された中央演算装置（ＣｅｎｔｒａｌＰｒ
ｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）５６、コンピュ
ータ４０のブートアッププログラムなどを記憶したＲＯ
Ｍ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）５８、ＣＰＵ
５６が使用する作業エリアおよびＣＰＵ５６により実行
されるプログラムの格納エリアを提供するＲＡＭ(Ｒａ
ｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０、および
後述する音声データベースを格納したハードディスク５
４を含む。

【００４０】以下に述べる実施の形態のシステムを実現
するソフトウェアは、たとえば、ＣＤ−ＲＯＭ６２のよ
うな記録媒体上に記録されて流通し、ＣＤ−ＲＯＭドラ
イブ５０のような読取装置を介してコンピュータ４０に
読込まれ、ハードディスク５４に格納される。ＣＰＵ５
６がこのプログラムを実行する際には、ハードディスク
５４からこのプログラムを読み出してＲＡＭ６０に格納
し、図示しないプログラムカウンタによって指定される
アドレスから命令を読出して実行する。ＣＰＵ５６は、
処理対象のデータをハードディスク５４から読出し、処
理結果を同じくハードディスク５４に格納する。

【００４１】コンピュータシステム２０の動作自体は周
知であるので、ここではその詳細については繰り返さな
い。

【００４２】なお、ソフトウェアの流通形態は上記した
ように記憶媒体に固定された形には限定されない。たと
えば、ネットワークを通じて接続された他のコンピュー
タからデータを受取る形で流通することもあり得る。ま
た、ソフトウェアの一部が予めハードディスク５４中に
格納されており、ソフトウェアの残りの部分をネットワ
ーク経由でハードディスク５４に取込んで実行時に統合
するような形の流通形態もあり得る。

【００４３】一般的に、現代のプログラムはコンピュー
タのオペレーティングシステム（ＯＳ）によって提供さ
れる汎用の機能を利用し、それらを所望の目的にしたが
って組織化した形態で実行することにより前記した所望
の目的を達成する。したがって、以下に述べる本実施の
形態の各機能のうち、ＯＳまたはサードパーティが提供
する汎用的な機能を含まず、それら汎用的な機能の実行
順序の組合せだけを指定するプログラム（群）であって
も、それらを利用して全体的として所望の目的を達成す
る制御構造を有するプログラム(群）である限り、それ
らが本発明の技術的範囲に含まれることは明らかであ
る。

【００４４】本実施の形態のプログラムを装置とみなし
て機能的に示したのが図３以下のブロック図である。図
３を参照して、この装置８０は、ハードディスク５４に
格納された音声データ８２に対して以下に説明する処理
を行なって、音声データに含まれる各処理単位（たとえ
ば音節）ごとに前述したＡＱ指数を算出し出力するため
のものである。なお、音声データは後述するように１フ
レーム３２ｍｓｅｃとなるように予めフレーム化されて
いる。

【００４５】装置８０は、音声データに対して高速フー
リエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏ
ｒｍ：ＦＦＴ）を行なうＦＦＴ処理部９０と、ＦＦＴ処
理部９０の出力を用い、音声データにより表わされる音
声波形のうちの６０Ｈｚ〜３ｋＨｚの周波数領域のエネ
ルギーの時間的変化および音声のピッチの変化に基づい
て、音声データにより表わされる音声波形の各音節のう
ち、話者の発声機構によって安定して発生されている領
域（これを以後「擬似音節核」と呼ぶ。）とを抽出する
音響・韻律分析部９２と、音声データ８２に対してケプ
ストラム分析を行ない、さらに、ＦＦＴ処理部９０の出
力を用いてケプストラム分析の結果音声スペクトルの変
化が少なく、音声データの特徴を信頼性高く抽出できる
と思われる部分（これを「高信頼性・小変動部の中心」
または「高信頼・小変動の中心」または単に「信頼性の
中心」と呼ぶ。）を推定するためのケプストラム分析部
９４とを含む。

【００４６】装置８０はさらに、ケプストラム分析部９
４の出力する信頼性の中心（高信頼性・小変動部の中
心）の中で、音響・韻律分析部９２の出力する擬似音節
核の中にあるものだけを擬似音節中心として抽出するた
めの擬似音節中心の抽出部９６と、擬似音節中心の抽出
部９６によって抽出された擬似音節中心に対応する音声
データに対して、フォルマントの初期推定と最適化処理
とを行なって最終的なフォルマントの推定値を出力する
ためのフォルマントの最適化部９８と、音声データに対
して、フォルマントの最適化部９８から出力されるフォ
ルマント値を用いた適応的フィルタ処理などの信号処理
を行なって声門気流波形の微分を推定し、さらにそれを
積分することによって声門気流波形を推定し、それらに
基づいてＡＱ指数を計算するためのＡＱ指数計算部１０
０とを含む。

【００４７】図４は、音声データの構成を模式的に示す
図である。図４を参照して、音声データ波形１０２は、
それぞれ３２ｍｓｅｃごとのフレームに分けられ、かつ
前後のフレーム間では８ｍｓｅｃごとにずらしてデジタ
ル化されている。そして、後述する処理では、たとえば
ある時点ｔ０では第１のフレームを先頭として処理を
し、次の時点ｔ１では８ｍｓｅｃずれた次の第２のフレ
ームを先頭として処理をする、という形で処理を行なっ
ていく。

【００４８】図５は、図３に示す音響・韻律分析部９２
のブロック図である。図５を参照して、音響・韻律分析
部９２は、音声波形から測定される音源のピッチを用い
て、処理対象のフレームが有声区間か否かを判定する
（この方法については参考文献３を参照）ためのピッチ
判定部１１０と、ＦＦＴ処理部９０の出力に基づいて所
定周波数領域（６０Ｈｚ〜３ｋＨｚ）のソノラントエネ
ルギの時間軸上の波形分布を算出するためのソノラント
エネルギ算出部１１２と、ソノラントエネルギ算出部１
１２によって算出されるソノラントエネルギの時間軸上
の分布波形の輪郭に対して凸包アルゴリズムを適用する
ことにより、ソノラントエネルギの時間軸上の分布波形
の輪郭の中のディップを検出して、入力音声を擬似音節
に分割する（この方法については参考文献４および５を
参照）ためのディップ検出部１１４と、ディップ検出部
１１４によって得られた擬似音節中の、ソノラントエネ
ルギの最大値（ＳＥpeak）が得られる点を起点として、
その左右に、ソノラントエネルギが所定のしきい値
（０．８×ＳＥpeak）より大きく、かつピッチ判定部１
１０によって有声区間であると判定されたフレームであ
って、かつ同じ擬似音節中のフレームを１フレームずつ
広げていくことにより、擬似音節核を出力するための有
声・エネルギ判定部１１６とを含む。

【００４９】図６は、図３に示すケプストラム分析部９
４のブロック図である。図６を参照して、ケプストラム
分析部９４は、音声データ８２の音声波形に対して選択
的線形予測（ＳｅｌｅｃｔｉｖｅＬｉｎｅａｒＰｒ
ｅｄｉｃｔｉｏｎ：ＳＬＰ）分析を行なって、ＳＬＰケ
プストラム係数ｃ_f,iを出力するための線形予測分析部
１３０と、このケプストラム係数に基づいて先頭の４つ
のフォルマントの周波数と帯域との初期推定値を算出す
るためのフォルマント推定部１３２とを含む。フォルマ
ント推定部１３２は、参考文献６により提案された線形
ケプストラム−フォルマントマッピングを利用し、かつ
同じデータのサブセットを使用して注意深く測定された
母音フォルマントに対するマッピングを学習させてあ
る。この学習については、参考文献７を参照されたい。

【００５０】ケプストラム分析部９４はさらに、推定さ
れたフォルマント周波数などに基づいてケプストラム係
数Ｃ_i ^simpを再計算するためのケプストラム再生成部１
３６と、ＦＦＴ処理部９０の出力に対して対数変換およ
びコサイン逆変換（ＩＤＣＴ）を行なってＦＦＴケプス
トラム係数を算出するための対数変換および逆ＤＣＴ部
１４０と、ケプストラム再生成部１３６により計算され
たケプストラム係数Ｃ _i ^simpと、対数変換および逆ＤＣ
Ｔ部１４０により計算されたＦＦＴケプストラム係数Ｃ
_i ^FFTとの間の差を表わす値として次の式により定義され
るケプストラム距離ｄ_f ²を計算し、フォルマント推定部
１３２によって推定されたフォルマント周波数などの値
の非信頼性を表わす指標として出力するためのケプスト
ラム距離計算部１４２とをさらに含む。

【００５１】

【数１】フォルマント推定部１３２、ケプストラム再生成部１３
６、ケプストラム距離計算部１４２、および対数変換お
よび逆ＤＣＴ部１４０により、線形予測分析の結果に基
づいて推定されたフォルマント周波数などの値の非信頼
性が算出される。

【００５２】ケプストラム分析部９４はさらに、線形予
測分析部１３０の出力するケプストラム係数からΔケプ
ストラムを算出する為のΔケプストラム算出部１３４
と、Δケプストラム算出部１３４の出力するΔケプスト
ラムに基づいて、各フレームごとに、そのフレームを含
む５フレームのスペクトル変化の大きさの分散を算出す
る為のフレーム間分散算出部１３８とを含む。フレーム
間分散算出部１３８の出力は、局所的なスペクトルの動
きの時間軸上の分布波形の輪郭を表わすものとなり、そ
の極小値は、参考文献８で提案されている調音音声学理
論にならっていえば、制御された動きＣＭ（Controlled
Movement）を示すものと考えることができる。

【００５３】さらにケプストラム分析部９４は、ケプス
トラム距離計算部１４２の出力するフォルマント周波数
の推定値の非信頼性を示す値と、フレーム間分散算出部
１３８の出力する各フレームごとの局所的なフレーム間
分散値とを受け、両者の値を規格化し統合して、フレー
ムごとの音声信号の非信頼性を示す値の時間軸上の分布
波形として出力するための規格化および統合部１４４
と、規格化および統合部１４４の出力する非信頼性の値
の時間軸上の分布波形により形成される波形の輪郭のデ
ィップを凸包アルゴリズムにより検出して、信頼性の中
心候補として出力するための信頼性の中心候補出力部１
４６とを含む。

【００５４】図７は、図６に示す規格化および統合部１
４４のブロック図である。図７を参照して、規格化およ
び統合部１４４は、ケプストラム距離計算部１４２によ
り出力されたケプストラム距離を［０，１］の値に規格
化するための第１の規格化部１６０と、フレーム間分散
算出部１３８が各フレームごとに算出するフレーム間分
散の値を［０，１］の値に規格化するための第２の規格
化部１６２と、局所的なフレーム間分散の値の時間軸上
の位置を、ケプストラム距離計算部１４２の出力するケ
プストラム距離のサンプリングタイミングと一致させる
ように線形補間処理を行なうための補間処理部１６４
と、第１の規格化部１６０の出力と補間処理部１６４の
出力とを１フレームごとに平均して出力するための平均
計算部１６６とを含む。平均計算部１６６の出力は、統
合された値の時間軸上の分布波形の輪郭を表わす。信頼
性の中心候補出力部１４６によってこの波形の輪郭のデ
ィップ（極小部）を検出することにより、非信頼性が最
も低い部分(信頼性が最も高い部分)を信頼性の中心の候
補として特定することができる。

【００５５】図８は、図３に示すフォルマントの最適化
部９８のブロック図である。図８を参照して、フォルマ
ントの最適化部９８は、音声波形に対してＦＦＴ処理を
行なうためのＦＦＴ処理部１８０と、ＦＦＴ処理部１８
０の出力に対して対数変換およびコサイン逆変換を行な
うための対数変換および逆ＤＣＴ部１８２と、対数変換
および逆ＤＣＴ部１８２の出力するＦＦＴケプストラム
係数と、後述するフォルマントの推定値との間の距離を
計算するためのケプストラム距離計算部１８４と、信頼
性の中心候補の各々における第１〜第４のフォルマント
周波数の初期推定値を初期値とし、ケプストラム距離計
算部１８４が計算する距離を最小にするように山登り法
によってフォルマントの推定値を最適化するための距離
最小化処理部１８６とを含む。距離最小化処理部１８６
によって最適化されたフォルマント推定値がフォルマン
トの最適化部９８の出力としてＡＱ指数計算部１００に
与えられる。

【００５６】図９を参照して、ＡＱ指数計算部１００
は、音声信号のうちで音節中心に相当する位置の６４ｍ
ｓｅｃの部分のうち、７０Ｈｚ以上の周波数成分のみを
選択的に通過させるためのハイパスフィルタ２００と、
ハイパスフィルタ２００の出力のうち、最適化された第
４フォルマント周波数とその帯域との和以下の周波数成
分のみを選択的に通過させるための適応的ローパスフィ
ルタ２０２と、適応的ローパスフィルタ２０２の出力に
対し、第１〜第４フォルマント周波数を用いた適応的逆
フィルタ処理を行なうための適応的逆フィルタ２０４と
を含む。適応的逆フィルタ２０４の出力は、声門気流波
形の微分波形となる。

【００５７】ＡＱ指数計算部１００はさらに、適応的逆
フィルタ２０４の出力を積分して声門気流波形を出力す
るための積分回路２０６と、積分回路２０６の出力のピ
ークツーピークの最大振幅を検出するための最大ピーク
間振幅検出回路２０８と、適応的逆フィルタ２０４の出
力の負のピークの最大振幅を検出するための最大の負の
ピーク振幅検出回路２１０と、最大の負のピーク振幅検
出回路２１０の出力に対する最大ピーク間振幅検出回路
２０８の出力の比を算出するための比計算回路２１２と
を含む。比計算回路２１２の出力がＡＱ指数である。

【００５８】図１〜図９に示した装置は以下のように動
作する。まず、使用された音声データ８２について説明
する。この音声データは参考文献９で使用されたもので
あり、日本語のネイティブスピーカである女性が３つの
物語を読んだものを録音して作成されたものである。こ
の物語は、怒りと、喜びと、悲しみという感情を引き起
こすように予め作成されていたものである。物語の各々
は４００文の長さ（おおよそ３０，０００音素）以上の
発話を含む。各発話は別々の音声波形ファイルに格納さ
れ処理された。

【００５９】各文の発話データはＦＦＴ処理部９０によ
るＦＦＴ処理の後、以下のようにして処理される。処理
は大きく見て二つの系統に分かれ実行される。第１の系
統は音響・韻律分析部９２で行なわれる音響韻律的な処
理であり、他の系統はケプストラム分析部９４が行なう
音響音声学的な処理である。

【００６０】音響韻律的な系統の処理では、図５に示す
ソノラントエネルギ算出部１１２によって６０Ｈｚ〜３
ｋＨｚ周波数領域のソノラントエネルギが算出される。
ソノラントエネルギ算出部１１２の出力する一文の発話
データの全体波形の輪郭から、ディップ検出部１１４が
凸包アルゴリズムによりディップを検出する。このディ
ップにより、この発話文は擬似音節に分割される。

【００６１】有声・エネルギ判定部１１６は、擬似音節
の中でソノラントエネルギが最大（ＳＥpeak）となる点
を見つける。この点が擬似音節核の初期点である。有声
・エネルギ判定部１１６はさらに、この擬似音節核の初
期点から始めて、その左右に向かい、ソノラントエネル
ギが０．８×ＳＥpeak以下のフレーム、またはピッチ判
定部１１０が有声でないと判定したフレーム、または擬
似音節の外のフレームに出会うまで、擬似音節核の範囲
を広げる。こうして擬似音節核の境界が決定される。こ
の情報は擬似音節中心の抽出部９６に与えられる。な
お、ここでしきい値として０．８の値を用いているが、
これは単なる例であって,応用によりこのしきい値を適
切な値に代える必要がある。

【００６２】図６を参照して、入力された一つの発話文
に対して線形予測分析部１３０が線形予測分析を行な
い、ＳＬＰケプストラム係数を出力する。Δケプストラ
ム算出部１３４がこのＳＬＰケプストラム係数に基づい
てΔケプストラムを算出し、フレーム間分散算出部１３
８に与える。フレーム間分散算出部１３８は、このΔケ
プストラム係数に基づき、各フレームごとに、そのフレ
ームを含む５フレームの中での局所的なスペクトル変化
の分散を計算する。この分散が小さいほど発話者の発声
が発話者によりよく制御されていると考えられ、逆にこ
の分散が大きいと話者による制御がよくされていないと
考えられるので、フレーム間分散算出部１３８の出力は
発話者の発声が信頼されない程度（非信頼性）を表わす
と考えられる。

【００６３】図６をさらに参照して、フォルマント推定
部１３２は、線形ケプストラムフォルマントマッピング
を用い、ＳＬＰケプストラム係数に基づいて第１〜第４
フォルマントの周波数と帯域とを推定する。ケプストラ
ム再生成部１３６は、フォルマント推定部１３２により
推定された第１〜第４フォルマントに基づいて逆にケプ
ストラム係数を算出しケプストラム距離計算部１４２に
与える。対数変換および逆ＤＣＴ部１４０は、フォルマ
ント推定部１３２およびケプストラム再生成部１３６が
処理したのと同じフレームのもとの音声データに対して
対数変換およびコサイン逆変換を行なってＦＦＴケプス
トラム係数を算出しケプストラム距離計算部１４２に与
える。ケプストラム距離計算部１４２は、ケプストラム
再生成部１３６からのケプストラム係数と対数変換およ
び逆ＤＣＴ部１４０からのケプストラム係数との間の距
離を前述の「数１」の式にしたがって計算する。この結
果得られるのは、フォルマント推定部１３２が推定した
フォルマントの非信頼性を示す値の時間軸上の分布を表
わす波形と考えられる。ケプストラム距離計算部１４２
は、この結果を規格化および統合部１４４に与える。

【００６４】図７を参照して、規格化および統合部１４
４の第１の規格化部１６０は、図６のケプストラム距離
計算部１４２の出力する、フォルマントの推定値から算
出された各フレームごとの非信頼性値を［０，１］の範
囲に正規化して平均計算部１６６に与える。第２の規格
化部１６２は、図６のフレーム間分散算出部１３８が出
力する、フレームごとに計算された局所的なフレーム間
分散の値を［０，１］の範囲に正規化して補間処理部１
６４に与える。補間処理部１６４は、第２の規格化部１
６２の各値に対し、第１の規格化部１６０の出力する各
フレームのサンプリングポイントに対応する値が得られ
るように線形補間処理を行なって平均計算部１６６に与
える。平均計算部１６６は、フレームごとに、第１の規
格化部１６０の出力と補間処理部１６４の出力とを正規
化し、その結果を時間軸上の非信頼性の分布を示す統合
された波形として信頼性の中心候補出力部１４６に出力
する。

【００６５】信頼性の中心候補出力部１４６は、凸包ア
ルゴリズムにより、規格化および統合部１４４の出力す
る統合された波形の輪郭のディップを検出して、そのフ
レームを特定する情報を図３の擬似音節中心の抽出部９
６に対して信頼性の中心の候補として出力する。

【００６６】図３に示す擬似音節中心の抽出部９６は、
図６に示す信頼性の中心候補出力部１４６から与えられ
た信頼性の中心の中で、音響・韻律分析部９２から与え
られた擬似音節核の中にあるもののみを擬似音節中心と
して抽出する。

【００６７】以上の処理によって、音声データのうちで
音声データの特徴を抽出する、または音声データをラベ
ル付けするために適した高信頼性・小変動領域を示す情
報が得られたことになる。したがって、この情報によっ
て特定されるフレームについて所望の処理を行なえばよ
い。本実施の形態の装置では、擬似音節中心の抽出部９
６はこの情報をフォルマントの最適化部９８に与え、フ
ォルマントの最適化部９８はこの情報を用いて、以下の
ようにして擬似音節中心におけるＡＱ指数を算出する。

【００６８】なお、本実施の形態の装置では、擬似音節
中心の長さは連続する５フレームとする。１フレームは
３２ｍｓｅｃであり、連続するフレームは互いに８ｍｓ
ｅｃずつずれているから、５フレームの全体では６４ｍ
ｓｅｃの音声期間に相当する。

【００６９】これらの擬似音節中心におけるＡＱ指数
は、図９のＡＱ指数計算部１００中で得られる声門気流
の波形により直接計算することができる。しかし、声門
気流の推定自体、もともとのフォルマントに相当する声
道の共振によって影響されており、その信頼性は共振の
影響をもとの音声波形の６４ｍｓｅｃのデータから取り
除くことができるかに依存している。したがって、その
ような計算によって得られたＡＱ指数は信頼できないも
のとなる。

【００７０】一方、擬似音節中心におけるフォルマント
は、スペクトルがよく一致しているという意味で、既に
よい推定となっているが、本実施の形態の装置では、さ
らに以下のようにしてフォルマント周波数を最適化す
る。

【００７１】すなわち、図８を参照して、ＦＦＴ処理部
１８０は音声波形に対してフレームごとにＦＦＴ処理を
行なう。対数変換および逆ＤＣＴ部１８２はＦＦＴ処理
部１８０の出力に対して対数変換およびコサイン逆変換
を行なう。ケプストラム距離計算部１８４は、対数変換
および逆ＤＣＴ部１８２の出力するケプストラム係数と
距離最小化処理部１８６から与えられるケプストラム係
数の推定値との間の距離を計算する。距離最小化処理部
１８６は、フォルマントの推定値を表わすケプストラム
係数の値を起点として、ケプストラム距離計算部１８４
により計算される距離が最小値となるように山登り法に
よって距離最小化処理部１８６から与えられたケプスト
ラム係数の値をさらに最適化し、最小値が得られるとき
のフォルマント推定値を出力する。

【００７２】ＡＱ指数計算部１００の内部構成は図９に
示されており、この図９を参照して、擬似音節中心にお
ける音声データはまずハイパスフィルタ２００を通り、
その結果７０Ｈｚ以下の低周波数の雑音が除去される。
さらに適応的ローパスフィルタ２０２によって第４フォ
ルマントより高い周波数領域のスペクトル情報が除去さ
れる。そして、適応的逆フィルタ２０４によって第１〜
第４フォルマントによる影響が除去される。

【００７３】その結果、適応的逆フィルタ２０４の出力
は声門気流の波形の微分のよい推定値となる。これを積
分回路２０６で積分することにより声門気流の波形の推
定値が得られる。最大ピーク間振幅検出回路２０８によ
って声門気流の波形のピークツーピークの振幅の最大値
を検出する。最大の負のピーク振幅検出回路２１０によ
って声門気流の微分波形のサイクル内での負の最大の振
幅を検出する。最大ピーク間振幅検出回路２０８の出力
の、最大の負のピーク振幅検出回路２１０の出力に対す
る比を比計算回路２１２で計算することにより、擬似音
節中心におけるＡＱ指数が得られる。

【００７４】こうして得られたＡＱ指数は、各擬似音節
中心におけるもとの音声データの特徴（緊張音―気息音
の間の度合い）を信頼性高くあらわしている。これら各
擬似音節中心に対してＡＱ指数を計算し、さらにこれら
得られたＡＱ指数を補間することにより、擬似音節中心
以外の部分のＡＱ指数を推定することもできる。そうす
ることにより、音声データのうち、一定のＡＱ指数を示
す部分に、当該ＡＱ指数に対応した適切なラベルをパラ
言語情報として付けておき、音声合成の際には、所望の
ＡＱ指数を有する音声データを使用すれば、単なるテキ
ストだけでなく、パラ言語情報をも含んだ形での音声合
成を行なうことが可能になる。

【００７５】図１０〜図１２に、本実施の形態の装置を
コンピュータにより実現した際の画面表示例を示す。

【００７６】図１０を参照して、このプログラムによる
表示ウィンドウには、音声データ波形２４０と、音声デ
ータに対して付された音声ラベル２４２と、基本周波数
の波形の時間軸上の分布波形の輪郭２４４と、ソノラン
トエネルギの変動の時間軸上の分布波形の輪郭２４６
と、Δケプストラムから計算されたスペクトル変化の局
所的な分散の時間軸上の分布波形の輪郭２４８と、フォ
ルマント−ＦＦＴケプストラム距離の時間軸上の分布波
形の輪郭２５０と、スペクトル変化の局所的な分散の分
布波形の輪郭２４８およびフォルマント−ケプストラム
距離の分布波形の輪郭２５０を統合した波形である非信
頼性の時間軸上の分布波形の輪郭２５２と、上述のよう
にして算出された擬似音節中心での声門のＡＱ指数２５
４と、各擬似音節中心で推定された声道の面積関数２５
６とが示されている。

【００７７】音声データ波形２４０の表示領域に示され
た太い縦線２３２と、ソノラントエネルギの変動の輪郭
２４６の表示領域に示された太い縦線とは擬似音節の境
界を示す。音声データ波形２４０の表示領域に示された
細い縦線２３０と、ソノラントエネルギの変動の輪郭２
４６および基本周波数の波形輪郭２４４の表示領域に示
された細い縦線は擬似音節核の境界を示す。

【００７８】非信頼性の波形２５２の表示領域に示され
た縦線は波形の極小値部分（ディップ）であり、そこを
中心としてＡＱ指数が計算されている部分が最も信頼性
の高い部分である。なおＡＱ指数が計算された期間およ
び値は横棒で示されており、横棒の縦位置が高いほど緊
張音に近く、低いほど気息音に近い。

【００７９】図１１には、図１０の点線のボックス２６
２で示される時点での声門気流波形の推定値２７０と、
その微分波形２７２と、推定された声門気流波形のスペ
クトル２７４とが示されている。図１０のボックス２６
２に対応する時点ではＡＱ指数２５４は高く、すなわち
この時点の発声は緊張音に近い。図１１に示すとおり、
このときの声門気流の波形はのこぎり形に近く、サイン
ウェーブの波形からは遠く異なっている。また、微分波
形はするどく変化している。

【００８０】図１２には、図１０の点線のボックス２６
０で示される時点での声門気流波形の推定値２８０と、
その微分波形２８２と、推定された声門気流波形のスペ
クトル２８４とが示されている。図１０のボックス２６
０に対応する時点ではＡＱ指数２５４は低く、すなわち
この時点の発声は気息音に近い。図１２に示すとおり、
このときの声門気流の波形はきれいなサインカーブに近
い。微分波形も緩やかなものとなっている。

【００８１】上に述べた装置を用い、前述した音声デー
タを実際に処理して擬似音節中心を抽出し、各擬似音節
中心に対してＡＱ指数を算出しする一方、それらの擬似
音節中心に対応する音を人間が聞いたときに感ずる感想
と、ＡＱ指数との相関を以下のようにして調査した。

【００８２】上記した装置を用いて抽出された信頼性の
中心は２２，０００個であり、その各々について対応す
る声門気流波形およびＡＱ指数と、もとの音声波形のＲ
ＭＳ（ＲｏｏｔＭｅａｎＳｑｕａｒｅ）エネルギ
(ｄＢ）とを算出した。これら信頼性の中心のうち、同
一の音節核中に存在しかつ互いのＡＱ指数がほぼ一致し
ているものをまとめ、さらにそれら信頼性の中心のう
ち、統合された非信頼性の値が０．２以上のものを棄却
することにより、聴覚刺激として使用可能と思われる音
節核の数は１５，０００をわずかに超えたものとなっ
た。

【００８３】このデータセットに対して算出された統計
情報に基づき、知覚上の評価を行なうために６０の刺激
からなるサブセットを選択した。具体的には、前述した
３つの感情を表わすデータベースの各々について、極め
て低い、または極めて高い、または各感情に対するＡＱ
指数の平均値マイナスその分布の標準偏差（σ）近辺、
またはＡＱ指数の平均値プラス標準偏差近辺、の４つの
カテゴリのいずれかにＡＱ指数が属するような信頼性の
中心を含む音節核を５つずつ選択した。

【００８４】このようにして選択された６０個の擬似音
節核の時間的長さは３２ｍｓｅｃから５６０ｍｓｅｃの
範囲であり、その平均は１７１ｍｓｅｃであった。通常
の聴覚的能力を有する１１人の被験者が、これら短時間
の刺激の各々について聴覚的評価を行なった。被験者は
静粛なオフィス環境で、高音質のヘッドフォンを用い、
各刺激を必要な回数だけ聞き、各刺激について、それぞ
れ「気息性」および「強さ」とだけ説明した二つのスケ
ールにしたがい、７段階で採点した。各被験者の採点は
各々比例により［０，１］の範囲に正規化され、正規化
した点数に基づいて、６０個の刺激の各々についての１
１人の被験者全ての気息性および強さに関する平均値を
算出した。

【００８５】図１３は、上のようにして調べた気息性
と、音響的に測定したＡＱ指数の値とを比較する散布図
である。これら６０対の値に対する線形相関係数は０．
７７であった。この相関は必ずしも高いものではない
が、刺激に対するＡＱの測定値が高くなれば、その刺激
に対して感じられる気息性も平均すれば高くなるという
明らかな傾向があることを裏付けるものといえる。図１
３の散布図上で想定されるベストフィットの直線から最
も遠い位置に存在する点のいくつかをより詳細に調べる
と、誤差の原因として次のようなものが浮かび上がる。
すなわち、動的制約が欠如しているために生ずる、５つ
のフレーム中でのフォルマントの非連続性、５つのフレ
ームに含まれていない音節核の一部において生ずる高い
気息性、および５つのフレーム中の母音部分に対して、
隣接した鼻音がおよぼす強い影響などである。

【００８６】さらに、図１３からは、中位から下位のＡ
Ｑ指数を有する刺激に対しては、気息性の感じ方が広い
ことに気づく。これは、気息性が低い刺激に気息性に関
する点数をつけることが難しく、むしろ地声または緊張
音的な発音という側面から点数付けしたほうがよりよく
特徴を表わせるのではないか、という直感的な理解を裏
付けるものと思われる。

【００８７】ここでは図としては示していないが、強さ
の感じ方を、同じ信頼性の中心において測定されたＲＭ
Ｓエネルギと比較するための散布図も作成した。その相
関係数は０．８３となり、より高度な重み付けを用いて
強さの感じ方を測定しているわけではないにもかかわら
ず、その関係の強さを裏付けるものとなっている。

【００８８】以上のように本実施の形態では、音響・韻
律的分析と、ケプストラム分析とを組合せて、（ｉ）録
音された自然な発声中の擬似音節の信頼性の中心の位置
を決定するための、（ｉｉ）参考文献２で提案されたＡ
Ｑ指数により定量化された音源の属性を測定するため
の、全くオペレータが介在する必要がない方法および装
置を実現した。そして、その方法および装置を用いて行
なった音声知覚の実験の結果は、擬似音節核中で知覚さ
れた気息性と強い相関を持つ、頑健性をもって測定でき
る値としてのＡＱ指数の重要性を確認するものであっ
た。実際、前述したような誤差源が存在しているにもか
かわらず、ＡＱ指数と気息性の知覚との間に見出された
相関により、音質パラメータとしてのＡＱ指数をさらに
研究する必要があることを確認することができた。

【００８９】そしてこの方法および装置により、発声単
位に対するパラ言語的なラベル付けを行なうことができ
る可能性が高くなる。そうした発声単位を用い、所望の
ラベル付けがされた発声単位を用いて音声の連続合成を
行なうことにより、緊張音から地声、さらに気息的な発
音までの範囲にわたる幅広い発声スタイルを用いたマン
マシンインタフェースを実現することが可能となる。

【００９０】［参考文献］（１） Sundberg,J. (1987). The science of the sin
ging voice, Northern Illinois UniversityPress, Del
calb, Illinois. （２） Alku,P. & Vilkman, E. (1996). “Amplitude
domain quotient for characterization ofthe glottal
volume velocity waveform estimated by inverse fil
tering”, SpeechComm., 18(2), 131-138. （３） Hermes,D. (1988). “Measurement of pitch b
y subharmonic summation”, J. Acoust.Soc. Am.83
(1), 257-264. （４） Mermelstein,P. (1975). “Automatic segment
ation of speech into syllabic units”, J.Acoust.So
c. Am. 58(4), 880-883. （５） Lea,W.A. (1980). “Prosodic aids to speech
recognition”, in Lea, W.A. (ed.), Trendsin Speec
h Recognition, Prentice-Hall, New Jersey, 166-205. （６） Broad,D.J. & Clermont, F. (1989). “Forman
t estimation by linear transformation ofthe LPC ce
pstrum”, J. Acoust. Soc. Am. 86 (5), 2013-2017. （７） Mokhtari,P., Iida, A. & Campbell, N. (200
1). “Some articulatory correlates ofemotion varia
bility in speech : apreliminary study on spoken
Japanese vowels”, Proc. Int. Conf. on SpeechProce
ss., Taejon, Korea, 431-436. （８） Peterson,G.E., & Shoup, J.E. (1966). “A
physiological theory of phonetics”, J. Speech Hea
r. Res. 9, 5-67. （９） Iida,A., Campbell, N., Iga, S., Higuchi,
F. & Yasumura, M. (1998). “Acousticnature and per
ceptual testing of corpora of emotional speech”,
Proc. 5th Int.Conf. on Spoken Lang. Process., 1559
-1562.

【図面の簡単な説明】

【図１】本発明の一実施の形態のプログラムを実行す
るコンピュータシステムの外観を示す図である。

【図２】図１に示すコンピュータシステムのブロック
図である。

【図３】本発明の一実施の形態のプログラムの全体構
成をブロック図形式で示す図である。

【図４】音声データの構成を模式的に示す図である。

【図５】図３に示す音響・韻律分析部９２のブロック
図である。

【図６】図３に示すケプストラム分析部９４のブロッ
ク図である。

【図７】図６に示す規格化および統合部１４４のブロ
ック図である。

【図８】図３に示すフォルマントの最適化部９８のブ
ロック図である。

【図９】図３に示すＡＱ指数計算部１００のブロック
図である。

【図１０】本発明の一実施の形態のプログラムによる
表示例を示す図である。

【図１１】音声データのうち、緊張音と判断される一
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。

【図１２】音声データのうち、気息音と判断される一
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。

【図１３】感知された気息性と音響的に測定されたＡ
Ｑ指数との間の関連を示す散布図である。

【符号の説明】

２０コンピュータシステム、８２音声データ、９０
ＦＦＴ処理部、９２音響・韻律分析部、９４ケプス
トラム分析部、９６擬似音節中心の抽出部、９８フ
ォルマントの最適化部、１００ＡＱ指数計算部、１１
０ピッチ判定部、１１２ソノラントエネルギ算出
部、１１４ディップ検出部、１１６有声・エネルギ判
定部、１３０線形予測分析部、１３２フォルマント
推定部、１３４ Δケプストラム算出部、１３６ケプ
ストラム再生成部、１３８フレーム間分散算出部、１
４０対数変換および逆ＤＣＴ部、１４２ケプストラ
ム距離計算部、１４４規格化および統合部、１４６
信頼性の中心候補出力部、１８６距離最小化処理部

───────────────────────────────────────────────────── フロントページの続き (72)発明者キャンベルニック京都府相楽郡精華町光台二丁目２番地２株式会社国際電気通信基礎技術研究所内Ｆターム(参考） 5D015 DD03 (54)【発明の名称】音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Claims

【特許請求の範囲】

【請求項１】音声波形のデータに基づいて、前記音声
波形の特徴を高い信頼性で示す部分を決定するための装
置であって、前記データから前記音声波形のうちの所定周波数領域の
エネルギーの時間軸上の分布を算出し、当該分布および
前記音声波形のピッチに基づいて、前記音声波形の各節
のうち、前記音声波形の発生源によって安定して発生さ
れている領域を抽出するための抽出手段と、前記データから前記音声波形のスペクトルの時間軸上の
分布を算出し、当該スペクトルの時間軸上の分布に基づ
いて、前記音声波形のうち、その変化が前記発生源によ
り良好に制御されている領域を推定するための推定手段
と、前記推定手段の出力と、前記発生源によって安定して発
生されている領域として前記抽出手段により抽出され、
かつ前記発生源によってその変化が良好に制御されてい
ると前記推定手段によって推定された領域を前記音声波
形の高信頼性部分として決定するための手段とを含む、
音声波形の特徴を高い信頼性で示す部分を決定するため
の装置。
【請求項２】前記抽出手段は、前記データに基づいて、前記音声波形の各区間が有声区
間か否かを判定するための有声判定手段と、前記音声波形の前記所定周波数領域のエネルギーの時間
軸上の分布の波形の極小部で前記音声波形を節に分離す
るための手段と、前記音声波形のうち、各節内で、当該節内のエネルギー
のピークを含み、かつ前記有声判定手段により有声区間
であると判定された区間であって、かつ前記所定周波数
領域のエネルギーが所定のしきい値以上である領域を抽
出するための手段とを含む、請求項１に記載の装置。
【請求項３】前記推定手段は、前記音声波形に対する線形予測分析を行ないフォルマン
ト周波数の推定値を出力するための線形予測手段と、前記データを用いて、前記線形予測手段によるフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布を算出
するための第１の算出手段と、前記線形予測手段の出力に基づいて、前記音声波形の時
間軸上のスペクトル変化の局所的な分散の、時間軸上の
分布を算出するための第２の算出手段と、前記第１の算出手段により算出された前記フォルマント
周波数の推定値の非信頼性の時間軸上の分布と、前記第
２の算出手段により算出された前記音声波形のスペクト
ル変化の局所的な分散の時間軸上の分布との双方に基づ
いて、前記音声波形の変化が前記発生源により良好に制
御されている領域を推定するための手段とを含む、請求
項１に記載の装置。
【請求項４】前記決定するための手段は、前記推定手
段により前記音声波形の変化が前記発生源により良好に
制御されていると推定された領域のうち、前記抽出手段
により抽出された領域に含まれる領域を前記音声波形の
高信頼性部分として決定するための手段を含む、請求項
１〜請求項３のいずれかに記載の装置。
【請求項５】音声信号を擬似音節に分離し、さらに各
擬似音節の核部分を抽出するための擬似音節核抽出装置
であって、前記音声信号の各区間が有声区間か否かを判定するため
の有声判定手段と、前記音声信号の所定周波数領域のエネルギーの時間的な
分布の波形の極小部で前記音声信号を擬似音節に分離す
るための手段と、前記音声信号のうち、各擬似音節内でのエネルギーのピ
ークを含み、かつ前記有声判定手段により有声区間であ
ると判定された区間であって、かつ前記所定周波数領域
のエネルギーが所定のしきい値以上である領域を当該擬
似音節の核として抽出するための手段とを含む、擬似音
節核抽出装置。
【請求項６】音声信号の特徴を高い信頼性で示す部分
を決定するための装置であって、前記音声信号に対する線形予測分析を行なうための線形
予測手段と、前記線形予測手段によるフォルマントの推定値と、前記
音声信号とに基づいて、前記フォルマントの推定値の非
信頼性の時間軸上の分布を算出するための第１の算出手
段と、前記線形予測手段による線形予測分析の結果に基づい
て、前記音声信号のスペクトル変化の局所的な分散の時
間軸上の分布を算出するための第２の算出手段と、第１の算出手段により算出された前記フォルマント周波
数の推定値の非信頼性の時間軸上の分布と、前記第２の
算出手段により算出された前記音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、前記音声波形の変化が前記発生源により良好に制御
されている領域を推定するための手段とを含む、音声信
号の特徴を高い信頼性で示す部分を決定するための装
置。
【請求項７】音声波形のデータに基づいて、前記音声
波形の特徴を高い信頼性で示す部分を決定するための装
置としてコンピュータを動作させるプログラムであっ
て、前記装置は、前記データから前記音声波形のうちの所定周波数領域の
エネルギーの時間軸上の分布を算出し、当該分布および
前記音声波形のピッチに基づいて、前記音声波形の各節
のうち、前記音声波形の発生源によって安定して発生さ
れている領域を抽出するための抽出手段と、前記データから前記音声波形のスペクトルの時間軸上の
分布を算出し、当該スペクトルの時間軸上の分布に基づ
いて、前記音声波形のうち、その変化が前記発生源によ
り良好に制御されている領域を推定するための推定手段
と、前記推定手段の出力と、前記発生源によって安定して発
生されている領域として前記抽出手段により抽出され、
かつ前記発生源によってその変化が良好に制御されてい
ると前記推定手段によって推定された領域を前記音声波
形の高信頼性部分として決定するための手段とを含む、
音声波形の特徴を高い信頼性で示す部分を決定するため
のプログラム。
【請求項８】前記抽出手段は、前記データに基づいて、前記音声波形の各区間が有声区
間か否かを判定するための有声判定手段と、前記音声波形の前記所定周波数領域のエネルギーの時間
軸上の分布の波形の極小部で前記音声波形を節に分離す
るための手段と、前記音声波形のうち、各節内で、当該節内のエネルギー
のピークを含み、かつ前記有声判定手段により有声区間
であると判定された区間であって、かつ前記所定周波数
領域のエネルギーが所定のしきい値以上である領域を抽
出するための手段とを含む、請求項７に記載のプログラ
ム。
【請求項９】前記推定手段は、前記音声波形に対する線形予測分析を行ないフォルマン
ト周波数の推定値を出力するための線形予測手段と、前記データを用いて、前記線形予測手段によるフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布を算出
するための第１の算出手段と、前記線形予測手段の出力に基づいて、前記音声波形の時
間軸上のスペクトル変化の局所的な分散の、時間軸上の
分布を算出するための第２の算出手段と、前記第１の算出手段により算出された前記フォルマント
周波数の推定値の非信頼性の時間軸上の分布と、前記第
２の算出手段により算出された前記音声波形のスペクト
ル変化の局所的な分散の時間軸上の分布との双方に基づ
いて、前記音声波形の変化が前記発生源により良好に制
御されている領域を推定するための手段とを含む、請求
項７に記載のプログラム。
【請求項１０】前記決定するための手段は、前記推定
手段により前記音声波形の変化が前記発生源により良好
に制御されていると推定された領域のうち、前記抽出手
段により抽出された領域に含まれる領域を前記音声波形
の高信頼性部分として決定するための手段を含む、請求
項７〜請求項９のいずれかに記載のプログラム。
【請求項１１】音声信号を擬似音節に分離し、さらに
各擬似音節の核部分を抽出するための擬似音節核抽出装
置としてコンピュータを動作させるプログラムであっ
て、前記擬似音節核抽出装置は、前記音声信号の各区間が有声区間か否かを判定するため
の有声判定手段と、前記音声信号の所定周波数領域のエネルギーの時間的な
分布の波形の極小部で前記音声信号を擬似音節に分離す
るための手段と、前記音声信号のうち、各擬似音節内でのエネルギーのピ
ークを含み、かつ前記有声判定手段により有声区間であ
ると判定された区間であって、かつ前記所定周波数領域
のエネルギーが所定のしきい値以上である領域を当該擬
似音節の核として抽出するための手段とを含む、擬似音
節核抽出プログラム。
【請求項１２】音声信号の特徴を高い信頼性で示す部
分を決定するための装置としてコンピュータを動作させ
るプログラムであって、前記装置は、前記音声信号に対する線形予測分析を行なうための線形
予測手段と、前記線形予測手段によるフォルマントの推定値と、前記
音声信号とに基づいて、前記フォルマントの推定値の非
信頼性の時間軸上の分布を算出するための第１の算出手
段と、前記線形予測手段による線形予測分析の結果に基づい
て、前記音声信号のスペクトル変化の局所的な分散の時
間軸上の分布を算出するための第２の算出手段と、第１の算出手段により算出された前記フォルマント周波
数の推定値の非信頼性の時間軸上の分布と、前記第２の
算出手段により算出された前記音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、前記音声波形の変化が前記発生源により良好に制御
されている領域を推定するための手段とを含む、音声信
号の特徴を高い信頼性で示す部分を決定するためのプロ
グラム。