JP2003330478A - 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム - Google Patents

音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Info

Publication number
JP2003330478A
JP2003330478A JP2002141390A JP2002141390A JP2003330478A JP 2003330478 A JP2003330478 A JP 2003330478A JP 2002141390 A JP2002141390 A JP 2002141390A JP 2002141390 A JP2002141390 A JP 2002141390A JP 2003330478 A JP2003330478 A JP 2003330478A
Authority
JP
Japan
Prior art keywords
waveform
voice
distribution
region
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002141390A
Other languages
English (en)
Other versions
JP3673507B2 (ja
Inventor
Perham Moktari
パーハム モクタリ
Campbell Nick
ニック キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, Japan Science and Technology Corp filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002141390A priority Critical patent/JP3673507B2/ja
Priority to US10/514,413 priority patent/US7627468B2/en
Priority to PCT/JP2003/001954 priority patent/WO2003098597A1/ja
Priority to CA2483607A priority patent/CA2483607C/en
Publication of JP2003330478A publication Critical patent/JP2003330478A/ja
Application granted granted Critical
Publication of JP3673507B2 publication Critical patent/JP3673507B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】 音声波形の特徴を高い信頼性で示す部分を決
定できるようにする。 【解決手段】 この装置は、データから音声波形のうち
の所定周波数領域のエネルギーの時間軸上の分布を算出
し、当該分布および音声波形のピッチに基づいて、音声
波形の各節のうち、話者によって安定して発生されてい
る領域を抽出する音響・韻律分析部92と、データから
音声波形のスペクトルの時間軸上の分布を算出し、その
時間軸上の分布に基づいて、音声波形のうち、その変化
が話者により良好に制御されている領域を推定するケプ
ストラム分析部94と、話者によって安定して発生され
ている領域として抽出され、かつ話者によってその変化
が良好に制御されていると推定された領域を音声波形の
高信頼性部分として決定する擬似音節中心の抽出部96
とを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、一般的には音声
波形からその特徴を高い信頼性で示す部分を抽出するた
めの技術に関し、特に、音声波形の発生源の状態を高い
信頼性で推定するために有効な領域を、音声波形から抽
出するための技術に関する。
【0002】
【従来の技術】[用語の定義1]最初に、この節で使用
される用語について定義する。
【0003】「緊張音」(pressed soun
d)とは、発声の際に声門が緊張しているために声門を
気流が通過しにくく、かつ通過をする際の気流の加速度
が大きくなるように発声される音のことをいう。この場
合、声門気流波形はサインカーブから大きく変形し、そ
の微分波形の傾きが局部的に大きくなる。音声がこうし
た特徴を有する場合、「緊張性」の音声であると呼ぶこ
とにする。
【0004】「気息音」(breathy soun
d)とは、発声の際に声門に緊張がないために気流が通
過しやすく、その結果声門気流波形がサインカーブに近
くなるように発声される音をいう。この場合、声門気流
波形の微分波形の傾きが局部的に大きくなることはな
い。音声がこうした特徴を有する場合、「気息性」の音
声であると呼ぶことにする。
【0005】「地声」(モーダル、modal)とは、
緊張音と気息音との中間の発声のことをいう。
【0006】「AQ指数」(Amplitude Qu
otient)とは、声門(声帯)気流の波形のピーク
ツーピークの振幅を、声門気流の波形の微分の振幅の最
小値で除した値のことをいう。
【0007】[従来の技術]音声認識と並んで重要な音
声研究分野に、音声合成がある。最近の信号処理技術の
発達により、音声合成が既に多くの分野で利用されてい
る。しかし、今までの音声合成は単にテキスト情報を音
声化しているだけともいえ、人間が発話する際のような
微妙な感情の表現までは行なえない。
【0008】たとえば、人間が発話する際には、怒り、
喜び、および悲しみなどの情報が、発話内容以外の情
報、つまり声色などにより伝達される。このように発話
に付随する、言語以外の情報をパラ言語情報と呼ぶ。こ
れらはテキスト情報のみでは表わせない情報である。し
かし従来の音声合成では、こうしたパラ言語情報を伝達
することは難しかった。マンマシンインタフェースをよ
り効率的なものとするためには、テキスト情報だけでは
なくパラ言語情報も音声合成の際に伝えられるようにす
ることが望ましい。
【0009】こうした問題を解決するために、種々の発
話スタイルで連続的に音声合成を行なおうとする試みが
ある。ひとつの具体的な方策として次のようなものがあ
る。すなわち、発話を録音してデータ処理可能な形でデ
ータベース化し、さらにその中で所望の特徴(怒り、喜
び、悲しみなど)を表わすと思われる発話単位にそれら
の特徴を示すラベルを付ける。音声合成の際には所望の
パラ言語情報に対応したラベルが付けられた音声を利用
する。
【0010】しかし、十分な広さの発話スタイルをカバ
ーできるようにデータベースを構築しようとすれば、膨
大な量の録音音声を処理しなければならない。そのため
に、自動的にオペレータの介在なく確実にそうした特徴
の抽出とラベル付け処理とを行なえるようにする必要が
ある。
【0011】以下、パラ言語情報の一例を挙げる。発話
スタイルの一つとして、緊張音と気息音という区別があ
る。緊張音では声門が緊張しているために、どちらかと
いうと強い発声となる。一方気息音では、音声はサイン
カーブに近く、強いという印象はない。したがって緊張
音と気息音という区別も発話スタイルの一つとして重要
であり、その程度を数量化できれば、パラ言語情報とし
て利用できる可能性がある。
【0012】緊張音と気息音との音質を区別する音響学
的な指標については、今までにも数多くの研究がなされ
てきた。たとえば文末にリストした参考文献1を参照さ
れたい。しかし、そうした研究の多くは、持続的に安定
して母音を発音している間に録音された発話(または
歌)を対象としたものに限定されていた。実際、膨大な
量の発話の録音データから得られた音響測定データに基
づいて、緊張性と気息性との程度を信頼性高く計量しな
ければならないというのは非常に大きな問題であり、か
つ実現された場合には非常に有用となるであろう。
【0013】スペクトルドメインでの音源の属性を推定
しようとする様々な手段が提案されて来たが、それより
も直接的な推定が、声門気流の波形とその導関数との組
み合わせによって得られるはずである。そうした推定の
一例が文末の参考文献2において提案されたAQ指数で
ある。
【0014】参考文献2では、AQ指数の一つの利点と
して、音圧レベル(SPL)から比較的独立しているこ
と、およびその値が主として発音の質的なものに依存し
ていることがあげられている。他の利点として考えられ
るのは、このパラメータが純粋に振幅ドメインのもので
あって、種々の発話スタイルに応じた、推定された声門
波形の時間ドメインの特徴量を測定する際の誤差源に対
して比較的免疫性があることである。また、参考文献2
の著者らによれば、様々な発音スタイルで「a」という
母音を持続して発音した場合、4人の男性と4人の女性
との全てに対して、発音を気息性のものから緊張性に変
えていくにしたがって、AQ指数の値は単調に減少した
とのことである(参考文献2の第136頁)。したがっ
てAQ指数は、ここで我々が解決しようとしている問題
に関して有効である可能性が高い。ただし、AQ指数が
有効となるためには、次の条件が満足される必要があ
る。
【0015】1) 録音された通常の発話について、ロ
バストでかつ信頼性高くAQ指数を測定できること、お
よび 2)そうした条件で測定された知覚上の特徴が顕著な部
分を確認することができること。
【0016】
【発明が解決しようとする課題】このような条件を満足
させるためには、自然に発話された音声などの物理量を
表わす音声波形から、いかにして信頼性高く音声波形の
特徴を表わすパラメータを抽出できるかが重要である。
特に音声の場合のように、発話が話者によりその細部ま
で完全にはコントロールされているわけでない場合、ま
た様々な人が様々なスタイルで発話する場合には、パラ
メータを抽出すべき部分として信頼性がおける場所と、
そうでない場所とが存在することが考えられる。そのた
め、音声波形のうちのどの部分を処理対象とするかが重
要である。またそのために、日本語のように音節が発音
の単位となる場合、音節の中心部(仮にこれを「音節
核」と呼ぶ。)を誤りなく抽出できるようにすることが
必要である。
【0017】したがって、本発明の目的は、音声波形の
特徴を高い信頼性で示す部分を決定することを可能とす
ることである。本発明のほかの目的は、本発明のさらに
他の目的は、音節核を高い信頼性で抽出できるようにす
ることである。
【0018】
【課題を解決するための手段】本発明の第1の局面は、
複数個の節に分解可能な、物理的量を表わす音声波形の
データに基づいて、音声波形の特徴を高い信頼性で示す
部分を決定するための装置と、そうした装置としてコン
ピュータを動作させるプログラムに関する。この装置
は、データから音声波形のうちの所定周波数領域のエネ
ルギーの時間軸上の分布を算出し、当該分布および音声
波形のピッチに基づいて、音声波形の各節のうち、音声
波形の発生源によって安定して発生されている領域を抽
出するための抽出手段と、データから音声波形のスペク
トルの時間軸上の分布を算出し、当該スペクトルの時間
軸上の分布に基づいて、音声波形のうち、その変化が発
生源により良好に制御されている領域を推定するための
推定手段と、推定手段の出力と、発生源によって安定し
て発生されている領域として抽出手段により抽出され、
かつ発生源によってその変化が良好に制御されていると
推定手段によって推定された領域を音声波形の高信頼性
部分として決定するための手段とを含む。
【0019】抽出手段による抽出結果と、推定手段によ
る推定結果との双方に基づいて音声波形の高信頼性部分
を決定するので、決定結果がより確実なものとなる。
【0020】抽出手段は、データに基づいて、音声波形
の各区間が有声区間か否かを判定するための有声判定手
段と、音声波形の所定周波数領域のエネルギーの時間軸
上の分布の波形の極小部で音声波形を節に分離するため
の手段と、音声波形のうち、各節内で、当該節内のエネ
ルギーのピークを含み、かつ有声判定手段により有声区
間であると判定された区間であって、かつ所定周波数領
域のエネルギーが所定のしきい値以上である領域を抽出
するための手段とを含んでもよい。
【0021】有声と判定された区間であって、かつ所定
周波数領域のエネルギーが所定のしきい値以上である領
域が抽出されるので、発話者が安定して発声している区
間を確実に抽出できる。
【0022】また好ましくは、推定手段は、音声波形に
対する線形予測分析を行ないフォルマント周波数の推定
値を出力するための線形予測手段と、データを用いて、
線形予測手段によるフォルマント周波数の推定値の非信
頼性の時間軸上の分布を算出するための第1の算出手段
と、線形予測手段の出力に基づいて、音声波形の時間軸
上のスペクトル変化の局所的な分散の、時間軸上の分布
を算出するための第2の算出手段と、第1の算出手段に
より算出されたフォルマント周波数の推定値の非信頼性
の時間軸上の分布と、第2の算出手段により算出された
音声波形のスペクトル変化の局所的な分散の時間軸上の
分布との双方に基づいて、音声波形の変化が発生源によ
り良好に制御されている領域を推定するための手段とを
含む。
【0023】フォルマント周波数の推定値の非信頼性
と、音声波形の時間軸上のスペクトル変化の局所的な分
散との双方に基づいて、音声波形の変化が発生源により
良好に制御されている領域が推定される。振動変化の発
生源(たとえば発話者)が明確な意図をもって振動を制
御している領域が推定できるので、そうした領域から振
動の特徴量を算出すれば、算出された特徴量の信頼性が
高くなることが期待できる。
【0024】決定するための手段は、推定手段により音
声波形の変化が発生源により良好に制御されていると推
定された領域のうち、抽出手段により抽出された領域に
含まれる領域を音声波形の高信頼性部分として決定する
ための手段を含んでもよい。
【0025】音声波形の変化が発生源により良好に制御
されていると推定された領域であって、かつ発生源によ
り音声波形が安定に発生されているもののみを高信頼性
部分として決定する。したがって真に信頼性が高い部分
を抽出できる。
【0026】本発明の他の局面は、音声信号を擬似音節
に分離し、さらに各擬似音節の核部分を抽出するための
擬似音節核抽出装置と、そうした装置としてコンピュー
タを動作させるプログラムとに関する。この擬似音節核
抽出装置は、音声信号の各区間が有声区間か否かを判定
するための有声判定手段と、音声信号の所定周波数領域
のエネルギーの時間的な分布の波形の極小部で音声信号
を擬似音節に分離するための手段と、音声信号のうち、
各擬似音節内でのエネルギーのピークを含み、かつ有声
判定手段により有声区間であると判定された区間であっ
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域を当該擬似音節の核として抽出するため
の手段とを含む。
【0027】有声区間であると判定された区間であっ
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域が擬似音節の核として抽出されるので、
発話者が安定して発声しているときの音声を抽出するこ
とができる。
【0028】本発明のさらに他の局面は、音声信号の特
徴を高い信頼性で示す部分を決定するための装置と、そ
うした装置としてコンピュータを動作させるプログラム
とに関する。当該装置は、音声信号に対する線形予測分
析を行なうための線形予測手段と、線形予測手段による
フォルマントの推定値と、音声信号とに基づいて、フォ
ルマントの推定値の非信頼性の時間軸上の分布を算出す
るための第1の算出手段と、線形予測手段による線形予
測分析の結果に基づいて、音声信号のスペクトル変化の
局所的な分散の時間軸上の分布を算出するための第2の
算出手段と、第1の算出手段により算出されたフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布と、第
2の算出手段により算出された音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、音声波形の変化が発生源により良好に制御されてい
る領域を推定するための手段とを含む。
【0029】フォルマントの推定値の非信頼性の時間軸
上の分布も、音声信号のスペクトル変化の局所的な分散
の時間軸上の分布も、その極小部ではいずれも音声信号
のうちでその発生源により音声波形の発生が良好に制御
されている部分を示す。これらの双方を用いて領域を推
定するので、音声波形の発生が良好に制御されている部
分を信頼性高く特定することができる。
【0030】
【発明の実施の形態】以下に述べる本発明の実施の形態
は、コンピュータおよびコンピュータ上で動作するソフ
トウェアにより実現される。もちろん、以下に述べる機
能の一部又は全部を、ソフトウェアでなくハードウェア
で実現することも可能である。
【0031】[用語の定義2]以下、本実施の形態の説
明で使用される用語について定義する。
【0032】「擬似音節」とは、音声信号から所定の信
号処理によって決定される信号の切れ目のことを指し、
日本語音声の場合の音節を推定したものに対応する。
【0033】「ソノラントエネルギー」とは、音声信号
のうちで、所定周波数(たとえば60Hz〜3kHzの
周波数領域)のエネルギーのことをいい、デシベルで表
わされる。
【0034】「信頼性の中心」(center of
reliability)とは、音声波形に対する信号
処理の結果、音声波形のうちで、対象となる音声波形の
特徴を信頼性高く抽出することができるとみなされるこ
ととなった領域のことをいう。
【0035】「ディップ」とは、グラフなどの図形がく
びれた部分のことをいう。特に、時間の関数として変化
するような値の時間軸上の分布により形成される波形の
うち、極小値に対応する部分をいう。
【0036】「非信頼性」とは、信頼性のなさを表わす
尺度のことをいう。非信頼性は信頼性の逆の概念であ
る。
【0037】図1に、本実施の形態で利用されるコンピ
ュータシステム20の外観図を、図2にコンピュータシ
ステム20のブロック図を、それぞれ示す。なおここに
示すコンピュータシステム20はあくまで一例であり、
この他にも種々の構成が可能である。
【0038】図1を参照して、コンピュータシステム2
0は、コンピュータ40と、いずれもこのコンピュータ
40に接続されたモニタ42、キーボード46、および
マウス48を含む。コンピュータ40にはさらに、CD
−ROM(CompactDisc Read−Onl
y Memory)ドライブ50と、FD(Flexi
ble Disk)ドライブ52とが内蔵されている。
【0039】図2を参照して、コンピュータシステム2
0はさらに、コンピュータ40に接続されるプリンタ4
4を含むが、これは図1には示していない。またコンピ
ュータ40はさらに、CD−ROMドライブ50および
FDドライブ52に接続されたバス66と、いずれもバ
ス66に接続された中央演算装置(CentralPr
ocessing Unit:CPU)56、コンピュ
ータ40のブートアッププログラムなどを記憶したRO
M(Read−Only Memory)58、CPU
56が使用する作業エリアおよびCPU56により実行
されるプログラムの格納エリアを提供するRAM(Ra
ndom Access Memory)60、および
後述する音声データベースを格納したハードディスク5
4を含む。
【0040】以下に述べる実施の形態のシステムを実現
するソフトウェアは、たとえば、CD−ROM62のよ
うな記録媒体上に記録されて流通し、CD−ROMドラ
イブ50のような読取装置を介してコンピュータ40に
読込まれ、ハードディスク54に格納される。CPU5
6がこのプログラムを実行する際には、ハードディスク
54からこのプログラムを読み出してRAM60に格納
し、図示しないプログラムカウンタによって指定される
アドレスから命令を読出して実行する。CPU56は、
処理対象のデータをハードディスク54から読出し、処
理結果を同じくハードディスク54に格納する。
【0041】コンピュータシステム20の動作自体は周
知であるので、ここではその詳細については繰り返さな
い。
【0042】なお、ソフトウェアの流通形態は上記した
ように記憶媒体に固定された形には限定されない。たと
えば、ネットワークを通じて接続された他のコンピュー
タからデータを受取る形で流通することもあり得る。ま
た、ソフトウェアの一部が予めハードディスク54中に
格納されており、ソフトウェアの残りの部分をネットワ
ーク経由でハードディスク54に取込んで実行時に統合
するような形の流通形態もあり得る。
【0043】一般的に、現代のプログラムはコンピュー
タのオペレーティングシステム(OS)によって提供さ
れる汎用の機能を利用し、それらを所望の目的にしたが
って組織化した形態で実行することにより前記した所望
の目的を達成する。したがって、以下に述べる本実施の
形態の各機能のうち、OSまたはサードパーティが提供
する汎用的な機能を含まず、それら汎用的な機能の実行
順序の組合せだけを指定するプログラム(群)であって
も、それらを利用して全体的として所望の目的を達成す
る制御構造を有するプログラム(群)である限り、それ
らが本発明の技術的範囲に含まれることは明らかであ
る。
【0044】本実施の形態のプログラムを装置とみなし
て機能的に示したのが図3以下のブロック図である。図
3を参照して、この装置80は、ハードディスク54に
格納された音声データ82に対して以下に説明する処理
を行なって、音声データに含まれる各処理単位(たとえ
ば音節)ごとに前述したAQ指数を算出し出力するため
のものである。なお、音声データは後述するように1フ
レーム32msecとなるように予めフレーム化されて
いる。
【0045】装置80は、音声データに対して高速フー
リエ変換(Fast Fourier Transfo
rm:FFT)を行なうFFT処理部90と、FFT処
理部90の出力を用い、音声データにより表わされる音
声波形のうちの60Hz〜3kHzの周波数領域のエネ
ルギーの時間的変化および音声のピッチの変化に基づい
て、音声データにより表わされる音声波形の各音節のう
ち、話者の発声機構によって安定して発生されている領
域(これを以後「擬似音節核」と呼ぶ。)とを抽出する
音響・韻律分析部92と、音声データ82に対してケプ
ストラム分析を行ない、さらに、FFT処理部90の出
力を用いてケプストラム分析の結果音声スペクトルの変
化が少なく、音声データの特徴を信頼性高く抽出できる
と思われる部分(これを「高信頼性・小変動部の中心」
または「高信頼・小変動の中心」または単に「信頼性の
中心」と呼ぶ。)を推定するためのケプストラム分析部
94とを含む。
【0046】装置80はさらに、ケプストラム分析部9
4の出力する信頼性の中心(高信頼性・小変動部の中
心)の中で、音響・韻律分析部92の出力する擬似音節
核の中にあるものだけを擬似音節中心として抽出するた
めの擬似音節中心の抽出部96と、擬似音節中心の抽出
部96によって抽出された擬似音節中心に対応する音声
データに対して、フォルマントの初期推定と最適化処理
とを行なって最終的なフォルマントの推定値を出力する
ためのフォルマントの最適化部98と、音声データに対
して、フォルマントの最適化部98から出力されるフォ
ルマント値を用いた適応的フィルタ処理などの信号処理
を行なって声門気流波形の微分を推定し、さらにそれを
積分することによって声門気流波形を推定し、それらに
基づいてAQ指数を計算するためのAQ指数計算部10
0とを含む。
【0047】図4は、音声データの構成を模式的に示す
図である。図4を参照して、音声データ波形102は、
それぞれ32msecごとのフレームに分けられ、かつ
前後のフレーム間では8msecごとにずらしてデジタ
ル化されている。そして、後述する処理では、たとえば
ある時点t0では第1のフレームを先頭として処理を
し、次の時点t1では8msecずれた次の第2のフレ
ームを先頭として処理をする、という形で処理を行なっ
ていく。
【0048】図5は、図3に示す音響・韻律分析部92
のブロック図である。図5を参照して、音響・韻律分析
部92は、音声波形から測定される音源のピッチを用い
て、処理対象のフレームが有声区間か否かを判定する
(この方法については参考文献3を参照)ためのピッチ
判定部110と、FFT処理部90の出力に基づいて所
定周波数領域(60Hz〜3kHz)のソノラントエネ
ルギの時間軸上の波形分布を算出するためのソノラント
エネルギ算出部112と、ソノラントエネルギ算出部1
12によって算出されるソノラントエネルギの時間軸上
の分布波形の輪郭に対して凸包アルゴリズムを適用する
ことにより、ソノラントエネルギの時間軸上の分布波形
の輪郭の中のディップを検出して、入力音声を擬似音節
に分割する(この方法については参考文献4および5を
参照)ためのディップ検出部114と、ディップ検出部
114によって得られた擬似音節中の、ソノラントエネ
ルギの最大値(SEpeak)が得られる点を起点として、
その左右に、ソノラントエネルギが所定のしきい値
(0.8×SEpeak)より大きく、かつピッチ判定部1
10によって有声区間であると判定されたフレームであ
って、かつ同じ擬似音節中のフレームを1フレームずつ
広げていくことにより、擬似音節核を出力するための有
声・エネルギ判定部116とを含む。
【0049】図6は、図3に示すケプストラム分析部9
4のブロック図である。図6を参照して、ケプストラム
分析部94は、音声データ82の音声波形に対して選択
的線形予測(Selective Linear Pr
ediction:SLP)分析を行なって、SLPケ
プストラム係数cf,iを出力するための線形予測分析部
130と、このケプストラム係数に基づいて先頭の4つ
のフォルマントの周波数と帯域との初期推定値を算出す
るためのフォルマント推定部132とを含む。フォルマ
ント推定部132は、参考文献6により提案された線形
ケプストラム−フォルマントマッピングを利用し、かつ
同じデータのサブセットを使用して注意深く測定された
母音フォルマントに対するマッピングを学習させてあ
る。この学習については、参考文献7を参照されたい。
【0050】ケプストラム分析部94はさらに、推定さ
れたフォルマント周波数などに基づいてケプストラム係
数Ci simpを再計算するためのケプストラム再生成部1
36と、FFT処理部90の出力に対して対数変換およ
びコサイン逆変換(IDCT)を行なってFFTケプス
トラム係数を算出するための対数変換および逆DCT部
140と、ケプストラム再生成部136により計算され
たケプストラム係数C i simpと、対数変換および逆DC
T部140により計算されたFFTケプストラム係数C
i FFTとの間の差を表わす値として次の式により定義され
るケプストラム距離df 2を計算し、フォルマント推定部
132によって推定されたフォルマント周波数などの値
の非信頼性を表わす指標として出力するためのケプスト
ラム距離計算部142とをさらに含む。
【0051】
【数1】 フォルマント推定部132、ケプストラム再生成部13
6、ケプストラム距離計算部142、および対数変換お
よび逆DCT部140により、線形予測分析の結果に基
づいて推定されたフォルマント周波数などの値の非信頼
性が算出される。
【0052】ケプストラム分析部94はさらに、線形予
測分析部130の出力するケプストラム係数からΔケプ
ストラムを算出する為のΔケプストラム算出部134
と、Δケプストラム算出部134の出力するΔケプスト
ラムに基づいて、各フレームごとに、そのフレームを含
む5フレームのスペクトル変化の大きさの分散を算出す
る為のフレーム間分散算出部138とを含む。フレーム
間分散算出部138の出力は、局所的なスペクトルの動
きの時間軸上の分布波形の輪郭を表わすものとなり、そ
の極小値は、参考文献8で提案されている調音音声学理
論にならっていえば、制御された動きCM(Controlled
Movement)を示すものと考えることができる。
【0053】さらにケプストラム分析部94は、ケプス
トラム距離計算部142の出力するフォルマント周波数
の推定値の非信頼性を示す値と、フレーム間分散算出部
138の出力する各フレームごとの局所的なフレーム間
分散値とを受け、両者の値を規格化し統合して、フレー
ムごとの音声信号の非信頼性を示す値の時間軸上の分布
波形として出力するための規格化および統合部144
と、規格化および統合部144の出力する非信頼性の値
の時間軸上の分布波形により形成される波形の輪郭のデ
ィップを凸包アルゴリズムにより検出して、信頼性の中
心候補として出力するための信頼性の中心候補出力部1
46とを含む。
【0054】図7は、図6に示す規格化および統合部1
44のブロック図である。図7を参照して、規格化およ
び統合部144は、ケプストラム距離計算部142によ
り出力されたケプストラム距離を[0,1]の値に規格
化するための第1の規格化部160と、フレーム間分散
算出部138が各フレームごとに算出するフレーム間分
散の値を[0,1]の値に規格化するための第2の規格
化部162と、局所的なフレーム間分散の値の時間軸上
の位置を、ケプストラム距離計算部142の出力するケ
プストラム距離のサンプリングタイミングと一致させる
ように線形補間処理を行なうための補間処理部164
と、第1の規格化部160の出力と補間処理部164の
出力とを1フレームごとに平均して出力するための平均
計算部166とを含む。平均計算部166の出力は、統
合された値の時間軸上の分布波形の輪郭を表わす。信頼
性の中心候補出力部146によってこの波形の輪郭のデ
ィップ(極小部)を検出することにより、非信頼性が最
も低い部分(信頼性が最も高い部分)を信頼性の中心の候
補として特定することができる。
【0055】図8は、図3に示すフォルマントの最適化
部98のブロック図である。図8を参照して、フォルマ
ントの最適化部98は、音声波形に対してFFT処理を
行なうためのFFT処理部180と、FFT処理部18
0の出力に対して対数変換およびコサイン逆変換を行な
うための対数変換および逆DCT部182と、対数変換
および逆DCT部182の出力するFFTケプストラム
係数と、後述するフォルマントの推定値との間の距離を
計算するためのケプストラム距離計算部184と、信頼
性の中心候補の各々における第1〜第4のフォルマント
周波数の初期推定値を初期値とし、ケプストラム距離計
算部184が計算する距離を最小にするように山登り法
によってフォルマントの推定値を最適化するための距離
最小化処理部186とを含む。距離最小化処理部186
によって最適化されたフォルマント推定値がフォルマン
トの最適化部98の出力としてAQ指数計算部100に
与えられる。
【0056】図9を参照して、AQ指数計算部100
は、音声信号のうちで音節中心に相当する位置の64m
secの部分のうち、70Hz以上の周波数成分のみを
選択的に通過させるためのハイパスフィルタ200と、
ハイパスフィルタ200の出力のうち、最適化された第
4フォルマント周波数とその帯域との和以下の周波数成
分のみを選択的に通過させるための適応的ローパスフィ
ルタ202と、適応的ローパスフィルタ202の出力に
対し、第1〜第4フォルマント周波数を用いた適応的逆
フィルタ処理を行なうための適応的逆フィルタ204と
を含む。適応的逆フィルタ204の出力は、声門気流波
形の微分波形となる。
【0057】AQ指数計算部100はさらに、適応的逆
フィルタ204の出力を積分して声門気流波形を出力す
るための積分回路206と、積分回路206の出力のピ
ークツーピークの最大振幅を検出するための最大ピーク
間振幅検出回路208と、適応的逆フィルタ204の出
力の負のピークの最大振幅を検出するための最大の負の
ピーク振幅検出回路210と、最大の負のピーク振幅検
出回路210の出力に対する最大ピーク間振幅検出回路
208の出力の比を算出するための比計算回路212と
を含む。比計算回路212の出力がAQ指数である。
【0058】図1〜図9に示した装置は以下のように動
作する。まず、使用された音声データ82について説明
する。この音声データは参考文献9で使用されたもので
あり、日本語のネイティブスピーカである女性が3つの
物語を読んだものを録音して作成されたものである。こ
の物語は、怒りと、喜びと、悲しみという感情を引き起
こすように予め作成されていたものである。物語の各々
は400文の長さ(おおよそ30,000音素)以上の
発話を含む。各発話は別々の音声波形ファイルに格納さ
れ処理された。
【0059】各文の発話データはFFT処理部90によ
るFFT処理の後、以下のようにして処理される。処理
は大きく見て二つの系統に分かれ実行される。第1の系
統は音響・韻律分析部92で行なわれる音響韻律的な処
理であり、他の系統はケプストラム分析部94が行なう
音響音声学的な処理である。
【0060】音響韻律的な系統の処理では、図5に示す
ソノラントエネルギ算出部112によって60Hz〜3
kHz周波数領域のソノラントエネルギが算出される。
ソノラントエネルギ算出部112の出力する一文の発話
データの全体波形の輪郭から、ディップ検出部114が
凸包アルゴリズムによりディップを検出する。このディ
ップにより、この発話文は擬似音節に分割される。
【0061】有声・エネルギ判定部116は、擬似音節
の中でソノラントエネルギが最大(SEpeak)となる点
を見つける。この点が擬似音節核の初期点である。有声
・エネルギ判定部116はさらに、この擬似音節核の初
期点から始めて、その左右に向かい、ソノラントエネル
ギが0.8×SEpeak以下のフレーム、またはピッチ判
定部110が有声でないと判定したフレーム、または擬
似音節の外のフレームに出会うまで、擬似音節核の範囲
を広げる。こうして擬似音節核の境界が決定される。こ
の情報は擬似音節中心の抽出部96に与えられる。な
お、ここでしきい値として0.8の値を用いているが、
これは単なる例であって,応用によりこのしきい値を適
切な値に代える必要がある。
【0062】図6を参照して、入力された一つの発話文
に対して線形予測分析部130が線形予測分析を行な
い、SLPケプストラム係数を出力する。Δケプストラ
ム算出部134がこのSLPケプストラム係数に基づい
てΔケプストラムを算出し、フレーム間分散算出部13
8に与える。フレーム間分散算出部138は、このΔケ
プストラム係数に基づき、各フレームごとに、そのフレ
ームを含む5フレームの中での局所的なスペクトル変化
の分散を計算する。この分散が小さいほど発話者の発声
が発話者によりよく制御されていると考えられ、逆にこ
の分散が大きいと話者による制御がよくされていないと
考えられるので、フレーム間分散算出部138の出力は
発話者の発声が信頼されない程度(非信頼性)を表わす
と考えられる。
【0063】図6をさらに参照して、フォルマント推定
部132は、線形ケプストラムフォルマントマッピング
を用い、SLPケプストラム係数に基づいて第1〜第4
フォルマントの周波数と帯域とを推定する。ケプストラ
ム再生成部136は、フォルマント推定部132により
推定された第1〜第4フォルマントに基づいて逆にケプ
ストラム係数を算出しケプストラム距離計算部142に
与える。対数変換および逆DCT部140は、フォルマ
ント推定部132およびケプストラム再生成部136が
処理したのと同じフレームのもとの音声データに対して
対数変換およびコサイン逆変換を行なってFFTケプス
トラム係数を算出しケプストラム距離計算部142に与
える。ケプストラム距離計算部142は、ケプストラム
再生成部136からのケプストラム係数と対数変換およ
び逆DCT部140からのケプストラム係数との間の距
離を前述の「数1」の式にしたがって計算する。この結
果得られるのは、フォルマント推定部132が推定した
フォルマントの非信頼性を示す値の時間軸上の分布を表
わす波形と考えられる。ケプストラム距離計算部142
は、この結果を規格化および統合部144に与える。
【0064】図7を参照して、規格化および統合部14
4の第1の規格化部160は、図6のケプストラム距離
計算部142の出力する、フォルマントの推定値から算
出された各フレームごとの非信頼性値を[0,1]の範
囲に正規化して平均計算部166に与える。第2の規格
化部162は、図6のフレーム間分散算出部138が出
力する、フレームごとに計算された局所的なフレーム間
分散の値を[0,1]の範囲に正規化して補間処理部1
64に与える。補間処理部164は、第2の規格化部1
62の各値に対し、第1の規格化部160の出力する各
フレームのサンプリングポイントに対応する値が得られ
るように線形補間処理を行なって平均計算部166に与
える。平均計算部166は、フレームごとに、第1の規
格化部160の出力と補間処理部164の出力とを正規
化し、その結果を時間軸上の非信頼性の分布を示す統合
された波形として信頼性の中心候補出力部146に出力
する。
【0065】信頼性の中心候補出力部146は、凸包ア
ルゴリズムにより、規格化および統合部144の出力す
る統合された波形の輪郭のディップを検出して、そのフ
レームを特定する情報を図3の擬似音節中心の抽出部9
6に対して信頼性の中心の候補として出力する。
【0066】図3に示す擬似音節中心の抽出部96は、
図6に示す信頼性の中心候補出力部146から与えられ
た信頼性の中心の中で、音響・韻律分析部92から与え
られた擬似音節核の中にあるもののみを擬似音節中心と
して抽出する。
【0067】以上の処理によって、音声データのうちで
音声データの特徴を抽出する、または音声データをラベ
ル付けするために適した高信頼性・小変動領域を示す情
報が得られたことになる。したがって、この情報によっ
て特定されるフレームについて所望の処理を行なえばよ
い。本実施の形態の装置では、擬似音節中心の抽出部9
6はこの情報をフォルマントの最適化部98に与え、フ
ォルマントの最適化部98はこの情報を用いて、以下の
ようにして擬似音節中心におけるAQ指数を算出する。
【0068】なお、本実施の形態の装置では、擬似音節
中心の長さは連続する5フレームとする。1フレームは
32msecであり、連続するフレームは互いに8ms
ecずつずれているから、5フレームの全体では64m
secの音声期間に相当する。
【0069】これらの擬似音節中心におけるAQ指数
は、図9のAQ指数計算部100中で得られる声門気流
の波形により直接計算することができる。しかし、声門
気流の推定自体、もともとのフォルマントに相当する声
道の共振によって影響されており、その信頼性は共振の
影響をもとの音声波形の64msecのデータから取り
除くことができるかに依存している。したがって、その
ような計算によって得られたAQ指数は信頼できないも
のとなる。
【0070】一方、擬似音節中心におけるフォルマント
は、スペクトルがよく一致しているという意味で、既に
よい推定となっているが、本実施の形態の装置では、さ
らに以下のようにしてフォルマント周波数を最適化す
る。
【0071】すなわち、図8を参照して、FFT処理部
180は音声波形に対してフレームごとにFFT処理を
行なう。対数変換および逆DCT部182はFFT処理
部180の出力に対して対数変換およびコサイン逆変換
を行なう。ケプストラム距離計算部184は、対数変換
および逆DCT部182の出力するケプストラム係数と
距離最小化処理部186から与えられるケプストラム係
数の推定値との間の距離を計算する。距離最小化処理部
186は、フォルマントの推定値を表わすケプストラム
係数の値を起点として、ケプストラム距離計算部184
により計算される距離が最小値となるように山登り法に
よって距離最小化処理部186から与えられたケプスト
ラム係数の値をさらに最適化し、最小値が得られるとき
のフォルマント推定値を出力する。
【0072】AQ指数計算部100の内部構成は図9に
示されており、この図9を参照して、擬似音節中心にお
ける音声データはまずハイパスフィルタ200を通り、
その結果70Hz以下の低周波数の雑音が除去される。
さらに適応的ローパスフィルタ202によって第4フォ
ルマントより高い周波数領域のスペクトル情報が除去さ
れる。そして、適応的逆フィルタ204によって第1〜
第4フォルマントによる影響が除去される。
【0073】その結果、適応的逆フィルタ204の出力
は声門気流の波形の微分のよい推定値となる。これを積
分回路206で積分することにより声門気流の波形の推
定値が得られる。最大ピーク間振幅検出回路208によ
って声門気流の波形のピークツーピークの振幅の最大値
を検出する。最大の負のピーク振幅検出回路210によ
って声門気流の微分波形のサイクル内での負の最大の振
幅を検出する。最大ピーク間振幅検出回路208の出力
の、最大の負のピーク振幅検出回路210の出力に対す
る比を比計算回路212で計算することにより、擬似音
節中心におけるAQ指数が得られる。
【0074】こうして得られたAQ指数は、各擬似音節
中心におけるもとの音声データの特徴(緊張音―気息音
の間の度合い)を信頼性高くあらわしている。これら各
擬似音節中心に対してAQ指数を計算し、さらにこれら
得られたAQ指数を補間することにより、擬似音節中心
以外の部分のAQ指数を推定することもできる。そうす
ることにより、音声データのうち、一定のAQ指数を示
す部分に、当該AQ指数に対応した適切なラベルをパラ
言語情報として付けておき、音声合成の際には、所望の
AQ指数を有する音声データを使用すれば、単なるテキ
ストだけでなく、パラ言語情報をも含んだ形での音声合
成を行なうことが可能になる。
【0075】図10〜図12に、本実施の形態の装置を
コンピュータにより実現した際の画面表示例を示す。
【0076】図10を参照して、このプログラムによる
表示ウィンドウには、音声データ波形240と、音声デ
ータに対して付された音声ラベル242と、基本周波数
の波形の時間軸上の分布波形の輪郭244と、ソノラン
トエネルギの変動の時間軸上の分布波形の輪郭246
と、Δケプストラムから計算されたスペクトル変化の局
所的な分散の時間軸上の分布波形の輪郭248と、フォ
ルマント−FFTケプストラム距離の時間軸上の分布波
形の輪郭250と、スペクトル変化の局所的な分散の分
布波形の輪郭248およびフォルマント−ケプストラム
距離の分布波形の輪郭250を統合した波形である非信
頼性の時間軸上の分布波形の輪郭252と、上述のよう
にして算出された擬似音節中心での声門のAQ指数25
4と、各擬似音節中心で推定された声道の面積関数25
6とが示されている。
【0077】音声データ波形240の表示領域に示され
た太い縦線232と、ソノラントエネルギの変動の輪郭
246の表示領域に示された太い縦線とは擬似音節の境
界を示す。音声データ波形240の表示領域に示された
細い縦線230と、ソノラントエネルギの変動の輪郭2
46および基本周波数の波形輪郭244の表示領域に示
された細い縦線は擬似音節核の境界を示す。
【0078】非信頼性の波形252の表示領域に示され
た縦線は波形の極小値部分(ディップ)であり、そこを
中心としてAQ指数が計算されている部分が最も信頼性
の高い部分である。なおAQ指数が計算された期間およ
び値は横棒で示されており、横棒の縦位置が高いほど緊
張音に近く、低いほど気息音に近い。
【0079】図11には、図10の点線のボックス26
2で示される時点での声門気流波形の推定値270と、
その微分波形272と、推定された声門気流波形のスペ
クトル274とが示されている。図10のボックス26
2に対応する時点ではAQ指数254は高く、すなわち
この時点の発声は緊張音に近い。図11に示すとおり、
このときの声門気流の波形はのこぎり形に近く、サイン
ウェーブの波形からは遠く異なっている。また、微分波
形はするどく変化している。
【0080】図12には、図10の点線のボックス26
0で示される時点での声門気流波形の推定値280と、
その微分波形282と、推定された声門気流波形のスペ
クトル284とが示されている。図10のボックス26
0に対応する時点ではAQ指数254は低く、すなわち
この時点の発声は気息音に近い。図12に示すとおり、
このときの声門気流の波形はきれいなサインカーブに近
い。微分波形も緩やかなものとなっている。
【0081】上に述べた装置を用い、前述した音声デー
タを実際に処理して擬似音節中心を抽出し、各擬似音節
中心に対してAQ指数を算出しする一方、それらの擬似
音節中心に対応する音を人間が聞いたときに感ずる感想
と、AQ指数との相関を以下のようにして調査した。
【0082】上記した装置を用いて抽出された信頼性の
中心は22,000個であり、その各々について対応す
る声門気流波形およびAQ指数と、もとの音声波形のR
MS(Root Mean Square)エネルギ
(dB)とを算出した。これら信頼性の中心のうち、同
一の音節核中に存在しかつ互いのAQ指数がほぼ一致し
ているものをまとめ、さらにそれら信頼性の中心のう
ち、統合された非信頼性の値が0.2以上のものを棄却
することにより、聴覚刺激として使用可能と思われる音
節核の数は15,000をわずかに超えたものとなっ
た。
【0083】このデータセットに対して算出された統計
情報に基づき、知覚上の評価を行なうために60の刺激
からなるサブセットを選択した。具体的には、前述した
3つの感情を表わすデータベースの各々について、極め
て低い、または極めて高い、または各感情に対するAQ
指数の平均値マイナスその分布の標準偏差(σ)近辺、
またはAQ指数の平均値プラス標準偏差近辺、の4つの
カテゴリのいずれかにAQ指数が属するような信頼性の
中心を含む音節核を5つずつ選択した。
【0084】このようにして選択された60個の擬似音
節核の時間的長さは32msecから560msecの
範囲であり、その平均は171msecであった。通常
の聴覚的能力を有する11人の被験者が、これら短時間
の刺激の各々について聴覚的評価を行なった。被験者は
静粛なオフィス環境で、高音質のヘッドフォンを用い、
各刺激を必要な回数だけ聞き、各刺激について、それぞ
れ「気息性」および「強さ」とだけ説明した二つのスケ
ールにしたがい、7段階で採点した。各被験者の採点は
各々比例により[0,1]の範囲に正規化され、正規化
した点数に基づいて、60個の刺激の各々についての1
1人の被験者全ての気息性および強さに関する平均値を
算出した。
【0085】図13は、上のようにして調べた気息性
と、音響的に測定したAQ指数の値とを比較する散布図
である。これら60対の値に対する線形相関係数は0.
77であった。この相関は必ずしも高いものではない
が、刺激に対するAQの測定値が高くなれば、その刺激
に対して感じられる気息性も平均すれば高くなるという
明らかな傾向があることを裏付けるものといえる。図1
3の散布図上で想定されるベストフィットの直線から最
も遠い位置に存在する点のいくつかをより詳細に調べる
と、誤差の原因として次のようなものが浮かび上がる。
すなわち、動的制約が欠如しているために生ずる、5つ
のフレーム中でのフォルマントの非連続性、5つのフレ
ームに含まれていない音節核の一部において生ずる高い
気息性、および5つのフレーム中の母音部分に対して、
隣接した鼻音がおよぼす強い影響などである。
【0086】さらに、図13からは、中位から下位のA
Q指数を有する刺激に対しては、気息性の感じ方が広い
ことに気づく。これは、気息性が低い刺激に気息性に関
する点数をつけることが難しく、むしろ地声または緊張
音的な発音という側面から点数付けしたほうがよりよく
特徴を表わせるのではないか、という直感的な理解を裏
付けるものと思われる。
【0087】ここでは図としては示していないが、強さ
の感じ方を、同じ信頼性の中心において測定されたRM
Sエネルギと比較するための散布図も作成した。その相
関係数は0.83となり、より高度な重み付けを用いて
強さの感じ方を測定しているわけではないにもかかわら
ず、その関係の強さを裏付けるものとなっている。
【0088】以上のように本実施の形態では、音響・韻
律的分析と、ケプストラム分析とを組合せて、(i)録
音された自然な発声中の擬似音節の信頼性の中心の位置
を決定するための、(ii)参考文献2で提案されたA
Q指数により定量化された音源の属性を測定するため
の、全くオペレータが介在する必要がない方法および装
置を実現した。そして、その方法および装置を用いて行
なった音声知覚の実験の結果は、擬似音節核中で知覚さ
れた気息性と強い相関を持つ、頑健性をもって測定でき
る値としてのAQ指数の重要性を確認するものであっ
た。実際、前述したような誤差源が存在しているにもか
かわらず、AQ指数と気息性の知覚との間に見出された
相関により、音質パラメータとしてのAQ指数をさらに
研究する必要があることを確認することができた。
【0089】そしてこの方法および装置により、発声単
位に対するパラ言語的なラベル付けを行なうことができ
る可能性が高くなる。そうした発声単位を用い、所望の
ラベル付けがされた発声単位を用いて音声の連続合成を
行なうことにより、緊張音から地声、さらに気息的な発
音までの範囲にわたる幅広い発声スタイルを用いたマン
マシンインタフェースを実現することが可能となる。
【0090】[参考文献] (1) Sundberg,J. (1987). The science of the sin
ging voice, Northern Illinois UniversityPress, Del
calb, Illinois. (2) Alku,P. & Vilkman, E. (1996). “Amplitude
domain quotient for characterization ofthe glottal
volume velocity waveform estimated by inverse fil
tering”, SpeechComm., 18(2), 131-138. (3) Hermes,D. (1988). “Measurement of pitch b
y subharmonic summation”, J. Acoust.Soc. Am.83
(1), 257-264. (4) Mermelstein,P. (1975). “Automatic segment
ation of speech into syllabic units”, J.Acoust.So
c. Am. 58(4), 880-883. (5) Lea,W.A. (1980). “Prosodic aids to speech
recognition”, in Lea, W.A. (ed.), Trendsin Speec
h Recognition, Prentice-Hall, New Jersey, 166-205. (6) Broad,D.J. & Clermont, F. (1989). “Forman
t estimation by linear transformation ofthe LPC ce
pstrum”, J. Acoust. Soc. Am. 86 (5), 2013-2017. (7) Mokhtari,P., Iida, A. & Campbell, N. (200
1). “Some articulatory correlates ofemotion varia
bility in speech : apreliminary study on spoken
Japanese vowels”, Proc. Int. Conf. on SpeechProce
ss., Taejon, Korea, 431-436. (8) Peterson,G.E., & Shoup, J.E. (1966). “A
physiological theory of phonetics”, J. Speech Hea
r. Res. 9, 5-67. (9) Iida,A., Campbell, N., Iga, S., Higuchi,
F. & Yasumura, M. (1998). “Acousticnature and per
ceptual testing of corpora of emotional speech”,
Proc. 5th Int.Conf. on Spoken Lang. Process., 1559
-1562.
【図面の簡単な説明】
【図1】 本発明の一実施の形態のプログラムを実行す
るコンピュータシステムの外観を示す図である。
【図2】 図1に示すコンピュータシステムのブロック
図である。
【図3】 本発明の一実施の形態のプログラムの全体構
成をブロック図形式で示す図である。
【図4】 音声データの構成を模式的に示す図である。
【図5】 図3に示す音響・韻律分析部92のブロック
図である。
【図6】 図3に示すケプストラム分析部94のブロッ
ク図である。
【図7】 図6に示す規格化および統合部144のブロ
ック図である。
【図8】 図3に示すフォルマントの最適化部98のブ
ロック図である。
【図9】 図3に示すAQ指数計算部100のブロック
図である。
【図10】 本発明の一実施の形態のプログラムによる
表示例を示す図である。
【図11】 音声データのうち、緊張音と判断される一
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。
【図12】 音声データのうち、気息音と判断される一
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。
【図13】 感知された気息性と音響的に測定されたA
Q指数との間の関連を示す散布図である。
【符号の説明】
20 コンピュータシステム、82 音声データ、90
FFT処理部、92音響・韻律分析部、94 ケプス
トラム分析部、96 擬似音節中心の抽出部、98 フ
ォルマントの最適化部、100 AQ指数計算部、11
0 ピッチ判定部、112 ソノラントエネルギ算出
部、114 ディップ検出部、116有声・エネルギ判
定部、130 線形予測分析部、132 フォルマント
推定部、134 Δケプストラム算出部、136 ケプ
ストラム再生成部、138 フレーム間分散算出部、1
40 対数変換および逆DCT部、142 ケプストラ
ム距離計算部、144 規格化および統合部、146
信頼性の中心候補出力部、186 距離最小化処理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 キャンベル ニック 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 Fターム(参考) 5D015 DD03 (54)【発明の名称】 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特 徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装 置およびプログラム

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声波形のデータに基づいて、前記音声
    波形の特徴を高い信頼性で示す部分を決定するための装
    置であって、 前記データから前記音声波形のうちの所定周波数領域の
    エネルギーの時間軸上の分布を算出し、当該分布および
    前記音声波形のピッチに基づいて、前記音声波形の各節
    のうち、前記音声波形の発生源によって安定して発生さ
    れている領域を抽出するための抽出手段と、 前記データから前記音声波形のスペクトルの時間軸上の
    分布を算出し、当該スペクトルの時間軸上の分布に基づ
    いて、前記音声波形のうち、その変化が前記発生源によ
    り良好に制御されている領域を推定するための推定手段
    と、 前記推定手段の出力と、前記発生源によって安定して発
    生されている領域として前記抽出手段により抽出され、
    かつ前記発生源によってその変化が良好に制御されてい
    ると前記推定手段によって推定された領域を前記音声波
    形の高信頼性部分として決定するための手段とを含む、
    音声波形の特徴を高い信頼性で示す部分を決定するため
    の装置。
  2. 【請求項2】 前記抽出手段は、 前記データに基づいて、前記音声波形の各区間が有声区
    間か否かを判定するための有声判定手段と、 前記音声波形の前記所定周波数領域のエネルギーの時間
    軸上の分布の波形の極小部で前記音声波形を節に分離す
    るための手段と、 前記音声波形のうち、各節内で、当該節内のエネルギー
    のピークを含み、かつ前記有声判定手段により有声区間
    であると判定された区間であって、かつ前記所定周波数
    領域のエネルギーが所定のしきい値以上である領域を抽
    出するための手段とを含む、請求項1に記載の装置。
  3. 【請求項3】 前記推定手段は、 前記音声波形に対する線形予測分析を行ないフォルマン
    ト周波数の推定値を出力するための線形予測手段と、 前記データを用いて、前記線形予測手段によるフォルマ
    ント周波数の推定値の非信頼性の時間軸上の分布を算出
    するための第1の算出手段と、 前記線形予測手段の出力に基づいて、前記音声波形の時
    間軸上のスペクトル変化の局所的な分散の、時間軸上の
    分布を算出するための第2の算出手段と、 前記第1の算出手段により算出された前記フォルマント
    周波数の推定値の非信頼性の時間軸上の分布と、前記第
    2の算出手段により算出された前記音声波形のスペクト
    ル変化の局所的な分散の時間軸上の分布との双方に基づ
    いて、前記音声波形の変化が前記発生源により良好に制
    御されている領域を推定するための手段とを含む、請求
    項1に記載の装置。
  4. 【請求項4】 前記決定するための手段は、前記推定手
    段により前記音声波形の変化が前記発生源により良好に
    制御されていると推定された領域のうち、前記抽出手段
    により抽出された領域に含まれる領域を前記音声波形の
    高信頼性部分として決定するための手段を含む、請求項
    1〜請求項3のいずれかに記載の装置。
  5. 【請求項5】 音声信号を擬似音節に分離し、さらに各
    擬似音節の核部分を抽出するための擬似音節核抽出装置
    であって、 前記音声信号の各区間が有声区間か否かを判定するため
    の有声判定手段と、 前記音声信号の所定周波数領域のエネルギーの時間的な
    分布の波形の極小部で前記音声信号を擬似音節に分離す
    るための手段と、 前記音声信号のうち、各擬似音節内でのエネルギーのピ
    ークを含み、かつ前記有声判定手段により有声区間であ
    ると判定された区間であって、かつ前記所定周波数領域
    のエネルギーが所定のしきい値以上である領域を当該擬
    似音節の核として抽出するための手段とを含む、擬似音
    節核抽出装置。
  6. 【請求項6】 音声信号の特徴を高い信頼性で示す部分
    を決定するための装置であって、 前記音声信号に対する線形予測分析を行なうための線形
    予測手段と、 前記線形予測手段によるフォルマントの推定値と、前記
    音声信号とに基づいて、前記フォルマントの推定値の非
    信頼性の時間軸上の分布を算出するための第1の算出手
    段と、 前記線形予測手段による線形予測分析の結果に基づい
    て、前記音声信号のスペクトル変化の局所的な分散の時
    間軸上の分布を算出するための第2の算出手段と、 第1の算出手段により算出された前記フォルマント周波
    数の推定値の非信頼性の時間軸上の分布と、前記第2の
    算出手段により算出された前記音声波形のスペクトル変
    化の局所的な分散の時間軸上の分布との双方に基づい
    て、前記音声波形の変化が前記発生源により良好に制御
    されている領域を推定するための手段とを含む、音声信
    号の特徴を高い信頼性で示す部分を決定するための装
    置。
  7. 【請求項7】 音声波形のデータに基づいて、前記音声
    波形の特徴を高い信頼性で示す部分を決定するための装
    置としてコンピュータを動作させるプログラムであっ
    て、前記装置は、 前記データから前記音声波形のうちの所定周波数領域の
    エネルギーの時間軸上の分布を算出し、当該分布および
    前記音声波形のピッチに基づいて、前記音声波形の各節
    のうち、前記音声波形の発生源によって安定して発生さ
    れている領域を抽出するための抽出手段と、 前記データから前記音声波形のスペクトルの時間軸上の
    分布を算出し、当該スペクトルの時間軸上の分布に基づ
    いて、前記音声波形のうち、その変化が前記発生源によ
    り良好に制御されている領域を推定するための推定手段
    と、 前記推定手段の出力と、前記発生源によって安定して発
    生されている領域として前記抽出手段により抽出され、
    かつ前記発生源によってその変化が良好に制御されてい
    ると前記推定手段によって推定された領域を前記音声波
    形の高信頼性部分として決定するための手段とを含む、
    音声波形の特徴を高い信頼性で示す部分を決定するため
    のプログラム。
  8. 【請求項8】 前記抽出手段は、 前記データに基づいて、前記音声波形の各区間が有声区
    間か否かを判定するための有声判定手段と、 前記音声波形の前記所定周波数領域のエネルギーの時間
    軸上の分布の波形の極小部で前記音声波形を節に分離す
    るための手段と、 前記音声波形のうち、各節内で、当該節内のエネルギー
    のピークを含み、かつ前記有声判定手段により有声区間
    であると判定された区間であって、かつ前記所定周波数
    領域のエネルギーが所定のしきい値以上である領域を抽
    出するための手段とを含む、請求項7に記載のプログラ
    ム。
  9. 【請求項9】 前記推定手段は、 前記音声波形に対する線形予測分析を行ないフォルマン
    ト周波数の推定値を出力するための線形予測手段と、 前記データを用いて、前記線形予測手段によるフォルマ
    ント周波数の推定値の非信頼性の時間軸上の分布を算出
    するための第1の算出手段と、 前記線形予測手段の出力に基づいて、前記音声波形の時
    間軸上のスペクトル変化の局所的な分散の、時間軸上の
    分布を算出するための第2の算出手段と、 前記第1の算出手段により算出された前記フォルマント
    周波数の推定値の非信頼性の時間軸上の分布と、前記第
    2の算出手段により算出された前記音声波形のスペクト
    ル変化の局所的な分散の時間軸上の分布との双方に基づ
    いて、前記音声波形の変化が前記発生源により良好に制
    御されている領域を推定するための手段とを含む、請求
    項7に記載のプログラム。
  10. 【請求項10】 前記決定するための手段は、前記推定
    手段により前記音声波形の変化が前記発生源により良好
    に制御されていると推定された領域のうち、前記抽出手
    段により抽出された領域に含まれる領域を前記音声波形
    の高信頼性部分として決定するための手段を含む、請求
    項7〜請求項9のいずれかに記載のプログラム。
  11. 【請求項11】 音声信号を擬似音節に分離し、さらに
    各擬似音節の核部分を抽出するための擬似音節核抽出装
    置としてコンピュータを動作させるプログラムであっ
    て、前記擬似音節核抽出装置は、 前記音声信号の各区間が有声区間か否かを判定するため
    の有声判定手段と、 前記音声信号の所定周波数領域のエネルギーの時間的な
    分布の波形の極小部で前記音声信号を擬似音節に分離す
    るための手段と、 前記音声信号のうち、各擬似音節内でのエネルギーのピ
    ークを含み、かつ前記有声判定手段により有声区間であ
    ると判定された区間であって、かつ前記所定周波数領域
    のエネルギーが所定のしきい値以上である領域を当該擬
    似音節の核として抽出するための手段とを含む、擬似音
    節核抽出プログラム。
  12. 【請求項12】 音声信号の特徴を高い信頼性で示す部
    分を決定するための装置としてコンピュータを動作させ
    るプログラムであって、前記装置は、 前記音声信号に対する線形予測分析を行なうための線形
    予測手段と、 前記線形予測手段によるフォルマントの推定値と、前記
    音声信号とに基づいて、前記フォルマントの推定値の非
    信頼性の時間軸上の分布を算出するための第1の算出手
    段と、 前記線形予測手段による線形予測分析の結果に基づい
    て、前記音声信号のスペクトル変化の局所的な分散の時
    間軸上の分布を算出するための第2の算出手段と、 第1の算出手段により算出された前記フォルマント周波
    数の推定値の非信頼性の時間軸上の分布と、前記第2の
    算出手段により算出された前記音声波形のスペクトル変
    化の局所的な分散の時間軸上の分布との双方に基づい
    て、前記音声波形の変化が前記発生源により良好に制御
    されている領域を推定するための手段とを含む、音声信
    号の特徴を高い信頼性で示す部分を決定するためのプロ
    グラム。
JP2002141390A 2002-05-16 2002-05-16 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム Expired - Fee Related JP3673507B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002141390A JP3673507B2 (ja) 2002-05-16 2002-05-16 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US10/514,413 US7627468B2 (en) 2002-05-16 2003-02-21 Apparatus and method for extracting syllabic nuclei
PCT/JP2003/001954 WO2003098597A1 (fr) 2002-05-16 2003-02-21 Dispositif d'extraction de noyau syllabique et progiciel associe
CA2483607A CA2483607C (en) 2002-05-16 2003-02-21 Syllabic nuclei extracting apparatus and program product thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002141390A JP3673507B2 (ja) 2002-05-16 2002-05-16 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2003330478A true JP2003330478A (ja) 2003-11-19
JP3673507B2 JP3673507B2 (ja) 2005-07-20

Family

ID=29544947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002141390A Expired - Fee Related JP3673507B2 (ja) 2002-05-16 2002-05-16 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Country Status (4)

Country Link
US (1) US7627468B2 (ja)
JP (1) JP3673507B2 (ja)
CA (1) CA2483607C (ja)
WO (1) WO2003098597A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079363A (ja) * 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International パラ言語情報検出装置及びコンピュータプログラム
JP2010026068A (ja) * 2008-07-16 2010-02-04 Toshiba Corp 情報処理装置
JP2010217502A (ja) * 2009-03-17 2010-09-30 Advanced Telecommunication Research Institute International 発話意図情報検出装置及びコンピュータプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
CA2657087A1 (en) * 2008-03-06 2009-09-06 David N. Fernandes Normative database system and method
US20120006183A1 (en) * 2010-07-06 2012-01-12 University Of Miami Automatic analysis and manipulation of digital musical content for synchronization with motion
ITTO20120054A1 (it) * 2012-01-24 2013-07-25 Voce Net Di Ciro Imparato Metodo e dispositivo per il trattamento di messaggi vocali.
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
WO2015057661A1 (en) * 2013-10-14 2015-04-23 The Penn State Research Foundation System and method for automated speech recognition
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
CN107564543B (zh) * 2017-09-13 2020-06-26 苏州大学 一种高情感区分度的语音特征提取方法
TR201917042A2 (tr) * 2019-11-04 2021-05-21 Cankaya Ueniversitesi Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı.

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
JPH01244499A (ja) 1988-03-25 1989-09-28 Toshiba Corp 音声素片ファイル作成装置
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
KR950013552B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치
US5577160A (en) * 1992-06-24 1996-11-19 Sumitomo Electric Industries, Inc. Speech analysis apparatus for extracting glottal source parameters and formant parameters
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP3308847B2 (ja) 1997-03-17 2002-07-29 松下電器産業株式会社 ピッチ波形切り出し基準位置決定方法とその装置
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP2001306087A (ja) 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
JPWO2003107326A1 (ja) * 2002-06-12 2005-10-20 三菱電機株式会社 音声認識方法及びその装置
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079363A (ja) * 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International パラ言語情報検出装置及びコンピュータプログラム
JP4677548B2 (ja) * 2005-09-16 2011-04-27 株式会社国際電気通信基礎技術研究所 パラ言語情報検出装置及びコンピュータプログラム
JP2010026068A (ja) * 2008-07-16 2010-02-04 Toshiba Corp 情報処理装置
JP2010217502A (ja) * 2009-03-17 2010-09-30 Advanced Telecommunication Research Institute International 発話意図情報検出装置及びコンピュータプログラム

Also Published As

Publication number Publication date
US7627468B2 (en) 2009-12-01
JP3673507B2 (ja) 2005-07-20
WO2003098597A1 (fr) 2003-11-27
CA2483607A1 (en) 2003-11-27
CA2483607C (en) 2011-07-12
US20050246168A1 (en) 2005-11-03

Similar Documents

Publication Publication Date Title
Cernak et al. Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features
Drugman et al. Glottal source processing: From analysis to applications
Polzin et al. Detecting emotions in speech
Rao Voice conversion by mapping the speaker-specific features using pitch synchronous approach
Govind et al. Expressive speech synthesis: a review
Kane et al. Improved automatic detection of creak
Turk et al. Robust processing techniques for voice conversion
JPH08263097A (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
Raitio et al. Analysis and synthesis of shouted speech.
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Helander et al. A novel method for prosody prediction in voice conversion
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
Kain et al. Formant re-synthesis of dysarthric speech
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
Vegesna et al. Prosody modification for speech recognition in emotionally mismatched conditions
Tavi et al. Recognition of Creaky Voice from Emergency Calls.
Korkmaz et al. Classification of Turkish vowels based on formant frequencies
JP4811993B2 (ja) 音声処理装置、およびプログラム
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
Orellana et al. Vowel characterization of Spanish speakers from Antioquia–Colombia using a specific-parameterized discrete wavelet transform analysis
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20031215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050422

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees