JP2003330478A - 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム - Google Patents
音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラムInfo
- Publication number
- JP2003330478A JP2003330478A JP2002141390A JP2002141390A JP2003330478A JP 2003330478 A JP2003330478 A JP 2003330478A JP 2002141390 A JP2002141390 A JP 2002141390A JP 2002141390 A JP2002141390 A JP 2002141390A JP 2003330478 A JP2003330478 A JP 2003330478A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- voice
- distribution
- region
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims description 7
- 238000009826 distribution Methods 0.000 claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 230000008859 change Effects 0.000 claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 50
- 230000002123 temporal effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 230000033764 rhythmic process Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 22
- 230000009466 transformation Effects 0.000 description 18
- 238000010606 normalization Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000010354 integration Effects 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008929 regeneration Effects 0.000 description 7
- 238000011069 regeneration method Methods 0.000 description 7
- 210000004704 glottis Anatomy 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009194 climbing Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010028347 Muscle twitching Diseases 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 206010043268 Tension Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
定できるようにする。 【解決手段】 この装置は、データから音声波形のうち
の所定周波数領域のエネルギーの時間軸上の分布を算出
し、当該分布および音声波形のピッチに基づいて、音声
波形の各節のうち、話者によって安定して発生されてい
る領域を抽出する音響・韻律分析部92と、データから
音声波形のスペクトルの時間軸上の分布を算出し、その
時間軸上の分布に基づいて、音声波形のうち、その変化
が話者により良好に制御されている領域を推定するケプ
ストラム分析部94と、話者によって安定して発生され
ている領域として抽出され、かつ話者によってその変化
が良好に制御されていると推定された領域を音声波形の
高信頼性部分として決定する擬似音節中心の抽出部96
とを含む。
Description
波形からその特徴を高い信頼性で示す部分を抽出するた
めの技術に関し、特に、音声波形の発生源の状態を高い
信頼性で推定するために有効な領域を、音声波形から抽
出するための技術に関する。
される用語について定義する。
d)とは、発声の際に声門が緊張しているために声門を
気流が通過しにくく、かつ通過をする際の気流の加速度
が大きくなるように発声される音のことをいう。この場
合、声門気流波形はサインカーブから大きく変形し、そ
の微分波形の傾きが局部的に大きくなる。音声がこうし
た特徴を有する場合、「緊張性」の音声であると呼ぶこ
とにする。
d)とは、発声の際に声門に緊張がないために気流が通
過しやすく、その結果声門気流波形がサインカーブに近
くなるように発声される音をいう。この場合、声門気流
波形の微分波形の傾きが局部的に大きくなることはな
い。音声がこうした特徴を有する場合、「気息性」の音
声であると呼ぶことにする。
緊張音と気息音との中間の発声のことをいう。
otient)とは、声門(声帯)気流の波形のピーク
ツーピークの振幅を、声門気流の波形の微分の振幅の最
小値で除した値のことをいう。
声研究分野に、音声合成がある。最近の信号処理技術の
発達により、音声合成が既に多くの分野で利用されてい
る。しかし、今までの音声合成は単にテキスト情報を音
声化しているだけともいえ、人間が発話する際のような
微妙な感情の表現までは行なえない。
喜び、および悲しみなどの情報が、発話内容以外の情
報、つまり声色などにより伝達される。このように発話
に付随する、言語以外の情報をパラ言語情報と呼ぶ。こ
れらはテキスト情報のみでは表わせない情報である。し
かし従来の音声合成では、こうしたパラ言語情報を伝達
することは難しかった。マンマシンインタフェースをよ
り効率的なものとするためには、テキスト情報だけでは
なくパラ言語情報も音声合成の際に伝えられるようにす
ることが望ましい。
話スタイルで連続的に音声合成を行なおうとする試みが
ある。ひとつの具体的な方策として次のようなものがあ
る。すなわち、発話を録音してデータ処理可能な形でデ
ータベース化し、さらにその中で所望の特徴(怒り、喜
び、悲しみなど)を表わすと思われる発話単位にそれら
の特徴を示すラベルを付ける。音声合成の際には所望の
パラ言語情報に対応したラベルが付けられた音声を利用
する。
ーできるようにデータベースを構築しようとすれば、膨
大な量の録音音声を処理しなければならない。そのため
に、自動的にオペレータの介在なく確実にそうした特徴
の抽出とラベル付け処理とを行なえるようにする必要が
ある。
スタイルの一つとして、緊張音と気息音という区別があ
る。緊張音では声門が緊張しているために、どちらかと
いうと強い発声となる。一方気息音では、音声はサイン
カーブに近く、強いという印象はない。したがって緊張
音と気息音という区別も発話スタイルの一つとして重要
であり、その程度を数量化できれば、パラ言語情報とし
て利用できる可能性がある。
的な指標については、今までにも数多くの研究がなされ
てきた。たとえば文末にリストした参考文献1を参照さ
れたい。しかし、そうした研究の多くは、持続的に安定
して母音を発音している間に録音された発話(または
歌)を対象としたものに限定されていた。実際、膨大な
量の発話の録音データから得られた音響測定データに基
づいて、緊張性と気息性との程度を信頼性高く計量しな
ければならないというのは非常に大きな問題であり、か
つ実現された場合には非常に有用となるであろう。
しようとする様々な手段が提案されて来たが、それより
も直接的な推定が、声門気流の波形とその導関数との組
み合わせによって得られるはずである。そうした推定の
一例が文末の参考文献2において提案されたAQ指数で
ある。
して、音圧レベル(SPL)から比較的独立しているこ
と、およびその値が主として発音の質的なものに依存し
ていることがあげられている。他の利点として考えられ
るのは、このパラメータが純粋に振幅ドメインのもので
あって、種々の発話スタイルに応じた、推定された声門
波形の時間ドメインの特徴量を測定する際の誤差源に対
して比較的免疫性があることである。また、参考文献2
の著者らによれば、様々な発音スタイルで「a」という
母音を持続して発音した場合、4人の男性と4人の女性
との全てに対して、発音を気息性のものから緊張性に変
えていくにしたがって、AQ指数の値は単調に減少した
とのことである(参考文献2の第136頁)。したがっ
てAQ指数は、ここで我々が解決しようとしている問題
に関して有効である可能性が高い。ただし、AQ指数が
有効となるためには、次の条件が満足される必要があ
る。
バストでかつ信頼性高くAQ指数を測定できること、お
よび 2)そうした条件で測定された知覚上の特徴が顕著な部
分を確認することができること。
させるためには、自然に発話された音声などの物理量を
表わす音声波形から、いかにして信頼性高く音声波形の
特徴を表わすパラメータを抽出できるかが重要である。
特に音声の場合のように、発話が話者によりその細部ま
で完全にはコントロールされているわけでない場合、ま
た様々な人が様々なスタイルで発話する場合には、パラ
メータを抽出すべき部分として信頼性がおける場所と、
そうでない場所とが存在することが考えられる。そのた
め、音声波形のうちのどの部分を処理対象とするかが重
要である。またそのために、日本語のように音節が発音
の単位となる場合、音節の中心部(仮にこれを「音節
核」と呼ぶ。)を誤りなく抽出できるようにすることが
必要である。
特徴を高い信頼性で示す部分を決定することを可能とす
ることである。本発明のほかの目的は、本発明のさらに
他の目的は、音節核を高い信頼性で抽出できるようにす
ることである。
複数個の節に分解可能な、物理的量を表わす音声波形の
データに基づいて、音声波形の特徴を高い信頼性で示す
部分を決定するための装置と、そうした装置としてコン
ピュータを動作させるプログラムに関する。この装置
は、データから音声波形のうちの所定周波数領域のエネ
ルギーの時間軸上の分布を算出し、当該分布および音声
波形のピッチに基づいて、音声波形の各節のうち、音声
波形の発生源によって安定して発生されている領域を抽
出するための抽出手段と、データから音声波形のスペク
トルの時間軸上の分布を算出し、当該スペクトルの時間
軸上の分布に基づいて、音声波形のうち、その変化が発
生源により良好に制御されている領域を推定するための
推定手段と、推定手段の出力と、発生源によって安定し
て発生されている領域として抽出手段により抽出され、
かつ発生源によってその変化が良好に制御されていると
推定手段によって推定された領域を音声波形の高信頼性
部分として決定するための手段とを含む。
る推定結果との双方に基づいて音声波形の高信頼性部分
を決定するので、決定結果がより確実なものとなる。
の各区間が有声区間か否かを判定するための有声判定手
段と、音声波形の所定周波数領域のエネルギーの時間軸
上の分布の波形の極小部で音声波形を節に分離するため
の手段と、音声波形のうち、各節内で、当該節内のエネ
ルギーのピークを含み、かつ有声判定手段により有声区
間であると判定された区間であって、かつ所定周波数領
域のエネルギーが所定のしきい値以上である領域を抽出
するための手段とを含んでもよい。
周波数領域のエネルギーが所定のしきい値以上である領
域が抽出されるので、発話者が安定して発声している区
間を確実に抽出できる。
対する線形予測分析を行ないフォルマント周波数の推定
値を出力するための線形予測手段と、データを用いて、
線形予測手段によるフォルマント周波数の推定値の非信
頼性の時間軸上の分布を算出するための第1の算出手段
と、線形予測手段の出力に基づいて、音声波形の時間軸
上のスペクトル変化の局所的な分散の、時間軸上の分布
を算出するための第2の算出手段と、第1の算出手段に
より算出されたフォルマント周波数の推定値の非信頼性
の時間軸上の分布と、第2の算出手段により算出された
音声波形のスペクトル変化の局所的な分散の時間軸上の
分布との双方に基づいて、音声波形の変化が発生源によ
り良好に制御されている領域を推定するための手段とを
含む。
と、音声波形の時間軸上のスペクトル変化の局所的な分
散との双方に基づいて、音声波形の変化が発生源により
良好に制御されている領域が推定される。振動変化の発
生源(たとえば発話者)が明確な意図をもって振動を制
御している領域が推定できるので、そうした領域から振
動の特徴量を算出すれば、算出された特徴量の信頼性が
高くなることが期待できる。
声波形の変化が発生源により良好に制御されていると推
定された領域のうち、抽出手段により抽出された領域に
含まれる領域を音声波形の高信頼性部分として決定する
ための手段を含んでもよい。
されていると推定された領域であって、かつ発生源によ
り音声波形が安定に発生されているもののみを高信頼性
部分として決定する。したがって真に信頼性が高い部分
を抽出できる。
に分離し、さらに各擬似音節の核部分を抽出するための
擬似音節核抽出装置と、そうした装置としてコンピュー
タを動作させるプログラムとに関する。この擬似音節核
抽出装置は、音声信号の各区間が有声区間か否かを判定
するための有声判定手段と、音声信号の所定周波数領域
のエネルギーの時間的な分布の波形の極小部で音声信号
を擬似音節に分離するための手段と、音声信号のうち、
各擬似音節内でのエネルギーのピークを含み、かつ有声
判定手段により有声区間であると判定された区間であっ
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域を当該擬似音節の核として抽出するため
の手段とを含む。
て、かつ所定周波数領域のエネルギーが所定のしきい値
以上である領域が擬似音節の核として抽出されるので、
発話者が安定して発声しているときの音声を抽出するこ
とができる。
徴を高い信頼性で示す部分を決定するための装置と、そ
うした装置としてコンピュータを動作させるプログラム
とに関する。当該装置は、音声信号に対する線形予測分
析を行なうための線形予測手段と、線形予測手段による
フォルマントの推定値と、音声信号とに基づいて、フォ
ルマントの推定値の非信頼性の時間軸上の分布を算出す
るための第1の算出手段と、線形予測手段による線形予
測分析の結果に基づいて、音声信号のスペクトル変化の
局所的な分散の時間軸上の分布を算出するための第2の
算出手段と、第1の算出手段により算出されたフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布と、第
2の算出手段により算出された音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、音声波形の変化が発生源により良好に制御されてい
る領域を推定するための手段とを含む。
上の分布も、音声信号のスペクトル変化の局所的な分散
の時間軸上の分布も、その極小部ではいずれも音声信号
のうちでその発生源により音声波形の発生が良好に制御
されている部分を示す。これらの双方を用いて領域を推
定するので、音声波形の発生が良好に制御されている部
分を信頼性高く特定することができる。
は、コンピュータおよびコンピュータ上で動作するソフ
トウェアにより実現される。もちろん、以下に述べる機
能の一部又は全部を、ソフトウェアでなくハードウェア
で実現することも可能である。
明で使用される用語について定義する。
号処理によって決定される信号の切れ目のことを指し、
日本語音声の場合の音節を推定したものに対応する。
のうちで、所定周波数(たとえば60Hz〜3kHzの
周波数領域)のエネルギーのことをいい、デシベルで表
わされる。
reliability)とは、音声波形に対する信号
処理の結果、音声波形のうちで、対象となる音声波形の
特徴を信頼性高く抽出することができるとみなされるこ
ととなった領域のことをいう。
びれた部分のことをいう。特に、時間の関数として変化
するような値の時間軸上の分布により形成される波形の
うち、極小値に対応する部分をいう。
尺度のことをいう。非信頼性は信頼性の逆の概念であ
る。
ュータシステム20の外観図を、図2にコンピュータシ
ステム20のブロック図を、それぞれ示す。なおここに
示すコンピュータシステム20はあくまで一例であり、
この他にも種々の構成が可能である。
0は、コンピュータ40と、いずれもこのコンピュータ
40に接続されたモニタ42、キーボード46、および
マウス48を含む。コンピュータ40にはさらに、CD
−ROM(CompactDisc Read−Onl
y Memory)ドライブ50と、FD(Flexi
ble Disk)ドライブ52とが内蔵されている。
0はさらに、コンピュータ40に接続されるプリンタ4
4を含むが、これは図1には示していない。またコンピ
ュータ40はさらに、CD−ROMドライブ50および
FDドライブ52に接続されたバス66と、いずれもバ
ス66に接続された中央演算装置(CentralPr
ocessing Unit:CPU)56、コンピュ
ータ40のブートアッププログラムなどを記憶したRO
M(Read−Only Memory)58、CPU
56が使用する作業エリアおよびCPU56により実行
されるプログラムの格納エリアを提供するRAM(Ra
ndom Access Memory)60、および
後述する音声データベースを格納したハードディスク5
4を含む。
するソフトウェアは、たとえば、CD−ROM62のよ
うな記録媒体上に記録されて流通し、CD−ROMドラ
イブ50のような読取装置を介してコンピュータ40に
読込まれ、ハードディスク54に格納される。CPU5
6がこのプログラムを実行する際には、ハードディスク
54からこのプログラムを読み出してRAM60に格納
し、図示しないプログラムカウンタによって指定される
アドレスから命令を読出して実行する。CPU56は、
処理対象のデータをハードディスク54から読出し、処
理結果を同じくハードディスク54に格納する。
知であるので、ここではその詳細については繰り返さな
い。
ように記憶媒体に固定された形には限定されない。たと
えば、ネットワークを通じて接続された他のコンピュー
タからデータを受取る形で流通することもあり得る。ま
た、ソフトウェアの一部が予めハードディスク54中に
格納されており、ソフトウェアの残りの部分をネットワ
ーク経由でハードディスク54に取込んで実行時に統合
するような形の流通形態もあり得る。
タのオペレーティングシステム(OS)によって提供さ
れる汎用の機能を利用し、それらを所望の目的にしたが
って組織化した形態で実行することにより前記した所望
の目的を達成する。したがって、以下に述べる本実施の
形態の各機能のうち、OSまたはサードパーティが提供
する汎用的な機能を含まず、それら汎用的な機能の実行
順序の組合せだけを指定するプログラム(群)であって
も、それらを利用して全体的として所望の目的を達成す
る制御構造を有するプログラム(群)である限り、それ
らが本発明の技術的範囲に含まれることは明らかであ
る。
て機能的に示したのが図3以下のブロック図である。図
3を参照して、この装置80は、ハードディスク54に
格納された音声データ82に対して以下に説明する処理
を行なって、音声データに含まれる各処理単位(たとえ
ば音節)ごとに前述したAQ指数を算出し出力するため
のものである。なお、音声データは後述するように1フ
レーム32msecとなるように予めフレーム化されて
いる。
リエ変換(Fast Fourier Transfo
rm:FFT)を行なうFFT処理部90と、FFT処
理部90の出力を用い、音声データにより表わされる音
声波形のうちの60Hz〜3kHzの周波数領域のエネ
ルギーの時間的変化および音声のピッチの変化に基づい
て、音声データにより表わされる音声波形の各音節のう
ち、話者の発声機構によって安定して発生されている領
域(これを以後「擬似音節核」と呼ぶ。)とを抽出する
音響・韻律分析部92と、音声データ82に対してケプ
ストラム分析を行ない、さらに、FFT処理部90の出
力を用いてケプストラム分析の結果音声スペクトルの変
化が少なく、音声データの特徴を信頼性高く抽出できる
と思われる部分(これを「高信頼性・小変動部の中心」
または「高信頼・小変動の中心」または単に「信頼性の
中心」と呼ぶ。)を推定するためのケプストラム分析部
94とを含む。
4の出力する信頼性の中心(高信頼性・小変動部の中
心)の中で、音響・韻律分析部92の出力する擬似音節
核の中にあるものだけを擬似音節中心として抽出するた
めの擬似音節中心の抽出部96と、擬似音節中心の抽出
部96によって抽出された擬似音節中心に対応する音声
データに対して、フォルマントの初期推定と最適化処理
とを行なって最終的なフォルマントの推定値を出力する
ためのフォルマントの最適化部98と、音声データに対
して、フォルマントの最適化部98から出力されるフォ
ルマント値を用いた適応的フィルタ処理などの信号処理
を行なって声門気流波形の微分を推定し、さらにそれを
積分することによって声門気流波形を推定し、それらに
基づいてAQ指数を計算するためのAQ指数計算部10
0とを含む。
図である。図4を参照して、音声データ波形102は、
それぞれ32msecごとのフレームに分けられ、かつ
前後のフレーム間では8msecごとにずらしてデジタ
ル化されている。そして、後述する処理では、たとえば
ある時点t0では第1のフレームを先頭として処理を
し、次の時点t1では8msecずれた次の第2のフレ
ームを先頭として処理をする、という形で処理を行なっ
ていく。
のブロック図である。図5を参照して、音響・韻律分析
部92は、音声波形から測定される音源のピッチを用い
て、処理対象のフレームが有声区間か否かを判定する
(この方法については参考文献3を参照)ためのピッチ
判定部110と、FFT処理部90の出力に基づいて所
定周波数領域(60Hz〜3kHz)のソノラントエネ
ルギの時間軸上の波形分布を算出するためのソノラント
エネルギ算出部112と、ソノラントエネルギ算出部1
12によって算出されるソノラントエネルギの時間軸上
の分布波形の輪郭に対して凸包アルゴリズムを適用する
ことにより、ソノラントエネルギの時間軸上の分布波形
の輪郭の中のディップを検出して、入力音声を擬似音節
に分割する(この方法については参考文献4および5を
参照)ためのディップ検出部114と、ディップ検出部
114によって得られた擬似音節中の、ソノラントエネ
ルギの最大値(SEpeak)が得られる点を起点として、
その左右に、ソノラントエネルギが所定のしきい値
(0.8×SEpeak)より大きく、かつピッチ判定部1
10によって有声区間であると判定されたフレームであ
って、かつ同じ擬似音節中のフレームを1フレームずつ
広げていくことにより、擬似音節核を出力するための有
声・エネルギ判定部116とを含む。
4のブロック図である。図6を参照して、ケプストラム
分析部94は、音声データ82の音声波形に対して選択
的線形予測(Selective Linear Pr
ediction:SLP)分析を行なって、SLPケ
プストラム係数cf,iを出力するための線形予測分析部
130と、このケプストラム係数に基づいて先頭の4つ
のフォルマントの周波数と帯域との初期推定値を算出す
るためのフォルマント推定部132とを含む。フォルマ
ント推定部132は、参考文献6により提案された線形
ケプストラム−フォルマントマッピングを利用し、かつ
同じデータのサブセットを使用して注意深く測定された
母音フォルマントに対するマッピングを学習させてあ
る。この学習については、参考文献7を参照されたい。
れたフォルマント周波数などに基づいてケプストラム係
数Ci simpを再計算するためのケプストラム再生成部1
36と、FFT処理部90の出力に対して対数変換およ
びコサイン逆変換(IDCT)を行なってFFTケプス
トラム係数を算出するための対数変換および逆DCT部
140と、ケプストラム再生成部136により計算され
たケプストラム係数C i simpと、対数変換および逆DC
T部140により計算されたFFTケプストラム係数C
i FFTとの間の差を表わす値として次の式により定義され
るケプストラム距離df 2を計算し、フォルマント推定部
132によって推定されたフォルマント周波数などの値
の非信頼性を表わす指標として出力するためのケプスト
ラム距離計算部142とをさらに含む。
6、ケプストラム距離計算部142、および対数変換お
よび逆DCT部140により、線形予測分析の結果に基
づいて推定されたフォルマント周波数などの値の非信頼
性が算出される。
測分析部130の出力するケプストラム係数からΔケプ
ストラムを算出する為のΔケプストラム算出部134
と、Δケプストラム算出部134の出力するΔケプスト
ラムに基づいて、各フレームごとに、そのフレームを含
む5フレームのスペクトル変化の大きさの分散を算出す
る為のフレーム間分散算出部138とを含む。フレーム
間分散算出部138の出力は、局所的なスペクトルの動
きの時間軸上の分布波形の輪郭を表わすものとなり、そ
の極小値は、参考文献8で提案されている調音音声学理
論にならっていえば、制御された動きCM(Controlled
Movement)を示すものと考えることができる。
トラム距離計算部142の出力するフォルマント周波数
の推定値の非信頼性を示す値と、フレーム間分散算出部
138の出力する各フレームごとの局所的なフレーム間
分散値とを受け、両者の値を規格化し統合して、フレー
ムごとの音声信号の非信頼性を示す値の時間軸上の分布
波形として出力するための規格化および統合部144
と、規格化および統合部144の出力する非信頼性の値
の時間軸上の分布波形により形成される波形の輪郭のデ
ィップを凸包アルゴリズムにより検出して、信頼性の中
心候補として出力するための信頼性の中心候補出力部1
46とを含む。
44のブロック図である。図7を参照して、規格化およ
び統合部144は、ケプストラム距離計算部142によ
り出力されたケプストラム距離を[0,1]の値に規格
化するための第1の規格化部160と、フレーム間分散
算出部138が各フレームごとに算出するフレーム間分
散の値を[0,1]の値に規格化するための第2の規格
化部162と、局所的なフレーム間分散の値の時間軸上
の位置を、ケプストラム距離計算部142の出力するケ
プストラム距離のサンプリングタイミングと一致させる
ように線形補間処理を行なうための補間処理部164
と、第1の規格化部160の出力と補間処理部164の
出力とを1フレームごとに平均して出力するための平均
計算部166とを含む。平均計算部166の出力は、統
合された値の時間軸上の分布波形の輪郭を表わす。信頼
性の中心候補出力部146によってこの波形の輪郭のデ
ィップ(極小部)を検出することにより、非信頼性が最
も低い部分(信頼性が最も高い部分)を信頼性の中心の候
補として特定することができる。
部98のブロック図である。図8を参照して、フォルマ
ントの最適化部98は、音声波形に対してFFT処理を
行なうためのFFT処理部180と、FFT処理部18
0の出力に対して対数変換およびコサイン逆変換を行な
うための対数変換および逆DCT部182と、対数変換
および逆DCT部182の出力するFFTケプストラム
係数と、後述するフォルマントの推定値との間の距離を
計算するためのケプストラム距離計算部184と、信頼
性の中心候補の各々における第1〜第4のフォルマント
周波数の初期推定値を初期値とし、ケプストラム距離計
算部184が計算する距離を最小にするように山登り法
によってフォルマントの推定値を最適化するための距離
最小化処理部186とを含む。距離最小化処理部186
によって最適化されたフォルマント推定値がフォルマン
トの最適化部98の出力としてAQ指数計算部100に
与えられる。
は、音声信号のうちで音節中心に相当する位置の64m
secの部分のうち、70Hz以上の周波数成分のみを
選択的に通過させるためのハイパスフィルタ200と、
ハイパスフィルタ200の出力のうち、最適化された第
4フォルマント周波数とその帯域との和以下の周波数成
分のみを選択的に通過させるための適応的ローパスフィ
ルタ202と、適応的ローパスフィルタ202の出力に
対し、第1〜第4フォルマント周波数を用いた適応的逆
フィルタ処理を行なうための適応的逆フィルタ204と
を含む。適応的逆フィルタ204の出力は、声門気流波
形の微分波形となる。
フィルタ204の出力を積分して声門気流波形を出力す
るための積分回路206と、積分回路206の出力のピ
ークツーピークの最大振幅を検出するための最大ピーク
間振幅検出回路208と、適応的逆フィルタ204の出
力の負のピークの最大振幅を検出するための最大の負の
ピーク振幅検出回路210と、最大の負のピーク振幅検
出回路210の出力に対する最大ピーク間振幅検出回路
208の出力の比を算出するための比計算回路212と
を含む。比計算回路212の出力がAQ指数である。
作する。まず、使用された音声データ82について説明
する。この音声データは参考文献9で使用されたもので
あり、日本語のネイティブスピーカである女性が3つの
物語を読んだものを録音して作成されたものである。こ
の物語は、怒りと、喜びと、悲しみという感情を引き起
こすように予め作成されていたものである。物語の各々
は400文の長さ(おおよそ30,000音素)以上の
発話を含む。各発話は別々の音声波形ファイルに格納さ
れ処理された。
るFFT処理の後、以下のようにして処理される。処理
は大きく見て二つの系統に分かれ実行される。第1の系
統は音響・韻律分析部92で行なわれる音響韻律的な処
理であり、他の系統はケプストラム分析部94が行なう
音響音声学的な処理である。
ソノラントエネルギ算出部112によって60Hz〜3
kHz周波数領域のソノラントエネルギが算出される。
ソノラントエネルギ算出部112の出力する一文の発話
データの全体波形の輪郭から、ディップ検出部114が
凸包アルゴリズムによりディップを検出する。このディ
ップにより、この発話文は擬似音節に分割される。
の中でソノラントエネルギが最大(SEpeak)となる点
を見つける。この点が擬似音節核の初期点である。有声
・エネルギ判定部116はさらに、この擬似音節核の初
期点から始めて、その左右に向かい、ソノラントエネル
ギが0.8×SEpeak以下のフレーム、またはピッチ判
定部110が有声でないと判定したフレーム、または擬
似音節の外のフレームに出会うまで、擬似音節核の範囲
を広げる。こうして擬似音節核の境界が決定される。こ
の情報は擬似音節中心の抽出部96に与えられる。な
お、ここでしきい値として0.8の値を用いているが、
これは単なる例であって,応用によりこのしきい値を適
切な値に代える必要がある。
に対して線形予測分析部130が線形予測分析を行な
い、SLPケプストラム係数を出力する。Δケプストラ
ム算出部134がこのSLPケプストラム係数に基づい
てΔケプストラムを算出し、フレーム間分散算出部13
8に与える。フレーム間分散算出部138は、このΔケ
プストラム係数に基づき、各フレームごとに、そのフレ
ームを含む5フレームの中での局所的なスペクトル変化
の分散を計算する。この分散が小さいほど発話者の発声
が発話者によりよく制御されていると考えられ、逆にこ
の分散が大きいと話者による制御がよくされていないと
考えられるので、フレーム間分散算出部138の出力は
発話者の発声が信頼されない程度(非信頼性)を表わす
と考えられる。
部132は、線形ケプストラムフォルマントマッピング
を用い、SLPケプストラム係数に基づいて第1〜第4
フォルマントの周波数と帯域とを推定する。ケプストラ
ム再生成部136は、フォルマント推定部132により
推定された第1〜第4フォルマントに基づいて逆にケプ
ストラム係数を算出しケプストラム距離計算部142に
与える。対数変換および逆DCT部140は、フォルマ
ント推定部132およびケプストラム再生成部136が
処理したのと同じフレームのもとの音声データに対して
対数変換およびコサイン逆変換を行なってFFTケプス
トラム係数を算出しケプストラム距離計算部142に与
える。ケプストラム距離計算部142は、ケプストラム
再生成部136からのケプストラム係数と対数変換およ
び逆DCT部140からのケプストラム係数との間の距
離を前述の「数1」の式にしたがって計算する。この結
果得られるのは、フォルマント推定部132が推定した
フォルマントの非信頼性を示す値の時間軸上の分布を表
わす波形と考えられる。ケプストラム距離計算部142
は、この結果を規格化および統合部144に与える。
4の第1の規格化部160は、図6のケプストラム距離
計算部142の出力する、フォルマントの推定値から算
出された各フレームごとの非信頼性値を[0,1]の範
囲に正規化して平均計算部166に与える。第2の規格
化部162は、図6のフレーム間分散算出部138が出
力する、フレームごとに計算された局所的なフレーム間
分散の値を[0,1]の範囲に正規化して補間処理部1
64に与える。補間処理部164は、第2の規格化部1
62の各値に対し、第1の規格化部160の出力する各
フレームのサンプリングポイントに対応する値が得られ
るように線形補間処理を行なって平均計算部166に与
える。平均計算部166は、フレームごとに、第1の規
格化部160の出力と補間処理部164の出力とを正規
化し、その結果を時間軸上の非信頼性の分布を示す統合
された波形として信頼性の中心候補出力部146に出力
する。
ルゴリズムにより、規格化および統合部144の出力す
る統合された波形の輪郭のディップを検出して、そのフ
レームを特定する情報を図3の擬似音節中心の抽出部9
6に対して信頼性の中心の候補として出力する。
図6に示す信頼性の中心候補出力部146から与えられ
た信頼性の中心の中で、音響・韻律分析部92から与え
られた擬似音節核の中にあるもののみを擬似音節中心と
して抽出する。
音声データの特徴を抽出する、または音声データをラベ
ル付けするために適した高信頼性・小変動領域を示す情
報が得られたことになる。したがって、この情報によっ
て特定されるフレームについて所望の処理を行なえばよ
い。本実施の形態の装置では、擬似音節中心の抽出部9
6はこの情報をフォルマントの最適化部98に与え、フ
ォルマントの最適化部98はこの情報を用いて、以下の
ようにして擬似音節中心におけるAQ指数を算出する。
中心の長さは連続する5フレームとする。1フレームは
32msecであり、連続するフレームは互いに8ms
ecずつずれているから、5フレームの全体では64m
secの音声期間に相当する。
は、図9のAQ指数計算部100中で得られる声門気流
の波形により直接計算することができる。しかし、声門
気流の推定自体、もともとのフォルマントに相当する声
道の共振によって影響されており、その信頼性は共振の
影響をもとの音声波形の64msecのデータから取り
除くことができるかに依存している。したがって、その
ような計算によって得られたAQ指数は信頼できないも
のとなる。
は、スペクトルがよく一致しているという意味で、既に
よい推定となっているが、本実施の形態の装置では、さ
らに以下のようにしてフォルマント周波数を最適化す
る。
180は音声波形に対してフレームごとにFFT処理を
行なう。対数変換および逆DCT部182はFFT処理
部180の出力に対して対数変換およびコサイン逆変換
を行なう。ケプストラム距離計算部184は、対数変換
および逆DCT部182の出力するケプストラム係数と
距離最小化処理部186から与えられるケプストラム係
数の推定値との間の距離を計算する。距離最小化処理部
186は、フォルマントの推定値を表わすケプストラム
係数の値を起点として、ケプストラム距離計算部184
により計算される距離が最小値となるように山登り法に
よって距離最小化処理部186から与えられたケプスト
ラム係数の値をさらに最適化し、最小値が得られるとき
のフォルマント推定値を出力する。
示されており、この図9を参照して、擬似音節中心にお
ける音声データはまずハイパスフィルタ200を通り、
その結果70Hz以下の低周波数の雑音が除去される。
さらに適応的ローパスフィルタ202によって第4フォ
ルマントより高い周波数領域のスペクトル情報が除去さ
れる。そして、適応的逆フィルタ204によって第1〜
第4フォルマントによる影響が除去される。
は声門気流の波形の微分のよい推定値となる。これを積
分回路206で積分することにより声門気流の波形の推
定値が得られる。最大ピーク間振幅検出回路208によ
って声門気流の波形のピークツーピークの振幅の最大値
を検出する。最大の負のピーク振幅検出回路210によ
って声門気流の微分波形のサイクル内での負の最大の振
幅を検出する。最大ピーク間振幅検出回路208の出力
の、最大の負のピーク振幅検出回路210の出力に対す
る比を比計算回路212で計算することにより、擬似音
節中心におけるAQ指数が得られる。
中心におけるもとの音声データの特徴(緊張音―気息音
の間の度合い)を信頼性高くあらわしている。これら各
擬似音節中心に対してAQ指数を計算し、さらにこれら
得られたAQ指数を補間することにより、擬似音節中心
以外の部分のAQ指数を推定することもできる。そうす
ることにより、音声データのうち、一定のAQ指数を示
す部分に、当該AQ指数に対応した適切なラベルをパラ
言語情報として付けておき、音声合成の際には、所望の
AQ指数を有する音声データを使用すれば、単なるテキ
ストだけでなく、パラ言語情報をも含んだ形での音声合
成を行なうことが可能になる。
コンピュータにより実現した際の画面表示例を示す。
表示ウィンドウには、音声データ波形240と、音声デ
ータに対して付された音声ラベル242と、基本周波数
の波形の時間軸上の分布波形の輪郭244と、ソノラン
トエネルギの変動の時間軸上の分布波形の輪郭246
と、Δケプストラムから計算されたスペクトル変化の局
所的な分散の時間軸上の分布波形の輪郭248と、フォ
ルマント−FFTケプストラム距離の時間軸上の分布波
形の輪郭250と、スペクトル変化の局所的な分散の分
布波形の輪郭248およびフォルマント−ケプストラム
距離の分布波形の輪郭250を統合した波形である非信
頼性の時間軸上の分布波形の輪郭252と、上述のよう
にして算出された擬似音節中心での声門のAQ指数25
4と、各擬似音節中心で推定された声道の面積関数25
6とが示されている。
た太い縦線232と、ソノラントエネルギの変動の輪郭
246の表示領域に示された太い縦線とは擬似音節の境
界を示す。音声データ波形240の表示領域に示された
細い縦線230と、ソノラントエネルギの変動の輪郭2
46および基本周波数の波形輪郭244の表示領域に示
された細い縦線は擬似音節核の境界を示す。
た縦線は波形の極小値部分(ディップ)であり、そこを
中心としてAQ指数が計算されている部分が最も信頼性
の高い部分である。なおAQ指数が計算された期間およ
び値は横棒で示されており、横棒の縦位置が高いほど緊
張音に近く、低いほど気息音に近い。
2で示される時点での声門気流波形の推定値270と、
その微分波形272と、推定された声門気流波形のスペ
クトル274とが示されている。図10のボックス26
2に対応する時点ではAQ指数254は高く、すなわち
この時点の発声は緊張音に近い。図11に示すとおり、
このときの声門気流の波形はのこぎり形に近く、サイン
ウェーブの波形からは遠く異なっている。また、微分波
形はするどく変化している。
0で示される時点での声門気流波形の推定値280と、
その微分波形282と、推定された声門気流波形のスペ
クトル284とが示されている。図10のボックス26
0に対応する時点ではAQ指数254は低く、すなわち
この時点の発声は気息音に近い。図12に示すとおり、
このときの声門気流の波形はきれいなサインカーブに近
い。微分波形も緩やかなものとなっている。
タを実際に処理して擬似音節中心を抽出し、各擬似音節
中心に対してAQ指数を算出しする一方、それらの擬似
音節中心に対応する音を人間が聞いたときに感ずる感想
と、AQ指数との相関を以下のようにして調査した。
中心は22,000個であり、その各々について対応す
る声門気流波形およびAQ指数と、もとの音声波形のR
MS(Root Mean Square)エネルギ
(dB)とを算出した。これら信頼性の中心のうち、同
一の音節核中に存在しかつ互いのAQ指数がほぼ一致し
ているものをまとめ、さらにそれら信頼性の中心のう
ち、統合された非信頼性の値が0.2以上のものを棄却
することにより、聴覚刺激として使用可能と思われる音
節核の数は15,000をわずかに超えたものとなっ
た。
情報に基づき、知覚上の評価を行なうために60の刺激
からなるサブセットを選択した。具体的には、前述した
3つの感情を表わすデータベースの各々について、極め
て低い、または極めて高い、または各感情に対するAQ
指数の平均値マイナスその分布の標準偏差(σ)近辺、
またはAQ指数の平均値プラス標準偏差近辺、の4つの
カテゴリのいずれかにAQ指数が属するような信頼性の
中心を含む音節核を5つずつ選択した。
節核の時間的長さは32msecから560msecの
範囲であり、その平均は171msecであった。通常
の聴覚的能力を有する11人の被験者が、これら短時間
の刺激の各々について聴覚的評価を行なった。被験者は
静粛なオフィス環境で、高音質のヘッドフォンを用い、
各刺激を必要な回数だけ聞き、各刺激について、それぞ
れ「気息性」および「強さ」とだけ説明した二つのスケ
ールにしたがい、7段階で採点した。各被験者の採点は
各々比例により[0,1]の範囲に正規化され、正規化
した点数に基づいて、60個の刺激の各々についての1
1人の被験者全ての気息性および強さに関する平均値を
算出した。
と、音響的に測定したAQ指数の値とを比較する散布図
である。これら60対の値に対する線形相関係数は0.
77であった。この相関は必ずしも高いものではない
が、刺激に対するAQの測定値が高くなれば、その刺激
に対して感じられる気息性も平均すれば高くなるという
明らかな傾向があることを裏付けるものといえる。図1
3の散布図上で想定されるベストフィットの直線から最
も遠い位置に存在する点のいくつかをより詳細に調べる
と、誤差の原因として次のようなものが浮かび上がる。
すなわち、動的制約が欠如しているために生ずる、5つ
のフレーム中でのフォルマントの非連続性、5つのフレ
ームに含まれていない音節核の一部において生ずる高い
気息性、および5つのフレーム中の母音部分に対して、
隣接した鼻音がおよぼす強い影響などである。
Q指数を有する刺激に対しては、気息性の感じ方が広い
ことに気づく。これは、気息性が低い刺激に気息性に関
する点数をつけることが難しく、むしろ地声または緊張
音的な発音という側面から点数付けしたほうがよりよく
特徴を表わせるのではないか、という直感的な理解を裏
付けるものと思われる。
の感じ方を、同じ信頼性の中心において測定されたRM
Sエネルギと比較するための散布図も作成した。その相
関係数は0.83となり、より高度な重み付けを用いて
強さの感じ方を測定しているわけではないにもかかわら
ず、その関係の強さを裏付けるものとなっている。
律的分析と、ケプストラム分析とを組合せて、(i)録
音された自然な発声中の擬似音節の信頼性の中心の位置
を決定するための、(ii)参考文献2で提案されたA
Q指数により定量化された音源の属性を測定するため
の、全くオペレータが介在する必要がない方法および装
置を実現した。そして、その方法および装置を用いて行
なった音声知覚の実験の結果は、擬似音節核中で知覚さ
れた気息性と強い相関を持つ、頑健性をもって測定でき
る値としてのAQ指数の重要性を確認するものであっ
た。実際、前述したような誤差源が存在しているにもか
かわらず、AQ指数と気息性の知覚との間に見出された
相関により、音質パラメータとしてのAQ指数をさらに
研究する必要があることを確認することができた。
位に対するパラ言語的なラベル付けを行なうことができ
る可能性が高くなる。そうした発声単位を用い、所望の
ラベル付けがされた発声単位を用いて音声の連続合成を
行なうことにより、緊張音から地声、さらに気息的な発
音までの範囲にわたる幅広い発声スタイルを用いたマン
マシンインタフェースを実現することが可能となる。
ging voice, Northern Illinois UniversityPress, Del
calb, Illinois. (2) Alku,P. & Vilkman, E. (1996). “Amplitude
domain quotient for characterization ofthe glottal
volume velocity waveform estimated by inverse fil
tering”, SpeechComm., 18(2), 131-138. (3) Hermes,D. (1988). “Measurement of pitch b
y subharmonic summation”, J. Acoust.Soc. Am.83
(1), 257-264. (4) Mermelstein,P. (1975). “Automatic segment
ation of speech into syllabic units”, J.Acoust.So
c. Am. 58(4), 880-883. (5) Lea,W.A. (1980). “Prosodic aids to speech
recognition”, in Lea, W.A. (ed.), Trendsin Speec
h Recognition, Prentice-Hall, New Jersey, 166-205. (6) Broad,D.J. & Clermont, F. (1989). “Forman
t estimation by linear transformation ofthe LPC ce
pstrum”, J. Acoust. Soc. Am. 86 (5), 2013-2017. (7) Mokhtari,P., Iida, A. & Campbell, N. (200
1). “Some articulatory correlates ofemotion varia
bility in speech : apreliminary study on spoken
Japanese vowels”, Proc. Int. Conf. on SpeechProce
ss., Taejon, Korea, 431-436. (8) Peterson,G.E., & Shoup, J.E. (1966). “A
physiological theory of phonetics”, J. Speech Hea
r. Res. 9, 5-67. (9) Iida,A., Campbell, N., Iga, S., Higuchi,
F. & Yasumura, M. (1998). “Acousticnature and per
ceptual testing of corpora of emotional speech”,
Proc. 5th Int.Conf. on Spoken Lang. Process., 1559
-1562.
るコンピュータシステムの外観を示す図である。
図である。
成をブロック図形式で示す図である。
図である。
ク図である。
ック図である。
ロック図である。
図である。
表示例を示す図である。
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。
時点での声門気流波形の推定値、声門気流波形の微分の
推定値、および推定された声門気流波形のスペクトルを
示す図である。
Q指数との間の関連を示す散布図である。
FFT処理部、92音響・韻律分析部、94 ケプス
トラム分析部、96 擬似音節中心の抽出部、98 フ
ォルマントの最適化部、100 AQ指数計算部、11
0 ピッチ判定部、112 ソノラントエネルギ算出
部、114 ディップ検出部、116有声・エネルギ判
定部、130 線形予測分析部、132 フォルマント
推定部、134 Δケプストラム算出部、136 ケプ
ストラム再生成部、138 フレーム間分散算出部、1
40 対数変換および逆DCT部、142 ケプストラ
ム距離計算部、144 規格化および統合部、146
信頼性の中心候補出力部、186 距離最小化処理部
Claims (12)
- 【請求項1】 音声波形のデータに基づいて、前記音声
波形の特徴を高い信頼性で示す部分を決定するための装
置であって、 前記データから前記音声波形のうちの所定周波数領域の
エネルギーの時間軸上の分布を算出し、当該分布および
前記音声波形のピッチに基づいて、前記音声波形の各節
のうち、前記音声波形の発生源によって安定して発生さ
れている領域を抽出するための抽出手段と、 前記データから前記音声波形のスペクトルの時間軸上の
分布を算出し、当該スペクトルの時間軸上の分布に基づ
いて、前記音声波形のうち、その変化が前記発生源によ
り良好に制御されている領域を推定するための推定手段
と、 前記推定手段の出力と、前記発生源によって安定して発
生されている領域として前記抽出手段により抽出され、
かつ前記発生源によってその変化が良好に制御されてい
ると前記推定手段によって推定された領域を前記音声波
形の高信頼性部分として決定するための手段とを含む、
音声波形の特徴を高い信頼性で示す部分を決定するため
の装置。 - 【請求項2】 前記抽出手段は、 前記データに基づいて、前記音声波形の各区間が有声区
間か否かを判定するための有声判定手段と、 前記音声波形の前記所定周波数領域のエネルギーの時間
軸上の分布の波形の極小部で前記音声波形を節に分離す
るための手段と、 前記音声波形のうち、各節内で、当該節内のエネルギー
のピークを含み、かつ前記有声判定手段により有声区間
であると判定された区間であって、かつ前記所定周波数
領域のエネルギーが所定のしきい値以上である領域を抽
出するための手段とを含む、請求項1に記載の装置。 - 【請求項3】 前記推定手段は、 前記音声波形に対する線形予測分析を行ないフォルマン
ト周波数の推定値を出力するための線形予測手段と、 前記データを用いて、前記線形予測手段によるフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布を算出
するための第1の算出手段と、 前記線形予測手段の出力に基づいて、前記音声波形の時
間軸上のスペクトル変化の局所的な分散の、時間軸上の
分布を算出するための第2の算出手段と、 前記第1の算出手段により算出された前記フォルマント
周波数の推定値の非信頼性の時間軸上の分布と、前記第
2の算出手段により算出された前記音声波形のスペクト
ル変化の局所的な分散の時間軸上の分布との双方に基づ
いて、前記音声波形の変化が前記発生源により良好に制
御されている領域を推定するための手段とを含む、請求
項1に記載の装置。 - 【請求項4】 前記決定するための手段は、前記推定手
段により前記音声波形の変化が前記発生源により良好に
制御されていると推定された領域のうち、前記抽出手段
により抽出された領域に含まれる領域を前記音声波形の
高信頼性部分として決定するための手段を含む、請求項
1〜請求項3のいずれかに記載の装置。 - 【請求項5】 音声信号を擬似音節に分離し、さらに各
擬似音節の核部分を抽出するための擬似音節核抽出装置
であって、 前記音声信号の各区間が有声区間か否かを判定するため
の有声判定手段と、 前記音声信号の所定周波数領域のエネルギーの時間的な
分布の波形の極小部で前記音声信号を擬似音節に分離す
るための手段と、 前記音声信号のうち、各擬似音節内でのエネルギーのピ
ークを含み、かつ前記有声判定手段により有声区間であ
ると判定された区間であって、かつ前記所定周波数領域
のエネルギーが所定のしきい値以上である領域を当該擬
似音節の核として抽出するための手段とを含む、擬似音
節核抽出装置。 - 【請求項6】 音声信号の特徴を高い信頼性で示す部分
を決定するための装置であって、 前記音声信号に対する線形予測分析を行なうための線形
予測手段と、 前記線形予測手段によるフォルマントの推定値と、前記
音声信号とに基づいて、前記フォルマントの推定値の非
信頼性の時間軸上の分布を算出するための第1の算出手
段と、 前記線形予測手段による線形予測分析の結果に基づい
て、前記音声信号のスペクトル変化の局所的な分散の時
間軸上の分布を算出するための第2の算出手段と、 第1の算出手段により算出された前記フォルマント周波
数の推定値の非信頼性の時間軸上の分布と、前記第2の
算出手段により算出された前記音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、前記音声波形の変化が前記発生源により良好に制御
されている領域を推定するための手段とを含む、音声信
号の特徴を高い信頼性で示す部分を決定するための装
置。 - 【請求項7】 音声波形のデータに基づいて、前記音声
波形の特徴を高い信頼性で示す部分を決定するための装
置としてコンピュータを動作させるプログラムであっ
て、前記装置は、 前記データから前記音声波形のうちの所定周波数領域の
エネルギーの時間軸上の分布を算出し、当該分布および
前記音声波形のピッチに基づいて、前記音声波形の各節
のうち、前記音声波形の発生源によって安定して発生さ
れている領域を抽出するための抽出手段と、 前記データから前記音声波形のスペクトルの時間軸上の
分布を算出し、当該スペクトルの時間軸上の分布に基づ
いて、前記音声波形のうち、その変化が前記発生源によ
り良好に制御されている領域を推定するための推定手段
と、 前記推定手段の出力と、前記発生源によって安定して発
生されている領域として前記抽出手段により抽出され、
かつ前記発生源によってその変化が良好に制御されてい
ると前記推定手段によって推定された領域を前記音声波
形の高信頼性部分として決定するための手段とを含む、
音声波形の特徴を高い信頼性で示す部分を決定するため
のプログラム。 - 【請求項8】 前記抽出手段は、 前記データに基づいて、前記音声波形の各区間が有声区
間か否かを判定するための有声判定手段と、 前記音声波形の前記所定周波数領域のエネルギーの時間
軸上の分布の波形の極小部で前記音声波形を節に分離す
るための手段と、 前記音声波形のうち、各節内で、当該節内のエネルギー
のピークを含み、かつ前記有声判定手段により有声区間
であると判定された区間であって、かつ前記所定周波数
領域のエネルギーが所定のしきい値以上である領域を抽
出するための手段とを含む、請求項7に記載のプログラ
ム。 - 【請求項9】 前記推定手段は、 前記音声波形に対する線形予測分析を行ないフォルマン
ト周波数の推定値を出力するための線形予測手段と、 前記データを用いて、前記線形予測手段によるフォルマ
ント周波数の推定値の非信頼性の時間軸上の分布を算出
するための第1の算出手段と、 前記線形予測手段の出力に基づいて、前記音声波形の時
間軸上のスペクトル変化の局所的な分散の、時間軸上の
分布を算出するための第2の算出手段と、 前記第1の算出手段により算出された前記フォルマント
周波数の推定値の非信頼性の時間軸上の分布と、前記第
2の算出手段により算出された前記音声波形のスペクト
ル変化の局所的な分散の時間軸上の分布との双方に基づ
いて、前記音声波形の変化が前記発生源により良好に制
御されている領域を推定するための手段とを含む、請求
項7に記載のプログラム。 - 【請求項10】 前記決定するための手段は、前記推定
手段により前記音声波形の変化が前記発生源により良好
に制御されていると推定された領域のうち、前記抽出手
段により抽出された領域に含まれる領域を前記音声波形
の高信頼性部分として決定するための手段を含む、請求
項7〜請求項9のいずれかに記載のプログラム。 - 【請求項11】 音声信号を擬似音節に分離し、さらに
各擬似音節の核部分を抽出するための擬似音節核抽出装
置としてコンピュータを動作させるプログラムであっ
て、前記擬似音節核抽出装置は、 前記音声信号の各区間が有声区間か否かを判定するため
の有声判定手段と、 前記音声信号の所定周波数領域のエネルギーの時間的な
分布の波形の極小部で前記音声信号を擬似音節に分離す
るための手段と、 前記音声信号のうち、各擬似音節内でのエネルギーのピ
ークを含み、かつ前記有声判定手段により有声区間であ
ると判定された区間であって、かつ前記所定周波数領域
のエネルギーが所定のしきい値以上である領域を当該擬
似音節の核として抽出するための手段とを含む、擬似音
節核抽出プログラム。 - 【請求項12】 音声信号の特徴を高い信頼性で示す部
分を決定するための装置としてコンピュータを動作させ
るプログラムであって、前記装置は、 前記音声信号に対する線形予測分析を行なうための線形
予測手段と、 前記線形予測手段によるフォルマントの推定値と、前記
音声信号とに基づいて、前記フォルマントの推定値の非
信頼性の時間軸上の分布を算出するための第1の算出手
段と、 前記線形予測手段による線形予測分析の結果に基づい
て、前記音声信号のスペクトル変化の局所的な分散の時
間軸上の分布を算出するための第2の算出手段と、 第1の算出手段により算出された前記フォルマント周波
数の推定値の非信頼性の時間軸上の分布と、前記第2の
算出手段により算出された前記音声波形のスペクトル変
化の局所的な分散の時間軸上の分布との双方に基づい
て、前記音声波形の変化が前記発生源により良好に制御
されている領域を推定するための手段とを含む、音声信
号の特徴を高い信頼性で示す部分を決定するためのプロ
グラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002141390A JP3673507B2 (ja) | 2002-05-16 | 2002-05-16 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
US10/514,413 US7627468B2 (en) | 2002-05-16 | 2003-02-21 | Apparatus and method for extracting syllabic nuclei |
PCT/JP2003/001954 WO2003098597A1 (fr) | 2002-05-16 | 2003-02-21 | Dispositif d'extraction de noyau syllabique et progiciel associe |
CA2483607A CA2483607C (en) | 2002-05-16 | 2003-02-21 | Syllabic nuclei extracting apparatus and program product thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002141390A JP3673507B2 (ja) | 2002-05-16 | 2002-05-16 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003330478A true JP2003330478A (ja) | 2003-11-19 |
JP3673507B2 JP3673507B2 (ja) | 2005-07-20 |
Family
ID=29544947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002141390A Expired - Fee Related JP3673507B2 (ja) | 2002-05-16 | 2002-05-16 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7627468B2 (ja) |
JP (1) | JP3673507B2 (ja) |
CA (1) | CA2483607C (ja) |
WO (1) | WO2003098597A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP2010026068A (ja) * | 2008-07-16 | 2010-02-04 | Toshiba Corp | 情報処理装置 |
JP2010217502A (ja) * | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7457753B2 (en) * | 2005-06-29 | 2008-11-25 | University College Dublin National University Of Ireland | Telephone pathology assessment |
JP4085130B2 (ja) * | 2006-06-23 | 2008-05-14 | 松下電器産業株式会社 | 感情認識装置 |
CA2657087A1 (en) * | 2008-03-06 | 2009-09-06 | David N. Fernandes | Normative database system and method |
US20120006183A1 (en) * | 2010-07-06 | 2012-01-12 | University Of Miami | Automatic analysis and manipulation of digital musical content for synchronization with motion |
ITTO20120054A1 (it) * | 2012-01-24 | 2013-07-25 | Voce Net Di Ciro Imparato | Metodo e dispositivo per il trattamento di messaggi vocali. |
US9805738B2 (en) * | 2012-09-04 | 2017-10-31 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
WO2015057661A1 (en) * | 2013-10-14 | 2015-04-23 | The Penn State Research Foundation | System and method for automated speech recognition |
US20150127343A1 (en) * | 2013-11-04 | 2015-05-07 | Jobaline, Inc. | Matching and lead prequalification based on voice analysis |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
CN107564543B (zh) * | 2017-09-13 | 2020-06-26 | 苏州大学 | 一种高情感区分度的语音特征提取方法 |
TR201917042A2 (tr) * | 2019-11-04 | 2021-05-21 | Cankaya Ueniversitesi | Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı. |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3649765A (en) * | 1969-10-29 | 1972-03-14 | Bell Telephone Labor Inc | Speech analyzer-synthesizer system employing improved formant extractor |
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
JPH01244499A (ja) | 1988-03-25 | 1989-09-28 | Toshiba Corp | 音声素片ファイル作成装置 |
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
KR950013552B1 (ko) * | 1990-05-28 | 1995-11-08 | 마쯔시다덴기산교 가부시기가이샤 | 음성신호처리장치 |
US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
JP2924555B2 (ja) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
US5479560A (en) * | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5675705A (en) * | 1993-09-27 | 1997-10-07 | Singhal; Tara Chand | Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary |
JP3533696B2 (ja) * | 1994-03-22 | 2004-05-31 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JP3308847B2 (ja) | 1997-03-17 | 2002-07-29 | 松下電器産業株式会社 | ピッチ波形切り出し基準位置決定方法とその装置 |
US7043430B1 (en) * | 1999-11-23 | 2006-05-09 | Infotalk Corporation Limitied | System and method for speech recognition using tonal modeling |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
JP4632384B2 (ja) | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP2001306087A (ja) | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
US6493668B1 (en) * | 2001-06-15 | 2002-12-10 | Yigal Brandman | Speech feature extraction system |
JPWO2003107326A1 (ja) * | 2002-06-12 | 2005-10-20 | 三菱電機株式会社 | 音声認識方法及びその装置 |
US7231346B2 (en) * | 2003-03-26 | 2007-06-12 | Fujitsu Ten Limited | Speech section detection apparatus |
US7567900B2 (en) * | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
-
2002
- 2002-05-16 JP JP2002141390A patent/JP3673507B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-21 CA CA2483607A patent/CA2483607C/en not_active Expired - Fee Related
- 2003-02-21 US US10/514,413 patent/US7627468B2/en not_active Expired - Fee Related
- 2003-02-21 WO PCT/JP2003/001954 patent/WO2003098597A1/ja active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP4677548B2 (ja) * | 2005-09-16 | 2011-04-27 | 株式会社国際電気通信基礎技術研究所 | パラ言語情報検出装置及びコンピュータプログラム |
JP2010026068A (ja) * | 2008-07-16 | 2010-02-04 | Toshiba Corp | 情報処理装置 |
JP2010217502A (ja) * | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US7627468B2 (en) | 2009-12-01 |
JP3673507B2 (ja) | 2005-07-20 |
WO2003098597A1 (fr) | 2003-11-27 |
CA2483607A1 (en) | 2003-11-27 |
CA2483607C (en) | 2011-07-12 |
US20050246168A1 (en) | 2005-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cernak et al. | Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features | |
Drugman et al. | Glottal source processing: From analysis to applications | |
Polzin et al. | Detecting emotions in speech | |
Rao | Voice conversion by mapping the speaker-specific features using pitch synchronous approach | |
Govind et al. | Expressive speech synthesis: a review | |
Kane et al. | Improved automatic detection of creak | |
Turk et al. | Robust processing techniques for voice conversion | |
JPH08263097A (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
Raitio et al. | Analysis and synthesis of shouted speech. | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
Helander et al. | A novel method for prosody prediction in voice conversion | |
Ibrahim et al. | Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition | |
Kain et al. | Formant re-synthesis of dysarthric speech | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
Vegesna et al. | Prosody modification for speech recognition in emotionally mismatched conditions | |
Tavi et al. | Recognition of Creaky Voice from Emergency Calls. | |
Korkmaz et al. | Classification of Turkish vowels based on formant frequencies | |
JP4811993B2 (ja) | 音声処理装置、およびプログラム | |
Ramteke et al. | Phoneme boundary detection from speech: A rule based approach | |
Cherif et al. | Pitch detection and formant analysis of Arabic speech processing | |
Orellana et al. | Vowel characterization of Spanish speakers from Antioquia–Colombia using a specific-parameterized discrete wavelet transform analysis | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20031031 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20031215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050422 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130428 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |