JP2006284907A

JP2006284907A - 音素セグメンテーション方法及び装置

Info

Publication number: JP2006284907A
Application number: JP2005104513A
Authority: JP
Inventors: Tadashi Aoki; 直史青木; Hiroyuki Ito; 博之伊藤
Original assignee: CRYPTON FUTURE MEDIA Inc; Hokkaido University NUC
Current assignee: CRYPTON FUTURE MEDIA Inc; Hokkaido University NUC
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19

Abstract

【課題】発話音声に対して確度の高い音素セグメンテーションを行う。
【解決手段】音声データ記憶部２から読み出した音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして、音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度を第２のパラメータとして、音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして、音声波形のゼロクロス−ゼロクロス間の極大値数を第４のパラメータとして、音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとしてそれぞれ演算し、第１〜第５のパラメータそれぞれに対して重みつけし、第１〜第５の重み付きパラメータを乗算しあるいは加算して得られた結果をしきい値と比較して音素境界を判定する処理により音素セグメンテーションを行う。
【選択図】図１２

Description

本発明は、波形の形状分析に基づく音素セグメンテーション方法及びそれを使用する音素セグメンテーション装置に関する。

話者により一旦発話された音声を音素毎に仕分けしていくことをセグメンテーションと言う。もし、これが正確になされれば、音声合成においては単語や文章にさえも既にセグメンテーションされ、一時的に保存されていた各音素を繋ぎ合わせて、自然性・了解性のある音声に仕上げていくことも可能である。また、音声認識においても、形状発露でかつ小容量辞書を利用した音素単位認識への活路も広がる。実際、語彙としての一部である音素を観測することにより、関数の周期性、極大値振幅のリダンダントな変化の逸脱性、定時間内のポール（極大値、極小値）の発生数等、視覚的に音素種を見分けられる工学者や医学者も多い。

音声認識においても音声合成においても、既存音声から音素ごとに信号分割（セグメンテーション）できると言うことは、学習データの自動増加やデータ再利用と言う観点において有用であり、資源を最小単位で利用すると言う観点から望ましいことである。
谷口徹、安達了慈、"音声・音楽区間セグメンテーション手法の検討"、日本音響学会講演論文集、３−６−９，２００３．３今井聖、古市千枝子、"連続音声の音素的単位のセグメンテーション"、電子情報通信学会論文誌、Ｖｏｌ．Ｊ７２−Ｄ−ＩＩ，１９８９．１

本発明は、上記のような従来の技術的課題に鑑みてなされたもので、音声波形の形状パラメータを抽出し、それらをマージして形状特化し、つまり形状揺らぎ関数を構築し、精密な音素セグメンテーションする音素セグメンテーション方法及び装置を提供することを目的とする。

本発明の第１の発明は、音声データを音声データ記憶部に記憶する処理と、前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度を第２のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間の極大値数を第４のパラメータとして演算する処理と、前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとして演算する処理と、第１〜第５のパラメータそれぞれに対して重みを与える処理と、前記第１〜第５の重み付きパラメータを乗算する処理と、前記乗算結果をしきい値と比較して音素境界を判定する処理とを有する音素セグメンテーション方法を特徴とする。

上記音素セグメンテーション方法は、前記乗算処理に代えて、加算処理を有するものとすることができ、また、前記第１〜第５の重み値それぞれを可変設定するものとすることができる。

本発明の第２の発明は、音声データを音声データ記憶部と、前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして演算する第１のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度を第２のパラメータ演算する第２のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして演算する第３のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間の極大値数を第４のパラメータとして演算する第４のパラメータ演算部と、前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとして演算する第５のパラメータ演算部と、第１〜第５のパラメータそれぞれに対して重みを与える第１〜第５の重み設定部と、前記第１〜第５の重み付きパラメータを乗算する乗算器と、前記乗算器の出力値をしきい値と比較して音素境界を判定する比較判定部とを備えた音素セグメンテーション装置を特徴とする。

上記の音素セグメンテーション装置は、前記乗算器に代えて、加算器を備えたものとすることができ、また、前記第１〜第５の重み設定部は、第１〜第５の重み値それぞれを可変設定機能を有するものとすることができる。

本発明によれば、音声データ記憶部から読み出した音声波形に対して特定の演算処理よって得られる第１〜第５のパラメータを求め、さらに重みつけし、得られた第１〜第５のパラメータ群を乗算または加算し、得られた値をしきい値と比較して音素境界を判定するので、発話音声に対して確度の高い音素セグメンテーションを行うことができる。

以下、本発明の実施の形態を図に基づいて詳説する。本発明の発明思想の原理について説明する。音声はスペクトル的に見ると、声帯の微細振動と声道共振の畳み込みであると言える。それ故、音声波形と言う単位でみても、そのままで、可聴という意味において標本化定理を満たす波形をそのまま観測することは、単語単位の音声認識で履行してみても意味が無いことがわかっている。短文も含む単語単位音声認識の技術と同様に、語始特定においても語尾特定においても、振幅に対して２段階のラッチを使い、確定された発話区間において振幅移動平均を使う。それではじめて、形というものが音声波形に浮き出てくる。

音素間を見分ける重要なパラメータは以下にあげるように５つである。なお、以下のパラメータ全ては、２０〜５０サンプリング単位で移動平均化された時間軸波形の関数上に成り立つ。いずれも変化に焦点を当てているので、各パラメータは−値が出ても、ｉｆ（Ｐ≧０）→Ｐ’＝Ｐ，ｉｆ（Ｐ＜０）→Ｐ’＝−Ｐ、ただし、Ｐは更新前の形状パラメータ、Ｐ’は更新後の形状パラメータとして、更新後のパラメータＰ’には絶対値として＋側を用いる。

なお、以下で用いる記号Δは、変化量を意味する。そしてｒΔは、物理的に隣り合うもの同士の変化率のことである。いま、ｒΔcrossというのは、例えば、波形が振幅０のところを交差した時刻が３とし、次に交差した時刻が８とし、さらに次に交差した時刻を１２とすると、１番目のΔcross（ｔがついても同じ。以降はcrossｔとする）は、８−３＝５である。２番目のΔcrossｔは、１２−８＝４である。すると、この２つのΔcrossｔにおける変化率をｒΔcrossｔと表す。そして、本実施の形態の場合、１よりも大きい数字にしようとしているので、４／５＝０．８でなくて、５／４＝１．２５とする。つまり、ｒΔｃｒｏｓｓ_Ｔとしては、ｎ番目のΔcrossｔ／（ｎ＋１）番目のΔcrossｔを採用するわけでも、（ｎ＋１）番目のΔcrossｔ／ｎ番目のΔcrossｔを採用するわけでもなくて、それらの大きい方を取って、強制的に１以上にしてしまうのである。そして、以下に説明するそれ以外のｒΔmaxpoll等も含めた、Δcrossｔ周りの４つのパラメータも、同じく変化率であり、かつ、全てゼロクロス点をトリガーにした変化率にしている。

また、maxpollについては、例えば１つ前のΔcrossｔ区間内の極大点の数を５とし、次のΔcrossｔ区間内の極大点の数を７とすると、ｒΔmaxpoll＝abs(７−５）＊１００/５＝４０。ここで、absとは絶対値のことである。このため、次の極大点が７であろうと３であろうと、前のものとの差異＝abs（７−５）＝abs（３−５）＝２となるから、ｒΔmaxpollは同値になる。

第１のパラメータは、ゼロクロス周期の変化（ｒΔcorssｔ）である。図１は音声波形のゼロクロス周期の定義の説明図であり、ゼロクロス周期の定義は、移動平均後の振幅の隣り合うゼロクロス時間間隔の変化の比率であり、

で表され、ｔ_ｎ／ｔ_ｎ−１とその逆数ｔ_ｎ−１／ｔ_ｎも含めて考慮し、大きい方とする。

第２のパラメータは、ゼロクロス−ゼロクロス間の第１極大値の尖頭度の変化（ｒΔtip of poll）である。図２は音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度の変化の定義の説明図であり、尖頭度の隣り合うゼロクロス間隔同士の変化の比率は、

で表され、

とその逆数

も含めて考慮する。

ここで、ゼロクロス−ゼロクロス間の第１極大値の尖頭度の変化の定義は、ゼロクロス時刻と次のゼロクロス時刻との間で、頂点を挟んで少なくとも５サンプリングずつピックアップした振幅差の足し算とする。すなわち、図３、図４に示したように、θｔ_ｎ−１は、θｔ_ｎ−１＝ａ＋ｂであり、θｔ_ｎは、θｔ_ｎ＝ａ'＋ｂ’である。

第３のパラメータは、ゼロクロス−ゼロクロス間で更新される１０ｍｓ毎の最大振幅の変化（ｒΔ10ms max Amplitude）である。図５は音声波形のゼロクロス−ゼロクロス間で更新される１０ｍｓ毎の最大振幅の変化の定義の説明図であり、ゼロクロス−ゼロクロス間で更新される１０ｍｓ毎の最大振幅の変化の定義は、ゼロクロス時刻と次のゼロクロス時刻間を１０ｍｓ毎に分けて行き、当該各１０ｍｓの中での振幅極大値の変化である。ただし、極大値が検出できない箇所においては、１つ前の極大値を現１０ｍｓ区間の極大値としているし、当該１０ｍｓ間に振幅極大値が検出されたにしても、その極大値が０以下の場合には、当該極大値を強制的に０にしている。第３のパラメータは、こうして設定された極大値の１０ｍｓ間隔ごとの変化量と規定し、

で表され、

とその逆数

も含めて考慮する。

第４のパラメータは、ゼロクロス−ゼロクロス間の極大値数の変化（ｒΔmax poll N）である。図６は音声波形のゼロクロス−ゼロクロス間の極大値数の変化の定義の説明図であり、ゼロクロス−ゼロクロス間の極大値数の変化の定義は、隣り合うゼロクロス区間内での最大値を含めた極大値の数の変化分の比であり、

で表され、

とその逆数

も含めて考慮する。ゼロクロス点から、次のゼロクロス点に至るまでの間、第２のパラメータで極大値が検出されるごとに、極大値数をアップデートしていく。図６の場合、ｔ_ｎ−１の期間の極大値数Ｎｔ_ｎ−１＝２であり、ｔ_ｎの期間の極大値数Ｎｔ_ｎ＝３である。

第５のパラメータは、クロス時の振幅値＝０への食い込み角度（ｒΔcross Angle）である。図７はクロス時の振幅値＝０への食い込み角度の定義の説明図であり、クロス時の振幅値＝０への食い込み角度の定義は、振幅線（包絡）が、振幅＝０線をクロスしていく深さの変化量を表す。クロス角度とは、振幅＝０となったクロス点の後ろ側１０サンプリング値と前側１０サンプリング値の積の絶対値を、振幅の０クロスへの仰角が浅くなれば、その積を小さくなると言う観点から、図７のようにクロス角度としており、

で表され、

とその逆数

も含めて考慮する。ここでθに付く値ｂはｂａｍｐ（クロスにぶつかる）という意味で用いている。図８は、

や

の求め方の説明図であり、図８において第１過程でゼロを検出し、第２過程で一定サンプリング数だけ進ませて、第３過程でその時どれだけ振幅の上下があったかという見方をしている。

なお、単語単位での波形の画像認識を使っての音声認識をする時は、より多くの形状パラメータが要るのであるが、周期関数である母音や有声子音から無声子音に達すれば、第１のパラメータは大きく振れるし、摩擦音から母音への以降時には、極の尖頭度は相対的には急峻になって行くし、破裂音からの母音の以降時には、同じく相対的には極の尖頭度はなだらかになっていくというように第２のパラメータに影響を与えるトランザクションもある。子音種によっては、子音から母音、母音から子音への移行において一定時間内での最大振幅値である第３のパラメータも大きく変化する。

この方法にしたがえば、従来法ではセグメンテーションが難しいと言われる、口唇が調音位置である／ｗ／や口蓋が調音位置である／ｙ／等の半母音にあっても、形状パラメータにおいては、振幅勾配である１階微分値や２階微分値を音素決めの１パラメータとして定義することは、わたりがあるからこそ好ましくなく、基本的には、音素間にこの‘わたり’があったとしても、音素境界に達すれば、この５つの中のどれかのパラメータ、あるいは複数のパラメータが大きく振れる。

本発明では、この考察を踏まえて、各々のパラメータに重みをつけ、加算値ないし乗算値が一定値以上に達していることを音素境界のトリガとする。乗算値においては、各パラメータに１を足し、重み付け積に対数をかけているので、結果として、各種パラメータの対数和となり、第２のパラメータの尖頭度や第５のパラメータであるゼロクロス点への振幅の食い込み角度等の急峻に変わりやすいパラメータに関しては、他のパラメータの重みを大きくすることによりバランシングすれば、対数をとることにより、急変を抑えられるメリットもある。

次に、形状分析の有用性について説明する。母音−子音−母音が含まれる単語ならば、時間軸で見ても、子音に突入したとたん、関数としての周期性は崩れ、明らかな形状変化が現れるが、比較的変化が形状変化が現れにくいと言われる母音―半母音―母音に関して、当手法での有用性を検討、他の母子音の組み合わせにあっても、十分、音素境界の判別が可能なものと見なす。ここで、半母音が２種含まれる、語彙／ｋｉｙｏｓｅｇａｗａ／の発話を用意する。

図９は語彙／ｋｉｙｏｓｅｇａｗａ／の全発話部を示す図であり、図１０は図９のｂ部ｉ−ｙ−ｏの拡大図、図１１は図９のｃ部ａ−ｗ−ａの拡大図である。図１０のｉ−ｙ−ｏの発音において、確かに振幅変化は極めて小さいものの、半母音ｙの部位に来ると極端に、前記パラメータのうちの第４のパラメータのゼロクロス−ゼロクロス間の極大値数が減り、また、母音部に到達すると、極大値数は増大傾向にある。

図１１のａ−ｗ−ａにおいても、ドラスティックな振幅変化はないものの、前記パラメータ中の第２のパラメータであるゼロクロス−ゼロクロス間の第１極大値をも含めた極大値の尖頭度の変化と第５のパラメータであるクロス時の振幅値＝０への食い込み角度はより小さなものとなり、半母音を過ぎると再び復帰していく。よって、第１〜第５のパラメータを使えば、音素セグメンテーションはあらゆる語彙に関して可能である。また、音声の入ったｗａｖファイルでも、連続的に音素セグメンテーションできればリアルタイム処理が可能である。

また、発話区間検出としては、一般的な音声認識においても、振幅なりパワーをダブル・ラッチして検知にいけば、息継ぎなりインパルス性ノイズから、音声を区別できることが知られている。本発明においても、一旦スレッショルド（Ｗｉｎｄｏｗｓ（登録商標）レベルで４．５／６の振幅にて、量子化値０６／Ｘ’ＦＦ’に達した後、６００／１６０００ｓｅｃ待ち、その後１５００／１６０００ｓｅｃ間において、０８／Ｘ’ＦＦ’以上に達している個所があるとするならば、確実に音声始端が来たと見なし、逆、発話区間の終端検知においては、量子化値０８／Ｘ’ＦＦ’以上の振幅が２３００／１６０００ｓｅｃ来ていないことを確認した後に、さらに０５／Ｘ’ＦＦ’以上の振幅が１０００／１６０００ｓｅｃ以上来ていないことを確認する。こうすれば、最語始・最語尾において、あらゆる母音、子音を問わず、また子音においてはあらゆる調音位置・調音方式のものでも正確な発話区間として認知できる。

また、明確な波形辞書を自動生成するためには、声帯の微細振動においても声道共振においても、高調波成分が乗っていることは、形状判別し難いので好ましくない。よって、全発話区間に渡って、１０〜５０／１６０００ｓｅｃ毎の移動平均が必要である。上述したように、音素分け（音素セグメンテーション）に効いてくるのが第１〜第５のパラメータであるから、その加算値ないし乗算値である形状ゆらぎ関数にスレッシュホルドを設け、各パラメータの重み付け乗算ないし加算値がスレッショルド以上に達した時に音素境界が来たと見なす。ただ、注意すべきは、短時間にスレッショルドを超えた場合である。／ｋ／、／ｔ／等の無声摩擦音においては、聴覚的に／ｋ／や／ｔ／に聴こえている区間でさえも振幅や極数等の大きな変化に現れ、スレッショルド超えを数回起こすことがある。そこは例外的なケースとして、オミットしなければならない。ここで、他者発音に対しての聴覚の追随性を考える。母音に対しても子音に対しても、またその音素が語始、語尾にあろうと語中にあろうと、０．０１秒間の音素を他から聞き分けると言うことは不可能である。個人差もあるが、０．０２秒間の発話ならば何とか聞き取れる。よって、本発明では、形状揺らぎのスレッシュホルド越えが０．０１秒以内に２個ないしそれ以上発生している場合においては、１個の音素境界としてマージする。

次に、本発明の一つの実施の形態の音素セグメンテーション装置について説明する。図１２は本発明の一つの実施の形態の音素セグメンテーション装置の機能構成を示している。本実施の形態の音素セグメンテーション装置は、音声を電気信号として取り込むマイク１００、このマイク１００からの信号のＡ／Ｄ変換して例えばｗａｖのような音声データを作成するＡ／Ｄ変換器１、Ａ／Ｄ変換した結果のデジタル信号を音声データとして記憶する音声データ記憶部２を備えている。そして音声データ記憶部２には解析すべき音声データを記憶しておく。さらに本音素セグメンテーション装置は、音声データ記憶部２から読み出す音声データのノイズ除去のためのローパスフィルタ３と、音声データに対して上述した第１〜第５のパラメータそれぞれを演算する第１パラメータ演算部４、第２パラメータ演算部５、第３パラメータ演算部６、第４パラメータ演算部７、第５パラメータ演算部８と、そしてこれらの第１〜第５のパラメータそれぞれに対して重みを与える重みｗ１設定部９、重みｗ２設定部１０、重みｗ３設定部１１、重みｗ４設定部１２、重みｗ５設定部１３と、これらの第１〜第５の重み付きパラメータを乗算する乗算器１４、そしてしきい値と比較して音素を判定する比較判定部１５と、その出力部１６を備えている。なお、乗算器１４に代えて加算器を採用することができる。その場合、重み設定部９〜１３の重み設定値ｗ１〜ｗ５は異なり、また、音素判定のためのしきい値も異なるものとなる。

図１３〜図１５に、各音声データに関して、形状パラメータを収集し、順次音素決めをしていくまでの処理フローを示している。すなわち、音声データ記憶部２から当該音声データを開き、ＰｈｏｎｅｍｅＣｎｔｒ＝０とする（ステップＳ１）。ここで、ＰｈｏｎｅｍｅＣｎｔｒとは、語彙内の音素カウンターのことである。

ファイルオープンに成功しなければ終了し、成功すれば（ステップＳ２）、音声データのヘッダー（α）を読み、量子化ビットが８ビットであることを見極める（ステップＳ３）。次に、発話区間を、語始、語尾それぞれにラッチを２回かけることにより確定し（ステップＳ４）、ハードウェアによるオフセットずれ（ＤＣ分）感知し（ステップＳ５）、あらかじめサンプリングＢｙｔｅ全部取得する（ステップＳ６）。続いて、取得した音声データに対して、２２サンプリングデータの移動平均を計算し（ステップＳ７）、データ内のポインタをアップデートする（ステップＳ８）。次に、ファイルエンドを判断し、ファイルエンドであれば１音声データファイルの音素分けで終了するか否か判断し、ＹＥＳであれば終了し、ＮＯであれば別音声データファイルを開いてステップＳ１〜Ｓ１０の処理を繰り返す（ステップＳ９，Ｓ１０）。

ステップＳ９の判断でファイルエンドでなければ、次に、振幅のゼロクロスが発生したか否か判断する（ステップＳ１２）。そしてゼロクロスが発生をした時にはクロス時刻ｔ（ｘ）を取得し、ゼロクロス−ゼロクロス間で第１〜第５のパラメータを取得する（ステップＳ１３〜Ｓ１８）。第１のパラメータでは、ゼロクロス時間を取得し、第２のパラメータではゼロクロス後の１番目の極大値の尖頭度を取得し、第３のパラメータではゼロクロス後１０ｍｓ間の窓（ｗｉｎｄｏｗ（登録商標））での極大値を取得し、第４のパラメータではゼロクロス−ゼロクロス間の極大点数を取得し、第５のパラメータではゼロクロス突入角度を取得する。これらの第１〜第５のパラメータの取得方法は上述した演算による。

続いて、第１〜第５のパラメータにｗ１〜ｗ５の重み付けをした値の乗算値を揺らぎ値Ｓ（ｘ）とし求める。この乗算値に代えて加算値を用いることもできる（ステップＳ１９）。そして揺らぎ値Ｓと台形窓とを掛けてＳ’を求め、これをしきい値と比較する（ステップＳ２０，Ｓ２１）。Ｓ’値がしきい値以下の場合、ステップＳ７からの処理に戻って繰り返す。他方、Ｓ’値がしきい値より大きい場合、ａｒｇ（Ｓ’（ｘ））−ａｒｇ（Ｓ’（ｘ−１））＞１０ｍｓを確認し（ステップＳ２２）、現ポインタ（β）より分割されるｗａｖ長（γ）を獲得し、保存する（ステップＳ２３）。そして、新たなＰｈｏｎｅｍｅＣｎｔｒを織り込み、ファイルオープンし、αより音声データファイルのヘッダー部をそのままコピーし、データ長として、ヘッダー５及び４１バイト目のダブルワードをβで置換し、アドレスγ〜γ＋β間の元実データをコピーし、最初に戻る（ステップＳ２４〜Ｓ２７）。

こうして、本実施の形態の音素セグメンテーション装置によれば、その音素セグメンテーション方法によって正確な音素セグメンテーションが行えるのである。

一般的には、発話初期においては、肺圧を高めると共に口孔や鼻孔を開き、また、発話終わりにおいては、口孔を閉じていく訳であるから、同一音素であっても、急激に振幅が励起していったり、あるいは、ゼロクロス点から次のゼロクロス点までの極大値数が極端に収束していったりするので、少なくとも、当該語始・語尾区間においては、重み付けされた形状パラメータの加算値又は乗算値に対して、発話時間に応じた比例値τ（０≦τ≦１）を乗じ、発話区間全体から見れば、図１７のように、原加算値ないし乗算値に対して、台形窓をかけた構成にする。図１６は台形窓の概念の説明図である。音声発話区間を下底とし、上向き勾配範囲と下向き勾配範囲を下底から減じたものが上底となり、台形を構成している。

セグメンテーション結果としては、元々の分割前の図１７で示すｗａｖファイル名にシーケンシャル番号タグを振る形で、音素分割された各ｗａｖファイルと分割バイト長ファイルのリストアップファイルとした。今回は、トータルのデータ長がヘッダーに記載されるｗａｖファイルを使用して、セグメンテーションしているので、ヘッダーの４４バイトのうちの、データ長を含む４バイト及びデータ長＋ヘッダー長を含む４バイト分に関しては、（現在検出された音素境界位置―直近に検出された音素境界位置）を１６進数に直す形で参照しパッドされるが、それ以外の各バイトに関しては、元々のセグメンテーション前のｗａｖファイルのそれと同等である。

第１〜第５のパラメータのうち、あるパラメータのものが極端に大きい値になっていても、別のパラメータはそのサンプリング時刻で全く励起せず０になっている、あるいはこの時刻から暫く経過した近傍のサンプリング時刻で励起しているケースもあり、セグメンテーションを正確に行う上で、次に行う重要なことは各形状パラメータに対して重みつけする重みｗ１〜ｗ５を適宜に設定することである。

第１〜第５までのパラメータのばらつきに関連付けて、要因間の分散・共分散を求めながら、ΠなりΣを分散分析する方法もあるが、本実施例１では、図１８の設定画面において、７００よりスレッショルドをかけ、それから徐々にスレッショルドを下げていき、台形窓の（下底―上底）を小さくしていき、各種重みを聴覚による音素境界との整合性を比較しながら、調整していった。

実施例１として１６ｋＨｚサンプリングで、図１９の表に挙げた最大４秒の単語や短文に関する音声をｗａｖファイルに２０語彙（語尾境界も含め総音素境界数１４９）録音し、まず、聴覚により音素境界時刻を断定するとともに、音素から音素へ遷移するには一定の遷移時間があると言う観点から、各音素境界に対し、セグメンテーションマージンを＋／−３．４ｍｓを持つもの（硬境界と呼ぶ）と、＋／−５．６ｍｓを持つもの（軟境界と呼ぶ）に仕分けした。最終音素の収束境界は全て、無声に繋がる硬境界と見なされるので、各語彙とも、音素数合計＝硬境界数＋軟境界数が成立する。図１９の表はその概要を示す。

（テスト条件）
以下４種の条件に関して、評価していく。

（Ｃａｓｅ１）
図１８に示した設定条件であり、パラメータの乗算値を求めるものとし、移動平均の束数：２２、しきい値（スレッショルドの値）：７００、窓かけの勾配範囲上：１５０、下：１５０、クロストークの無視範囲：２４０、そして、重み値としてｗ１（振幅クロスのΔ）のウェート：５、ｗ２（第１極大値の尖頭度のΔ）のウェート：５０００、ｗ３（１０ｍｓ単位での最大振幅値のΔ）のウェート：３０００、ｗ４（極大値数のΔ）のウェート：１０００、ｗ５（クロス角度のΔ）のウェート：１０００とした。

（Ｃａｓｅ２）
Ｃａｓｅ１から、しきい値（スレッショルドの値）のみ変更し、スレッショルドの値：６００に変更した。

（Ｃａｓｅ３）
Ｃａｓｅ２から、パラメータの加算・乗算何れかのスレッシュ：チェックありにし、重み付けパラメータの加算値を求める設定に変更した。

（Ｃａｓｅ４）
Ｃａｓｅ３の設定から、パラメータの重み値を変更した。つまり、ｗ１（振幅クロスのΔ）のウェート：３、ｗ２（第１極大値の尖頭度のΔ）のウェート：３０００、ｗ３（１０ｍｓ単位での最大振幅値のΔ）のウェート：４０００、ｗ４（極大値数のΔ）のウェート：７００、ｗ５（クロス角度のΔ）のウェート：１２００とした。

（評価ポイント）
順次、音素セグメンテーションプログラムを各ｗａｖファイルに対して実行して、セグメンテーションマージンも含め、規定の１４９音素に関して、音素境界が正確に取得できているかどうかをＣａｓｅ１からＣａｓｅ４までの４種において、境界時刻の合致数として比較し、またその合致率は９割を到達しているか否かを評価した。

（実験結果）
図２０は最適化されたパラメータライゼーションの例を示す図である。各形状パラメータの重みそのものや、総体的なスレッショルドを加算で取るか乗算で取るかを変更しつつ、移動平均の束数を１２〜３２に、スレッショルドを５００〜７００に、また台形窓の勾配範囲を０〜１５０にふり、これら１５回試行の中での最適なセグメンテーションを見出していくと、最良の結果は、図２１の表のように、センス数合致率が９２．６％、音素境界時間合致比率が７３．８％となった。条件としては、パラメータの加算・乗算何れかのスレッシュは乗算（チェックなし）とし、束数：１８、スレッショルドの値：５８０、台形窓の勾配範囲：０、クロストークの無視範囲＝２４０）であった。

（考察）
一度、周波数帯域に波形を落とさずとも、十分音素セグメンテーションはできるはずであると仮定し、サンプリング値１６ｋＨｚ量子化ビット８ビットの音声において、総計１４９音素（２０語彙）に関して、移動平均の束数、クロストークのまとめ時間、それを後処理で行うか、前処理で行うか、また、台形窓の前後の傾斜、第１〜第５のパラメータの重み付けを相互にどう変えるか、スレッショルドの値はいくらにするか、そのスレッシュホールディングは第１〜第５のパラメータの重みの和で行うか積で行うか等を調整していき９３％のセグメンテーション数の確度を得た。

本発明で用いる第１のパラメータ（ゼロクロス周期）の説明図。本発明で用いる第２のパラメータ（ゼロクロス−ゼロクロス間の第１極大値の尖頭度）の説明図。上記第２のパラメータの上に凸の波形に対する尖頭度の計算方法の説明図。上記第２のパラメータの下に凸の波形に対する尖頭度の計算方法の説明図。本発明で用いる第３のパラメータ（ゼロクロス−ゼロクロス間で更新される１０ｍｓ毎の最大振幅）の説明図。本発明で用いる第４のパラメータ（ゼロクロス−ゼロクロス間の極大値数）の説明図。本発明で用いる第５のパラメータ（ゼロクロス時の振幅値の０への食い込み角度）の説明図。上記第５のパラメータの算定方法の説明図。／ｋｉｙｏｓｅｇａｗａ／（清瀬川）の波形グラフ。／ｋｉｙｏｓｅｇａｗａ／における／ｉ＿ｙ＿ｏ／の部分の波形グラフ。／ｋｉｙｏｓｅｇａｗａ／における／ａ＿ｗ＿ａ／の部分の波形グラフ。本発明の一つの実施の形態の音素セグメンテーション装置のブロック図。上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその１。上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその２。上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその３。上記実施の形態の音素セグメンテーション処理で用いる台形窓の説明図。上記実施の形態の音素セグメンテーション処理で用いる台形窓の効果を示す説明図。本発明の一つの実施例での音素セグメンテーション処理の設定条件の説明図。上記実施例で音素セグメンテーション処理に対象とした語彙群と、各語彙の音素数、硬境界数、軟境界数の表。上記実施例の音素セグメンテーション処理で見いだされたパラメータ群の最適設定条件の説明図。上記の最適条件下での音素セグメンテーション処理結果を示す表。

符号の説明

１００マイク
１Ａ／Ｄ変換器
２音声データ記憶部
３ローパスフィルタ
４第１パラメータ演算部
５第２パラメータ演算部
６第３パラメータ演算部
７第４パラメータ演算部
８第５パラメータ演算部
９重みｗ１設定部
１０重みｗ２設定部
１１重みｗ３設定部
１２重みｗ４設定部
１３重みｗ５設定部
１４乗算器
１５比較判定部
１６出力部

Claims

音声データを音声データ記憶部に記憶する処理と、
前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして演算する処理と、
前記音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度を第２のパラメータとして演算する処理と、
前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして演算する処理と、
前記音声波形のゼロクロス−ゼロクロス間の極大値数を第４のパラメータとして演算する処理と、
前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとして演算する処理と、
第１〜第５のパラメータそれぞれに対して重みを与える処理と、
前記第１〜第５の重み付きパラメータを乗算する処理と、
前記乗算結果をしきい値と比較して音素境界を判定する処理とを有することを特徴とする音素セグメンテーション方法。
前記乗算処理に代えて、加算処理を有することを特徴とする請求項１に記載の音素セグメンテーション方法。
前記第１〜第５の重み値それぞれを可変設定することを特徴とする請求項１又は２に記載の音素セグメンテーション方法。
音声データを音声データ記憶部と、
前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして演算する第１のパラメータ演算部と、
前記音声波形のゼロクロス−ゼロクロス間の第１極大値の尖頭度を第２のパラメータ演算する第２のパラメータ演算部と、
前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして演算する第３のパラメータ演算部と、
前記音声波形のゼロクロス−ゼロクロス間の極大値数を第４のパラメータとして演算する第４のパラメータ演算部と、
前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとして演算する第５のパラメータ演算部と、
第１〜第５のパラメータそれぞれに対して重みを与える第１〜第５の重み設定部と、
前記第１〜第５の重み付きパラメータを乗算する乗算器と、
前記乗算器の出力値をしきい値と比較して音素境界を判定する比較判定部とを備えたことを特徴とする音素セグメンテーション装置。
前記乗算器に代えて、加算器を備えたことを特徴とする請求項４に記載の音素セグメンテーション装置。
前記第１〜第５の重み設定部は、第１〜第５の重み値それぞれを可変設定機能を有することを特徴とする請求項４又は５に記載の音素セグメンテーション装置。