JP2006284907A - 音素セグメンテーション方法及び装置 - Google Patents

音素セグメンテーション方法及び装置 Download PDF

Info

Publication number
JP2006284907A
JP2006284907A JP2005104513A JP2005104513A JP2006284907A JP 2006284907 A JP2006284907 A JP 2006284907A JP 2005104513 A JP2005104513 A JP 2005104513A JP 2005104513 A JP2005104513 A JP 2005104513A JP 2006284907 A JP2006284907 A JP 2006284907A
Authority
JP
Japan
Prior art keywords
parameter
zero cross
zero
value
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005104513A
Other languages
English (en)
Inventor
Tadashi Aoki
直史 青木
Hiroyuki Ito
博之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRYPTON FUTURE MEDIA Inc
Hokkaido University NUC
Original Assignee
CRYPTON FUTURE MEDIA Inc
Hokkaido University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRYPTON FUTURE MEDIA Inc, Hokkaido University NUC filed Critical CRYPTON FUTURE MEDIA Inc
Priority to JP2005104513A priority Critical patent/JP2006284907A/ja
Publication of JP2006284907A publication Critical patent/JP2006284907A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 発話音声に対して確度の高い音素セグメンテーションを行う。
【解決手段】 音声データ記憶部2から読み出した音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして、音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度を第2のパラメータとして、音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして、音声波形のゼロクロス−ゼロクロス間の極大値数を第4のパラメータとして、音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとしてそれぞれ演算し、第1〜第5のパラメータそれぞれに対して重みつけし、第1〜第5の重み付きパラメータを乗算しあるいは加算して得られた結果をしきい値と比較して音素境界を判定する処理により音素セグメンテーションを行う。
【選択図】 図12

Description

本発明は、波形の形状分析に基づく音素セグメンテーション方法及びそれを使用する音素セグメンテーション装置に関する。
話者により一旦発話された音声を音素毎に仕分けしていくことをセグメンテーションと言う。もし、これが正確になされれば、音声合成においては単語や文章にさえも既にセグメンテーションされ、一時的に保存されていた各音素を繋ぎ合わせて、自然性・了解性のある音声に仕上げていくことも可能である。また、音声認識においても、形状発露でかつ小容量辞書を利用した音素単位認識への活路も広がる。実際、語彙としての一部である音素を観測することにより、関数の周期性、極大値振幅のリダンダントな変化の逸脱性、定時間内のポール(極大値、極小値)の発生数等、視覚的に音素種を見分けられる工学者や医学者も多い。
音声認識においても音声合成においても、既存音声から音素ごとに信号分割(セグメンテーション)できると言うことは、学習データの自動増加やデータ再利用と言う観点において有用であり、資源を最小単位で利用すると言う観点から望ましいことである。
谷口徹、安達了慈、"音声・音楽区間セグメンテーション手法の検討"、日本音響学会講演論文集、3−6−9,2003.3 今井聖、古市千枝子、"連続音声の音素的単位のセグメンテーション"、電子情報通信学会論文誌、Vol.J72−D−II,1989.1
本発明は、上記のような従来の技術的課題に鑑みてなされたもので、音声波形の形状パラメータを抽出し、それらをマージして形状特化し、つまり形状揺らぎ関数を構築し、精密な音素セグメンテーションする音素セグメンテーション方法及び装置を提供することを目的とする。
本発明の第1の発明は、音声データを音声データ記憶部に記憶する処理と、前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度を第2のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算する処理と、前記音声波形のゼロクロス−ゼロクロス間の極大値数を第4のパラメータとして演算する処理と、前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算する処理と、第1〜第5のパラメータそれぞれに対して重みを与える処理と、前記第1〜第5の重み付きパラメータを乗算する処理と、前記乗算結果をしきい値と比較して音素境界を判定する処理とを有する音素セグメンテーション方法を特徴とする。
上記音素セグメンテーション方法は、前記乗算処理に代えて、加算処理を有するものとすることができ、また、前記第1〜第5の重み値それぞれを可変設定するものとすることができる。
本発明の第2の発明は、音声データを音声データ記憶部と、前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算する第1のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度を第2のパラメータ演算する第2のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算する第3のパラメータ演算部と、前記音声波形のゼロクロス−ゼロクロス間の極大値数を第4のパラメータとして演算する第4のパラメータ演算部と、前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算する第5のパラメータ演算部と、第1〜第5のパラメータそれぞれに対して重みを与える第1〜第5の重み設定部と、前記第1〜第5の重み付きパラメータを乗算する乗算器と、前記乗算器の出力値をしきい値と比較して音素境界を判定する比較判定部とを備えた音素セグメンテーション装置を特徴とする。
上記の音素セグメンテーション装置は、前記乗算器に代えて、加算器を備えたものとすることができ、また、前記第1〜第5の重み設定部は、第1〜第5の重み値それぞれを可変設定機能を有するものとすることができる。
本発明によれば、音声データ記憶部から読み出した音声波形に対して特定の演算処理よって得られる第1〜第5のパラメータを求め、さらに重みつけし、得られた第1〜第5のパラメータ群を乗算または加算し、得られた値をしきい値と比較して音素境界を判定するので、発話音声に対して確度の高い音素セグメンテーションを行うことができる。
以下、本発明の実施の形態を図に基づいて詳説する。本発明の発明思想の原理について説明する。音声はスペクトル的に見ると、声帯の微細振動と声道共振の畳み込みであると言える。それ故、音声波形と言う単位でみても、そのままで、可聴という意味において標本化定理を満たす波形をそのまま観測することは、単語単位の音声認識で履行してみても意味が無いことがわかっている。短文も含む単語単位音声認識の技術と同様に、語始特定においても語尾特定においても、振幅に対して2段階のラッチを使い、確定された発話区間において振幅移動平均を使う。それではじめて、形というものが音声波形に浮き出てくる。
音素間を見分ける重要なパラメータは以下にあげるように5つである。なお、以下のパラメータ全ては、20〜50サンプリング単位で移動平均化された時間軸波形の関数上に成り立つ。いずれも変化に焦点を当てているので、各パラメータは−値が出ても、if(P≧0)→P’=P,if(P<0)→P’=−P、ただし、Pは更新前の形状パラメータ、P’は更新後の形状パラメータとして、更新後のパラメータP’には絶対値として+側を用いる。
なお、以下で用いる記号Δは、変化量を意味する。そしてrΔは、物理的に隣り合うもの同士の変化率のことである。いま、rΔcrossというのは、例えば、波形が振幅0のところを交差した時刻が3とし、次に交差した時刻が8とし、さらに次に交差した時刻を12とすると、1番目のΔcross(tがついても同じ。以降はcrosstとする)は、8−3=5である。2番目のΔcrosstは、12−8=4である。すると、この2つのΔcrosstにおける変化率をrΔcrosstと表す。そして、本実施の形態の場合、1よりも大きい数字にしようとしているので、4/5=0.8でなくて、5/4=1.25とする。つまり、rΔcrossとしては、n番目のΔcrosst/(n+1)番目のΔcrosstを採用するわけでも、(n+1)番目のΔcrosst/n番目のΔcrosstを採用するわけでもなくて、それらの大きい方を取って、強制的に1以上にしてしまうのである。そして、以下に説明するそれ以外のrΔmaxpoll等も含めた、Δcrosst周りの4つのパラメータも、同じく変化率であり、かつ、全てゼロクロス点をトリガーにした変化率にしている。
また、maxpollについては、例えば1つ前のΔcrosst区間内の極大点の数を5とし、次のΔcrosst区間内の極大点の数を7とすると、rΔmaxpoll=abs(7−5)*100/5=40。ここで、absとは絶対値のことである。このため、次の極大点が7であろうと3であろうと、前のものとの差異=abs(7−5)=abs(3−5)=2となるから、rΔmaxpollは同値になる。
第1のパラメータは、ゼロクロス周期の変化(rΔcorsst)である。図1は音声波形のゼロクロス周期の定義の説明図であり、ゼロクロス周期の定義は、移動平均後の振幅の隣り合うゼロクロス時間間隔の変化の比率であり、
Figure 2006284907
で表され、t/tn−1とその逆数tn−1/tも含めて考慮し、大きい方とする。
第2のパラメータは、ゼロクロス−ゼロクロス間の第1極大値の尖頭度の変化(rΔtip of poll)である。図2は音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度の変化の定義の説明図であり、尖頭度の隣り合うゼロクロス間隔同士の変化の比率は、
Figure 2006284907
で表され、
Figure 2006284907
とその逆数
Figure 2006284907
も含めて考慮する。
ここで、ゼロクロス−ゼロクロス間の第1極大値の尖頭度の変化の定義は、ゼロクロス時刻と次のゼロクロス時刻との間で、頂点を挟んで少なくとも5サンプリングずつピックアップした振幅差の足し算とする。すなわち、図3、図4に示したように、θtn−1は、θtn−1=a+bであり、θtは、θt=a'+b’である。
第3のパラメータは、ゼロクロス−ゼロクロス間で更新される10ms毎の最大振幅の変化(rΔ10ms max Amplitude)である。図5は音声波形のゼロクロス−ゼロクロス間で更新される10ms毎の最大振幅の変化の定義の説明図であり、ゼロクロス−ゼロクロス間で更新される10ms毎の最大振幅の変化の定義は、ゼロクロス時刻と次のゼロクロス時刻間を10ms毎に分けて行き、当該各10msの中での振幅極大値の変化である。ただし、極大値が検出できない箇所においては、1つ前の極大値を現10ms区間の極大値としているし、当該10ms間に振幅極大値が検出されたにしても、その極大値が0以下の場合には、当該極大値を強制的に0にしている。第3のパラメータは、こうして設定された極大値の10ms間隔ごとの変化量と規定し、
Figure 2006284907
で表され、
Figure 2006284907
とその逆数
Figure 2006284907
も含めて考慮する。
第4のパラメータは、ゼロクロス−ゼロクロス間の極大値数の変化(rΔmax poll N)である。図6は音声波形のゼロクロス−ゼロクロス間の極大値数の変化の定義の説明図であり、ゼロクロス−ゼロクロス間の極大値数の変化の定義は、隣り合うゼロクロス区間内での最大値を含めた極大値の数の変化分の比であり、
Figure 2006284907
で表され、
Figure 2006284907
とその逆数
Figure 2006284907
も含めて考慮する。ゼロクロス点から、次のゼロクロス点に至るまでの間、第2のパラメータで極大値が検出されるごとに、極大値数をアップデートしていく。図6の場合、tn−1の期間の極大値数Ntn−1=2であり、tの期間の極大値数Nt=3である。
第5のパラメータは、クロス時の振幅値=0への食い込み角度(rΔcross Angle)である。図7はクロス時の振幅値=0への食い込み角度の定義の説明図であり、クロス時の振幅値=0への食い込み角度の定義は、振幅線(包絡)が、振幅=0線をクロスしていく深さの変化量を表す。クロス角度とは、振幅=0となったクロス点の後ろ側10サンプリング値と前側10サンプリング値の積の絶対値を、振幅の0クロスへの仰角が浅くなれば、その積を小さくなると言う観点から、図7のようにクロス角度としており、
Figure 2006284907
で表され、
Figure 2006284907
とその逆数
Figure 2006284907
も含めて考慮する。ここでθに付く値bはbamp(クロスにぶつかる)という意味で用いている。図8は、
Figure 2006284907

Figure 2006284907
の求め方の説明図であり、図8において第1過程でゼロを検出し、第2過程で一定サンプリング数だけ進ませて、第3過程でその時どれだけ振幅の上下があったかという見方をしている。
なお、単語単位での波形の画像認識を使っての音声認識をする時は、より多くの形状パラメータが要るのであるが、周期関数である母音や有声子音から無声子音に達すれば、第1のパラメータは大きく振れるし、摩擦音から母音への以降時には、極の尖頭度は相対的には急峻になって行くし、破裂音からの母音の以降時には、同じく相対的には極の尖頭度はなだらかになっていくというように第2のパラメータに影響を与えるトランザクションもある。子音種によっては、子音から母音、母音から子音への移行において一定時間内での最大振幅値である第3のパラメータも大きく変化する。
この方法にしたがえば、従来法ではセグメンテーションが難しいと言われる、口唇が調音位置である/w/や口蓋が調音位置である/y/等の半母音にあっても、形状パラメータにおいては、振幅勾配である1階微分値や2階微分値を音素決めの1パラメータとして定義することは、わたりがあるからこそ好ましくなく、基本的には、音素間にこの‘わたり’があったとしても、音素境界に達すれば、この5つの中のどれかのパラメータ、あるいは複数のパラメータが大きく振れる。
本発明では、この考察を踏まえて、各々のパラメータに重みをつけ、加算値ないし乗算値が一定値以上に達していることを音素境界のトリガとする。乗算値においては、各パラメータに1を足し、重み付け積に対数をかけているので、結果として、各種パラメータの対数和となり、第2のパラメータの尖頭度や第5のパラメータであるゼロクロス点への振幅の食い込み角度等の急峻に変わりやすいパラメータに関しては、他のパラメータの重みを大きくすることによりバランシングすれば、対数をとることにより、急変を抑えられるメリットもある。
次に、形状分析の有用性について説明する。母音−子音−母音が含まれる単語ならば、時間軸で見ても、子音に突入したとたん、関数としての周期性は崩れ、明らかな形状変化が現れるが、比較的変化が形状変化が現れにくいと言われる母音―半母音―母音に関して、当手法での有用性を検討、他の母子音の組み合わせにあっても、十分、音素境界の判別が可能なものと見なす。ここで、半母音が2種含まれる、語彙/kiyosegawa/の発話を用意する。
図9は語彙/kiyosegawa/の全発話部を示す図であり、図10は図9のb部i−y−oの拡大図、図11は図9のc部a−w−aの拡大図である。図10のi−y−oの発音において、確かに振幅変化は極めて小さいものの、半母音yの部位に来ると極端に、前記パラメータのうちの第4のパラメータのゼロクロス−ゼロクロス間の極大値数が減り、また、母音部に到達すると、極大値数は増大傾向にある。
図11のa−w−aにおいても、ドラスティックな振幅変化はないものの、前記パラメータ中の第2のパラメータであるゼロクロス−ゼロクロス間の第1極大値をも含めた極大値の尖頭度の変化と第5のパラメータであるクロス時の振幅値=0への食い込み角度はより小さなものとなり、半母音を過ぎると再び復帰していく。よって、第1〜第5のパラメータを使えば、音素セグメンテーションはあらゆる語彙に関して可能である。また、音声の入ったwavファイルでも、連続的に音素セグメンテーションできればリアルタイム処理が可能である。
また、発話区間検出としては、一般的な音声認識においても、振幅なりパワーをダブル・ラッチして検知にいけば、息継ぎなりインパルス性ノイズから、音声を区別できることが知られている。本発明においても、一旦スレッショルド(Windows(登録商標)レベルで4.5/6の振幅にて、量子化値06/X’FF’に達した後、600/16000sec待ち、その後1500/16000sec間において、08/X’FF’以上に達している個所があるとするならば、確実に音声始端が来たと見なし、逆、発話区間の終端検知においては、量子化値08/X’FF’以上の振幅が2300/16000sec来ていないことを確認した後に、さらに05/X’FF’以上の振幅が1000/16000sec以上来ていないことを確認する。こうすれば、最語始・最語尾において、あらゆる母音、子音を問わず、また子音においてはあらゆる調音位置・調音方式のものでも正確な発話区間として認知できる。
また、明確な波形辞書を自動生成するためには、声帯の微細振動においても声道共振においても、高調波成分が乗っていることは、形状判別し難いので好ましくない。よって、全発話区間に渡って、10〜50/16000sec毎の移動平均が必要である。上述したように、音素分け(音素セグメンテーション)に効いてくるのが第1〜第5のパラメータであるから、その加算値ないし乗算値である形状ゆらぎ関数にスレッシュホルドを設け、各パラメータの重み付け乗算ないし加算値がスレッショルド以上に達した時に音素境界が来たと見なす。ただ、注意すべきは、短時間にスレッショルドを超えた場合である。/k/、/t/等の無声摩擦音においては、聴覚的に/k/や/t/に聴こえている区間でさえも振幅や極数等の大きな変化に現れ、スレッショルド超えを数回起こすことがある。そこは例外的なケースとして、オミットしなければならない。ここで、他者発音に対しての聴覚の追随性を考える。母音に対しても子音に対しても、またその音素が語始、語尾にあろうと語中にあろうと、0.01秒間の音素を他から聞き分けると言うことは不可能である。個人差もあるが、0.02秒間の発話ならば何とか聞き取れる。よって、本発明では、形状揺らぎのスレッシュホルド越えが0.01秒以内に2個ないしそれ以上発生している場合においては、1個の音素境界としてマージする。
次に、本発明の一つの実施の形態の音素セグメンテーション装置について説明する。図12は本発明の一つの実施の形態の音素セグメンテーション装置の機能構成を示している。本実施の形態の音素セグメンテーション装置は、音声を電気信号として取り込むマイク100、このマイク100からの信号のA/D変換して例えばwavのような音声データを作成するA/D変換器1、A/D変換した結果のデジタル信号を音声データとして記憶する音声データ記憶部2を備えている。そして音声データ記憶部2には解析すべき音声データを記憶しておく。さらに本音素セグメンテーション装置は、音声データ記憶部2から読み出す音声データのノイズ除去のためのローパスフィルタ3と、音声データに対して上述した第1〜第5のパラメータそれぞれを演算する第1パラメータ演算部4、第2パラメータ演算部5、第3パラメータ演算部6、第4パラメータ演算部7、第5パラメータ演算部8と、そしてこれらの第1〜第5のパラメータそれぞれに対して重みを与える重みw1設定部9、重みw2設定部10、重みw3設定部11、重みw4設定部12、重みw5設定部13と、これらの第1〜第5の重み付きパラメータを乗算する乗算器14、そしてしきい値と比較して音素を判定する比較判定部15と、その出力部16を備えている。なお、乗算器14に代えて加算器を採用することができる。その場合、重み設定部9〜13の重み設定値w1〜w5は異なり、また、音素判定のためのしきい値も異なるものとなる。
図13〜図15に、各音声データに関して、形状パラメータを収集し、順次音素決めをしていくまでの処理フローを示している。すなわち、音声データ記憶部2から当該音声データを開き、PhonemeCntr=0とする(ステップS1)。ここで、PhonemeCntrとは、語彙内の音素カウンターのことである。
ファイルオープンに成功しなければ終了し、成功すれば(ステップS2)、音声データのヘッダー(α)を読み、量子化ビットが8ビットであることを見極める(ステップS3)。次に、発話区間を、語始、語尾それぞれにラッチを2回かけることにより確定し(ステップS4)、ハードウェアによるオフセットずれ(DC分)感知し(ステップS5)、あらかじめサンプリングByte全部取得する(ステップS6)。続いて、取得した音声データに対して、22サンプリングデータの移動平均を計算し(ステップS7)、データ内のポインタをアップデートする(ステップS8)。次に、ファイルエンドを判断し、ファイルエンドであれば1音声データファイルの音素分けで終了するか否か判断し、YESであれば終了し、NOであれば別音声データファイルを開いてステップS1〜S10の処理を繰り返す(ステップS9,S10)。
ステップS9の判断でファイルエンドでなければ、次に、振幅のゼロクロスが発生したか否か判断する(ステップS12)。そしてゼロクロスが発生をした時にはクロス時刻t(x)を取得し、ゼロクロス−ゼロクロス間で第1〜第5のパラメータを取得する(ステップS13〜S18)。第1のパラメータでは、ゼロクロス時間を取得し、第2のパラメータではゼロクロス後の1番目の極大値の尖頭度を取得し、第3のパラメータではゼロクロス後10ms間の窓(window(登録商標))での極大値を取得し、第4のパラメータではゼロクロス−ゼロクロス間の極大点数を取得し、第5のパラメータではゼロクロス突入角度を取得する。これらの第1〜第5のパラメータの取得方法は上述した演算による。
続いて、第1〜第5のパラメータにw1〜w5の重み付けをした値の乗算値を揺らぎ値S(x)とし求める。この乗算値に代えて加算値を用いることもできる(ステップS19)。そして揺らぎ値Sと台形窓とを掛けてS’を求め、これをしきい値と比較する(ステップS20,S21)。S’値がしきい値以下の場合、ステップS7からの処理に戻って繰り返す。他方、S’値がしきい値より大きい場合、arg(S’(x))−arg(S’(x−1))>10msを確認し(ステップS22)、現ポインタ(β)より分割されるwav長(γ)を獲得し、保存する(ステップS23)。そして、新たなPhonemeCntrを織り込み、ファイルオープンし、αより音声データファイルのヘッダー部をそのままコピーし、データ長として、ヘッダー5及び41バイト目のダブルワードをβで置換し、アドレスγ〜γ+β間の元実データをコピーし、最初に戻る(ステップS24〜S27)。
こうして、本実施の形態の音素セグメンテーション装置によれば、その音素セグメンテーション方法によって正確な音素セグメンテーションが行えるのである。
一般的には、発話初期においては、肺圧を高めると共に口孔や鼻孔を開き、また、発話終わりにおいては、口孔を閉じていく訳であるから、同一音素であっても、急激に振幅が励起していったり、あるいは、ゼロクロス点から次のゼロクロス点までの極大値数が極端に収束していったりするので、少なくとも、当該語始・語尾区間においては、重み付けされた形状パラメータの加算値又は乗算値に対して、発話時間に応じた比例値τ(0≦τ≦1)を乗じ、発話区間全体から見れば、図17のように、原加算値ないし乗算値に対して、台形窓をかけた構成にする。図16は台形窓の概念の説明図である。音声発話区間を下底とし、上向き勾配範囲と下向き勾配範囲を下底から減じたものが上底となり、台形を構成している。
セグメンテーション結果としては、元々の分割前の図17で示すwavファイル名にシーケンシャル番号タグを振る形で、音素分割された各wavファイルと分割バイト長ファイルのリストアップファイルとした。今回は、トータルのデータ長がヘッダーに記載されるwavファイルを使用して、セグメンテーションしているので、ヘッダーの44バイトのうちの、データ長を含む4バイト及びデータ長+ヘッダー長を含む4バイト分に関しては、(現在検出された音素境界位置―直近に検出された音素境界位置)を16進数に直す形で参照しパッドされるが、それ以外の各バイトに関しては、元々のセグメンテーション前のwavファイルのそれと同等である。
第1〜第5のパラメータのうち、あるパラメータのものが極端に大きい値になっていても、別のパラメータはそのサンプリング時刻で全く励起せず0になっている、あるいはこの時刻から暫く経過した近傍のサンプリング時刻で励起しているケースもあり、セグメンテーションを正確に行う上で、次に行う重要なことは各形状パラメータに対して重みつけする重みw1〜w5を適宜に設定することである。
第1〜第5までのパラメータのばらつきに関連付けて、要因間の分散・共分散を求めながら、ΠなりΣを分散分析する方法もあるが、本実施例1では、図18の設定画面において、700よりスレッショルドをかけ、それから徐々にスレッショルドを下げていき、台形窓の(下底―上底)を小さくしていき、各種重みを聴覚による音素境界との整合性を比較しながら、調整していった。
実施例1として16kHzサンプリングで、図19の表に挙げた最大4秒の単語や短文に関する音声をwavファイルに20語彙(語尾境界も含め総音素境界数149)録音し、まず、聴覚により音素境界時刻を断定するとともに、音素から音素へ遷移するには一定の遷移時間があると言う観点から、各音素境界に対し、セグメンテーションマージンを+/−3.4msを持つもの(硬境界と呼ぶ)と、+/−5.6msを持つもの(軟境界と呼ぶ)に仕分けした。最終音素の収束境界は全て、無声に繋がる硬境界と見なされるので、各語彙とも、音素数合計=硬境界数+軟境界数が成立する。図19の表はその概要を示す。
(テスト条件)
以下4種の条件に関して、評価していく。
(Case1)
図18に示した設定条件であり、パラメータの乗算値を求めるものとし、移動平均の束数:22、しきい値(スレッショルドの値):700、窓かけの勾配範囲上:150、下:150、クロストークの無視範囲:240、そして、重み値としてw1(振幅クロスのΔ)のウェート:5、w2(第1極大値の尖頭度のΔ)のウェート:5000、w3(10ms単位での最大振幅値のΔ)のウェート:3000、w4(極大値数のΔ)のウェート:1000、w5(クロス角度のΔ)のウェート:1000とした。
(Case2)
Case1から、しきい値(スレッショルドの値)のみ変更し、スレッショルドの値:600に変更した。
(Case3)
Case2から、パラメータの加算・乗算何れかのスレッシュ:チェックありにし、重み付けパラメータの加算値を求める設定に変更した。
(Case4)
Case3の設定から、パラメータの重み値を変更した。つまり、w1(振幅クロスのΔ)のウェート:3、w2(第1極大値の尖頭度のΔ)のウェート:3000、w3(10ms単位での最大振幅値のΔ)のウェート:4000、w4(極大値数のΔ)のウェート:700、w5(クロス角度のΔ)のウェート:1200とした。
(評価ポイント)
順次、音素セグメンテーションプログラムを各wavファイルに対して実行して、セグメンテーションマージンも含め、規定の149音素に関して、音素境界が正確に取得できているかどうかをCase1からCase4までの4種において、境界時刻の合致数として比較し、またその合致率は9割を到達しているか否かを評価した。
(実験結果)
図20は最適化されたパラメータライゼーションの例を示す図である。各形状パラメータの重みそのものや、総体的なスレッショルドを加算で取るか乗算で取るかを変更しつつ、移動平均の束数を12〜32に、スレッショルドを500〜700に、また台形窓の勾配範囲を0〜150にふり、これら15回試行の中での最適なセグメンテーションを見出していくと、最良の結果は、図21の表のように、センス数合致率が92.6%、音素境界時間合致比率が73.8%となった。条件としては、パラメータの加算・乗算何れかのスレッシュは乗算(チェックなし)とし、束数:18、スレッショルドの値:580、台形窓の勾配範囲:0、クロストークの無視範囲=240)であった。
(考察)
一度、周波数帯域に波形を落とさずとも、十分音素セグメンテーションはできるはずであると仮定し、サンプリング値16kHz量子化ビット8ビットの音声において、総計149音素(20語彙)に関して、移動平均の束数、クロストークのまとめ時間、それを後処理で行うか、前処理で行うか、また、台形窓の前後の傾斜、第1〜第5のパラメータの重み付けを相互にどう変えるか、スレッショルドの値はいくらにするか、そのスレッシュホールディングは第1〜第5のパラメータの重みの和で行うか積で行うか等を調整していき93%のセグメンテーション数の確度を得た。
本発明で用いる第1のパラメータ(ゼロクロス周期)の説明図。 本発明で用いる第2のパラメータ(ゼロクロス−ゼロクロス間の第1極大値の尖頭度)の説明図。 上記第2のパラメータの上に凸の波形に対する尖頭度の計算方法の説明図。 上記第2のパラメータの下に凸の波形に対する尖頭度の計算方法の説明図。 本発明で用いる第3のパラメータ(ゼロクロス−ゼロクロス間で更新される10ms毎の最大振幅)の説明図。 本発明で用いる第4のパラメータ(ゼロクロス−ゼロクロス間の極大値数)の説明図。 本発明で用いる第5のパラメータ(ゼロクロス時の振幅値の0への食い込み角度)の説明図。 上記第5のパラメータの算定方法の説明図。 /kiyosegawa/(清瀬川)の波形グラフ。 /kiyosegawa/における/i_y_o/の部分の波形グラフ。 /kiyosegawa/における/a_w_a/の部分の波形グラフ。 本発明の一つの実施の形態の音素セグメンテーション装置のブロック図。 上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその1。 上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその2。 上記実施の形態の音素セグメンテーション装置による音素セグメンテーション処理のフローチャートその3。 上記実施の形態の音素セグメンテーション処理で用いる台形窓の説明図。 上記実施の形態の音素セグメンテーション処理で用いる台形窓の効果を示す説明図。 本発明の一つの実施例での音素セグメンテーション処理の設定条件の説明図。 上記実施例で音素セグメンテーション処理に対象とした語彙群と、各語彙の音素数、硬境界数、軟境界数の表。 上記実施例の音素セグメンテーション処理で見いだされたパラメータ群の最適設定条件の説明図。 上記の最適条件下での音素セグメンテーション処理結果を示す表。
符号の説明
100 マイク
1 A/D変換器
2 音声データ記憶部
3 ローパスフィルタ
4 第1パラメータ演算部
5 第2パラメータ演算部
6 第3パラメータ演算部
7 第4パラメータ演算部
8 第5パラメータ演算部
9 重みw1設定部
10 重みw2設定部
11 重みw3設定部
12 重みw4設定部
13 重みw5設定部
14 乗算器
15 比較判定部
16 出力部

Claims (6)

  1. 音声データを音声データ記憶部に記憶する処理と、
    前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算する処理と、
    前記音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度を第2のパラメータとして演算する処理と、
    前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算する処理と、
    前記音声波形のゼロクロス−ゼロクロス間の極大値数を第4のパラメータとして演算する処理と、
    前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算する処理と、
    第1〜第5のパラメータそれぞれに対して重みを与える処理と、
    前記第1〜第5の重み付きパラメータを乗算する処理と、
    前記乗算結果をしきい値と比較して音素境界を判定する処理とを有することを特徴とする音素セグメンテーション方法。
  2. 前記乗算処理に代えて、加算処理を有することを特徴とする請求項1に記載の音素セグメンテーション方法。
  3. 前記第1〜第5の重み値それぞれを可変設定することを特徴とする請求項1又は2に記載の音素セグメンテーション方法。
  4. 音声データを音声データ記憶部と、
    前記音声データ記憶部から読み出した音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算する第1のパラメータ演算部と、
    前記音声波形のゼロクロス−ゼロクロス間の第1極大値の尖頭度を第2のパラメータ演算する第2のパラメータ演算部と、
    前記音声波形のゼロクロス−ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算する第3のパラメータ演算部と、
    前記音声波形のゼロクロス−ゼロクロス間の極大値数を第4のパラメータとして演算する第4のパラメータ演算部と、
    前記音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算する第5のパラメータ演算部と、
    第1〜第5のパラメータそれぞれに対して重みを与える第1〜第5の重み設定部と、
    前記第1〜第5の重み付きパラメータを乗算する乗算器と、
    前記乗算器の出力値をしきい値と比較して音素境界を判定する比較判定部とを備えたことを特徴とする音素セグメンテーション装置。
  5. 前記乗算器に代えて、加算器を備えたことを特徴とする請求項4に記載の音素セグメンテーション装置。
  6. 前記第1〜第5の重み設定部は、第1〜第5の重み値それぞれを可変設定機能を有することを特徴とする請求項4又は5に記載の音素セグメンテーション装置。
JP2005104513A 2005-03-31 2005-03-31 音素セグメンテーション方法及び装置 Pending JP2006284907A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005104513A JP2006284907A (ja) 2005-03-31 2005-03-31 音素セグメンテーション方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005104513A JP2006284907A (ja) 2005-03-31 2005-03-31 音素セグメンテーション方法及び装置

Publications (1)

Publication Number Publication Date
JP2006284907A true JP2006284907A (ja) 2006-10-19

Family

ID=37406910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005104513A Pending JP2006284907A (ja) 2005-03-31 2005-03-31 音素セグメンテーション方法及び装置

Country Status (1)

Country Link
JP (1) JP2006284907A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690439A (zh) * 2024-01-31 2024-03-12 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690439A (zh) * 2024-01-31 2024-03-12 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统
CN117690439B (zh) * 2024-01-31 2024-04-16 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统

Similar Documents

Publication Publication Date Title
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
US7925502B2 (en) Pitch model for noise estimation
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Yegnanarayana et al. Epoch-based analysis of speech signals
JP5961950B2 (ja) 音声処理装置
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
CN104081453A (zh) 用于声学变换的系统和方法
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
Ouhnini et al. Towards an automatic speech-to-text transcription system: amazigh language
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
JPH0229232B2 (ja)
JP2001125584A (ja) 言い淀み検出方法及び装置
JP2006154212A (ja) 音声評価方法および評価装置
JP2006284907A (ja) 音素セグメンテーション方法及び装置
Jesus et al. Devoicing measures of European Portuguese fricatives
Maddela et al. Durational and Formantshift characteristics of Telugu alveolar and bilabial nasal phonemes
Pamula et al. Parametric assessment of esophageal speech in post-laryngectomy patients
Reddy et al. Automatic pitch accent contour transcription for Indian languages
Maddela et al. Phonetic–Acoustic Characteristics of Telugu Lateral Approximants