JP2000242291A

JP2000242291A - 音素区分装置

Info

Publication number: JP2000242291A
Application number: JP11039037A
Authority: JP
Inventors: Yuji Wada; 田祐司和
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1999-02-17
Filing date: 1999-02-17
Publication date: 2000-09-08

Abstract

(57)【要約】【課題】音声中の音素を区分する作業を人手に頼るこ
となく自動的に行うこと。【解決手段】データ抽出手段１は、入力した音声波形
データに対してウィンドウを設定してデータを抽出し、
これをＤＣＴ変換手段２及び包絡データ演算手段３に出
力する。手段２及び手段３は、それぞれＤＣＴデータ及
び包絡データをＤＣＴデータ記憶手段４及び包絡データ
記憶手段５に記憶すると共に、平均自乗誤差演算手段６
Ａ〜６Ｄ及び差分値演算手段７に出力する。手段６Ａ〜
６Ｄは、今回のＤＣＴデータと過去数回のＤＣＴデータ
との間の平均自乗誤差を演算し、手段７は、今回の包絡
データと過去数回の包絡データとの間の差分の絶対値を
演算する。これらの演算結果に基づき前段ファジイ演算
器８Ａ〜８Ｄ及び前段ファジイ演算器９が音素区分点で
あるか否かにつき推論を行い、さらに後段ファジイ演算
器１０が最終的に推論を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音素の区分を人手
に頼ることなく自動的に行うことを可能にする音素区分
装置に関するものである。

【０００２】

【従来の技術】音声認識や音声合成の研究・開発等を行
う上では、音声中の音素を区分する作業が不可欠であ
る。しかし、音声の性質上、音声中のどの位置が音素区
分点であるかを一義的に特定することは必ずしも容易な
ことではない。したがって、従来、このような音素区分
は、人間がスペクトルデータその他の入力波形データを
目視により解析したり、音声を実際に聞くことにより行
っていた。

【０００３】

【発明が解決しようとする課題】しかし、上記のよう
に、音素の区分を人間が行った場合、その区分結果はど
うしても区分を行う人の主観や経験等に左右されがちに
なり、データとしての信頼性を一定以上向上させること
が困難となる。また、このような音素区分作業は、この
作業を行う人に対しても少なからぬ労力を強いる結果と
なる。

【０００４】本発明は、上記事情に鑑みてなされたもの
であり、音声中の音素を区分する作業を人手に頼ること
なく自動的に行うことを可能にする音素区分装置を提供
することを目的としている。

【０００５】

【課題を解決するための手段】上記課題を解決するため
の手段として、請求項１記載の発明は、入力波形データ
に対して音素区分点の存在の有無を判別するウィンドウ
を所定移動幅毎に設定しておき、各ウィンドウ内の入力
波形データを順次抽出するデータ抽出手段と、前記デー
タ抽出手段により抽出された入力波形データに対してＤ
ＣＴ変換を行うＤＣＴ変換手段と、前記データ抽出手段
により抽出された入力波形データに対して包絡データを
求める包絡データ演算手段と、前記ＤＣＴ変換手段のＤ
ＣＴ変換により得られた過去の所定回数分のＤＣＴデー
タを記憶するＤＣＴデータ記憶手段と、前記包絡データ
演算手段の演算により得られた過去の所定回数分の包絡
データを記憶する包絡データ記憶手段と、前記ＤＣＴ変
換手段から今回のＤＣＴデータを入力すると共に、前記
ＤＣＴデータ記憶手段から前記過去の所定回数分のＤＣ
Ｔデータを入力し、今回のＤＣＴデータと各回のＤＣＴ
データとの間の平均自乗誤差を予め設定してある所定周
波数領域毎に演算する平均自乗誤差演算手段と、前記包
絡データ演算手段から今回の包絡データを入力すると共
に、前記包絡データ記憶手段から前記過去の所定回数分
の包絡データを入力し、今回の包絡データと各回の包絡
データとの間の差分の絶対値を演算する差分値演算手段
と、前記平均自乗誤差演算手段の演算結果を入力して前
記音素区分点か否かについてのファジイ推論を行うＤＣ
Ｔデータ用前段ファジイ演算器と、前記差分値演算手段
の演算結果を入力して前記音素区分点か否かについての
ファジイ推論を行う包絡データ用前段ファジイ演算器
と、前記ＤＣＴデータ用前段ファジイ演算器及び前記包
絡データ用前段ファジイ演算器の各推論結果を入力し、
前記音素区分点か否かについての最終的なファジイ推論
を行う後段ファジイ演算器と、を備えたことを特徴とす
る。

【０００６】請求項２記載の発明は、請求項１記載の発
明において、前記ＤＣＴデータの所定周波数領域は、全
域、低域、帯域、高域のうちの少なくとも全域を含む１
又は２以上の領域である、ことを特徴とする。

【０００７】なお、低域とは、全域の内の最低周波数を
含む周波数の低い側の所定領域であり、帯域とは、全域
の内の最低周波数と最高周波数とを含まない周波数の中
間部分の所定領域であり、高域とは、全域の内の最高周
波数を含む周波数の高い側の所定領域である。

【０００８】

【発明の実施の形態】以下、本発明の実施形態を図に基
づき説明する。図１は本発明の実施形態の構成を示すブ
ロック図である。図１において、データ抽出手段１は、
入力した音声波形データに対してウィンドウを設定し、
このウィンドウ内のデータを抽出してＤＣＴ変換手段２
及び包絡データ演算手段３に出力するようになってい
る。

【０００９】ＤＣＴ変換手段２は、データ抽出手段１か
ら入力したデータに対してＤＣＴ変換を施し、得られた
ＤＣＴデータをＤＣＴデータ記憶手段４に記憶すると共
に、平均自乗誤差演算手段６Ａ〜６Ｄに対して出力する
ようになっている。同様に、包絡データ演算手段３は、
データ抽出手段１から入力したデータに対して包絡デー
タを求めるための演算を施し、得られた包絡データを包
絡データ記憶手段５に記憶すると共に、差分値演算手段
７に対して出力するようになっている。

【００１０】平均自乗誤差演算手段６Ａ〜６Ｄは、それ
ぞれＤＣＴ変換手段２からの今回のＤＣＴデータと、Ｄ
ＣＴデータ記憶手段４からの前回以前過去数回のＤＣＴ
データとを入力し、今回のＤＣＴデータと過去のＤＣＴ
データとの間の平均自乗誤差を演算するようになってい
る。なお、ＤＣＴデータは、全域、低域、帯域、及び高
域の４つの領域に分けられており、これらの各領域のＤ
ＣＴデータをそれぞれに対応する平均自乗誤差演算手段
６Ａ〜６Ｄが演算するようになっている。同様に、差分
値演算手段７は、包絡データ演算手段３からの今回の包
絡データと、包絡データ記憶手段５からの前回以前過去
数回の包絡データとを入力し、今回の包絡データと過去
の包絡データとの間の差分の絶対値を演算するようにな
っている。

【００１１】平均自乗誤差演算手段６Ａ〜６Ｄからの各
演算結果はＤＣＴデータ用前段ファジイ演算器８Ａ〜８
Ｄに出力されるようになっており、ＤＣＴデータ用前段
ファジイ演算器８Ａ〜８Ｄは、それぞれこの演算結果に
基づき今回ＤＣＴ変換された部分が音素区分点であるか
否かについてファジイ推論を行うようになっている。同
様に、差分値演算手段７からの演算結果は包絡データ用
前段ファジイ演算器９に出力されるようになっており、
包絡データ用前段ファジイ演算器９は、この演算結果に
基づき今回包絡データが演算された部分が音素区分点で
あるか否かについてファジイ推論を行うようになってい
る。

【００１２】ＤＣＴデータ用前段ファジイ演算器８Ａ〜
８Ｄ及び包絡データ用前段ファジイ演算器９の各推論結
果は、後段ファジイ演算器１０に出力されるようになっ
ており、後段ファジイ演算器１０は、これらの推論結果
に基づき音素区分点であるか否かについての最終的なフ
ァジイ推論を行うようになっている。そして、音素区分
点であると推論された場合、その推論結果は表示器（図
示せず）に表示されるようになっている。この推論結果
は、また、データ抽出手段１にも出力されるようになっ
ており、データ抽出手段１は、音素区分点ではない旨の
推論結果を知らされた場合は、ウィンドウを所定移動幅
だけずらして次のデータ抽出を行うようになっている。

【００１３】ここで、データ抽出手段１が行うウィンド
ウの設定及び移動につき説明しておく。図２は、ＤＣＴ
データ用ウィンドウについての説明図であり、ウィンド
ウ幅Ｗ1の１回目のウィンドウの左側端部が先頭アドレ
スｓａ1に位置するように設定されている。データ抽出
手段１は、このウィンドウ内の音声波形データを抽出
し、これをＤＣＴ変換手段２に出力する。そして、後段
ファジイ演算器１０が第１回目の推論を行い、その結果
が音素区分点でなかった場合には、このウィンドウを移
動幅ｉｖ1だけずらして第２回目のウィンドウを設定
し、このウィンドウ内の音声波形データを抽出してＤＣ
Ｔ変換手段２に出力する。データ抽出手段１は、以下、
音素区分点が見つかるまで同様にしてウィンドウの設定
及び移動を行なってウィンドウ内のデータを抽出し、こ
れをＤＣＴ変換手段２に出力する。ＤＣＴ変換手段２
は、このようにして抽出された音声波形データに対して
ＤＣＴ変換を行うが、このＤＣＴ変換によって得られた
ＤＣＴデータは音声の特徴を表すデータである。

【００１４】図３は、包絡データ用ウィンドウについて
の説明図であり、ウィンドウ幅Ｗ2の１回目のウィンド
ウの左側端部が先頭アドレスｓａ2に位置するように設
定されている。データ抽出手段１は、このウィンドウ内
の音声波形データを抽出し、これを包絡データ演算手段
３に出力する。そして、後段ファジイ演算器１０が第１
回目の推論を行い、その結果が音素区分点でなかった場
合には、このウィンドウを移動幅ｉｖ2だけずらして第
２回目のウィンドウを設定し、このウィンドウ内の音声
波形データを抽出して包絡データ演算手段３に出力す
る。以下、音素区分点が見つかるまで同様にしてウィン
ドウの設定及び移動を行う。ここで、包絡データにつき
説明しておくと、包絡データとは、ウィンドウ内の音声
波形データの概略を表すデータであり、ウィンドウ内の
音声波形データ中から所定の基準に従って選択された１
又は２以上のデータのことである。例えば、図３の第１
回目のウィンドウ内にはＰ1〜Ｐnまでのデータが含まれ
ているが、最大値はＰ2であるため、このＰ2のデータ
を、第１回目のウィンドウ内の全てのデータを代表する
概算値として選択し、これを包絡データとする。包絡デ
ータ演算手段３は、以下、同様にして、第２回目以降の
ウィンドウ内の包絡データを選択していくことになる。

【００１５】次に、以上のように構成される本実施形態
の動作を図４のフローチャートに基づき説明する。デー
タ抽出手段１は、音声波形データを入力すると（ステッ
プ１）、初期化を行い、先頭アドレスｓａをゼロにセッ
トする（ステップ２）。そして、図２及び図３で説明し
たように、ＤＣＴデータ用ウィンドウ及び包絡データ用
ウィンドウを設定して、これらのウィンドウから音声波
形データを抽出し、抽出したデータをＤＣＴ変換手段２
及び包絡データ演算手段３に出力する（ステップ３）。

【００１６】ＤＣＴ変換手段２は、データ抽出手段１か
ら入力した音声波形データに対してＤＣＴ変換を行うと
共に、得られたＤＣＴデータをＤＣＴデータ記憶手段４
に記憶させる（ステップ４）。このＤＣＴデータ記憶手
段４には、今回のＤＣＴデータ以前の過去の所定回数分
（本実施形態では４回とする）のＤＣＴデータが記憶さ
れている。同様に、包絡データ演算手段３は、データ抽
出手段１から入力した音声波形データに対して包絡デー
タを求める演算を行うと共に、得られた包絡データを包
絡データ記憶手段５に記憶させる（ステップ５）。

【００１７】ＤＣＴ変換手段２は、ステップ４でＤＣＴ
変換を行った後、ＤＣＴデータを所定の周波数領域毎に
分け、これを各領域に対応した平均自乗誤差演算手段６
Ａ〜６Ｄに出力する。本実施形態では、周波数領域が、
全域、低域、帯域、及び高域の４つの領域に分けられて
いる。そして、平均自乗誤差演算手段６Ａ〜６Ｄは、Ｄ
ＣＴ変換手段２からの今回のＤＣＴデータと、ＤＣＴデ
ータ記憶手段４から取り出した今回以前の過去４回分の
ＤＣＴデータとを入力し、今回のＤＣＴデータと過去の
各回のＤＣＴデータとの間の平均自乗誤差を演算する
（ステップ６）。

【００１８】例えば、平均自乗誤差演算手段６Ａの演算
内容につき説明すると、平均自乗誤差演算手段６Ａが演
算する平均自乗誤差ＭＳＥ1は下式（１）〜（４）によ
り求められる。ここで、Ｘ(u)は今回のＤＣＴデータを
示し、Ｘ(1)(u)及びＸ(2)(u)は今回より１回分前及び２
回分前の過去のＤＣＴデータをそれぞれ示している。ま
た、ＭＳＥ1の後のカッコ内の数値も用いたＤＣＴデー
タが過去何回目のものであるかを示すものとなってい
る。平均自乗誤差演算手段６Ｂ〜６Ｄによる平均自乗誤
差ＭＳＥ2〜ＭＳＥ4もＭＳＥ1と同様にして演算され
る。

【数１】

【００１９】包絡データ演算手段３は、ステップ５で包
絡データを求める演算を行った後、得られた包絡データ
を差分値演算手段７に出力する。そして、差分値演算手
段７は、包絡データ演算手段３からの今回の包絡データ
と、包絡データ記憶手段５から取り出した今回以前の過
去４回分の包絡データとを入力し、今回の包絡データと
過去の各回の包絡データとの間の差分の絶対値ＤＥを下
式（５）〜（８）を用いて演算する（ステップ７）。こ
れらの式中、ｅ(sa)は今回の包絡データを示し、ｅ(1)
(sa)及びｅ(2)(sa)は今回より１回分前及び２回分前の
過去の包絡データをそれぞれ示している。つまり、今回
のデータ抽出の際のウィンドウの先頭アドレスの位置が
ｓａであったとすると、１回分前のウィンドウの先頭ア
ドレスの位置は、ｓａ−ｉｖで表され、２回分前の先頭
アドレスの位置はｓａ−２ｉｖで表される。また、ＤＥ
の後のカッコ内の数値も用いた包絡データが過去何回目
のものであるかを示すものとなっている。ＤＥ(1)＝｜ｅ(1)(sa)−ｅ(sa)｜ … (５) ＤＥ(2)＝｜ｅ(2)(sa)−ｅ(sa)｜ … (６) ＤＥ(3)＝｜ｅ(3)(sa)−ｅ(sa)｜ … (７) ＤＥ(4)＝｜ｅ(4)(sa)−ｅ(sa)｜ … (８)

【００２０】平均自乗誤差演算手段６Ａ〜６Ｄ及び差分
値演算手段７は、それぞれＤＣＴデータの平均自乗誤差
及び包絡データの差分の絶対値を演算した後、その演算
結果をＤＣＴデータ用前段ファジイ演算器８Ａ〜８Ｄ及
び包絡データ用前段ファジイ演算器９に出力する。そし
て、これらの前段ファジイ演算器は、この演算結果の入
力に基づき、今回の演算対象となっているウィンドウの
データが音素区分点であるか否かについてファジイ推論
を行う（ステップ８）。

【００２１】次いで、ＤＣＴデータ用前段ファジイ演算
器８Ａ〜８Ｄ及び包絡データ用前段ファジイ演算器９
は、それぞれの推論結果を後段ファジイ演算器１０に出
力する。後段ファジイ演算器１０は、これら前段ファジ
イ演算器の推論結果に基づき、音素区分点であるか否か
についての最終的なファジイ推論を行う（ステップ９，
１０）。例えば、後段ファジイ演算器１０は、その出力
値を所定の設定値（本実施形態では例えば０．５とす
る）と比較し、出力値が設定値以下であれば、音素区分
点ではないと判別する。この判別結果は、前述したよう
に、データ抽出手段１に送られ、データ抽出手段１は、
ウィンドウを移動幅ｉｖだけずらした後（ステップ１
１）、ステップ３に戻って前回と同様にデータの抽出を
行う。一方、ステップ１０で、出力値が設定値を超え、
音素区分点であると判別した場合は、図示を省略してあ
る表示器に音素区分点である旨が表示される（ステップ
１２）。

【００２２】なお、上記実施形態では、ＤＣＴデータの
周波数領域を全域、低域、帯域、及び高域の４つの領域
に分けた場合につき説明したが、周波数領域の分け方は
これのみに限定されるわけではなく、領域数を適宜増減
することが可能である。但し、少なくとも、全域につい
ては必ず含まれるようにしておく必要がある。

【００２３】また、上記実施形態では、ＤＣＴデータ用
前段ファジイ演算器８Ａ〜８Ｄ及び包絡データ用前段フ
ァジイ演算器９の推論結果をさらに後段ファジイ演算器
１０に入力し、この後段ファジイ演算器１０で最終的な
ファジイ推論を行うようにしている。つまり、複数の前
段ファジイ演算器に対して、前段側より少ない数の後段
ファジイ演算器を接続した構成となっている。通常、フ
ァジイ演算は１台のファジイ演算器を用いて行われる
が、このようにファジイ演算器同士を接続した構成によ
れば、１台のファジイ演算器を用いた場合よりも演算回
数を削減することができ、より速い演算速度を得ること
ができる。このように、ファジイ演算器同士を接続した
構成について、本出願人は別途出願を行っているので、
ここでは詳述しない。

【００２４】

【発明の効果】以上のように、本発明によれば、音声波
形データからの抽出データに対してＤＣＴ変換及び包絡
データ演算を行うことによりＤＣＴデータ及び包絡デー
タを得るようにし、今回のＤＣＴデータと過去のＤＣＴ
データとの間の平均自乗誤差を演算すると共に、今回の
包絡データと過去の包絡データとの間の差分の絶対値を
演算するようにし、これらの演算結果に基づきファジイ
推論を行う構成としたので、音声中の音素を区分する作
業を人手に頼ることなく自動的に行うことが可能にな
る。

【図面の簡単な説明】

【図１】本発明の実施形態の構成を示すブロック図。

【図２】図１におけるデータ抽出手段１が用いるＤＣＴ
データ用ウィンドウについての説明図。

【図３】図１におけるデータ抽出手段１が用いる包絡デ
ータ用ウィンドウについての説明図。

【図４】本発明の実施形態の動作を説明するためのフロ
ーチャート。

【符号の説明】

１データ抽出手段２ＤＣＴ変換手段３包絡データ演算手段４ＤＣＴデータ記憶手段５包絡データ記憶手段６平均自乗誤差演算手段７差分値演算手段８ＤＣＴデータ用前段ファジイ演算器９包絡データ用前段ファジイ演算器１０後段ファジイ演算器

Claims

【特許請求の範囲】

【請求項１】入力波形データに対して音素区分点の存在
の有無を判別するウィンドウを所定移動幅毎に設定して
おき、各ウィンドウ内の入力波形データを順次抽出する
データ抽出手段と、前記データ抽出手段により抽出された入力波形データに
対してＤＣＴ変換を行うＤＣＴ変換手段と、前記データ抽出手段により抽出された入力波形データに
対して包絡データを求める包絡データ演算手段と、前記ＤＣＴ変換手段のＤＣＴ変換により得られた過去の
所定回数分のＤＣＴデータを記憶するＤＣＴデータ記憶
手段と、前記包絡データ演算手段の演算により得られた過去の所
定回数分の包絡データを記憶する包絡データ記憶手段
と、前記ＤＣＴ変換手段から今回のＤＣＴデータを入力する
と共に、前記ＤＣＴデータ記憶手段から前記過去の所定
回数分のＤＣＴデータを入力し、今回のＤＣＴデータと
各回のＤＣＴデータとの間の平均自乗誤差を予め設定し
てある所定周波数領域毎に演算する平均自乗誤差演算手
段と、前記包絡データ演算手段から今回の包絡データを入力す
ると共に、前記包絡データ記憶手段から前記過去の所定
回数分の包絡データを入力し、今回の包絡データと各回
の包絡データとの間の差分の絶対値を演算する差分値演
算手段と、前記平均自乗誤差演算手段の演算結果を入力して前記音
素区分点か否かについてのファジイ推論を行うＤＣＴデ
ータ用前段ファジイ演算器と、前記差分値演算手段の演算結果を入力して前記音素区分
点か否かについてのファジイ推論を行う包絡データ用前
段ファジイ演算器と、前記ＤＣＴデータ用前段ファジイ演算器及び前記包絡デ
ータ用前段ファジイ演算器の各推論結果を入力し、前記
音素区分点か否かについての最終的なファジイ推論を行
う後段ファジイ演算器と、を備えたことを特徴とする音素区分装置。
【請求項２】前記ＤＣＴデータの所定周波数領域は、全
域、低域、帯域、高域のうちの少なくとも全域を含む１
又は２以上の領域である、ことを特徴とする請求項１記
載の音素区分装置。