JP2000242291A - 音素区分装置 - Google Patents

音素区分装置

Info

Publication number
JP2000242291A
JP2000242291A JP11039037A JP3903799A JP2000242291A JP 2000242291 A JP2000242291 A JP 2000242291A JP 11039037 A JP11039037 A JP 11039037A JP 3903799 A JP3903799 A JP 3903799A JP 2000242291 A JP2000242291 A JP 2000242291A
Authority
JP
Japan
Prior art keywords
data
dct
envelope
fuzzy
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11039037A
Other languages
English (en)
Inventor
Yuji Wada
田 祐 司 和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP11039037A priority Critical patent/JP2000242291A/ja
Publication of JP2000242291A publication Critical patent/JP2000242291A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声中の音素を区分する作業を人手に頼るこ
となく自動的に行うこと。 【解決手段】 データ抽出手段1は、入力した音声波形
データに対してウィンドウを設定してデータを抽出し、
これをDCT変換手段2及び包絡データ演算手段3に出
力する。手段2及び手段3は、それぞれDCTデータ及
び包絡データをDCTデータ記憶手段4及び包絡データ
記憶手段5に記憶すると共に、平均自乗誤差演算手段6
A〜6D及び差分値演算手段7に出力する。手段6A〜
6Dは、今回のDCTデータと過去数回のDCTデータ
との間の平均自乗誤差を演算し、手段7は、今回の包絡
データと過去数回の包絡データとの間の差分の絶対値を
演算する。これらの演算結果に基づき前段ファジイ演算
器8A〜8D及び前段ファジイ演算器9が音素区分点で
あるか否かにつき推論を行い、さらに後段ファジイ演算
器10が最終的に推論を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音素の区分を人手
に頼ることなく自動的に行うことを可能にする音素区分
装置に関するものである。
【0002】
【従来の技術】音声認識や音声合成の研究・開発等を行
う上では、音声中の音素を区分する作業が不可欠であ
る。しかし、音声の性質上、音声中のどの位置が音素区
分点であるかを一義的に特定することは必ずしも容易な
ことではない。したがって、従来、このような音素区分
は、人間がスペクトルデータその他の入力波形データを
目視により解析したり、音声を実際に聞くことにより行
っていた。
【0003】
【発明が解決しようとする課題】しかし、上記のよう
に、音素の区分を人間が行った場合、その区分結果はど
うしても区分を行う人の主観や経験等に左右されがちに
なり、データとしての信頼性を一定以上向上させること
が困難となる。また、このような音素区分作業は、この
作業を行う人に対しても少なからぬ労力を強いる結果と
なる。
【0004】本発明は、上記事情に鑑みてなされたもの
であり、音声中の音素を区分する作業を人手に頼ること
なく自動的に行うことを可能にする音素区分装置を提供
することを目的としている。
【0005】
【課題を解決するための手段】上記課題を解決するため
の手段として、請求項1記載の発明は、入力波形データ
に対して音素区分点の存在の有無を判別するウィンドウ
を所定移動幅毎に設定しておき、各ウィンドウ内の入力
波形データを順次抽出するデータ抽出手段と、前記デー
タ抽出手段により抽出された入力波形データに対してD
CT変換を行うDCT変換手段と、前記データ抽出手段
により抽出された入力波形データに対して包絡データを
求める包絡データ演算手段と、前記DCT変換手段のD
CT変換により得られた過去の所定回数分のDCTデー
タを記憶するDCTデータ記憶手段と、前記包絡データ
演算手段の演算により得られた過去の所定回数分の包絡
データを記憶する包絡データ記憶手段と、前記DCT変
換手段から今回のDCTデータを入力すると共に、前記
DCTデータ記憶手段から前記過去の所定回数分のDC
Tデータを入力し、今回のDCTデータと各回のDCT
データとの間の平均自乗誤差を予め設定してある所定周
波数領域毎に演算する平均自乗誤差演算手段と、前記包
絡データ演算手段から今回の包絡データを入力すると共
に、前記包絡データ記憶手段から前記過去の所定回数分
の包絡データを入力し、今回の包絡データと各回の包絡
データとの間の差分の絶対値を演算する差分値演算手段
と、前記平均自乗誤差演算手段の演算結果を入力して前
記音素区分点か否かについてのファジイ推論を行うDC
Tデータ用前段ファジイ演算器と、前記差分値演算手段
の演算結果を入力して前記音素区分点か否かについての
ファジイ推論を行う包絡データ用前段ファジイ演算器
と、前記DCTデータ用前段ファジイ演算器及び前記包
絡データ用前段ファジイ演算器の各推論結果を入力し、
前記音素区分点か否かについての最終的なファジイ推論
を行う後段ファジイ演算器と、を備えたことを特徴とす
る。
【0006】請求項2記載の発明は、請求項1記載の発
明において、前記DCTデータの所定周波数領域は、全
域、低域、帯域、高域のうちの少なくとも全域を含む1
又は2以上の領域である、ことを特徴とする。
【0007】なお、低域とは、全域の内の最低周波数を
含む周波数の低い側の所定領域であり、帯域とは、全域
の内の最低周波数と最高周波数とを含まない周波数の中
間部分の所定領域であり、高域とは、全域の内の最高周
波数を含む周波数の高い側の所定領域である。
【0008】
【発明の実施の形態】以下、本発明の実施形態を図に基
づき説明する。図1は本発明の実施形態の構成を示すブ
ロック図である。図1において、データ抽出手段1は、
入力した音声波形データに対してウィンドウを設定し、
このウィンドウ内のデータを抽出してDCT変換手段2
及び包絡データ演算手段3に出力するようになってい
る。
【0009】DCT変換手段2は、データ抽出手段1か
ら入力したデータに対してDCT変換を施し、得られた
DCTデータをDCTデータ記憶手段4に記憶すると共
に、平均自乗誤差演算手段6A〜6Dに対して出力する
ようになっている。同様に、包絡データ演算手段3は、
データ抽出手段1から入力したデータに対して包絡デー
タを求めるための演算を施し、得られた包絡データを包
絡データ記憶手段5に記憶すると共に、差分値演算手段
7に対して出力するようになっている。
【0010】平均自乗誤差演算手段6A〜6Dは、それ
ぞれDCT変換手段2からの今回のDCTデータと、D
CTデータ記憶手段4からの前回以前過去数回のDCT
データとを入力し、今回のDCTデータと過去のDCT
データとの間の平均自乗誤差を演算するようになってい
る。なお、DCTデータは、全域、低域、帯域、及び高
域の4つの領域に分けられており、これらの各領域のD
CTデータをそれぞれに対応する平均自乗誤差演算手段
6A〜6Dが演算するようになっている。同様に、差分
値演算手段7は、包絡データ演算手段3からの今回の包
絡データと、包絡データ記憶手段5からの前回以前過去
数回の包絡データとを入力し、今回の包絡データと過去
の包絡データとの間の差分の絶対値を演算するようにな
っている。
【0011】平均自乗誤差演算手段6A〜6Dからの各
演算結果はDCTデータ用前段ファジイ演算器8A〜8
Dに出力されるようになっており、DCTデータ用前段
ファジイ演算器8A〜8Dは、それぞれこの演算結果に
基づき今回DCT変換された部分が音素区分点であるか
否かについてファジイ推論を行うようになっている。同
様に、差分値演算手段7からの演算結果は包絡データ用
前段ファジイ演算器9に出力されるようになっており、
包絡データ用前段ファジイ演算器9は、この演算結果に
基づき今回包絡データが演算された部分が音素区分点で
あるか否かについてファジイ推論を行うようになってい
る。
【0012】DCTデータ用前段ファジイ演算器8A〜
8D及び包絡データ用前段ファジイ演算器9の各推論結
果は、後段ファジイ演算器10に出力されるようになっ
ており、後段ファジイ演算器10は、これらの推論結果
に基づき音素区分点であるか否かについての最終的なフ
ァジイ推論を行うようになっている。そして、音素区分
点であると推論された場合、その推論結果は表示器(図
示せず)に表示されるようになっている。この推論結果
は、また、データ抽出手段1にも出力されるようになっ
ており、データ抽出手段1は、音素区分点ではない旨の
推論結果を知らされた場合は、ウィンドウを所定移動幅
だけずらして次のデータ抽出を行うようになっている。
【0013】ここで、データ抽出手段1が行うウィンド
ウの設定及び移動につき説明しておく。図2は、DCT
データ用ウィンドウについての説明図であり、ウィンド
ウ幅W1の1回目のウィンドウの左側端部が先頭アドレ
スsa1に位置するように設定されている。データ抽出
手段1は、このウィンドウ内の音声波形データを抽出
し、これをDCT変換手段2に出力する。そして、後段
ファジイ演算器10が第1回目の推論を行い、その結果
が音素区分点でなかった場合には、このウィンドウを移
動幅iv1だけずらして第2回目のウィンドウを設定
し、このウィンドウ内の音声波形データを抽出してDC
T変換手段2に出力する。データ抽出手段1は、以下、
音素区分点が見つかるまで同様にしてウィンドウの設定
及び移動を行なってウィンドウ内のデータを抽出し、こ
れをDCT変換手段2に出力する。DCT変換手段2
は、このようにして抽出された音声波形データに対して
DCT変換を行うが、このDCT変換によって得られた
DCTデータは音声の特徴を表すデータである。
【0014】図3は、包絡データ用ウィンドウについて
の説明図であり、ウィンドウ幅W2の1回目のウィンド
ウの左側端部が先頭アドレスsa2に位置するように設
定されている。データ抽出手段1は、このウィンドウ内
の音声波形データを抽出し、これを包絡データ演算手段
3に出力する。そして、後段ファジイ演算器10が第1
回目の推論を行い、その結果が音素区分点でなかった場
合には、このウィンドウを移動幅iv2だけずらして第
2回目のウィンドウを設定し、このウィンドウ内の音声
波形データを抽出して包絡データ演算手段3に出力す
る。以下、音素区分点が見つかるまで同様にしてウィン
ドウの設定及び移動を行う。ここで、包絡データにつき
説明しておくと、包絡データとは、ウィンドウ内の音声
波形データの概略を表すデータであり、ウィンドウ内の
音声波形データ中から所定の基準に従って選択された1
又は2以上のデータのことである。例えば、図3の第1
回目のウィンドウ内にはP1〜Pnまでのデータが含まれ
ているが、最大値はP2であるため、このP2のデータ
を、第1回目のウィンドウ内の全てのデータを代表する
概算値として選択し、これを包絡データとする。包絡デ
ータ演算手段3は、以下、同様にして、第2回目以降の
ウィンドウ内の包絡データを選択していくことになる。
【0015】次に、以上のように構成される本実施形態
の動作を図4のフローチャートに基づき説明する。デー
タ抽出手段1は、音声波形データを入力すると(ステッ
プ1)、初期化を行い、先頭アドレスsaをゼロにセッ
トする(ステップ2)。そして、図2及び図3で説明し
たように、DCTデータ用ウィンドウ及び包絡データ用
ウィンドウを設定して、これらのウィンドウから音声波
形データを抽出し、抽出したデータをDCT変換手段2
及び包絡データ演算手段3に出力する(ステップ3)。
【0016】DCT変換手段2は、データ抽出手段1か
ら入力した音声波形データに対してDCT変換を行うと
共に、得られたDCTデータをDCTデータ記憶手段4
に記憶させる(ステップ4)。このDCTデータ記憶手
段4には、今回のDCTデータ以前の過去の所定回数分
(本実施形態では4回とする)のDCTデータが記憶さ
れている。同様に、包絡データ演算手段3は、データ抽
出手段1から入力した音声波形データに対して包絡デー
タを求める演算を行うと共に、得られた包絡データを包
絡データ記憶手段5に記憶させる(ステップ5)。
【0017】DCT変換手段2は、ステップ4でDCT
変換を行った後、DCTデータを所定の周波数領域毎に
分け、これを各領域に対応した平均自乗誤差演算手段6
A〜6Dに出力する。本実施形態では、周波数領域が、
全域、低域、帯域、及び高域の4つの領域に分けられて
いる。そして、平均自乗誤差演算手段6A〜6Dは、D
CT変換手段2からの今回のDCTデータと、DCTデ
ータ記憶手段4から取り出した今回以前の過去4回分の
DCTデータとを入力し、今回のDCTデータと過去の
各回のDCTデータとの間の平均自乗誤差を演算する
(ステップ6)。
【0018】例えば、平均自乗誤差演算手段6Aの演算
内容につき説明すると、平均自乗誤差演算手段6Aが演
算する平均自乗誤差MSE1は下式(1)〜(4)によ
り求められる。ここで、X(u)は今回のDCTデータを
示し、X(1)(u)及びX(2)(u)は今回より1回分前及び2
回分前の過去のDCTデータをそれぞれ示している。ま
た、MSE1の後のカッコ内の数値も用いたDCTデー
タが過去何回目のものであるかを示すものとなってい
る。平均自乗誤差演算手段6B〜6Dによる平均自乗誤
差MSE2〜MSE4もMSE1と同様にして演算され
る。
【数1】
【0019】包絡データ演算手段3は、ステップ5で包
絡データを求める演算を行った後、得られた包絡データ
を差分値演算手段7に出力する。そして、差分値演算手
段7は、包絡データ演算手段3からの今回の包絡データ
と、包絡データ記憶手段5から取り出した今回以前の過
去4回分の包絡データとを入力し、今回の包絡データと
過去の各回の包絡データとの間の差分の絶対値DEを下
式(5)〜(8)を用いて演算する(ステップ7)。こ
れらの式中、e(sa)は今回の包絡データを示し、e(1)
(sa)及びe(2)(sa)は今回より1回分前及び2回分前の
過去の包絡データをそれぞれ示している。つまり、今回
のデータ抽出の際のウィンドウの先頭アドレスの位置が
saであったとすると、1回分前のウィンドウの先頭ア
ドレスの位置は、sa−ivで表され、2回分前の先頭
アドレスの位置はsa−2ivで表される。また、DE
の後のカッコ内の数値も用いた包絡データが過去何回目
のものであるかを示すものとなっている。 DE(1)=|e(1)(sa)−e(sa)| … (5) DE(2)=|e(2)(sa)−e(sa)| … (6) DE(3)=|e(3)(sa)−e(sa)| … (7) DE(4)=|e(4)(sa)−e(sa)| … (8)
【0020】平均自乗誤差演算手段6A〜6D及び差分
値演算手段7は、それぞれDCTデータの平均自乗誤差
及び包絡データの差分の絶対値を演算した後、その演算
結果をDCTデータ用前段ファジイ演算器8A〜8D及
び包絡データ用前段ファジイ演算器9に出力する。そし
て、これらの前段ファジイ演算器は、この演算結果の入
力に基づき、今回の演算対象となっているウィンドウの
データが音素区分点であるか否かについてファジイ推論
を行う(ステップ8)。
【0021】次いで、DCTデータ用前段ファジイ演算
器8A〜8D及び包絡データ用前段ファジイ演算器9
は、それぞれの推論結果を後段ファジイ演算器10に出
力する。後段ファジイ演算器10は、これら前段ファジ
イ演算器の推論結果に基づき、音素区分点であるか否か
についての最終的なファジイ推論を行う(ステップ9,
10)。例えば、後段ファジイ演算器10は、その出力
値を所定の設定値(本実施形態では例えば0.5とす
る)と比較し、出力値が設定値以下であれば、音素区分
点ではないと判別する。この判別結果は、前述したよう
に、データ抽出手段1に送られ、データ抽出手段1は、
ウィンドウを移動幅ivだけずらした後(ステップ1
1)、ステップ3に戻って前回と同様にデータの抽出を
行う。一方、ステップ10で、出力値が設定値を超え、
音素区分点であると判別した場合は、図示を省略してあ
る表示器に音素区分点である旨が表示される(ステップ
12)。
【0022】なお、上記実施形態では、DCTデータの
周波数領域を全域、低域、帯域、及び高域の4つの領域
に分けた場合につき説明したが、周波数領域の分け方は
これのみに限定されるわけではなく、領域数を適宜増減
することが可能である。但し、少なくとも、全域につい
ては必ず含まれるようにしておく必要がある。
【0023】また、上記実施形態では、DCTデータ用
前段ファジイ演算器8A〜8D及び包絡データ用前段フ
ァジイ演算器9の推論結果をさらに後段ファジイ演算器
10に入力し、この後段ファジイ演算器10で最終的な
ファジイ推論を行うようにしている。つまり、複数の前
段ファジイ演算器に対して、前段側より少ない数の後段
ファジイ演算器を接続した構成となっている。通常、フ
ァジイ演算は1台のファジイ演算器を用いて行われる
が、このようにファジイ演算器同士を接続した構成によ
れば、1台のファジイ演算器を用いた場合よりも演算回
数を削減することができ、より速い演算速度を得ること
ができる。このように、ファジイ演算器同士を接続した
構成について、本出願人は別途出願を行っているので、
ここでは詳述しない。
【0024】
【発明の効果】以上のように、本発明によれば、音声波
形データからの抽出データに対してDCT変換及び包絡
データ演算を行うことによりDCTデータ及び包絡デー
タを得るようにし、今回のDCTデータと過去のDCT
データとの間の平均自乗誤差を演算すると共に、今回の
包絡データと過去の包絡データとの間の差分の絶対値を
演算するようにし、これらの演算結果に基づきファジイ
推論を行う構成としたので、音声中の音素を区分する作
業を人手に頼ることなく自動的に行うことが可能にな
る。
【図面の簡単な説明】
【図1】本発明の実施形態の構成を示すブロック図。
【図2】図1におけるデータ抽出手段1が用いるDCT
データ用ウィンドウについての説明図。
【図3】図1におけるデータ抽出手段1が用いる包絡デ
ータ用ウィンドウについての説明図。
【図4】本発明の実施形態の動作を説明するためのフロ
ーチャート。
【符号の説明】
1 データ抽出手段 2 DCT変換手段 3 包絡データ演算手段 4 DCTデータ記憶手段 5 包絡データ記憶手段 6 平均自乗誤差演算手段 7 差分値演算手段 8 DCTデータ用前段ファジイ演算器 9 包絡データ用前段ファジイ演算器 10 後段ファジイ演算器

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力波形データに対して音素区分点の存在
    の有無を判別するウィンドウを所定移動幅毎に設定して
    おき、各ウィンドウ内の入力波形データを順次抽出する
    データ抽出手段と、 前記データ抽出手段により抽出された入力波形データに
    対してDCT変換を行うDCT変換手段と、 前記データ抽出手段により抽出された入力波形データに
    対して包絡データを求める包絡データ演算手段と、 前記DCT変換手段のDCT変換により得られた過去の
    所定回数分のDCTデータを記憶するDCTデータ記憶
    手段と、 前記包絡データ演算手段の演算により得られた過去の所
    定回数分の包絡データを記憶する包絡データ記憶手段
    と、 前記DCT変換手段から今回のDCTデータを入力する
    と共に、前記DCTデータ記憶手段から前記過去の所定
    回数分のDCTデータを入力し、今回のDCTデータと
    各回のDCTデータとの間の平均自乗誤差を予め設定し
    てある所定周波数領域毎に演算する平均自乗誤差演算手
    段と、 前記包絡データ演算手段から今回の包絡データを入力す
    ると共に、前記包絡データ記憶手段から前記過去の所定
    回数分の包絡データを入力し、今回の包絡データと各回
    の包絡データとの間の差分の絶対値を演算する差分値演
    算手段と、 前記平均自乗誤差演算手段の演算結果を入力して前記音
    素区分点か否かについてのファジイ推論を行うDCTデ
    ータ用前段ファジイ演算器と、 前記差分値演算手段の演算結果を入力して前記音素区分
    点か否かについてのファジイ推論を行う包絡データ用前
    段ファジイ演算器と、 前記DCTデータ用前段ファジイ演算器及び前記包絡デ
    ータ用前段ファジイ演算器の各推論結果を入力し、前記
    音素区分点か否かについての最終的なファジイ推論を行
    う後段ファジイ演算器と、 を備えたことを特徴とする音素区分装置。
  2. 【請求項2】前記DCTデータの所定周波数領域は、全
    域、低域、帯域、高域のうちの少なくとも全域を含む1
    又は2以上の領域である、ことを特徴とする請求項1記
    載の音素区分装置。
JP11039037A 1999-02-17 1999-02-17 音素区分装置 Pending JP2000242291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11039037A JP2000242291A (ja) 1999-02-17 1999-02-17 音素区分装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11039037A JP2000242291A (ja) 1999-02-17 1999-02-17 音素区分装置

Publications (1)

Publication Number Publication Date
JP2000242291A true JP2000242291A (ja) 2000-09-08

Family

ID=12541931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11039037A Pending JP2000242291A (ja) 1999-02-17 1999-02-17 音素区分装置

Country Status (1)

Country Link
JP (1) JP2000242291A (ja)

Similar Documents

Publication Publication Date Title
US7680660B2 (en) Voice analysis device, voice analysis method and voice analysis program
EP2115737B1 (en) Method and system to improve automated emotional recognition
JP2001077677A (ja) パルス列分離装置及びパルス列分離方法
CN112017175B (zh) 支架显示方法、装置和存储介质
JP2000242291A (ja) 音素区分装置
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
JPH08293039A (ja) 音楽画像変換装置
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
US20240104921A1 (en) Method for recognizing product detection missed, electronic device, and storage medium
CN115526254A (zh) 场景识别系统、方法、电子设备及存储介质
CN110032980B (zh) 一种基于深度学习的器官检测与识别定位方法
CN112863498A (zh) 基于医疗大数据的智能医疗机器人数据处理方法和装置
JPH10133688A (ja) 音声認識装置
JP2853418B2 (ja) 音声認識方法
CN111429937A (zh) 语音分离方法、模型训练方法及电子设备
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP2020197980A (ja) 時系列信号のトリガ条件決定方法、監視対象設備の異常診断方法および時系列信号のトリガ条件決定装置
CN114783454B (zh) 一种模型训练、音频降噪方法、装置、设备及存储介质
JP3125936B2 (ja) 音声ピッチ変換装置
US20230267726A1 (en) Systems and methods for image processing using natural language
WO2022123640A1 (ja) 時系列信号のトリガ条件決定方法、監視対象設備の異常診断方法および時系列信号のトリガ条件決定装置
JP2001083978A (ja) 音声認識装置
EP3752055B1 (en) Methods for sensing fetal activity
US20240046624A1 (en) Image processing apparatus, image processing method, and recording medium
US20220130137A1 (en) Method and apparatus for searching neural network architecture