JPH0122639B2 - - Google Patents

Info

Publication number
JPH0122639B2
JPH0122639B2 JP55031565A JP3156580A JPH0122639B2 JP H0122639 B2 JPH0122639 B2 JP H0122639B2 JP 55031565 A JP55031565 A JP 55031565A JP 3156580 A JP3156580 A JP 3156580A JP H0122639 B2 JPH0122639 B2 JP H0122639B2
Authority
JP
Japan
Prior art keywords
window
window function
audio signal
value
window length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55031565A
Other languages
English (en)
Other versions
JPS56129000A (en
Inventor
Akihiro Asada
Gichu Oota
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP3156580A priority Critical patent/JPS56129000A/ja
Publication of JPS56129000A publication Critical patent/JPS56129000A/ja
Publication of JPH0122639B2 publication Critical patent/JPH0122639B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、音声分析装置において入力信号の波
形内容に応じて、窓長を可変する窓掛演算装置に
関するものである。
音声信号に含まれる冗長性を除去し、高能率符
号化して、伝送し、この符号化データを復号化
し、元の音声信号を復元する音声分析合成方式の
1つとして、線形予測係数の一種である偏自己相
関係数(PARCOR係数と称す){ki}を用いる
PARCOR分析合成方法がある。
この方法によれば、音声信号は、数+msの短
時間区間に着目すると、ほぼ定常的と見なすこと
ができるとして、この短時間区間の音声信号のス
ペクトル包絡情報として、先述のPARCOR係数
を、短時間区間のフレーム周期ごとに抽出する。
このPARCOR係数{ki}を抽出する方法とし
て、各種提案されているが、最もハードに向いて
いるのが、Le Rouxが提案した音声信号の短時
間区間の自己相関関数{Vτ}τ=0〜pより
PARCOR係数{ki}i=1〜pを抽出する方法
である。この音声信号の短時間区間の自己相関関
数{Vτ}は次のようにして求められる。自己相
関関数{Vτ}とは、時間的に連続する波形の標
本化されたn個の標本化値{Xto+1,Xto+
2,Xto+n}に対して、 Vτ=o-〓 〓t=1 (Xto+t)(Xto+t+τ) ……(1) と定義されるものである。
この標本化数のn個が、前述の短時間区間に対
応するもので、以下、この区間を窓と称し、その
長さ(時間巾)を窓長と称する。
しかし、このように時間的に連続する波形を、
窓で切り出した場合、標本化体Xto+1および
Xto+n付近つまり窓の両端において、波形の不
連続を生ずる。よつて、このように切り出された
標本化値によつて(1)式より得られる自己相関関数
{Vτ}およびこれを用いて得られるPARCOR係
数{ki}は、本来の正しい結果は得られない。こ
れらのことは、時間軸情報(波形)よりスペクト
ル情報(例えばPARCOR係数)を求める、スペ
クトル分析技術においては、周知の事実である。
よつて、上記弊害をさけるために一般的に、ハミ
ング窓、ハニング窓等の窓関数を{Xto+1,
Xto+2…Xto+n}に乗算するのが通例であ
る。これらの窓関数は、窓の両端付近でほぼ零
で、窓の中心付近で1となるような関数である。
こうして、標本化値に前述の窓関数を乗算した
後、得られる自己相関関数{Vτ}は、次のよう
になる。
Vτ=o-〓 〓t=1 (Wt・Xto+t) (Wt+τ・Xto+t+τ) ……(2) ただしXto+t:波形の標本化値 Wt:Xto+tに対する窓関数値 (0≦Wt≦1) また、前述の窓の窓長Wdと、自己相関関数
{Vτ}の抽出周期、つまり、PARCOR係数{ki}
の抽出周期(これをフレーム周期と称す)Tとの
関係はWd>Tとするのが通例である。これは、
仮に、Wd≒Tの場合隣り合う窓の両端におい
て、窓関数値は、ほぼ零となり、この部分の波形
情報が欠陥するためである。
第1図のaは、Wd≒2Tのときの窓長と、フレ
ーム周期との時間関係の様子を示している。この
ようにして、フレーム周期Tごとに、互に重なり
合つた窓より切り出された標本化値より、自己相
関関数{Vτ}を求め、PARCOR係数{ki}を求
めるが、正しいPARCOR係数{ki}を得るため
には、窓長Wdの短時間区間では、入力信号、つ
まり音声信号は、定常時であることが大前提であ
る。音声信号の場合は、人間が、調音器官(声
帯、声道等)を動かして音声を発声しているの
で、これら調音器官の運動速度もそれほど速いも
のではなく、実際の音声信号波形の観測において
も数十msの窓長Wdの短時間区間では大部分は
ほぼ定常的と言える。特に母音の発声時では、こ
の定常性がよく観測される。しかし、この母音に
おいても定常性が言えるのは、立上がり立下がり
言いかえれば、母音の頭の部分と終り部分を除い
た中間部のみであつて、他の部分では、定常的と
は言い難い。窓長Wd内の音声信号がより定常的
となるようにするための一方法は、窓長Wdを、
より小さくすればよくなるが、これによつて同時
に標本化数も比例的に少なくなるので、正確な自
己相関関数{Vτ}およびPARCOR係数{ki}が
得られなくなる。逆に定常的と考えられれば、窓
長Wdは大きいほど正確な値が得られる。また/
Sa/(サ)のように、子音+母音のような音声
の場合に子音と母音の過渡時において窓長Wd内
の音声信号の非定常性が特に多く観測される。
以上の原因で、PARCOR分析・合成方式での
合成音は、分析時に過渡時でのPARCOR係数
{ki}が本来の正しい値が得られないため、品質
劣化となつている。
本発明の目的は、上記した従来技術の欠点を改
善した窓掛演算装置を提供するにある。
PARCOR係数を求める前処理として、音声信
号より、フレーム周期Tごとに、窓長Wdで切り
出された標本化値に窓関数を乗算し、そして、自
己相関関数{Vτ}τ=0〜pを求めるが、音声
信号において、定常的といえる部分に関しては、
窓長Wdは大きい方がよく、過渡的な部分に関し
ては、窓長Wdはより小さい方がPARCOR係数
をより正しく得ることができる。そこで本発明は
定常的といえる部分と、過渡的な部分とを検出
し、これにより、窓長Wdを可変するものであ
る。
本発明は、窓長Wd内の音声信号が非定常とな
る子音と母音との過渡時に着目し、窓長Wdの前
半部と後半部の音声信号より、それぞれ、子音か
母音かを判定し、前、後半ともに等しく、子音あ
るいは母音と判定された場合には、窓長をWdと
し、そうでない場合には、窓長をWd/2にし、
この1/2にした窓長に対応する窓関数を後半部の
音声信号に乗算した後に、自己相関関数{Vτ}
を求めるものである。また、子音か母音かの判定
は一定時間内(窓長Wdの前半部、後半部に対応
し、Wd/2の時間に当る)のゼロクロス数で判
定する。これは、一般に母音に比較し、子音はゼ
ロクロス数が多いことに基づいている。
第1図に、窓長Wdとフレーム周期Tとの関係
がWd=2Tの場合の、前述の窓長の変化の様子を
示す。
第1図のaは、従来技術の窓長Wdとフレーム
周期Tとの時間関係を示したもので、窓長Wdは
常に一定である。第2図のbは、音声信号の1例
を示したもので、母音から子音へ変化し、さらに
母音に変化した例を示している。この第1図bに
示したような音声信号に対して、第1図aのよう
な窓をかけた場合には、窓W3と窓W5では、窓内
に子音の部分と母音の部分が、それぞれ含まれ
る。これによつて、得られた自己相関関数{Vτ}
より求めるスペクトル包絡情報であるPARCOR
係数{ki}は、本来のスペクトル包絡情報とはか
け離れた値となることは明らかである。
これに対し、本発明のアルゴリズムでは、窓の
かけ方は、第1図のcのようになる。
窓長Wdの前半部と後半部の音声信号より、そ
れぞれのゼロクロス数の検出により、前、後半が
ともに、等しく子音、あるいは母音となるのは、
窓W1,W2,W4,W6,W7,W8であり、窓W3
W5では、前、後半が異なり、過渡部分であると
判断される。よつて、この部分では、窓W3、窓
W5は、第1図のcに示すようになる。このよう
に、過渡部分では、窓長Wdを、定常部分での窓
長に対して、半分にすることによつて、
PARCOR係数{ki}の誤まる度合を大巾に低減
することができ、定常部分では従来技術と同じ窓
長Wdになるので、従来技術と同等である。
第2図は、本発明の窓掛演算装置の一実施例で
ある。説明の便宜上、窓長Wdとフレーム周期T
との関係をWd=2Tとし、標本化周期を125μs(標
本化周波数で言えば8KHz)で、Wdを20msとし
ている。第2図において、1は、音声信号(アナ
ログ値)の入力端子、2は音声信号を125μsごと
にデイジタル値に変換するA/D変換器、3は標
本化された音声信号の標本化値を125μsごとに取
り込み、80個(フレーム周期T=10ms区間の標
本化数で、ここでは窓長Wd=20msの1/2時間
区間にも対応する)の標本数を記憶するバツフア
レジスタ、5は窓長Wd(20ms)区間の標本数
160個を記憶するデータレジスタで、巡回型のシ
フトレジスタ構成である。このデータレジスタ5
は、フレーム周期ごとに、つまり、バツフアレジ
スタ3が80個の標本化値を取り込むごとに、この
バツフアレジスタ3の80個のデータを、125μs以
内に取り込む。このときのみスイツチ4は、a側
になつていて、データレジスタ5は、非巡回型の
シフトレジスタ構成になつている。よつて、デー
タレジスタ5は、フレーム周期T(10ms)ごと
にその内容が更新され、前フレームで取り込まれ
た80個のデータと今回のフレームで取り込まれた
80個のデータが記憶されていることになる。9は
窓関数発生装置、6はデータレジスタ5の出力値
(標本化値)とこれに対応する窓関数発生装置9
の出力である窓関数値を乗算する乗算器、7は窓
掛け演算されたデータつまり乗算器6の出力値よ
り、自己相関関数{Vτ}τ=0〜pを演算する
自己相関関数演算部、8は自己相関関数演算部の
出力端子である。10は窓長Wd(20ms)内の
標本化された音声信号、つまりデータレジスタ5
の内容の前半部と後半部よりそれぞれゼロクロス
数を検出し、この検出結果がともに設定値以上か
否かを判定し、さらにこの判定結果が前、後半と
もに等しい場合には、窓長Wdを20msとするよ
うに窓関数発生装置を制御し、そうでない場合に
は窓長を10msとし、この窓長に対応するように
窓関数発生装置を制御し、前述の後半部のデータ
に対し、この10msの窓長に対応する窓関数値を
乗算するように制御する過渡状態検出部である。
ここでは、窓長Wdとフレーム周期TをWd=2T
としているので、過渡状態検出部の入力をバツフ
アレジスタ3の出力より取り込んでいる。
バツフアレジスタ3の80個のデータは、フレー
ム周期(10ms)ごとに125μs内にスイツチ4を
介してデータレジスタ5に転送されると同時に、
過渡状態検出部10にも転送される。この80個の
データより、ゼロクロス検出器10−1で、ゼロ
クロスが検出される。このゼロクロス検出器10
−1の出力は、ゼロクロスの時、例えば論理1と
そうでない場合には論理0となる。ゼロクロスカ
ウンタ10−2は、ゼロクロス検出器10−1の
出力の論理1をカウントする。比較器10−4
は、80個のデータよりカウントしたゼロクロス数
である、ゼロクロスカウンタ10−2の出力値
と、あらかじめ、スレツシユオールド値として設
定した定数値を出力する定数値メモリ10−3の
出力値との大小関係を判定する。この判定結果
(ここでは、判定結果を、ゼロクロスカウンタ1
0−2の出力値の方が大きい場合、論理1とし、
そうでない場合は、論理0とする)は、メモリ1
0−5に記憶されると同時に今までメモリ10−
5に記憶されていた判定結果は、メモリ10−6
に転送され記憶される。このようにフレーム周期
(10ms)ごとに、前述の動作を行なうことによ
つて、メモリ10−5、メモリ10−6には、デ
ータレジスタ5の標本化された音声信号の前半
部、後半部に対応するゼロクロス数のあらかじめ
設定しているスレツシユオールド値に対する大小
関係の判定結果が記憶されることになる。
メモリ10−5には、後半部(時間的に新しい
方)の判定結果が、メモリ10−6には、前半部
(時間的に古い方)の判定結果が記憶されている。
これらメモリ10−5、メモリ10−6の出力値
は、不一致検出器10−7に印加され、メモリ1
0−5とメモリ10−6の出力値が等しいか否か
が検出される。不一致検出器10−7の出力を、
例えば、メモリ10−5とメモリ10−6の出力
値が等しい場合論理0、異なる場合論理1とすれ
ば、この出力がとりもなおさず過渡状態検出部1
0の出力であるので、この出力が論理1の場合に
は、明らかに、データレジスタ5の内容は、前半
部と後半部に波形の性質の異なる音声信号(例え
ば母音と子音)が記憶されていることになる。
この過渡状態検出部の出力信号は、窓関数発生
装置9を次のように制御する。窓関数発生装置9
は、窓長Wd(20ms)、標本化数で言えば160個
に対応する窓関数値W1〜W160の160個のデータ
を記憶する窓関数値メモリ装置9−2と、窓関数
値W1〜W160のどの値を出力かを制御するアドレ
ス制御部9−1からなるROM(Read Only
Memory)構成である。よつて、過渡状態検出部
の出力が論理0(定常であると判断されたとき)
のときデータレジスタ5より、1ステツプごとに
標本化値Xto+1,Xto+2……Xt+160のデー
タが乗算器6の一方の入力端に印加されるのに対
応して、窓関数発生装置9より、窓関数値W1
W2……W160が、乗算器6の他方の入力端に印加
されるようにアドレス制御部9−1を制御する。
これによつて、乗算器6の出力には、窓掛けさ
れた160個のW1Xto+1,W2Xto+2,……
W160Xto+160、のデータが得られる。なお、窓
関数値W1〜W160の値はW1およびW160付近で零
値をとり、W80付近で1の値をとるもので、さら
に、Wi=W161−i(i=1〜80)のように中心よ
り左右対称な形である。よつて、160個のW1Xto
+1〜W160Xto+160のデータより、窓長Wd(20
ms)に対応する自己相関関数を、自己相関関数
演算部7で求めることができる。
次に、過渡状態検出部10の出力が論理1(定
常ではないと判断されたとき)のとき、この信号
はアドレス制御部9−1を次のように制御する。
データレジスタ5より1ステツプごとに標本値化
Xto+1,Xto+2……Xto+160のデータが乗算
器6の一方の入力端に印加されるのに対応して、
窓関数発生装置9の出力は、最初のXto+1,
Xto+2……Xto+80の前半部と称している80個
のデータに対しては、窓関数値として、零値を対
応させる。ここでは、窓関数値W1(=0)をXto
+1〜Xto+80に対して対応させる。そして後半
部と称しているXto+81,Xto+82,……Xto+
160のデータに対しては、W2,W4,W6,W8
……W158,W160の窓関数値を対応させる。こう
することによつて、後半部のデータに対してのみ
窓がかけられる。前半部のデータは零値が乗算さ
れるのでこの結果が自己相関関数演算部に入力さ
れても、乗算結果が零であるので、後半部に対す
る自己相関関数を求めるのに影響はない。
以上第2図の実施例では、Wd=2Tとしている
ので、過渡状態検出部10の入力信号をバツフア
レジスタ3の出力より取り込んだが、データレジ
スタ5の出力より取り出し、このデータレジスタ
の内容を一巡させて前半部、後半部の音声信号の
性質の異いつまり過渡状態であるか否かを、検出
しても可能なことは言うまでもない。
自己相関関数演算部7は、乗算器6の出力信号
a1,a2……a160に対して Vτ=160-〓 〓i=1 ai・ai+τ ……(3) ただしτ=0〜p の演算を行ない、自己相関関数{Vτ}τ=0〜
pを求める。
本発明によつて、過渡部における、PARCOR
係数の抽出精度の劣化を改善することができる。
なお、本発明の実施例ではPARCOR係数を求め
る場合について説明したが、フーリエ変換等によ
つてスペクトル情報を抽出する装置においても、
本発明を適用できることは言うまでもない。
【図面の簡単な説明】
第1図は音声入力信号に対する従来の窓長Wd
とフレーム周期Tとの時間関数と本発明での窓長
Wdとフレーム周期Tとの時間関数を示す波形図
である。第2図は、本発明の窓掛演算装置の一実
施例を示すブロツク図である。 1……入力端子、2……A/D変換器、3,5
……レジスタ、6……乗算器、7……自己相関関
数演算部、9……窓関数発生装置、10……過渡
状態検出部、8……出力端子。

Claims (1)

  1. 【特許請求の範囲】 1 音声信号より周期ごとに窓長で切り出された
    標本化値に、窓長に対応する窓関数を乗算する窓
    掛演算装置において、前記音声信号のうち定常的
    な部分に対する過渡的な部分を検出する波形検出
    手段と、該波形検出手段の結果に応じて、前記音
    声信号の定常的な波形の部分ではその標本化値に
    長い窓長を有する第1の窓関数を乗算し、前記音
    声信号の過渡的な波形の部分ではその標本化値に
    短い窓長を有する第2の窓関数を乗算する窓関数
    乗算手段とからなることを特徴とする窓掛演算装
    置。 2 前記波形検出手段は、窓長で切り出された音
    声信号の標本化値より該音声信号のゼロクロス数
    を計数するゼロクロスカウンタと、該ゼロクロス
    カウンタの出力値とあらかじめ設定された設定値
    との大小関係を検出する比較器と、窓長で切り出
    された該音声信号の前半部の標本化値から得られ
    る前記ゼロクロスカウンタの出力値に対する前記
    比較器の出力値を記憶する第1のメモリ装置と、
    窓長で切り出された該音声信号の後半部の標本化
    値から得られる前記ゼロクロスカウンタの出力値
    に対する前記比較器の出力値を記憶する第2のメ
    モリ装置とから成り、前記第1及び第2のメモリ
    装置の出力値が等しい場合には、音声信号の定常
    的な波形の部分であるとして窓関数乗算手段は標
    本化値に第1の窓関数を乗算し、前記第1及び第
    2のメモリ装置の出力値が異なる場合には、音声
    信号の過渡的な波形の部分であるとして窓関数乗
    算手段は標本化値に第2の窓関数を乗算すること
    を特徴とする特許請求の範囲第1項記載の窓掛演
    算装置。 3 前記窓関数乗算手段は、前記波形検出手段の
    結果に応じて、第1の窓関数あるいは第2の窓関
    数を出力する窓関数発生装置と、該窓関数発生装
    置より出力された第1あるいは第2の窓関数と音
    声信号とを乗算する乗算器とから成ることを特徴
    とする特許請求の範囲第1項または第2項記載の
    窓掛演算装置。
JP3156580A 1980-03-14 1980-03-14 Wind hanging calculator Granted JPS56129000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3156580A JPS56129000A (en) 1980-03-14 1980-03-14 Wind hanging calculator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3156580A JPS56129000A (en) 1980-03-14 1980-03-14 Wind hanging calculator

Publications (2)

Publication Number Publication Date
JPS56129000A JPS56129000A (en) 1981-10-08
JPH0122639B2 true JPH0122639B2 (ja) 1989-04-27

Family

ID=12334697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3156580A Granted JPS56129000A (en) 1980-03-14 1980-03-14 Wind hanging calculator

Country Status (1)

Country Link
JP (1) JPS56129000A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60102698A (ja) * 1983-11-09 1985-06-06 日本電気株式会社 ピツチ抽出装置
JPH0756599B2 (ja) * 1986-05-31 1995-06-14 沖電気工業株式会社 音声フアイル作成方法
JP2588963B2 (ja) * 1989-03-07 1997-03-12 日本電信電話株式会社 音声合成装置
JP4890792B2 (ja) * 2005-06-09 2012-03-07 隆 中山 音声認識方法

Also Published As

Publication number Publication date
JPS56129000A (en) 1981-10-08

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
EP1380029B1 (en) Time-scale modification of signals applying techniques specific to determined signal types
Chi et al. Subglottal coupling and its influence on vowel formants
JPS597120B2 (ja) 音声分析装置
US20110246205A1 (en) Method for detecting audio signal transient and time-scale modification based on same
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JPH0122639B2 (ja)
McKenna Automatic glottal closed-phase location and analysis by Kalman filtering
JP2940835B2 (ja) ピッチ周波数差分特徴量抽出法
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JPS5972500A (ja) 音声認識方式
Yadav Detection of vowel transition regions from Hindi language
JPH07295588A (ja) 発話速度推定方法
JPS6220560B2 (ja)
JP2580768B2 (ja) 音声認識装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JP3125928B2 (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
KR100211965B1 (ko) 유성음 구간에서 피치동기식 포먼트 추정방법
JPH0398098A (ja) 音声認識装置
Jo et al. Improved glottal closure instant detector based on linear prediction and standard pitch concept
JPS6155700A (ja) ピッチ抽出処理方式
JPH11338496A (ja) 話速変換方法および話速変換処理プログラムを記録した記録媒体
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置