JPS5848117B2 - 音声分析方式 - Google Patents
音声分析方式Info
- Publication number
- JPS5848117B2 JPS5848117B2 JP54161723A JP16172379A JPS5848117B2 JP S5848117 B2 JPS5848117 B2 JP S5848117B2 JP 54161723 A JP54161723 A JP 54161723A JP 16172379 A JP16172379 A JP 16172379A JP S5848117 B2 JPS5848117 B2 JP S5848117B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- pitch
- significant peak
- mask
- peak positions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 24
- 230000001747 exhibiting effect Effects 0.000 claims description 5
- 239000011295 pitch Substances 0.000 claims 24
- 229910003460 diamond Inorganic materials 0.000 description 57
- 239000010432 diamond Substances 0.000 description 57
- 230000006870 function Effects 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101150029975 MPM1 gene Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
- Complex Calculations (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の詳細な説明】
本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル或分を求め、かつ各時間区分
に前記スペクトルにおける有意ピークの位置を前記連続
スペクトル戊分から導出することによって音声信号の振
幅スペクトルを分析する形式の音声分析方式に関するも
のである。
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル或分を求め、かつ各時間区分
に前記スペクトルにおける有意ピークの位置を前記連続
スペクトル戊分から導出することによって音声信号の振
幅スペクトルを分析する形式の音声分析方式に関するも
のである。
有意ピーク位置は音声分析方式における音声信号のピッ
チを求めるためのつぎの段に対する入力データを構成す
る。
チを求めるためのつぎの段に対する入力データを構成す
る。
FFT一変換(高速フーリエ変換)を利用する上述した
種類の音声分析方式は、rIEEE Tra−nsac
tions on Acoustics , Spee
ch andSignal Processing
J (Vol. ASSP,44 ,1978年8月
第358〜365頁)に記載されている。
種類の音声分析方式は、rIEEE Tra−nsac
tions on Acoustics , Spee
ch andSignal Processing
J (Vol. ASSP,44 ,1978年8月
第358〜365頁)に記載されている。
この場合には音声信号のピッチを振幅スペクトルにおけ
るピーク間の間隔から求めている。
るピーク間の間隔から求めている。
音声信号のピッチは高調波間の間隔に関連するのではな
く、集合振動モードの高調波或分の周期性に関連するの
であることは、文献「PhilipsTechncel
Review J (Vol . 5 , AI
0 ,1940年10月第286頁〜294頁)に既に
示されている。
く、集合振動モードの高調波或分の周期性に関連するの
であることは、文献「PhilipsTechncel
Review J (Vol . 5 , AI
0 ,1940年10月第286頁〜294頁)に既に
示されている。
1956年にアムステルダム大学Oこで発表されたE.
de Boerによる論文「On the ”re
−sidue in hearingJでは、m .
s . e . (mean−square − er
ror)基準を用いて、基本音(トーン)に最も近い高
調波の数である所謂「高調波の数」が判っている連続ス
ペクトル或分に関連するピッチの有望値を求めている。
de Boerによる論文「On the ”re
−sidue in hearingJでは、m .
s . e . (mean−square − er
ror)基準を用いて、基本音(トーン)に最も近い高
調波の数である所謂「高調波の数」が判っている連続ス
ペクトル或分に関連するピッチの有望値を求めている。
「The Journal of the Acous
tic So−ciety of America J
(Vol. 5 4 , A 6 ,1973年6月
第1496〜1516頁)には、上述したm.s.e.
基準およびこの文献に開示され、かつ精神物理現象に基
いている「最大見込み」基準が音声信号のピッチに関し
て同じ評価となることが示されている。
tic So−ciety of America J
(Vol. 5 4 , A 6 ,1973年6月
第1496〜1516頁)には、上述したm.s.e.
基準およびこの文献に開示され、かつ精神物理現象に基
いている「最大見込み」基準が音声信号のピッチに関し
て同じ評価となることが示されている。
電話線の如き音源から到来する音声信号の分析に当って
は、基本トーンそのものが存在しないと云う問題が生ず
るだけではなく、雑音戊分が導入され、これが音声信号
のピッチ測定結果に著しく悪影響を及ぼすと云う問題も
生ずる。
は、基本トーンそのものが存在しないと云う問題が生ず
るだけではなく、雑音戊分が導入され、これが音声信号
のピッチ測定結果に著しく悪影響を及ぼすと云う問題も
生ずる。
本発明の目的は、雑音信号の存在に対して感応せず、し
かも考えられる凡ゆる連続的な高調波数に対して誤差を
計算する場合よりも計算回数が少なくて済む音声信号の
ピッチ測定用音声分析方式を提供せんとするにある。
かも考えられる凡ゆる連続的な高調波数に対して誤差を
計算する場合よりも計算回数が少なくて済む音声信号の
ピッチ測定用音声分析方式を提供せんとするにある。
本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル戊分を求め、かつ各時間区分
に前記スペクトルにおける有意ピーク位置を前記連続ス
ペクトル或分から導出することによって音声信号の振幅
スペクトルを分析する音声分析方式lこおいて、該音声
分析方式を、一ピッチに対する値を選定し、この選定値
を順次整数倍する順序を決め、前記選定値の近くおよび
該選定値の倍数値近くにおけるスペクトルの間隔を定め
、これらの間隔によってマスクのアパーチャ、特にアパ
ーチャの間隔を定め、前記選定値の倍数値における乗算
係数に相当する高調波の涸数をマスクのアパーチャに関
連させる工程と、一マスクのアパーチャと一致する有意
ピーク位置を決定する工程と、 一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、 一連続的に高くなるピッチの値に対して、そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、 一最高の音質指数を呈し、該最高音質指数に関連するマ
スクが基準マスクとなるピッチの値を選定する工程と、 一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の1同数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、 ーピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程 とを具えていることを特徴とする。
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル戊分を求め、かつ各時間区分
に前記スペクトルにおける有意ピーク位置を前記連続ス
ペクトル或分から導出することによって音声信号の振幅
スペクトルを分析する音声分析方式lこおいて、該音声
分析方式を、一ピッチに対する値を選定し、この選定値
を順次整数倍する順序を決め、前記選定値の近くおよび
該選定値の倍数値近くにおけるスペクトルの間隔を定め
、これらの間隔によってマスクのアパーチャ、特にアパ
ーチャの間隔を定め、前記選定値の倍数値における乗算
係数に相当する高調波の涸数をマスクのアパーチャに関
連させる工程と、一マスクのアパーチャと一致する有意
ピーク位置を決定する工程と、 一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、 一連続的に高くなるピッチの値に対して、そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、 一最高の音質指数を呈し、該最高音質指数に関連するマ
スクが基準マスクとなるピッチの値を選定する工程と、 一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の1同数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、 ーピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程 とを具えていることを特徴とする。
最高の音質指数を有しているピッチの値を用いて実際の
ピッチの値を概算することもでき、この場合には上述し
た方法における最後の3つの行程を1行程に減らすこと
ができる。
ピッチの値を概算することもでき、この場合には上述し
た方法における最後の3つの行程を1行程に減らすこと
ができる。
しかしこれよりも正確な概算は最終工程にm.s.e.
基準を用いる最善策を利用して得ることができる。
基準を用いる最善策を利用して得ることができる。
図面につき本発明を説明する。
本発明による音声分析方式では、振幅スペクトルの流れ
画像を作る音声信号の所謂「短時間」振幅スペクトルを
形成するのが第1目的である。
画像を作る音声信号の所謂「短時間」振幅スペクトルを
形成するのが第1目的である。
持続時間が40msの時間区分は標本化音声信号から取
り出す。
り出す。
この機能を第1図に40msにて表わしてあるブロック
10によって示す。
10によって示す。
各音声信号セグメントに所謂「ハミング窓1を乗算する
つぎの操作(演算)の機能をWNDWで表わしてあるブ
ロック11によって示す。
つぎの操作(演算)の機能をWNDWで表わしてあるブ
ロック11によって示す。
その後、音声信号セグメントのサンプルをDFTにて表
わすブロック12によって示すように、256の点でフ
ーリエ変換する。
わすブロック12によって示すように、256の点でフ
ーリエ変換する。
つぎの操作では、DFTによって発生した256涸の実
数および虚数値から128涸のスペクトル或分の振幅を
求める。
数および虚数値から128涸のスペクトル或分の振幅を
求める。
これらのスペクトル或分からはスペクトルにおけるピー
ク位置を表わす有意ピーク位置Xiを導出する。
ク位置を表わす有意ピーク位置Xiを導出する。
これらの機能をDRVxiにて表わすブロック13にて
示す。
示す。
つぎの処理工程ではブロック14によって示すようにピ
ッチの値をF8とする。
ッチの値をF8とする。
ついで、この初期値の近くおよびこの初期値に連続した
整数を掛けた複数涸の倍数値の近くにおけるスペクトル
の間隔(インターバル)ヲ定メる。
整数を掛けた複数涸の倍数値の近くにおけるスペクトル
の間隔(インターバル)ヲ定メる。
これらの間隔はマスクにおけるアパーチャと見なされ、
この場合、アパーチャと一致する周波数値Xiの戊分が
マスクを通過する。
この場合、アパーチャと一致する周波数値Xiの戊分が
マスクを通過する。
この概念におけるマスクは周波数値に対する一種の「ふ
るい」として作用する。
るい」として作用する。
これらの操作をMSKにて表わすブロック15にて示す
。
。
高調波の1同数として示され、しかも選定ピッチの値の
倍数値に該当する乗算係数に相当する数はマスクのアパ
ーチャに関連させる。
倍数値に該当する乗算係数に相当する数はマスクのアパ
ーチャに関連させる。
有意ピーク位置Xiとマスクのアパーチャとが整合する
度合をつぎの操作で求める。
度合をつぎの操作で求める。
マスクを通過する有意ピーク位置が殆どない場合には、
整合度が当然劣る。
整合度が当然劣る。
また、マスクを多数のピーク位置が48するも、マスク
のアパーチャが有意ピーク位置になくて、マスクの多数
のアパーチャが有意ピーク位置を通さない場合にも整合
度は劣る。
のアパーチャが有意ピーク位置になくて、マスクの多数
のアパーチャが有意ピーク位置を通さない場合にも整合
度は劣る。
後に詳述するように、適当な判定基準を求めて、整合度
を音質指数(quality figure)にて表わ
すことができる。
を音質指数(quality figure)にて表わ
すことができる。
ここではマスクに対して適当な音質指数を計算すれば十
分である。
分である。
この操作をQLTにて表わすブロック16にて示す。
判定ダイアモンド17ではピッチに対する選定値F5が
所定の最大値以下、すなわちF,〈MSであるか否かを
チェックする。
所定の最大値以下、すなわちF,〈MSであるか否かを
チェックする。
F5<MSの場合には、ダイヤモンド17のY一枝路が
ブロック15へのループ18を辿る。
ブロック15へのループ18を辿る。
このループではF,の値を所定の方法で所定量だけ、ま
たは所定の割り合?だけ高める。
たは所定の割り合?だけ高める。
この機能をNCR F,にて表わすブロック19にて示
す。
す。
判定ダイヤモンド17の存在によりブロック15および
16にて表わされる操作は F5が最大値MXに達する
までF8の新しい値に対して常時連続的に繰り返される
。
16にて表わされる操作は F5が最大値MXに達する
までF8の新しい値に対して常時連続的に繰り返される
。
F5が最大値MXに達すると、N一枝路が有効となり、
ループ18は外される。
ループ18は外される。
本発明による音声分析方式のつぎの操作は、マスクまた
は音質指数が最高値を呈するピッチの値F8を選定する
ことである。
は音質指数が最高値を呈するピッチの値F8を選定する
ことである。
この機能をSLCTF8にて表わすブロック20にて示
す。
す。
本発明音声分析方式ではその後、選定値F,から出発し
ている音声セグメントのピッチを2工程で概算する。
ている音声セグメントのピッチを2工程で概算する。
このピッチの値に基準マスクとなるマスクを関連させる
。
。
ピッチを求める処理における上記2つの工程の機能をS
TM Fにて表わすブロック21にて示してあり、こ
のブロックの出力枝路はピッチの概算値令○を供給する
。
TM Fにて表わすブロック21にて示してあり、こ
のブロックの出力枝路はピッチの概算値令○を供給する
。
上′記2工程における最初の工程では、基準マスクのア
パーチャに属する高調波の涸数をこれらのマスクアパー
チャに一致している有意ピーク位置Xiに関連させる。
パーチャに属する高調波の涸数をこれらのマスクアパー
チャに一致している有意ピーク位置Xiに関連させる。
ついで、これらの各ピーク位置X・によって高調波の数
会iを得て、これにより同l 一基本トーンの連続高調波におけるピーク位置の所在を
定める。
会iを得て、これにより同l 一基本トーンの連続高調波におけるピーク位置の所在を
定める。
ピツチF の有望値(probable valus
)、すなわち令とは、上記最後に述べた有意ピーク位置
X・とその有望値の対応する倍数令i−令。
)、すなわち令とは、上記最後に述べた有意ピーク位置
X・とその有望値の対応する倍数令i−令。
との間I
の偏差をできるだけ小さくした値であると定義すること
ができる。
ができる。
斯る偏差を求めるのにm.s.e.八
判定基準(不偏分散誤差)を用いる場合には、Foを次
式によって計算することができる。
式によって計算することができる。
上式における和分法は基準マスクのアパーチャと一致す
るすべての有意ピーク位置に及ぶものであり、上記有意
ピーク位置の数をKにて示す。
るすべての有意ピーク位置に及ぶものであり、上記有意
ピーク位置の数をKにて示す。
基準マスクに関連するピッチの値は、既に求めたピッチ
の最初の概算値であることは明らかである。
の最初の概算値であることは明らかである。
この概算値を用いる場合には、上述した処理工程におけ
る最後の3つの工程は実際上1工程に減らすことができ
る。
る最後の3つの工程は実際上1工程に減らすことができ
る。
しかし上式(1)を利用することにより極めて正確な概
算値を得ることができる。
算値を得ることができる。
本発明による音声分析方式における幾つかの操作は汎用
コンピュータのソフトウエアで行うことができる。
コンピュータのソフトウエアで行うことができる。
他の操作は外部ハードウエアの使用により促進させるこ
とができる。
とができる。
第2図は第1図のブロック13にて行う有意ピーク位置
Xiを決定する機能の流れ図を示す。
Xiを決定する機能の流れ図を示す。
第2図のブロック22,23および24は第1図に示す
ブロック10,11および12にそれぞれ対応するもの
である。
ブロック10,11および12にそれぞれ対応するもの
である。
MPにて表わしてあるブロック25は第1図のブロック
13における音声スペクトル或分の振幅決定機能を示す
。
13における音声スペクトル或分の振幅決定機能を示す
。
ブロック22〜25の機能は既知の構戒部品を用いてハ
ードウエアで実現することができる。
ードウエアで実現することができる。
ブロック25以降の処置は汎用コンピュータのソフトウ
エアによって行う。
エアによって行う。
入力データによってコンピュータはブロック26にて示
すような振幅スペクトルの戊分AF(r),r−1,・
・・,128を受信する。
すような振幅スペクトルの戊分AF(r),r−1,・
・・,128を受信する。
ノレーチンに対する初期値としてr=2およびN=0と
設定する。
設定する。
この機能をブロック27にて表わす。
スペクトル或分AF(2)で出発して、このスペクトル
或分が前のスペクトル或分AF(1)よりも大きいか、
または等しいかを調べると共に、スペクトル戒分AF(
2)がつぎのスペクトル或分AF(3)よりも大きいか
否かを調べる。
或分が前のスペクトル或分AF(1)よりも大きいか、
または等しいかを調べると共に、スペクトル戒分AF(
2)がつぎのスペクトル或分AF(3)よりも大きいか
否かを調べる。
この機能を判定ダイヤモンド28にて示す。
スペクトル或分が局部的最大値をとる場合にはダイヤモ
ンド28のY−枝路を辿るようにする。
ンド28のY−枝路を辿るようにする。
ダイヤモンド28のN一枝路はブロック29に至り、こ
のブロックではrを1だけ高める必要がある。
のブロックではrを1だけ高める必要がある。
その後、判定ダイヤモンド30にてrが127よりも太
きいか、または127に等しくなったかを調べる。
きいか、または127に等しくなったかを調べる。
r乏1 2 7が或立しない限り、ダイヤモンド28へ
のループ31が形成される。
のループ31が形成される。
従って、ダイヤモンド28の機能は新規のrの値で繰り
返される。
返される。
判定ダイヤモンド28のY一枝路は判定ダイヤモンド3
2に至り、ここではスペクトル成分A F (r)が限
界値THD以上であるかどうかを調べる。
2に至り、ここではスペクトル成分A F (r)が限
界値THD以上であるかどうかを調べる。
限界値以下の場合にはN一枝路が有効となり、rの新規
の値が127である限りはブロック29および30を経
てループ31がルーチンに加わる。
の値が127である限りはブロック29および30を経
てループ31がルーチンに加わる。
限界値THDは量子化および「ハミング窓」に起因する
雑音レベルによって決まる絶対値によって先ず最初に設
定する。
雑音レベルによって決まる絶対値によって先ず最初に設
定する。
ついで、限界値THDの一部分を可変として、或るスペ
クトル或分に隣接するスペクトル或分の振幅が非常に大
きい場合に、上記或るスペクトル成分を隣接するスペク
トル成分によってマオクし得るようにする。
クトル或分に隣接するスペクトル或分の振幅が非常に大
きい場合に、上記或るスペクトル成分を隣接するスペク
トル成分によってマオクし得るようにする。
この効果は人間の聴覚に現われ、これはピッチを認知す
る上で重要なファクターである。
る上で重要なファクターである。
判定ダイヤモンド32のY一枝路を辿る場合には、値A
F(r−1)と、AP(r)と、AP ( r+1 )
との間にて二次多項式(放物補間法)の補間法を用いて
、振幅スペクトルの局部最大値の振幅および周波数を決
定する操作を行う。
F(r−1)と、AP(r)と、AP ( r+1 )
との間にて二次多項式(放物補間法)の補間法を用いて
、振幅スペクトルの局部最大値の振幅および周波数を決
定する操作を行う。
この機能をNTRPにて表わすブロック33にて示す。
つぎの操作は局部最大値付近における振幅スペクトルの
形状を試験することに関連するものである。
形状を試験することに関連するものである。
斯る振幅スペクトルの形状は前の操作で見られた二次多
項式(放物線)によって省略算される。
項式(放物線)によって省略算される。
局部最大値付近の振幅スペクトルの形状はスペクトル或
分AF(r−2)およびAF(r+2)と放物線上に位
置するこれらのスペクトル或分の期待値との差を見つけ
て試験する。
分AF(r−2)およびAF(r+2)と放物線上に位
置するこれらのスペクトル或分の期待値との差を見つけ
て試験する。
m.s.e(不偏分散誤差)が予定値以下の時には局部
最大値を正刑なものと見なす。
最大値を正刑なものと見なす。
このように、局部最大値付近の振幅スペクトルの形状を
試験する機能をSHPにて表わす判定ダイヤモンド34
にて示す。
試験する機能をSHPにて表わす判定ダイヤモンド34
にて示す。
、上記局部最大値付近の振幅スペクトルの形状が判定基
準を満足しない場合には、N一枝路が有効となり、ルー
プ31がブロック29および30を経てダイヤモンド2
8に入る。
準を満足しない場合には、N一枝路が有効となり、ルー
プ31がブロック29および30を経てダイヤモンド2
8に入る。
ついで判定ダイヤモンド28のルーチンが新規のrの値
で繰り返される。
で繰り返される。
局部最大値付近の振幅スペクトルの形状が所定条件を満
足すると、判定ダイヤモンド34のY−枝路が有効とな
り、Nの値を1だけ高くするブロック35がルーチンに
入る。
足すると、判定ダイヤモンド34のY−枝路が有効とな
り、Nの値を1だけ高くするブロック35がルーチンに
入る。
その後判定ダイヤモンド36に入る。
Nが所定値、例えば本例の方式の場合6以下の場合には
N一枝路が有効となり、ブロック29と30を通るルー
プ31がルーテンに加わる。
N一枝路が有効となり、ブロック29と30を通るルー
プ31がルーテンに加わる。
振幅スペクトルの局部最大値に対する探索は上述した6
涸以上の有意ピーク位置Xiが定まらない限り継続する
。
涸以上の有意ピーク位置Xiが定まらない限り継続する
。
6閘以上の有意ピーク位置が定まると直ちに判定ダイヤ
モンド36のY一枝路が有効となり、有意ピーク位置X
tが出力される(ブロック37)。
モンド36のY一枝路が有効となり、有意ピーク位置X
tが出力される(ブロック37)。
第2図に示すルーチンにより発生された有意ピーク位置
Xiは第3図に示すルーチンに対する入力データとなる
。
Xiは第3図に示すルーチンに対する入力データとなる
。
第3図はマスク概念を用いてピッチの有望値を決定する
プログラムの流れ図を示すものである。
プログラムの流れ図を示すものである。
このプログラムは入力データによってブロック38にて
示すように、有意ピーク位置xi,i=1,・・・,N
を受信する。
示すように、有意ピーク位置xi,i=1,・・・,N
を受信する。
これらの有意ピーク位置は或分として示されるものであ
る。
る。
ピツチfQの初期値としてf。
=Oとし、また変数Cを最大値に設定(ブロック39)
する。
する。
有意ピーク位置として要求される或分の数Nが1以下(
ダイヤモンド40)の場合にはルーチンが外され、値f
。
ダイヤモンド40)の場合にはルーチンが外され、値f
。
一〇が導出される。(ブロック41)。
1個以上の或分が導入される場合にはルーチンが継続す
る。
る。
前の動作と同様に、マスクの数を示す変数lをA=1に
設定する(ブロック42)。
設定する(ブロック42)。
ついでピツチf。
lの値を明細に定めると共に、幾つかの変数を初期値に
設定する(ブロック43)つぎの操作(ブロック44)
では、或分XnにA 関連する高調波の数が”Vkの第1威分x1で出発して
ピッチの概算を行い、この値を最も近い整数mAk に
丸める。
設定する(ブロック43)つぎの操作(ブロック44)
では、或分XnにA 関連する高調波の数が”Vkの第1威分x1で出発して
ピッチの概算を行い、この値を最も近い整数mAk に
丸める。
mlkが11以上(判定ダイヤモンド45)の場合には
プログラムの大部分はスキツプされる。
プログラムの大部分はスキツプされる。
その理由は本発明による音声分析方式では11以上の高
い数の高調波をピッチの決定操作に含ませないからであ
る。
い数の高調波をピッチの決定操作に含ませないからであ
る。
その後、mlkの値がOになったかどうかをチェックす
る(判定ダイヤモンド46)。
る(判定ダイヤモンド46)。
mAkがOでない場合には或分Xiがマスク(このマス
クのピッチはf。
クのピッチはf。
lである)のアパーチャに落下するかどうかをチェック
する。
する。
基本トーンf。lに関する最も近い高調波に対するxn
の相対偏差が所定の割合い以下、本発明方式では5%以
下の場合には、Xiはマスクのアパーチャ内に位置され
るものと見なす(判定ダイヤモンド47)。
の相対偏差が所定の割合い以下、本発明方式では5%以
下の場合には、Xiはマスクのアパーチャ内に位置され
るものと見なす(判定ダイヤモンド47)。
或分xnがマスクのアパーチャ内に位置する場合には、
判定ダイヤモンド47のN一枝路が有効となる。
判定ダイヤモンド47のN一枝路が有効となる。
その後、シーケンスffl73 1の最初の高調波の数
が7以上であるかどうかをチェックする(判定ダイヤモ
ンド48)。
が7以上であるかどうかをチェックする(判定ダイヤモ
ンド48)。
7以上の場合にはプログラムの一部をスキツプさせる。
その理由は、本発明音声分析方式では斯様に7以上の高
調波数で開始させるシーケンスをピッチ決定操作に含ま
せないからである。
調波数で開始させるシーケンスをピッチ決定操作に含ま
せないからである。
最低高調波数が7以下か、または7に等しい場合には判
定ダイヤモンド48のN一枝路が有効となり、判定ダイ
ヤモンド49がルーチンに加わる。
定ダイヤモンド48のN一枝路が有効となり、判定ダイ
ヤモンド49がルーチンに加わる。
つぎの操作はmlkの値に対し、この値が以前に求めた
値m,H, ( K+ 1 = k )と同じ値である
かをチェックすることであり、K:1の場合にrn71
1の値を先に設定したmloと比較する。
値m,H, ( K+ 1 = k )と同じ値である
かをチェックすることであり、K:1の場合にrn71
1の値を先に設定したmloと比較する。
この場合にはマスクの同じアパーチャに2つの或分が存
在するっ本発明による音声分析方式ではアパーチャの中
心に最も近い或分だけを考慮し、他の或分は考慮しない
ものとする。
在するっ本発明による音声分析方式ではアパーチャの中
心に最も近い或分だけを考慮し、他の或分は考慮しない
ものとする。
変数Kによってアパーチャ内に位置する戊分の数を数え
る。
る。
mAkが”Vk以上(判定ダイヤモンド49)の時には
Kを後に1だけ高める(ブロック52)。
Kを後に1だけ高める(ブロック52)。
A
しかし、mlkがmAk以下の時には、値mlkお八
よびmAkのどの値に対して最小偏差がアパーチャの中
心に対し発生するかを求める(判定ダイヤモンド50)
。
心に対し発生するかを求める(判定ダイヤモンド50)
。
値mAkに対して最小偏差が生ずる場合にはmAkはm
7kに等しいものとする(ブロック51)。
7kに等しいものとする(ブロック51)。
他の場合にはmAkを不変とする。倒れの場合でもKは
増大させないようにする。
増大させないようにする。
プログラムが判定ダイヤモンド46のY一枝路、判定ダ
イヤモンド47のY一枝路または判定ダイヤモンド50
のN一枝路を辿る時か、或いはブロック51または52
の操作後にはnの値を1だけ高める(ブロック53)。
イヤモンド47のY一枝路または判定ダイヤモンド50
のN一枝路を辿る時か、或いはブロック51または52
の操作後にはnの値を1だけ高める(ブロック53)。
変数nは要求される或分Xiを数え、nが要求された威
分の総数よりも小さい(判定ダイヤモンド54)時には
ループ55を導入させる。
分の総数よりも小さい(判定ダイヤモンド54)時には
ループ55を導入させる。
これにより再び上述したルーチンを新規のnの値につい
てブロック44で開始させる。
てブロック44で開始させる。
このようにして凡ゆるNの或分Xiにつきルーチンを繰
り返す。
り返す。
nがN以上になると、判定ダイヤモンド54のY一枝路
を辿る。
を辿る。
その後、指数lのマスクについ・て、当面の戊分Nlの
数をNに等しくする(プロツク56)。
数をNに等しくする(プロツク56)。
プログラムが判定ダイヤモンド45のY一枝路を辿る時
はNlはnに等しく設定する(ブロック57)。
はNlはnに等しく設定する(ブロック57)。
1以上の高い指数値の戊分Xtは11以上の概算高調波
の数となる。
の数となる。
これらの戊分はピッチの値を求めるのには考慮しない。
本発明による音声分析方式ではマスクが111固のアパ
ーチャを有しており、マスクの外に位置する或分Xiは
ピッチの決定には考慮しないものとする。
ーチャを有しており、マスクの外に位置する或分Xiは
ピッチの決定には考慮しないものとする。
つぎの操作は要求された戊分Xiの内の少なくとも半分
の或分がマスクを通過するかどうかをチェックする(判
定ダイヤモンド58)ことである。
の或分がマスクを通過するかどうかをチェックする(判
定ダイヤモンド58)ことである。
このことはN 1 = 0の場合を除いては左程厳しい
要求ではない。
要求ではない。
つぎの操作は戊分Xiとマスクのアパーチャとが互いに
整合する度合いを示す音質指数Qを計算することである
。
整合する度合いを示す音質指数Qを計算することである
。
音質指数は要求戊分Xiのシーケンスおよびマスクアパ
ーチャのシーケンスを多次元空間にてベクトル化して導
出することができ、これらのベクトルを軸線上に投影し
た値はOか1である。
ーチャのシーケンスを多次元空間にてベクトル化して導
出することができ、これらのベクトルを軸線上に投影し
た値はOか1である。
ベクトル間の距離は戊分Xiとマスクとが互いに整合す
る度合いを示す。
る度合いを示す。
この場合音質指数は上記ベクトル間の距離の逆数として
計算することができる。
計算することができる。
距離が極小となる場合に音質指数が極小となったり、そ
の逆となったりする他の式を上記距離と置換することも
できる。
の逆となったりする他の式を上記距離と置換することも
できる。
基本的には距離Dを次式によって表わすことができる。
ここにNは成分X,の数を表わし、Mはマスクのア1
パーチャの数、Kはマスクアパーチャ内に位置する或分
の数である。
の数である。
音質指数Qは次式のように表わすことができる。
によって除算することによって正規化することができる
。
。
これにより音質指数はつぎのようになる。
基本的な演算より明らかなように、次式、すなわち
に基ず<Q’の値が最大値にある時、音質指数Qは式(
5)に基いて最大値を呈する。
5)に基いて最大値を呈する。
この場合QはQ′と置換えることができる。
他の音質指数は21固のベクトル間の角度に基いて求め
られ、 に基ずくQ“が最犬値である時に2つのベクトル間の角
度が最小となることは明らかである。
られ、 に基ずくQ“が最犬値である時に2つのベクトル間の角
度が最小となることは明らかである。
マスクの外側に落ちる或分Xiはマスクの基本トーンに
関連する高調波を有するも、これらの或分XiはKの値
には寄与しない。
関連する高調波を有するも、これらの或分XiはKの値
には寄与しない。
前記Qに対する式におけるNの値をマスクの範囲内に位
置する戊分の数を示すNlに置換えることにより、より
一層好適な音質指数が得られるようになる。
置する戊分の数を示すNlに置換えることにより、より
一層好適な音質指数が得られるようになる。
マスクのアパーチャが要求戊分Xiの範囲以外に落ち、
従ってマスクを通過する或分がないことも起り得る。
従ってマスクを通過する或分がないことも起り得る。
このような場合には、Qの式におけるMを”Vkに置換
えて音質指数を補正することができ、mlkは或る或分
を通過させるアパーチャの最高1固数である。
えて音質指数を補正することができ、mlkは或る或分
を通過させるアパーチャの最高1固数である。
第3図に示す操作では、判定ダイヤモンド58のN一枝
路が有効となった後に、式(6)におけるNをNlに、
MをmAkに置換えた音質指数Qの逆数である量Clを
計算する(ブロック59)。
路が有効となった後に、式(6)におけるNをNlに、
MをmAkに置換えた音質指数Qの逆数である量Clを
計算する(ブロック59)。
つぎの操作では、Clが変数Cの値以上であるかどうか
をチェックする(判定ダイヤモンド60)。
をチェックする(判定ダイヤモンド60)。
ClがC以下の場合にはClをCと指定する。
このことは本例マスクが前のマスクよりも良好に適合し
ていることを意味する。
ていることを意味する。
そこで、ビツチfoを式(1)に基ずいて計算する(ブ
ロック61)。
ロック61)。
ブロック61での演算の後、またはプログラムがダイヤ
モンド58のY一枝路或いは判定ダイヤモンド60のY
一枝路を辿る際にはマスクの指数lを1だけ高める(ブ
ロック62)。
モンド58のY一枝路或いは判定ダイヤモンド60のY
一枝路を辿る際にはマスクの指数lを1だけ高める(ブ
ロック62)。
指数lがマスクの総数L以下の場合には、判定ダイヤモ
ンド63からのループ64がノレーチンに加わり、すべ
てのマスクが処理されるまでlの新しい値について上述
したルーチンが繰り返される。
ンド63からのループ64がノレーチンに加わり、すべ
てのマスクが処理されるまでlの新しい値について上述
したルーチンが繰り返される。
lがL以上になると、判定ダイヤフラム63のY一枝路
が有効となり、foの最終計算値が導出される(ブロッ
ク65)。
が有効となり、foの最終計算値が導出される(ブロッ
ク65)。
本発明による音声分析方式は汎用デイジタルコンピュー
タのソフトウエアにより行うか、或いは一部をハードウ
エアで、残りの部分をソフトウエアで実行することがで
きる。
タのソフトウエアにより行うか、或いは一部をハードウ
エアで、残りの部分をソフトウエアで実行することがで
きる。
本発明による音声分析方式を実行するのに使用して好適
なハードウエアの一例を第4図6こ示す。
なハードウエアの一例を第4図6こ示す。
この装置は入力信号としてアナログ音声信号を入力端子
100から受信する。
100から受信する。
この信号を低減通過フィルター1.01にでろ波して4
kHz@サンプリング周波数で動作するサンプリングス
イッチ102によって標本化(サンプリング)する。
kHz@サンプリング周波数で動作するサンプリングス
イッチ102によって標本化(サンプリング)する。
ついで上記サンプリングした音声信号をA/D変換器1
03にてアナログーデイジタル変換する。
03にてアナログーデイジタル変換する。
これにより符号化した信号のサンプルをバツファ記憶装
置104に記憶させる。
置104に記憶させる。
このバツファ記憶装置の容量は200サンプルとする。
ピッチを計算するのに例えばIOmsかかるが、各計算
には40msの音声セグメントを利用する。
には40msの音声セグメントを利用する。
バッファ記憶装置104の容量は50msの音声セグメ
ント、すなわち2001固のサンフ゜ノレに適するもの
とする必要がある。
ント、すなわち2001固のサンフ゜ノレに適するもの
とする必要がある。
1固別フーリエ変換(DFT)によって64涸の周波数
点における振幅或分を160fll9の最も新しいサン
プルa− i=1,・・・,160から計算する。
点における振幅或分を160fll9の最も新しいサン
プルa− i=1,・・・,160から計算する。
l ク
上記641固の周波数点は周波数( 25+k・25)
Hz ,k=1 ,2 ,−64の1同所である。
Hz ,k=1 ,2 ,−64の1同所である。
DFTの係数はつぎの通りである。
c i1−cos( 2π(k+1)(i−80.5)
/160)s ik= sin (2π(k+IX i
−80.5)/160)「ハミング窓」を掛ける乗算は
DFTの係数につぎの因数に基ずく「ハミング窓」を掛
けて行う。
/160)s ik= sin (2π(k+IX i
−80.5)/160)「ハミング窓」を掛ける乗算は
DFTの係数につぎの因数に基ずく「ハミング窓」を掛
けて行う。
Hi=0.54+0.46cos(2π(i−80.5
)/160)各周波数点はつぎの如く計算される実数部
分FRkと虚数部分FIkとから或るものであるしこれ
らの演算を乗算器105および係数記憶装置106(R
OM)並びに累算器107にて行う。
)/160)各周波数点はつぎの如く計算される実数部
分FRkと虚数部分FIkとから或るものであるしこれ
らの演算を乗算器105および係数記憶装置106(R
OM)並びに累算器107にて行う。
641固の周波数点を計算するためには、乗算器105
によって20480回乗算する必要がある。
によって20480回乗算する必要がある。
150nsの乗算時間に対し、計算に要する総合時間は
3,072msである。
3,072msである。
乗算器としてはTRW社から市販されているMRY−
1 2AJ型のものが好適である。
1 2AJ型のものが好適である。
各周波数点にて計算した値をバツファ記憶装置108に
記憶させる。
記憶させる。
スペクトル或分を計算したら、クロツクパルス発生器1
09により出力端子110に割込み信号を発生させる。
09により出力端子110に割込み信号を発生させる。
出力端子110はブロック111に示すマイクロコンピ
ュータの割込み信号人力端子127に接続する。
ュータの割込み信号人力端子127に接続する。
バツファ記憶装置108の出力端子はマイクロコンピュ
ータのデータ入力端子125に接続する。
ータのデータ入力端子125に接続する。
このマイクロコンピュータは上記割込み信号の受信後、
バツファ記憶装置108からの値をマイクロコンピュー
タの内部記憶装置に転送する。
バツファ記憶装置108からの値をマイクロコンピュー
タの内部記憶装置に転送する。
マイクロコンピュータはS ignetics 3 0
0 0マイクロプロセッサーに基ずくものであり、こ
れは中央処理ユニツl−(CPU)112,ランダムア
クセスメモリー(R.AM)113,マイクロ制御ユニ
ット(MCU) 1 1 4 ,マイクロプログラムメ
モリ(MPM)1 l 5および出力レジスター(OR
)116を具えている。
0 0マイクロプロセッサーに基ずくものであり、こ
れは中央処理ユニツl−(CPU)112,ランダムア
クセスメモリー(R.AM)113,マイクロ制御ユニ
ット(MCU) 1 1 4 ,マイクロプログラムメ
モリ(MPM)1 l 5および出力レジスター(OR
)116を具えている。
プログラムの実行中はMCUI 1 4によってMPM
1 1 5に対するアドレスを発生させ、このMPM1
1 5により指令をCPUI 1 2にライン117
を介し7て供給すると共に、つぎの指令についてのデー
タをライン118を介してMCD114に逆に送給する
。
1 1 5に対するアドレスを発生させ、このMPM1
1 5により指令をCPUI 1 2にライン117
を介し7て供給すると共に、つぎの指令についてのデー
タをライン118を介してMCD114に逆に送給する
。
人/出力側制御のために、MPM115は制御ビットを
ライン119を介してRAM113に供給すると共に、
ライン120を介して出力レジスター(OR)1 1
6に供給する。
ライン119を介してRAM113に供給すると共に、
ライン120を介して出力レジスター(OR)1 1
6に供給する。
CPUI 1 2はライン121を介してアドレスをR
.AM113に供給すると共に、ライン122を介して
RAM1 1 3にデータを供給し、さらにライン12
3を介してOR1 1 6にデータを供給する。
.AM113に供給すると共に、ライン122を介して
RAM1 1 3にデータを供給し、さらにライン12
3を介してOR1 1 6にデータを供給する。
CPUはさらに、ライン124を介してRAMI 1−
3からデータを受信すると共に、ライン125を介して
データ入力端子からもデータを受信する。
3からデータを受信すると共に、ライン125を介して
データ入力端子からもデータを受信する。
MCU114はライン126を介して標識と桁上げ情報
をCPUで交換すると共に、ライン127を介して割込
み信号を受信する。
をCPUで交換すると共に、ライン127を介して割込
み信号を受信する。
このマイクロコンピュータは、マイクロプロセッサーの
生産者が配給するユーザ用の情報を用いて第5A−5D
図に含まれる流れ図に基いて当業者がプログラミングす
ることができる。
生産者が配給するユーザ用の情報を用いて第5A−5D
図に含まれる流れ図に基いて当業者がプログラミングす
ることができる。
上記プログラムに応じてマイクロコンピュータにデータ
を入れると、このマイクロコンピュータは、クロツクパ
ルス発生器109からの割込み信号の受信後に出力端子
に令○に対する値を供給する。
を入れると、このマイクロコンピュータは、クロツクパ
ルス発生器109からの割込み信号の受信後に出力端子
に令○に対する値を供給する。
この値をクロツクパルス発生器109によって発生され
る各割込み信号の後に更新させる。
る各割込み信号の後に更新させる。
これらの割込み信号は、マイクロコンピュータでピッチ
の値を計算するのに十分な時間である10ms毎に発生
させることができる。
の値を計算するのに十分な時間である10ms毎に発生
させることができる。
マイクロコンピュータは割込み信号の受信後には入力デ
ータにより周波数点FRkおよびFIk,k−1,・・
・64(第5A図のブロック200)の値を受信する。
ータにより周波数点FRkおよびFIk,k−1,・・
・64(第5A図のブロック200)の値を受信する。
つぎの操作は振幅値を決定する(ブロック201)こと
である。
である。
その後、最大振幅値の数分の1に相当する限界値を求め
る(ブロック202)。
る(ブロック202)。
ついで振幅スペクトルの或分Akの指数(インデックス
)を表わす変数kの値を2に設定すると共に、有意ピー
ク値Xiの数NをOに設定する(ブロック203)。
)を表わす変数kの値を2に設定すると共に、有意ピー
ク値Xiの数NをOに設定する(ブロック203)。
つぎの操作では先ず有意ピーク位置が8涸の最大数に既
に達したかどうかをチェックする(ブロック204)。
に達したかどうかをチェックする(ブロック204)。
有意ピーク位置の数が8涸の最大数に達していない場合
には、振幅Akが限界値Z以上の局部最大値にあるかど
うかをチェックする(判定ダイヤモンド206)。
には、振幅Akが限界値Z以上の局部最大値にあるかど
うかをチェックする(判定ダイヤモンド206)。
振幅値Akが限界値Z以上の局部最大値にある場合には
、判定ダイヤモンド206のY一枝路が有効となり、N
が1だけ高められる(ブロック207)。
、判定ダイヤモンド206のY一枝路が有効となり、N
が1だけ高められる(ブロック207)。
振幅スペクトルにおける局部最大値の適当な位置は、或
分Ak,Ak−1およびAk千1間での二次多項式によ
って補間法により計算する(ブロック208)。
分Ak,Ak−1およびAk千1間での二次多項式によ
って補間法により計算する(ブロック208)。
このルーチンによって振幅スペクトルにおける有意ピー
クの位置Xiを供給する。
クの位置Xiを供給する。
その後、指数kを1だけ高めて(ブロック209)、こ
れによるkの新規の値が依然として63より小さいか、
または63に等しい時にはループ210をルーチンに加
える(判定ダイヤモンド211)。
れによるkの新規の値が依然として63より小さいか、
または63に等しい時にはループ210をルーチンに加
える(判定ダイヤモンド211)。
或分Akが局部最大値を呈さない場合には判定ダイヤモ
ンド206のN一枝路が有効となり、Nはl高められず
、この場合にはkが1だけ高めら?る(ブロック209
)。
ンド206のN一枝路が有効となり、Nはl高められず
、この場合にはkが1だけ高めら?る(ブロック209
)。
ループ210を辿る場合、上述したルーチンは最後の成
分を除くすべての或分が処理されるまで、新規のkの値
に対して判定ダイヤモンド204から上述した操作を繰
返す。
分を除くすべての或分が処理されるまで、新規のkの値
に対して判定ダイヤモンド204から上述した操作を繰
返す。
kの新規の値が64であることを判定ダイヤモンド21
1が検出する場合には、N一枝路が有効となり、有意ピ
ーク位置Xiは、これが8涸の有意ピーク位置を見つけ
た(判定ダイヤモンド204)時点よりも早い瞬時に検
出されていなくても出力される(ブロック212)。
1が検出する場合には、N一枝路が有効となり、有意ピ
ーク位置Xiは、これが8涸の有意ピーク位置を見つけ
た(判定ダイヤモンド204)時点よりも早い瞬時に検
出されていなくても出力される(ブロック212)。
上記判定ダイヤモンド204にて8涸の有意ピーク位置
を見つけた場合にはこのダイヤモンド204のY一枝路
が有効となり、その後8涸の有意ピーク位置xiが出刀
される。
を見つけた場合にはこのダイヤモンド204のY一枝路
が有効となり、その後8涸の有意ピーク位置xiが出刀
される。
有意ピーク位置Xiはつぎのルーチンに対する入力デー
タを形或し、このルーチンによって或分X1の高調波の
数Riを決定する。
タを形或し、このルーチンによって或分X1の高調波の
数Riを決定する。
以後これらの入カデータを或分Xiとして示す。
第3図に示すルーチンとは異なり、ここでは或分Xiの
近くにアパーチャを有しているマスクを形戊する。
近くにアパーチャを有しているマスクを形戊する。
その後、マスクとピッチの連続高調波とが最適に適合す
るピッチの値をチェックする。
るピッチの値をチェックする。
このような方法によれば計算上の利点があり、この方法
によるも前述した方法と同じ結果が得られる。
によるも前述した方法と同じ結果が得られる。
Xiの各値について、低い方の値XLiおよび高い方の
値XHiを計算し、これらの値によって戊分Xiの近く
のアパーチャを定める(ブロック213)。
値XHiを計算し、これらの値によって戊分Xiの近く
のアパーチャを定める(ブロック213)。
全或分XIに対するアパーチャの配列によって基準マス
クを形或する。
クを形或する。
ルーチンの主ループを開始させる前に、音質指数を示す
変数CをOに調整し、ピツチSFoに対する初期値(5
0Hz) を調整する(ブロック214)。
変数CをOに調整し、ピツチSFoに対する初期値(5
0Hz) を調整する(ブロック214)。
選定ピッチの連続高調波は最初常に8涸の或分を具えて
いる。
いる。
その後、連続高調波の範囲内にある或分Xiの数N′、
すなわちxL7がピンチSFoの選定値の8倍よりも小
さい或分Xtの数を求める(ブロック215)。
すなわちxL7がピンチSFoの選定値の8倍よりも小
さい或分Xtの数を求める(ブロック215)。
N′がO以上の時(判定ダイヤモンド216)には、戊
分xiの範囲内にある選定ピツチSFoの高調波の数M
′を求める。
分xiの範囲内にある選定ピツチSFoの高調波の数M
′を求める。
ここに、M′はxH N ’/S Fの商の値の整数値
となる。
となる。
つぎの操作ではマスクのアパーチャに位置する選定ピッ
チの高調波の数を求め、この際暫定高調波数RTiを各
或分Xtに関連させる。
チの高調波の数を求め、この際暫定高調波数RTiを各
或分Xtに関連させる。
高調波のピッチがアパーチャに全く位置しない場合には
、これに該当する或分Xtの高調波の数はOである。
、これに該当する或分Xtの高調波の数はOである。
選定ピッチの高調波が1涸以−Eの或分Xtのアパーチ
ャ内に位置する場合には最低値の或分Xiに高調波の数
を割り当てる(ブロック218)。
ャ内に位置する場合には最低値の或分Xiに高調波の数
を割り当てる(ブロック218)。
第5D図は第5B図のブロック218の1レーチンを詳
細に示した流れ図であり、このブロックにおける操作は
図示した通りである。
細に示した流れ図であり、このブロックにおける操作は
図示した通りである。
ブロック218での操作後にはピツチSFoの選定値に
関連する音質指数Qを計算する(ブロック219)。
関連する音質指数Qを計算する(ブロック219)。
その後、音質指数Qが、以前に見つけた値よりも大きい
か、または等しいかを求める(判定ダイヤモンド220
)。
か、または等しいかを求める(判定ダイヤモンド220
)。
斯る要件を満足する場合には変数CをQに等しくシ、暫
定数RTiを、新規の高調波数を表わす変数Riによっ
て引き継がせる(ブロック221)。
定数RTiを、新規の高調波数を表わす変数Riによっ
て引き継がせる(ブロック221)。
ルーチンが判定ダイヤモンド216のY一枝路か、また
は判定ダイヤモンド220のN一枝路を辿る際、或いは
ブロック221での操作後には、ピッチSFOに対する
新規の初期値を計算する(ブロック222)。
は判定ダイヤモンド220のN一枝路を辿る際、或いは
ブロック221での操作後には、ピッチSFOに対する
新規の初期値を計算する(ブロック222)。
ピッチの新規の値が依然として500Hzより小さいか
、またはそれに等しい時にはルーチンはループ224に
入る(判定ダイヤモンド223)。
、またはそれに等しい時にはルーチンはループ224に
入る(判定ダイヤモンド223)。
上述したルーチンはピツチSFoの新規の値に対してブ
ロック215から繰り返される。
ロック215から繰り返される。
ループ224を多数回通過した後、ピッチSF−oの新
規の値が500Hzよりも大きくなると(判定ダイヤモ
ンド223)、ループ244は外れ、関連する最調波数
Riを有する或分Xiが出力される(ブロック225)
。
規の値が500Hzよりも大きくなると(判定ダイヤモ
ンド223)、ループ244は外れ、関連する最調波数
Riを有する或分Xiが出力される(ブロック225)
。
成分Xiおよび高調波の数Riはピッチ令。
の有望値(式(1)に類似する)を計算するルーチンに
対する入力データを構戊する。
対する入力データを構戊する。
斯るルーチンの処理は高調波数の自乗の和を形或する量
DNHの計算から開始する。
DNHの計算から開始する。
この量DNNがOに等しくない(判定ダイヤモンド22
7)時には令0をブロック228で計算する。
7)時には令0をブロック228で計算する。
他の場合には判定ダイヤモンド227のY一枝路を辿り
、FoはOに設定される(ブロック229)。
、FoはOに設定される(ブロック229)。
倒れの場合にもピツチFoの値を出力する(ブロック2
30)ことによってルーチンは終了する。
30)ことによってルーチンは終了する。
ブロック219で計算される音質指数Qは上述した演算
原理から逸脱しない他の式に基いて計算することもでき
ることは勿論である。
原理から逸脱しない他の式に基いて計算することもでき
ることは勿論である。
基本トーンの連続高調波による最初の場合および有意ピ
ーク位置による第2の場合に規定されるマスク概念を用
いて有意ピーク位置を基本トーンの連続高調波と比較す
る2つの処理は同一結果をもたらす。
ーク位置による第2の場合に規定されるマスク概念を用
いて有意ピーク位置を基本トーンの連続高調波と比較す
る2つの処理は同一結果をもたらす。
これらの各処置は互いに双対(デュアル)ケースと見な
され、雑音或分に対して不感応であると云う点では同じ
利点を有している。
され、雑音或分に対して不感応であると云う点では同じ
利点を有している。
第1図は本発明による音声分析方式の実施に基ずく操作
順序を示す流れ図、第2図は第1図に示す音声分析方式
にて所定の処理を行うためのディジタルコンピュータの
プログラムに関する流れ図、第3図は第1図に示す流れ
図の所定の機能を果すためのコンピュータプログラム用
の流れ図、第4図は本発明による音声分析方式を実施す
るための電子装置の一例を示すブロック線図、第5図は
本発明による音声分析方式における所定の操作を行うた
めの第4図に示す装置のマイクロプロセッサ一段によっ
て実行し得るプログラムの流れ図である。 10・・・標本化音声信号から持続時間が40nsの時
間区分を取り出す手段、11・・・音声信号セグメント
にハミング窓を乗算する手段、12・・・音声信号セグ
メントのサンプルをフーリエ変換する手段、13・・・
スペクトル或分の振幅およびスペクトルの有意ピーク位
置を求める手段、14・・・ピッチの値を選定する手段
、15・・・スペクトル間隔を定める手段、16・・・
音質指数を計算する手段、17・・・選定ピッチの値が
所定の最大値以下であるかどうかを判定する手段、19
・・・ピッチの選定値を所定量高める手段、20・・・
最高の音質指数を呈するピッチの値を選定する手段、2
1・・・音声セグメントのピッチを概算する手段、10
0・・・アナログ音声信号入力端子、101・・・低域
通過フィルタ、102・・・サンプリングスイッチ、1
03・・・A/D変換器、104・・・バツファ記憶装
置、105・・・乗算器、106・・・係数記憶装置、
107・・・累算器、ius・・・バツファ記憶装置、
109・・・クロツクパルス発生器、110・・・割込
み信号出力端子、111・・・マイクロコンピュータ、
112・・・中央処理ユニット、113・・・ランダム
アクセスメモリ、114・・・マイクロ制御ユニット、
115・・・マイクロプログラムメモリ、116・・・
出力レジスター。
順序を示す流れ図、第2図は第1図に示す音声分析方式
にて所定の処理を行うためのディジタルコンピュータの
プログラムに関する流れ図、第3図は第1図に示す流れ
図の所定の機能を果すためのコンピュータプログラム用
の流れ図、第4図は本発明による音声分析方式を実施す
るための電子装置の一例を示すブロック線図、第5図は
本発明による音声分析方式における所定の操作を行うた
めの第4図に示す装置のマイクロプロセッサ一段によっ
て実行し得るプログラムの流れ図である。 10・・・標本化音声信号から持続時間が40nsの時
間区分を取り出す手段、11・・・音声信号セグメント
にハミング窓を乗算する手段、12・・・音声信号セグ
メントのサンプルをフーリエ変換する手段、13・・・
スペクトル或分の振幅およびスペクトルの有意ピーク位
置を求める手段、14・・・ピッチの値を選定する手段
、15・・・スペクトル間隔を定める手段、16・・・
音質指数を計算する手段、17・・・選定ピッチの値が
所定の最大値以下であるかどうかを判定する手段、19
・・・ピッチの選定値を所定量高める手段、20・・・
最高の音質指数を呈するピッチの値を選定する手段、2
1・・・音声セグメントのピッチを概算する手段、10
0・・・アナログ音声信号入力端子、101・・・低域
通過フィルタ、102・・・サンプリングスイッチ、1
03・・・A/D変換器、104・・・バツファ記憶装
置、105・・・乗算器、106・・・係数記憶装置、
107・・・累算器、ius・・・バツファ記憶装置、
109・・・クロツクパルス発生器、110・・・割込
み信号出力端子、111・・・マイクロコンピュータ、
112・・・中央処理ユニット、113・・・ランダム
アクセスメモリ、114・・・マイクロ制御ユニット、
115・・・マイクロプログラムメモリ、116・・・
出力レジスター。
Claims (1)
- 【特許請求の範囲】 1 音声信号の時間区分を規則的に選択し、各時間区分
から音声信号の各サンプルを1固別にフーリ工変換して
得られる連続スペクトル或分を求め、かつ各時間区分に
前記スペクトルにおける有意ピーク位置を前記連続スペ
クトル収分から導出することによって音声信号の振幅ス
ペクトルを分析する音声分析方式において、該音声分析
方式を、一ピツチに対する値を選定し、この選定値を順
次整数倍する順序を決め、前記選定値の近くおよび該選
定値の倍数値近くにおけるスペクトルの間隔を定め、こ
れらの間隔によってマスクのアパーチャ、特にアパーチ
ャの間隔を定め、前記選定値の倍数値における乗算係数
に相当する高調波の1同数をマスクのアパーチャに関連
させる工程と、一マスクのアパーチャと一致する有意ピ
ーク位置を決定する工程と、 一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、 一連続的に高くなるピッチの値に対して,そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、 一最高の音質指数を呈し、該最高音質指数に関連スるマ
スクが基準マスクとなるピッチの値を選定する工程と、 一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の1固数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、 一ピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が団一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程 とを具えていることを特徴とする音声分析方式。 2 音質指数を次式の1つに基いて計算し、ここにKを
マスクのアパーチャと一致する有意ピーク位置の数とし
、Mをマスクのアパーチャの数とし、Nを有意ピーク位
置の数としたことを特徴とする特許請求の範囲1記載の
音声分析方式。 3 音質指数Qに対する式中のMの代りにM′を用い、
ここにM′を有意ピーク位置の範囲以外に位置するアパ
ーチャの数だけ減じたMの値に等しい値としたことを特
徴とする特許請求の範囲2記載の音声分析方式。 4 音質指数Qに対する式中のNをN′と置換え、ここ
にN′をマスクのアパーチャの範囲以外に位置する有意
ピーク位置の数だけ減UたNの値に等しい値としたこと
を特徴とする特許請求の範囲2記載の音声分析方式。 5 ピツチの有望値令oを次式に基いて計算し、ここに
X.はi番目の有意ピーク位置を表わし、l niは該有意ピーク位置に関連する数を表わし、Kはマ
スクのアパーチャと一致する有意ピーク位置の数を表わ
すものとしたことを特徴とする特許請求の範囲1記載の
音声分析方法。 6 音声信号の時間区分を規則的に選択し、各時間区分
から音声信号の各サンプルを1固別にフーリ工変換して
得られる連続スペクトル或分を求め、かつ各時間区分に
前記スペクトルにおける有意ピーク位置を前記連続スペ
クトル或分から導出することによって音声信号の振゛幅
スペクトルを分析する音声分析方式において、該音声分
析方式を、一ピツチに対する値を選定し、この選定値を
順次整数倍する順序を決め、前記有意ピーク位置の近く
のスペクトルの間隔を定め、これらの間隔によってマス
クのアパーチャ、特にアパーチャに属するピーク位置を
定め、前記選定値の倍数値におけける乗算係数に相当す
る高調波の涸数をピッチの倍数値に関連させる工程と、 ーマスクのアパーチャと一致するピッチの倍数値を求め
る工程と、 一ピツチの倍数値とマスクのアパーチャの開口とが整合
する度合いを示す判定基準に基いて音質指数を計算する
工程と、 一連続的に高くなるピッチの値に対して、ピッチの値が
予定した最高値に達するまで以前の工程を繰り返して、
これらの各ピッチの値に関連する音質指数を順次得る工
程と、 一基準ピッチを設定する最高の音質指数を呈するピッチ
の値を選定する工程と、 一基準ピッチの倍数値に属する高調波の個数を同一アパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の1固数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、 一ピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同じであるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程 とを具えていることを特徴とする音声分析方式。 7 音質指数を次式の1つに基いて計算し、ここにKを
マスクのアパーチャと一致するピッチの倍数の数とし、
Mを連続するピッチの倍数の数とし、Nを有意ピーク位
置の数としたことを特徴とする特許請求の範囲6記載の
音声分析方式。 8 音質指数Qに対する式中のMをM′と置換え、ここ
にM′を有意ピーク位置の範囲以外に位置するピッチの
倍数の数だけ減じたMの値に等しい値としたことを特徴
とする特許請求の範囲7記載の音声分析方式。 9 音質指数Qに対する式中のNをM′と置換え、ここ
にN′をピッチの順次の倍数値の範囲以外に位置する有
意ピーク位置の数だけ減じたNの値Oこ等しい値とした
ことを特徴とする特許請求の範囲7記載の音声分析方式
。 10 ピツチの有望値令。 を次式に基いて計算し、ここにX.はi番目の有意ピー
ク位置の値を表わし、1 R1は該有意ピーク位置の値に関連する数を表わし、N
は有意ピーク位置の数を表わし、選定ピッチの倍数値が
該当するマスクアパーチャに位置しない場合に有意ピー
ク位置の数をOとするようにしたことを特徴とする特許
請求の範囲6記載の音声分析方式。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NLAANVRAGE7812151,A NL177950C (nl) | 1978-12-14 | 1978-12-14 | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5583100A JPS5583100A (en) | 1980-06-23 |
JPS5848117B2 true JPS5848117B2 (ja) | 1983-10-26 |
Family
ID=19832069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP54161723A Expired JPS5848117B2 (ja) | 1978-12-14 | 1979-12-14 | 音声分析方式 |
Country Status (9)
Country | Link |
---|---|
US (1) | US4384335A (ja) |
JP (1) | JPS5848117B2 (ja) |
AU (1) | AU536724B2 (ja) |
CA (1) | CA1223074A (ja) |
DE (1) | DE2949582A1 (ja) |
FR (1) | FR2444313A1 (ja) |
GB (1) | GB2037129B (ja) |
NL (1) | NL177950C (ja) |
SE (1) | SE465190B (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3377951D1 (en) * | 1982-12-30 | 1988-10-13 | Victor Company Of Japan | Musical note display device |
GB2139405B (en) * | 1983-04-27 | 1986-10-29 | Victor Company Of Japan | Apparatus for displaying musical notes indicative of pitch and time value |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US4803730A (en) * | 1986-10-31 | 1989-02-07 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fast significant sample detection for a pitch detector |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
US5321636A (en) * | 1989-03-03 | 1994-06-14 | U.S. Philips Corporation | Method and arrangement for determining signal pitch |
NL8900520A (nl) * | 1989-03-03 | 1990-10-01 | Philips Nv | Probabilistische toonhoogtemeter. |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
WO1995024776A2 (en) * | 1994-03-11 | 1995-09-14 | Philips Electronics N.V. | Transmission system for quasi-periodic signals |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
DE19906118C2 (de) | 1999-02-13 | 2001-09-06 | Primasoft Gmbh | Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
FR2830118B1 (fr) * | 2001-09-26 | 2004-07-30 | France Telecom | Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur |
US7233894B2 (en) * | 2003-02-24 | 2007-06-19 | International Business Machines Corporation | Low-frequency band noise detection |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS50155105A (ja) * | 1974-06-04 | 1975-12-15 | ||
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
GB1541041A (en) * | 1976-04-30 | 1979-02-21 | Int Computers Ltd | Sound analysing apparatus |
DE2715411B2 (de) * | 1977-04-06 | 1979-02-01 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Elektrisches Verfahren zum Bestimmen der Grundperiode eines Sprachsignals |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
-
1978
- 1978-12-14 NL NLAANVRAGE7812151,A patent/NL177950C/xx not_active IP Right Cessation
-
1979
- 1979-12-06 CA CA000341411A patent/CA1223074A/en not_active Expired
- 1979-12-10 DE DE19792949582 patent/DE2949582A1/de not_active Ceased
- 1979-12-11 AU AU53682/79A patent/AU536724B2/en not_active Ceased
- 1979-12-11 SE SE7910165A patent/SE465190B/sv not_active IP Right Cessation
- 1979-12-11 GB GB7942692A patent/GB2037129B/en not_active Expired
- 1979-12-14 FR FR7930736A patent/FR2444313A1/fr active Granted
- 1979-12-14 JP JP54161723A patent/JPS5848117B2/ja not_active Expired
-
1982
- 1982-02-11 US US06/347,763 patent/US4384335A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
AU536724B2 (en) | 1984-05-24 |
US4384335A (en) | 1983-05-17 |
GB2037129B (en) | 1983-02-09 |
SE465190B (sv) | 1991-08-05 |
NL177950B (nl) | 1985-07-16 |
CA1223074A (en) | 1987-06-16 |
GB2037129A (en) | 1980-07-02 |
JPS5583100A (en) | 1980-06-23 |
NL7812151A (nl) | 1980-06-17 |
NL177950C (nl) | 1986-07-16 |
FR2444313B1 (ja) | 1983-08-05 |
AU5368279A (en) | 1980-06-19 |
DE2949582A1 (de) | 1980-06-26 |
SE7910165L (sv) | 1980-06-15 |
FR2444313A1 (fr) | 1980-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS5848117B2 (ja) | 音声分析方式 | |
JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
DK2579249T3 (en) | PARAMETER SPEECH SYNTHESIS PROCEDURE AND SYSTEM | |
CN101051460B (zh) | 提取语音信号的特性信息的语音信号预处理系统及方法 | |
US8865993B2 (en) | Musical composition processing system for processing musical composition for energy level and related methods | |
JPH0632028B2 (ja) | 音声分析方式 | |
US10984813B2 (en) | Method and apparatus for detecting correctness of pitch period | |
WO1993018505A1 (en) | Voice transformation system | |
CN110136730B (zh) | 一种基于深度学习的钢琴和声自动编配系统及方法 | |
WO2015114216A2 (en) | Audio signal analysis | |
US7835905B2 (en) | Apparatus and method for detecting degree of voicing of speech signal | |
Rajan et al. | Group delay based melody monopitch extraction from music | |
O’Hanlon et al. | Comparing cqt and reassignment based chroma features for template-based automatic chord recognition | |
CN114627892A (zh) | 一种基于深度学习的多声部音乐人声主旋律提取方法 | |
Gupta et al. | Towards Controllable Audio Texture Morphing | |
Bosch et al. | Melody extraction based on a source-filter model using pitch contour selection | |
JPH10301594A (ja) | 有音検出装置 | |
Derrien | A very low latency pitch tracker for audio to MIDI conversion | |
JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム | |
Hsiao et al. | A new approach to formant estimation and modification based on pole interaction | |
JP4603727B2 (ja) | 音響信号分析方法及び装置 | |
da Costa | Novel Time-Frequency Representations for Music Information Retrieval | |
CN116884438B (zh) | 基于声学特征的练琴音准检测方法及系统 | |
Mahalakshmi | A review on voice activity detection and melfrequency cepstral coefficients for speaker recognition (Trend analysis) | |
Derrien | Multi-scale frame-based analysis of audio signals for musical transcription using a dictionary of chromatic waveforms |