JPS5848117B2

JPS5848117B2 - 音声分析方式

Info

Publication number: JPS5848117B2
Application number: JP54161723A
Authority: JP
Inventors: ヘンドリクス・デユーイヒユーイス; レオナルダス・フランシスカス・ビレムス; ロベルト・ヨハンネス・スルイテル
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1978-12-14
Filing date: 1979-12-14
Publication date: 1983-10-26
Also published as: AU536724B2; US4384335A; GB2037129B; SE465190B; NL177950B; CA1223074A; GB2037129A; JPS5583100A; NL7812151A; NL177950C; FR2444313B1; AU5368279A; DE2949582A1; SE7910165L; FR2444313A1

Description

【発明の詳細な説明】本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル或分を求め、かつ各時間区分
に前記スペクトルにおける有意ピークの位置を前記連続
スペクトル戊分から導出することによって音声信号の振
幅スペクトルを分析する形式の音声分析方式に関するも
のである。

有意ピーク位置は音声分析方式における音声信号のピッ
チを求めるためのつぎの段に対する入力データを構成す
る。

ＦＦＴ一変換（高速フーリエ変換）を利用する上述した
種類の音声分析方式は、ｒＩＥＥＥＴｒａ−ｎｓａｃ
ｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅ
ｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ
Ｊ（Ｖｏｌ．ＡＳＳＰ，４４，１９７８年８月
第３５８〜３６５頁）に記載されている。

この場合には音声信号のピッチを振幅スペクトルにおけ
るピーク間の間隔から求めている。

音声信号のピッチは高調波間の間隔に関連するのではな
く、集合振動モードの高調波或分の周期性に関連するの
であることは、文献「ＰｈｉｌｉｐｓＴｅｃｈｎｃｅｌ
ＲｅｖｉｅｗＪ（Ｖｏｌ．５，ＡＩ
０，１９４０年１０月第２８６頁〜２９４頁）に既に
示されている。

１９５６年にアムステルダム大学Ｏこで発表されたＥ．
ｄｅＢｏｅｒによる論文「Ｏｎｔｈｅ ”ｒｅ
−ｓｉｄｕｅｉｎｈｅａｒｉｎｇＪでは、ｍ．
ｓ．ｅ．（ｍｅａｎ−ｓｑｕａｒｅ − ｅｒ
ｒｏｒ）基準を用いて、基本音（トーン）に最も近い高
調波の数である所謂「高調波の数」が判っている連続ス
ペクトル或分に関連するピッチの有望値を求めている。

「ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓ
ｔｉｃＳｏ−ｃｉｅｔｙｏｆＡｍｅｒｉｃａＪ
（Ｖｏｌ．５４，Ａ６，１９７３年６月
第１４９６〜１５１６頁）には、上述したｍ．ｓ．ｅ．
基準およびこの文献に開示され、かつ精神物理現象に基
いている「最大見込み」基準が音声信号のピッチに関し
て同じ評価となることが示されている。

電話線の如き音源から到来する音声信号の分析に当って
は、基本トーンそのものが存在しないと云う問題が生ず
るだけではなく、雑音戊分が導入され、これが音声信号
のピッチ測定結果に著しく悪影響を及ぼすと云う問題も
生ずる。

本発明の目的は、雑音信号の存在に対して感応せず、し
かも考えられる凡ゆる連続的な高調波数に対して誤差を
計算する場合よりも計算回数が少なくて済む音声信号の
ピッチ測定用音声分析方式を提供せんとするにある。

本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル戊分を求め、かつ各時間区分
に前記スペクトルにおける有意ピーク位置を前記連続ス
ペクトル或分から導出することによって音声信号の振幅
スペクトルを分析する音声分析方式ｌこおいて、該音声
分析方式を、一ピッチに対する値を選定し、この選定値
を順次整数倍する順序を決め、前記選定値の近くおよび
該選定値の倍数値近くにおけるスペクトルの間隔を定め
、これらの間隔によってマスクのアパーチャ、特にアパ
ーチャの間隔を定め、前記選定値の倍数値における乗算
係数に相当する高調波の涸数をマスクのアパーチャに関
連させる工程と、一マスクのアパーチャと一致する有意
ピーク位置を決定する工程と、一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、一連続的に高くなるピッチの値に対して、そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、一最高の音質指数を呈し、該最高音質指数に関連するマ
スクが基準マスクとなるピッチの値を選定する工程と、一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の１同数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、ーピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程とを具えていることを特徴とする。

最高の音質指数を有しているピッチの値を用いて実際の
ピッチの値を概算することもでき、この場合には上述し
た方法における最後の３つの行程を１行程に減らすこと
ができる。

しかしこれよりも正確な概算は最終工程にｍ．ｓ．ｅ．
基準を用いる最善策を利用して得ることができる。

図面につき本発明を説明する。

本発明による音声分析方式では、振幅スペクトルの流れ
画像を作る音声信号の所謂「短時間」振幅スペクトルを
形成するのが第１目的である。

持続時間が４０ｍｓの時間区分は標本化音声信号から取
り出す。

この機能を第１図に４０ｍｓにて表わしてあるブロック
１０によって示す。

各音声信号セグメントに所謂「ハミング窓１を乗算する
つぎの操作（演算）の機能をＷＮＤＷで表わしてあるブ
ロック１１によって示す。

その後、音声信号セグメントのサンプルをＤＦＴにて表
わすブロック１２によって示すように、２５６の点でフ
ーリエ変換する。

つぎの操作では、ＤＦＴによって発生した２５６涸の実
数および虚数値から１２８涸のスペクトル或分の振幅を
求める。

これらのスペクトル或分からはスペクトルにおけるピー
ク位置を表わす有意ピーク位置Ｘｉを導出する。

これらの機能をＤＲＶｘｉにて表わすブロック１３にて
示す。

つぎの処理工程ではブロック１４によって示すようにピ
ッチの値をＦ８とする。

ついで、この初期値の近くおよびこの初期値に連続した
整数を掛けた複数涸の倍数値の近くにおけるスペクトル
の間隔（インターバル）ヲ定メる。

これらの間隔はマスクにおけるアパーチャと見なされ、
この場合、アパーチャと一致する周波数値Ｘｉの戊分が
マスクを通過する。

この概念におけるマスクは周波数値に対する一種の「ふ
るい」として作用する。

これらの操作をＭＳＫにて表わすブロック１５にて示す
。

高調波の１同数として示され、しかも選定ピッチの値の
倍数値に該当する乗算係数に相当する数はマスクのアパ
ーチャに関連させる。

有意ピーク位置Ｘｉとマスクのアパーチャとが整合する
度合をつぎの操作で求める。

マスクを通過する有意ピーク位置が殆どない場合には、
整合度が当然劣る。

また、マスクを多数のピーク位置が４８するも、マスク
のアパーチャが有意ピーク位置になくて、マスクの多数
のアパーチャが有意ピーク位置を通さない場合にも整合
度は劣る。

後に詳述するように、適当な判定基準を求めて、整合度
を音質指数（ｑｕａｌｉｔｙｆｉｇｕｒｅ）にて表わ
すことができる。

ここではマスクに対して適当な音質指数を計算すれば十
分である。

この操作をＱＬＴにて表わすブロック１６にて示す。

判定ダイアモンド１７ではピッチに対する選定値Ｆ５が
所定の最大値以下、すなわちＦ，〈ＭＳであるか否かを
チェックする。

Ｆ５＜ＭＳの場合には、ダイヤモンド１７のＹ一枝路が
ブロック１５へのループ１８を辿る。

このループではＦ，の値を所定の方法で所定量だけ、ま
たは所定の割り合？だけ高める。

この機能をＮＣＲＦ，にて表わすブロック１９にて示
す。

判定ダイヤモンド１７の存在によりブロック１５および
１６にて表わされる操作はＦ５が最大値ＭＸに達する
までＦ８の新しい値に対して常時連続的に繰り返される
。

Ｆ５が最大値ＭＸに達すると、Ｎ一枝路が有効となり、
ループ１８は外される。

本発明による音声分析方式のつぎの操作は、マスクまた
は音質指数が最高値を呈するピッチの値Ｆ８を選定する
ことである。

この機能をＳＬＣＴＦ８にて表わすブロック２０にて示
す。

本発明音声分析方式ではその後、選定値Ｆ，から出発し
ている音声セグメントのピッチを２工程で概算する。

このピッチの値に基準マスクとなるマスクを関連させる
。

ピッチを求める処理における上記２つの工程の機能をＳ
ＴＭＦにて表わすブロック２１にて示してあり、こ
のブロックの出力枝路はピッチの概算値令○を供給する
。

上′記２工程における最初の工程では、基準マスクのア
パーチャに属する高調波の涸数をこれらのマスクアパー
チャに一致している有意ピーク位置Ｘｉに関連させる。

ついで、これらの各ピーク位置Ｘ・によって高調波の数
会ｉを得て、これにより同ｌ一基本トーンの連続高調波におけるピーク位置の所在を
定める。

ピツチＦの有望値（ｐｒｏｂａｂｌｅｖａｌｕｓ
）、すなわち令とは、上記最後に述べた有意ピーク位置
Ｘ・とその有望値の対応する倍数令ｉ−令。

との間Ｉの偏差をできるだけ小さくした値であると定義すること
ができる。

斯る偏差を求めるのにｍ．ｓ．ｅ．八判定基準（不偏分散誤差）を用いる場合には、Ｆｏを次
式によって計算することができる。

上式における和分法は基準マスクのアパーチャと一致す
るすべての有意ピーク位置に及ぶものであり、上記有意
ピーク位置の数をＫにて示す。

基準マスクに関連するピッチの値は、既に求めたピッチ
の最初の概算値であることは明らかである。

この概算値を用いる場合には、上述した処理工程におけ
る最後の３つの工程は実際上１工程に減らすことができ
る。

しかし上式（１）を利用することにより極めて正確な概
算値を得ることができる。

本発明による音声分析方式における幾つかの操作は汎用
コンピュータのソフトウエアで行うことができる。

他の操作は外部ハードウエアの使用により促進させるこ
とができる。

第２図は第１図のブロック１３にて行う有意ピーク位置
Ｘｉを決定する機能の流れ図を示す。

第２図のブロック２２，２３および２４は第１図に示す
ブロック１０，１１および１２にそれぞれ対応するもの
である。

ＭＰにて表わしてあるブロック２５は第１図のブロック
１３における音声スペクトル或分の振幅決定機能を示す
。

ブロック２２〜２５の機能は既知の構戒部品を用いてハ
ードウエアで実現することができる。

ブロック２５以降の処置は汎用コンピュータのソフトウ
エアによって行う。

入力データによってコンピュータはブロック２６にて示
すような振幅スペクトルの戊分ＡＦ（ｒ），ｒ−１，・
・・，１２８を受信する。

ノレーチンに対する初期値としてｒ＝２およびＮ＝０と
設定する。

この機能をブロック２７にて表わす。

スペクトル或分ＡＦ（２）で出発して、このスペクトル
或分が前のスペクトル或分ＡＦ（１）よりも大きいか、
または等しいかを調べると共に、スペクトル戒分ＡＦ（
２）がつぎのスペクトル或分ＡＦ（３）よりも大きいか
否かを調べる。

この機能を判定ダイヤモンド２８にて示す。

スペクトル或分が局部的最大値をとる場合にはダイヤモ
ンド２８のＹ−枝路を辿るようにする。

ダイヤモンド２８のＮ一枝路はブロック２９に至り、こ
のブロックではｒを１だけ高める必要がある。

その後、判定ダイヤモンド３０にてｒが１２７よりも太
きいか、または１２７に等しくなったかを調べる。

ｒ乏１２７が或立しない限り、ダイヤモンド２８へ
のループ３１が形成される。

従って、ダイヤモンド２８の機能は新規のｒの値で繰り
返される。

判定ダイヤモンド２８のＹ一枝路は判定ダイヤモンド３
２に至り、ここではスペクトル成分ＡＦ（ｒ）が限
界値ＴＨＤ以上であるかどうかを調べる。

限界値以下の場合にはＮ一枝路が有効となり、ｒの新規
の値が１２７である限りはブロック２９および３０を経
てループ３１がルーチンに加わる。

限界値ＴＨＤは量子化および「ハミング窓」に起因する
雑音レベルによって決まる絶対値によって先ず最初に設
定する。

ついで、限界値ＴＨＤの一部分を可変として、或るスペ
クトル或分に隣接するスペクトル或分の振幅が非常に大
きい場合に、上記或るスペクトル成分を隣接するスペク
トル成分によってマオクし得るようにする。

この効果は人間の聴覚に現われ、これはピッチを認知す
る上で重要なファクターである。

判定ダイヤモンド３２のＹ一枝路を辿る場合には、値Ａ
Ｆ（ｒ−１）と、ＡＰ（ｒ）と、ＡＰ（ｒ＋１）
との間にて二次多項式（放物補間法）の補間法を用いて
、振幅スペクトルの局部最大値の振幅および周波数を決
定する操作を行う。

この機能をＮＴＲＰにて表わすブロック３３にて示す。

つぎの操作は局部最大値付近における振幅スペクトルの
形状を試験することに関連するものである。

斯る振幅スペクトルの形状は前の操作で見られた二次多
項式（放物線）によって省略算される。

局部最大値付近の振幅スペクトルの形状はスペクトル或
分ＡＦ（ｒ−２）およびＡＦ（ｒ＋２）と放物線上に位
置するこれらのスペクトル或分の期待値との差を見つけ
て試験する。

ｍ．ｓ．ｅ（不偏分散誤差）が予定値以下の時には局部
最大値を正刑なものと見なす。

このように、局部最大値付近の振幅スペクトルの形状を
試験する機能をＳＨＰにて表わす判定ダイヤモンド３４
にて示す。

、上記局部最大値付近の振幅スペクトルの形状が判定基
準を満足しない場合には、Ｎ一枝路が有効となり、ルー
プ３１がブロック２９および３０を経てダイヤモンド２
８に入る。

ついで判定ダイヤモンド２８のルーチンが新規のｒの値
で繰り返される。

局部最大値付近の振幅スペクトルの形状が所定条件を満
足すると、判定ダイヤモンド３４のＹ−枝路が有効とな
り、Ｎの値を１だけ高くするブロック３５がルーチンに
入る。

その後判定ダイヤモンド３６に入る。

Ｎが所定値、例えば本例の方式の場合６以下の場合には
Ｎ一枝路が有効となり、ブロック２９と３０を通るルー
プ３１がルーテンに加わる。

振幅スペクトルの局部最大値に対する探索は上述した６
涸以上の有意ピーク位置Ｘｉが定まらない限り継続する
。

６閘以上の有意ピーク位置が定まると直ちに判定ダイヤ
モンド３６のＹ一枝路が有効となり、有意ピーク位置Ｘ
ｔが出力される（ブロック３７）。

第２図に示すルーチンにより発生された有意ピーク位置
Ｘｉは第３図に示すルーチンに対する入力データとなる
。

第３図はマスク概念を用いてピッチの有望値を決定する
プログラムの流れ図を示すものである。

このプログラムは入力データによってブロック３８にて
示すように、有意ピーク位置ｘｉ，ｉ＝１，・・・，Ｎ
を受信する。

これらの有意ピーク位置は或分として示されるものであ
る。

ピツチｆＱの初期値としてｆ。

＝Ｏとし、また変数Ｃを最大値に設定（ブロック３９）
する。

有意ピーク位置として要求される或分の数Ｎが１以下（
ダイヤモンド４０）の場合にはルーチンが外され、値ｆ
。

一〇が導出される。（ブロック４１）。

１個以上の或分が導入される場合にはルーチンが継続す
る。

前の動作と同様に、マスクの数を示す変数ｌをＡ＝１に
設定する（ブロック４２）。

ついでピツチｆ。

ｌの値を明細に定めると共に、幾つかの変数を初期値に
設定する（ブロック４３）つぎの操作（ブロック４４）
では、或分ＸｎにＡ関連する高調波の数が”Ｖｋの第１威分ｘ１で出発して
ピッチの概算を行い、この値を最も近い整数ｍＡｋに
丸める。

ｍｌｋが１１以上（判定ダイヤモンド４５）の場合には
プログラムの大部分はスキツプされる。

その理由は本発明による音声分析方式では１１以上の高
い数の高調波をピッチの決定操作に含ませないからであ
る。

その後、ｍｌｋの値がＯになったかどうかをチェックす
る（判定ダイヤモンド４６）。

ｍＡｋがＯでない場合には或分Ｘｉがマスク（このマス
クのピッチはｆ。

ｌである）のアパーチャに落下するかどうかをチェック
する。

基本トーンｆ。ｌに関する最も近い高調波に対するｘｎ
の相対偏差が所定の割合い以下、本発明方式では５％以
下の場合には、Ｘｉはマスクのアパーチャ内に位置され
るものと見なす（判定ダイヤモンド４７）。

或分ｘｎがマスクのアパーチャ内に位置する場合には、
判定ダイヤモンド４７のＮ一枝路が有効となる。

その後、シーケンスｆｆｌ７３１の最初の高調波の数
が７以上であるかどうかをチェックする（判定ダイヤモ
ンド４８）。

７以上の場合にはプログラムの一部をスキツプさせる。

その理由は、本発明音声分析方式では斯様に７以上の高
調波数で開始させるシーケンスをピッチ決定操作に含ま
せないからである。

最低高調波数が７以下か、または７に等しい場合には判
定ダイヤモンド４８のＮ一枝路が有効となり、判定ダイ
ヤモンド４９がルーチンに加わる。

つぎの操作はｍｌｋの値に対し、この値が以前に求めた
値ｍ，Ｈ，（Ｋ＋１＝ｋ）と同じ値である
かをチェックすることであり、Ｋ：１の場合にｒｎ７１
１の値を先に設定したｍｌｏと比較する。

この場合にはマスクの同じアパーチャに２つの或分が存
在するっ本発明による音声分析方式ではアパーチャの中
心に最も近い或分だけを考慮し、他の或分は考慮しない
ものとする。

変数Ｋによってアパーチャ内に位置する戊分の数を数え
る。

ｍＡｋが”Ｖｋ以上（判定ダイヤモンド４９）の時には
Ｋを後に１だけ高める（ブロック５２）。

Ａしかし、ｍｌｋがｍＡｋ以下の時には、値ｍｌｋお八よびｍＡｋのどの値に対して最小偏差がアパーチャの中
心に対し発生するかを求める（判定ダイヤモンド５０）
。

値ｍＡｋに対して最小偏差が生ずる場合にはｍＡｋはｍ
７ｋに等しいものとする（ブロック５１）。

他の場合にはｍＡｋを不変とする。倒れの場合でもＫは
増大させないようにする。

プログラムが判定ダイヤモンド４６のＹ一枝路、判定ダ
イヤモンド４７のＹ一枝路または判定ダイヤモンド５０
のＮ一枝路を辿る時か、或いはブロック５１または５２
の操作後にはｎの値を１だけ高める（ブロック５３）。

変数ｎは要求される或分Ｘｉを数え、ｎが要求された威
分の総数よりも小さい（判定ダイヤモンド５４）時には
ループ５５を導入させる。

これにより再び上述したルーチンを新規のｎの値につい
てブロック４４で開始させる。

このようにして凡ゆるＮの或分Ｘｉにつきルーチンを繰
り返す。

ｎがＮ以上になると、判定ダイヤモンド５４のＹ一枝路
を辿る。

その後、指数ｌのマスクについ・て、当面の戊分Ｎｌの
数をＮに等しくする（プロツク５６）。

プログラムが判定ダイヤモンド４５のＹ一枝路を辿る時
はＮｌはｎに等しく設定する（ブロック５７）。

１以上の高い指数値の戊分Ｘｔは１１以上の概算高調波
の数となる。

これらの戊分はピッチの値を求めるのには考慮しない。

本発明による音声分析方式ではマスクが１１１固のアパ
ーチャを有しており、マスクの外に位置する或分Ｘｉは
ピッチの決定には考慮しないものとする。

つぎの操作は要求された戊分Ｘｉの内の少なくとも半分
の或分がマスクを通過するかどうかをチェックする（判
定ダイヤモンド５８）ことである。

このことはＮ１＝０の場合を除いては左程厳しい
要求ではない。

つぎの操作は戊分Ｘｉとマスクのアパーチャとが互いに
整合する度合いを示す音質指数Ｑを計算することである
。

音質指数は要求戊分Ｘｉのシーケンスおよびマスクアパ
ーチャのシーケンスを多次元空間にてベクトル化して導
出することができ、これらのベクトルを軸線上に投影し
た値はＯか１である。

ベクトル間の距離は戊分Ｘｉとマスクとが互いに整合す
る度合いを示す。

この場合音質指数は上記ベクトル間の距離の逆数として
計算することができる。

距離が極小となる場合に音質指数が極小となったり、そ
の逆となったりする他の式を上記距離と置換することも
できる。

基本的には距離Ｄを次式によって表わすことができる。

ここにＮは成分Ｘ，の数を表わし、Ｍはマスクのア１パーチャの数、Ｋはマスクアパーチャ内に位置する或分
の数である。

音質指数Ｑは次式のように表わすことができる。

によって除算することによって正規化することができる
。

これにより音質指数はつぎのようになる。

基本的な演算より明らかなように、次式、すなわちに基ず＜Ｑ’の値が最大値にある時、音質指数Ｑは式（
５）に基いて最大値を呈する。

この場合ＱはＱ′と置換えることができる。

他の音質指数は２１固のベクトル間の角度に基いて求め
られ、に基ずくＱ“が最犬値である時に２つのベクトル間の角
度が最小となることは明らかである。

マスクの外側に落ちる或分Ｘｉはマスクの基本トーンに
関連する高調波を有するも、これらの或分ＸｉはＫの値
には寄与しない。

前記Ｑに対する式におけるＮの値をマスクの範囲内に位
置する戊分の数を示すＮｌに置換えることにより、より
一層好適な音質指数が得られるようになる。

マスクのアパーチャが要求戊分Ｘｉの範囲以外に落ち、
従ってマスクを通過する或分がないことも起り得る。

このような場合には、Ｑの式におけるＭを”Ｖｋに置換
えて音質指数を補正することができ、ｍｌｋは或る或分
を通過させるアパーチャの最高１固数である。

第３図に示す操作では、判定ダイヤモンド５８のＮ一枝
路が有効となった後に、式（６）におけるＮをＮｌに、
ＭをｍＡｋに置換えた音質指数Ｑの逆数である量Ｃｌを
計算する（ブロック５９）。

つぎの操作では、Ｃｌが変数Ｃの値以上であるかどうか
をチェックする（判定ダイヤモンド６０）。

ＣｌがＣ以下の場合にはＣｌをＣと指定する。

このことは本例マスクが前のマスクよりも良好に適合し
ていることを意味する。

そこで、ビツチｆｏを式（１）に基ずいて計算する（ブ
ロック６１）。

ブロック６１での演算の後、またはプログラムがダイヤ
モンド５８のＹ一枝路或いは判定ダイヤモンド６０のＹ
一枝路を辿る際にはマスクの指数ｌを１だけ高める（ブ
ロック６２）。

指数ｌがマスクの総数Ｌ以下の場合には、判定ダイヤモ
ンド６３からのループ６４がノレーチンに加わり、すべ
てのマスクが処理されるまでｌの新しい値について上述
したルーチンが繰り返される。

ｌがＬ以上になると、判定ダイヤフラム６３のＹ一枝路
が有効となり、ｆｏの最終計算値が導出される（ブロッ
ク６５）。

本発明による音声分析方式は汎用デイジタルコンピュー
タのソフトウエアにより行うか、或いは一部をハードウ
エアで、残りの部分をソフトウエアで実行することがで
きる。

本発明による音声分析方式を実行するのに使用して好適
なハードウエアの一例を第４図６こ示す。

この装置は入力信号としてアナログ音声信号を入力端子
１００から受信する。

この信号を低減通過フィルター１．０１にでろ波して４
ｋＨｚ＠サンプリング周波数で動作するサンプリングス
イッチ１０２によって標本化（サンプリング）する。

ついで上記サンプリングした音声信号をＡ／Ｄ変換器１
０３にてアナログーデイジタル変換する。

これにより符号化した信号のサンプルをバツファ記憶装
置１０４に記憶させる。

このバツファ記憶装置の容量は２００サンプルとする。

ピッチを計算するのに例えばＩＯｍｓかかるが、各計算
には４０ｍｓの音声セグメントを利用する。

バッファ記憶装置１０４の容量は５０ｍｓの音声セグメ
ント、すなわち２００１固のサンフ゜ノレに適するもの
とする必要がある。

１固別フーリエ変換（ＤＦＴ）によって６４涸の周波数
点における振幅或分を１６０ｆｌｌ９の最も新しいサン
プルａ− ｉ＝１，・・・，１６０から計算する。

ｌク上記６４１固の周波数点は周波数（２５＋ｋ・２５）
Ｈｚ，ｋ＝１，２，−６４の１同所である。

ＤＦＴの係数はつぎの通りである。

ｃｉ１−ｃｏｓ（２π（ｋ＋１）（ｉ−８０．５）
／１６０）ｓｉｋ＝ｓｉｎ（２π（ｋ＋ＩＸｉ
−８０．５）／１６０）「ハミング窓」を掛ける乗算は
ＤＦＴの係数につぎの因数に基ずく「ハミング窓」を掛
けて行う。

Ｈｉ＝０．５４＋０．４６ｃｏｓ（２π（ｉ−８０．５
）／１６０）各周波数点はつぎの如く計算される実数部
分ＦＲｋと虚数部分ＦＩｋとから或るものであるしこれ
らの演算を乗算器１０５および係数記憶装置１０６（Ｒ
ＯＭ）並びに累算器１０７にて行う。

６４１固の周波数点を計算するためには、乗算器１０５
によって２０４８０回乗算する必要がある。

１５０ｎｓの乗算時間に対し、計算に要する総合時間は
３，０７２ｍｓである。

乗算器としてはＴＲＷ社から市販されているＭＲＹ−
１２ＡＪ型のものが好適である。

各周波数点にて計算した値をバツファ記憶装置１０８に
記憶させる。

スペクトル或分を計算したら、クロツクパルス発生器１
０９により出力端子１１０に割込み信号を発生させる。

出力端子１１０はブロック１１１に示すマイクロコンピ
ュータの割込み信号人力端子１２７に接続する。

バツファ記憶装置１０８の出力端子はマイクロコンピュ
ータのデータ入力端子１２５に接続する。

このマイクロコンピュータは上記割込み信号の受信後、
バツファ記憶装置１０８からの値をマイクロコンピュー
タの内部記憶装置に転送する。

マイクロコンピュータはＳｉｇｎｅｔｉｃｓ３０
００マイクロプロセッサーに基ずくものであり、こ
れは中央処理ユニツｌ−（ＣＰＵ）１１２，ランダムア
クセスメモリー（Ｒ．ＡＭ）１１３，マイクロ制御ユニ
ット（ＭＣＵ）１１４，マイクロプログラムメ
モリ（ＭＰＭ）１ｌ５および出力レジスター（ＯＲ
）１１６を具えている。

プログラムの実行中はＭＣＵＩ１４によってＭＰＭ
１１５に対するアドレスを発生させ、このＭＰＭ１
１５により指令をＣＰＵＩ１２にライン１１７
を介し７て供給すると共に、つぎの指令についてのデー
タをライン１１８を介してＭＣＤ１１４に逆に送給する
。

人／出力側制御のために、ＭＰＭ１１５は制御ビットを
ライン１１９を介してＲＡＭ１１３に供給すると共に、
ライン１２０を介して出力レジスター（ＯＲ）１１
６に供給する。

ＣＰＵＩ１２はライン１２１を介してアドレスをＲ
．ＡＭ１１３に供給すると共に、ライン１２２を介して
ＲＡＭ１１３にデータを供給し、さらにライン１２
３を介してＯＲ１１６にデータを供給する。

ＣＰＵはさらに、ライン１２４を介してＲＡＭＩ１−
３からデータを受信すると共に、ライン１２５を介して
データ入力端子からもデータを受信する。

ＭＣＵ１１４はライン１２６を介して標識と桁上げ情報
をＣＰＵで交換すると共に、ライン１２７を介して割込
み信号を受信する。

このマイクロコンピュータは、マイクロプロセッサーの
生産者が配給するユーザ用の情報を用いて第５Ａ−５Ｄ
図に含まれる流れ図に基いて当業者がプログラミングす
ることができる。

上記プログラムに応じてマイクロコンピュータにデータ
を入れると、このマイクロコンピュータは、クロツクパ
ルス発生器１０９からの割込み信号の受信後に出力端子
に令○に対する値を供給する。

この値をクロツクパルス発生器１０９によって発生され
る各割込み信号の後に更新させる。

これらの割込み信号は、マイクロコンピュータでピッチ
の値を計算するのに十分な時間である１０ｍｓ毎に発生
させることができる。

マイクロコンピュータは割込み信号の受信後には入力デ
ータにより周波数点ＦＲｋおよびＦＩｋ，ｋ−１，・・
・６４（第５Ａ図のブロック２００）の値を受信する。

つぎの操作は振幅値を決定する（ブロック２０１）こと
である。

その後、最大振幅値の数分の１に相当する限界値を求め
る（ブロック２０２）。

ついで振幅スペクトルの或分Ａｋの指数（インデックス
）を表わす変数ｋの値を２に設定すると共に、有意ピー
ク値Ｘｉの数ＮをＯに設定する（ブロック２０３）。

つぎの操作では先ず有意ピーク位置が８涸の最大数に既
に達したかどうかをチェックする（ブロック２０４）。

有意ピーク位置の数が８涸の最大数に達していない場合
には、振幅Ａｋが限界値Ｚ以上の局部最大値にあるかど
うかをチェックする（判定ダイヤモンド２０６）。

振幅値Ａｋが限界値Ｚ以上の局部最大値にある場合には
、判定ダイヤモンド２０６のＹ一枝路が有効となり、Ｎ
が１だけ高められる（ブロック２０７）。

振幅スペクトルにおける局部最大値の適当な位置は、或
分Ａｋ，Ａｋ−１およびＡｋ千１間での二次多項式によ
って補間法により計算する（ブロック２０８）。

このルーチンによって振幅スペクトルにおける有意ピー
クの位置Ｘｉを供給する。

その後、指数ｋを１だけ高めて（ブロック２０９）、こ
れによるｋの新規の値が依然として６３より小さいか、
または６３に等しい時にはループ２１０をルーチンに加
える（判定ダイヤモンド２１１）。

或分Ａｋが局部最大値を呈さない場合には判定ダイヤモ
ンド２０６のＮ一枝路が有効となり、Ｎはｌ高められず
、この場合にはｋが１だけ高めら？る（ブロック２０９
）。

ループ２１０を辿る場合、上述したルーチンは最後の成
分を除くすべての或分が処理されるまで、新規のｋの値
に対して判定ダイヤモンド２０４から上述した操作を繰
返す。

ｋの新規の値が６４であることを判定ダイヤモンド２１
１が検出する場合には、Ｎ一枝路が有効となり、有意ピ
ーク位置Ｘｉは、これが８涸の有意ピーク位置を見つけ
た（判定ダイヤモンド２０４）時点よりも早い瞬時に検
出されていなくても出力される（ブロック２１２）。

上記判定ダイヤモンド２０４にて８涸の有意ピーク位置
を見つけた場合にはこのダイヤモンド２０４のＹ一枝路
が有効となり、その後８涸の有意ピーク位置ｘｉが出刀
される。

有意ピーク位置Ｘｉはつぎのルーチンに対する入力デー
タを形或し、このルーチンによって或分Ｘ１の高調波の
数Ｒｉを決定する。

以後これらの入カデータを或分Ｘｉとして示す。

第３図に示すルーチンとは異なり、ここでは或分Ｘｉの
近くにアパーチャを有しているマスクを形戊する。

その後、マスクとピッチの連続高調波とが最適に適合す
るピッチの値をチェックする。

このような方法によれば計算上の利点があり、この方法
によるも前述した方法と同じ結果が得られる。

Ｘｉの各値について、低い方の値ＸＬｉおよび高い方の
値ＸＨｉを計算し、これらの値によって戊分Ｘｉの近く
のアパーチャを定める（ブロック２１３）。

全或分ＸＩに対するアパーチャの配列によって基準マス
クを形或する。

ルーチンの主ループを開始させる前に、音質指数を示す
変数ＣをＯに調整し、ピツチＳＦｏに対する初期値（５
０Ｈｚ）を調整する（ブロック２１４）。

選定ピッチの連続高調波は最初常に８涸の或分を具えて
いる。

その後、連続高調波の範囲内にある或分Ｘｉの数Ｎ′、
すなわちｘＬ７がピンチＳＦｏの選定値の８倍よりも小
さい或分Ｘｔの数を求める（ブロック２１５）。

Ｎ′がＯ以上の時（判定ダイヤモンド２１６）には、戊
分ｘｉの範囲内にある選定ピツチＳＦｏの高調波の数Ｍ
′を求める。

ここに、Ｍ′はｘＨＮ ’／ＳＦの商の値の整数値
となる。

つぎの操作ではマスクのアパーチャに位置する選定ピッ
チの高調波の数を求め、この際暫定高調波数ＲＴｉを各
或分Ｘｔに関連させる。

高調波のピッチがアパーチャに全く位置しない場合には
、これに該当する或分Ｘｔの高調波の数はＯである。

選定ピッチの高調波が１涸以−Ｅの或分Ｘｔのアパーチ
ャ内に位置する場合には最低値の或分Ｘｉに高調波の数
を割り当てる（ブロック２１８）。

第５Ｄ図は第５Ｂ図のブロック２１８の１レーチンを詳
細に示した流れ図であり、このブロックにおける操作は
図示した通りである。

ブロック２１８での操作後にはピツチＳＦｏの選定値に
関連する音質指数Ｑを計算する（ブロック２１９）。

その後、音質指数Ｑが、以前に見つけた値よりも大きい
か、または等しいかを求める（判定ダイヤモンド２２０
）。

斯る要件を満足する場合には変数ＣをＱに等しくシ、暫
定数ＲＴｉを、新規の高調波数を表わす変数Ｒｉによっ
て引き継がせる（ブロック２２１）。

ルーチンが判定ダイヤモンド２１６のＹ一枝路か、また
は判定ダイヤモンド２２０のＮ一枝路を辿る際、或いは
ブロック２２１での操作後には、ピッチＳＦＯに対する
新規の初期値を計算する（ブロック２２２）。

ピッチの新規の値が依然として５００Ｈｚより小さいか
、またはそれに等しい時にはルーチンはループ２２４に
入る（判定ダイヤモンド２２３）。

上述したルーチンはピツチＳＦｏの新規の値に対してブ
ロック２１５から繰り返される。

ループ２２４を多数回通過した後、ピッチＳＦ−ｏの新
規の値が５００Ｈｚよりも大きくなると（判定ダイヤモ
ンド２２３）、ループ２４４は外れ、関連する最調波数
Ｒｉを有する或分Ｘｉが出力される（ブロック２２５）
。

成分Ｘｉおよび高調波の数Ｒｉはピッチ令。

の有望値（式（１）に類似する）を計算するルーチンに
対する入力データを構戊する。

斯るルーチンの処理は高調波数の自乗の和を形或する量
ＤＮＨの計算から開始する。

この量ＤＮＮがＯに等しくない（判定ダイヤモンド２２
７）時には令０をブロック２２８で計算する。

他の場合には判定ダイヤモンド２２７のＹ一枝路を辿り
、ＦｏはＯに設定される（ブロック２２９）。

倒れの場合にもピツチＦｏの値を出力する（ブロック２
３０）ことによってルーチンは終了する。

ブロック２１９で計算される音質指数Ｑは上述した演算
原理から逸脱しない他の式に基いて計算することもでき
ることは勿論である。

基本トーンの連続高調波による最初の場合および有意ピ
ーク位置による第２の場合に規定されるマスク概念を用
いて有意ピーク位置を基本トーンの連続高調波と比較す
る２つの処理は同一結果をもたらす。

これらの各処置は互いに双対（デュアル）ケースと見な
され、雑音或分に対して不感応であると云う点では同じ
利点を有している。

【図面の簡単な説明】

第１図は本発明による音声分析方式の実施に基ずく操作
順序を示す流れ図、第２図は第１図に示す音声分析方式
にて所定の処理を行うためのディジタルコンピュータの
プログラムに関する流れ図、第３図は第１図に示す流れ
図の所定の機能を果すためのコンピュータプログラム用
の流れ図、第４図は本発明による音声分析方式を実施す
るための電子装置の一例を示すブロック線図、第５図は
本発明による音声分析方式における所定の操作を行うた
めの第４図に示す装置のマイクロプロセッサ一段によっ
て実行し得るプログラムの流れ図である。１０・・・標本化音声信号から持続時間が４０ｎｓの時
間区分を取り出す手段、１１・・・音声信号セグメント
にハミング窓を乗算する手段、１２・・・音声信号セグ
メントのサンプルをフーリエ変換する手段、１３・・・
スペクトル或分の振幅およびスペクトルの有意ピーク位
置を求める手段、１４・・・ピッチの値を選定する手段
、１５・・・スペクトル間隔を定める手段、１６・・・
音質指数を計算する手段、１７・・・選定ピッチの値が
所定の最大値以下であるかどうかを判定する手段、１９
・・・ピッチの選定値を所定量高める手段、２０・・・
最高の音質指数を呈するピッチの値を選定する手段、２
１・・・音声セグメントのピッチを概算する手段、１０
０・・・アナログ音声信号入力端子、１０１・・・低域
通過フィルタ、１０２・・・サンプリングスイッチ、１
０３・・・Ａ／Ｄ変換器、１０４・・・バツファ記憶装
置、１０５・・・乗算器、１０６・・・係数記憶装置、
１０７・・・累算器、ｉｕｓ・・・バツファ記憶装置、
１０９・・・クロツクパルス発生器、１１０・・・割込
み信号出力端子、１１１・・・マイクロコンピュータ、
１１２・・・中央処理ユニット、１１３・・・ランダム
アクセスメモリ、１１４・・・マイクロ制御ユニット、
１１５・・・マイクロプログラムメモリ、１１６・・・
出力レジスター。

Claims

【特許請求の範囲】１音声信号の時間区分を規則的に選択し、各時間区分
から音声信号の各サンプルを１固別にフーリ工変換して
得られる連続スペクトル或分を求め、かつ各時間区分に
前記スペクトルにおける有意ピーク位置を前記連続スペ
クトル収分から導出することによって音声信号の振幅ス
ペクトルを分析する音声分析方式において、該音声分析
方式を、一ピツチに対する値を選定し、この選定値を順
次整数倍する順序を決め、前記選定値の近くおよび該選
定値の倍数値近くにおけるスペクトルの間隔を定め、こ
れらの間隔によってマスクのアパーチャ、特にアパーチ
ャの間隔を定め、前記選定値の倍数値における乗算係数
に相当する高調波の１同数をマスクのアパーチャに関連
させる工程と、一マスクのアパーチャと一致する有意ピ
ーク位置を決定する工程と、一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、一連続的に高くなるピッチの値に対して，そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、一最高の音質指数を呈し、該最高音質指数に関連スるマ
スクが基準マスクとなるピッチの値を選定する工程と、一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の１固数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、一ピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が団一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程とを具えていることを特徴とする音声分析方式。２音質指数を次式の１つに基いて計算し、ここにＫを
マスクのアパーチャと一致する有意ピーク位置の数とし
、Ｍをマスクのアパーチャの数とし、Ｎを有意ピーク位
置の数としたことを特徴とする特許請求の範囲１記載の
音声分析方式。３音質指数Ｑに対する式中のＭの代りにＭ′を用い、
ここにＭ′を有意ピーク位置の範囲以外に位置するアパ
ーチャの数だけ減じたＭの値に等しい値としたことを特
徴とする特許請求の範囲２記載の音声分析方式。４音質指数Ｑに対する式中のＮをＮ′と置換え、ここ
にＮ′をマスクのアパーチャの範囲以外に位置する有意
ピーク位置の数だけ減ＵたＮの値に等しい値としたこと
を特徴とする特許請求の範囲２記載の音声分析方式。５ピツチの有望値令ｏを次式に基いて計算し、ここに
Ｘ．はｉ番目の有意ピーク位置を表わし、ｌｎｉは該有意ピーク位置に関連する数を表わし、Ｋはマ
スクのアパーチャと一致する有意ピーク位置の数を表わ
すものとしたことを特徴とする特許請求の範囲１記載の
音声分析方法。６音声信号の時間区分を規則的に選択し、各時間区分
から音声信号の各サンプルを１固別にフーリ工変換して
得られる連続スペクトル或分を求め、かつ各時間区分に
前記スペクトルにおける有意ピーク位置を前記連続スペ
クトル或分から導出することによって音声信号の振゛幅
スペクトルを分析する音声分析方式において、該音声分
析方式を、一ピツチに対する値を選定し、この選定値を
順次整数倍する順序を決め、前記有意ピーク位置の近く
のスペクトルの間隔を定め、これらの間隔によってマス
クのアパーチャ、特にアパーチャに属するピーク位置を
定め、前記選定値の倍数値におけける乗算係数に相当す
る高調波の涸数をピッチの倍数値に関連させる工程と、ーマスクのアパーチャと一致するピッチの倍数値を求め
る工程と、一ピツチの倍数値とマスクのアパーチャの開口とが整合
する度合いを示す判定基準に基いて音質指数を計算する
工程と、一連続的に高くなるピッチの値に対して、ピッチの値が
予定した最高値に達するまで以前の工程を繰り返して、
これらの各ピッチの値に関連する音質指数を順次得る工
程と、一基準ピッチを設定する最高の音質指数を呈するピッチ
の値を選定する工程と、一基準ピッチの倍数値に属する高調波の個数を同一アパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の１固数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、一ピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同じであるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程とを具えていることを特徴とする音声分析方式。７音質指数を次式の１つに基いて計算し、ここにＫを
マスクのアパーチャと一致するピッチの倍数の数とし、
Ｍを連続するピッチの倍数の数とし、Ｎを有意ピーク位
置の数としたことを特徴とする特許請求の範囲６記載の
音声分析方式。８音質指数Ｑに対する式中のＭをＭ′と置換え、ここ
にＭ′を有意ピーク位置の範囲以外に位置するピッチの
倍数の数だけ減じたＭの値に等しい値としたことを特徴
とする特許請求の範囲７記載の音声分析方式。９音質指数Ｑに対する式中のＮをＭ′と置換え、ここ
にＮ′をピッチの順次の倍数値の範囲以外に位置する有
意ピーク位置の数だけ減じたＮの値Ｏこ等しい値とした
ことを特徴とする特許請求の範囲７記載の音声分析方式
。１０ピツチの有望値令。を次式に基いて計算し、ここにＸ．はｉ番目の有意ピー
ク位置の値を表わし、１Ｒ１は該有意ピーク位置の値に関連する数を表わし、Ｎ
は有意ピーク位置の数を表わし、選定ピッチの倍数値が
該当するマスクアパーチャに位置しない場合に有意ピー
ク位置の数をＯとするようにしたことを特徴とする特許
請求の範囲６記載の音声分析方式。