JPS60194499A - 音声分析方式 - Google Patents

音声分析方式

Info

Publication number
JPS60194499A
JPS60194499A JP60033019A JP3301985A JPS60194499A JP S60194499 A JPS60194499 A JP S60194499A JP 60033019 A JP60033019 A JP 60033019A JP 3301985 A JP3301985 A JP 3301985A JP S60194499 A JPS60194499 A JP S60194499A
Authority
JP
Japan
Prior art keywords
pitch
value
block
mask
sound quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60033019A
Other languages
English (en)
Other versions
JPH0632028B2 (ja
Inventor
レオナルダス・フランシスカス・ビレムス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPS60194499A publication Critical patent/JPS60194499A/ja
Publication of JPH0632028B2 publication Critical patent/JPH0632028B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
(発明の分野) 本発明は、2以上のピッチ検出アルゴリズムを用いて人
間の音声区分のピッチを決定する音声分析方式に関する
ものである。 (従来技術の説明) 上述した音声分析方式は後述する参考文献(1)に記載
されており既知である。この参考文献に記載された方式
では、自己相関関数法、ケプストラム法および低域通過
フィルタ波形法を用いている。 この文献に記載されているように、これらの方法の選択
は適当に独立したピッチの概算値をいかにして得たいか
によって決定された。 自己相関関数法は時間領域C区分)からの1′#報を直
接使用しており(後述する参考文献r21を参照)、一
方ケプスドラム法は周波数領域〔IX4分)からの情報
を用いている。周波rk4Xl域からの情報を用いる他
の方法、例えば後述の参考文献(81に1竃された高1
波ふるい法も既知である。この場合、振幅スペクトルが
、サンプリングされた信号の短区分[40ミIJ秒)に
対し決定され、その後&[スペクトルにおいて、振幅の
有意ピークの周波数位置〔有意ピーク位IWlに対する
探索が行なわれ、最後に高調波ふるいと称されるように
振幅スペクトルの有意ピーク位置に最も接近して整合し
ている高1波を有するピッチを探索する。 音声におけるピッチを決定する上述した方法では各方法
に特有の問題が生じる。一般には、周波数領域で動作す
る方法は高ピツチに対し用いる場合にしばしば誤りを生
せしめ、また時間@域で動作する方法は低ピツチに対し
誤りを生ぜしめ、実際のピッチの倍数をしばしばピッチ
として指示してしまうということができる。 (発明の概1か) 本発明の目的は、低ピツチから高ピツチまでの範囲に亘
って考慮され、情報の信頼性に関して相補を成す相補ピ
ッチデータを最適に形成する第1および第2検出アルゴ
リズムを用い、−万の検出アルゴリズムを低ピツチ範囲
に対して信頼的とし、他方のアルゴリズムを高ピツチ範
囲に対して信頼的とする前述した種類の音声分析方式を
提供せんとするにある。 本発明は2以上のピッチ検出アルゴリズムを用いて人間
の音声区分のピッチを決定する音声分析方式において、
第1要素ピツチ計で音声区分の振幅スペクトルを決定し
、この撮IQスペクトル内で有意ピーク位置を決定し、
第2要素ピンチ計で音声区分の自己相関関数を決定し、
この自己相関関数内で有意ピーク位置を決定し、振幅ス
ペクトルの有意ピーク位置および自己相関関数の有意ピ
ーク位置を以って、 一ピッチおよび周期のそれぞれに対する値を選択し、こ
の値の順次の整数倍の列を決定し、この値およびその倍
数を含む間隔を決定し、これらの間隔によりマスクの了
パーチャを規定し、前記の倍数における倍率に相当する
晶調波数をこれらの7パーチヤに関連させる工程と、−
有意ピーク位置とマスクのアパーチャとが整合している
度合を表わす規準に応じて音質指数を計算する工程と、 一ピッチおよび周期のそれぞれの順次に高くなる値に対
し所定の最高値になるまで前の工程を繰返し、これらの
ピッチおよび周期のそれぞれの値と関連する音質指数の
列を得る工程と、−最高の音質指数を有する所定の個数
のビ・ソチおよび周期のそれぞれの値な選択する工程と
、−周期に対する値をピッチに対する値に変換する工程
と、 −これにより見い出したピ゛ンチに対する値を関連の音
質指虎と組合せて最も確率の高いピッチの概算値を形成
する工程とを有する一組の動作のそれぞれの入力データ
を構成することを特徴とする。 データの合成に際しては、他のデータ、例えば近時の過
去の測定データをも考慮し、ピッチの決定の時間的連続
性をも保鉦するようにすることができる。 C実施例) 第1図に示す本発明の一例の音声分析方式の目的は5 
(l Hz〜50 (l Hzの範囲中の音声信号のピ
ッチを決定することにある。この種類の音声分析方式に
おいてはこの目的を以下のようにして達成する。 −ブロックlOで示すように、40ミリ秒の持続時間を
有する音声の区分子セグメント1を開始点として取り、 −ブロック11で窓を用いることによりこの1イ分の振
幅スペクトルを決定し、ブロック12でフーリエ変換し
、 一ブロック18で示すように、この振幅スペクトルにお
ける有意ピーク位置を決定し、 −”HRMSV”で表記したブロック14で、県い出し
たピーク位1斤が高調波列に整合しているがどうかを検
査しくブロック14の機能は高調波ふるい機能として表
わされ、 簀ピッチに対する値を洪択し、この値の順次の整数倍の
列を決定し、この値およびその倍数値を含むところの間
隔fインターバル)を決定し、これらの間隔によりマス
クのアパーチャを規定し、前記の倍数値における倍率に
相当する高調波の数をこれらのアパーチャに関連させる
工程と、 苦ピッチの順次に高くなる値に対し所定のw高値になる
まで前の工程を繰返し、これらのピッチの値と関連する
音質指数の列を得る工程と、簀最高の音質指数を有する
ピッチの8つの値を選択する工程と よりrにる)、 一音μJ区分の自己相関関数を決定しCブロック]5)
、ブロック16においてその有意ピークイ+1箔を決定
し、 一動作に関する限りブロック14に類似するブロック1
7.で示すように、見い出したピーク位置が高11!4
波列に整合しているがどぅがを検査しにのブロック17
の機能は、 簀周期に関する値を選択し、この値の順次の整数倍の4
+Hの列を決定し、この値およびその倍数値を含むとこ
ろの間隔を決定し、これらの間隔によりマスクの了パー
チャを規定し、前記の倍数値における倍率に相当する高
調波の数をこれらの了パーチャに関連させる工程と、 薫イj意ビーク位tiとマスクのアパーチャとが整合す
る1す合を表わす規準に応じて音質指数を計算する工程
と、 昔周期の順次に高くなる値に対し所定の最高値になるま
で前の工程を繰返し、これらの周期の4Mと関連する音
質指数の例を得る工程と、簀最高の音質指数を有する1
■期の3つの値を選択する工程と より成る)、 一周期に対する値をピッチに対する値に変換し、−この
ようにしてピッチに対して見い出した値を関連の音質指
数と組合せて最もそれらしいピッチの概算をするCブロ
ック181゜ ここに記載した音声分析方式においては、ブロック14
および17で示すいわゆる高1#波のふるいが重要な要
素を構成する。 高調波のふるいの動作を第2図に示す。このふるいは周
波数(ブロック14+か或いは周期Cブロック17)の
いずれかである有意ピーク位置pli+で動作する。説
明は周波数Cピッチ)の点ではブロック14に関するも
のであり、周波数が周期に変わると説明はブロック17
に関するものである。 この処理中まず最初ピッチに対する値をブロック】9で
示すようにF6と仮定する。この初期値および多数のそ
の順次の整数倍をそれぞれ含むn個のパラグラフ間隔を
規定する。これらの間隔は、マスクの了パーチャと一致
する数値がマスクを透過するという点でマスクのアパー
チャとみなされる。この仮定においては、マスクは数値
に対する一紳のふるいとして機能する。これらの動作を
MSKと記したブロック20によって表わす。 高鯛波数と称され、ピッチの選択値の関連の倍数値の倍
*に相当する数はマスクのアパーチャと関連する。 有意ピーク位[p(i+とマスクの了パーチャとが整合
する度合は次の動作で決定される。数個の有意ピーク位
置のみしかマスクを透過しない場合には、明らかに整合
不充分である。一方、多くのピーク位置がマスクのアパ
ーチャを透過するも、有意ピーク位置がマスクの多くの
了パーチャの位置に存在しない為にこれらの了パーチャ
を透過しない場合にも、整合が不充分である。 後に説明するように、整合の度合を音質指数の杉態で表
わしつる適切な規準を卵、い出すことができる。この点
で音質指数をマスクに対し計算すれば充分である。この
動作をQLT′fi:記したブロック21で示す。 判定ダイアモンド22では、ピッチに対し選択した値F
6が所定の般大値MXよりも小さいか(F8〈MX)ど
うかを検査する。小さい場合(イエス:Y)にはダイア
モンド22のY分岐、すなわちブロック24へのループ
に進む。このループではF6の値がある方法で、すなオ
つち所定の幇或いは所定のパーセントだけ増大させられ
る。この機能をN0RF8を付したブロック24で示す
。 判定ダイアモンド22が存在する為、FsがIQ大値殿
に達するまで、ブロック20および21で示す動作が常
時F8の新たな値に対して連続的に繰返される。F8が
最大値お工に達すると、すなわち前記の判定IF8(M
xlがノーrNlである場合には、N分岐に進み、ルー
128が分離される0 本例の音声分析方式における次の動作は、音質指数が最
大値をイアするFSの8つの値を選択することにある。 この動作は5LOTF81付したブロック25で行なう
。 本例の音声分析方式ではその後に、昶択したF8の8つ
の値から開始して確率(蓋然性)の高いピッチの概算を
する。ピッチを決定する処置におけるこの最後の工程を
STM EPfl、、2.81を付したブロック26で
示し、その出力分岐にはピッチの8つの概算値EpH,
2,81が生じる。 このブロック26では、基準マスクの了パーチャの間両
波数をこれらのアパーチャと一致する有意ピーク位置p
fi+と関連させ、これらピーク位置p(1)の各々に
より同じ基音の高調波の列におけるピーク位置の個所を
決定する高漕波数n1.を得る。Foの良好な概算値F
。は#後に記載した前記の有意ピーク位@pCi−+と
確率の高い値の対応する乗算値n工・Foとの間のずれ
ができるだけ小さくなる値として規定しつる。このずれ
を決定する為に平均二乗誤差規準を用いる場合には、F
oを次式(1)によって計算することができる。 この式中の加算は基準マスクの了パーチャと一致するす
べての有意ピーク位置に亘って行なわれ、その数をKで
示しである。これとは別に、基準マスクと関連するピッ
チの値は既に、屋いtl(シたピッチの第1概算値を形
成している。 第8図は有意ピーク位置の値を周波撒で得る処理を詳細
に示す。 40ミリ秒の持続時間を有する時間1に分を、サンプリ
ングした音声信号から取りJ43す。この機能を40m
Sで表わしたブロック2)で示す。次の動作はいわゆる
パハミング窓”を音声信号の区分に乗じることであり、
その機能をWNDWを刊したブロック28で示しである
。そのe、DFTを付したブロック29で示すように音
声信号区分のサンプルに個別の256点でフーリエ変換
する。 次のブロック80(AMSPIのntl+作では、12
8個のスペクトル成分の振幅を、DFTによって生ぜし
めた256個の実数および虚数値から決定する。これら
のスペクトル成分からはスペクトル中のピークの位置を
表わす有意ピーク位置PF(i+が導出される。 本例の音声分析方式のいくつかの動作は一般的な目的の
コンピュータのソフトウェアで実行しつる。他の動作は
外部のハードウェアを用いることにより加速させること
ができる。 ブロック30から後は一般的な目的のコンピュータのソ
フトウェアによって実行する。 ブロック81で示すようにコンピュータは入力データと
して振1111i1スペクトルの成分Ay(rl 、 
r −1、−−−、128を受ける。ルーチンに対する
初期値として値r−2およびN’l’0P−0を取る。 この機能をブロック82で示す。NTOPは見い出した
局部的な極大値の数を表わす変数である。 判定ダイアモンド33では、スペクトル成分AF(21
から開始してこのスペクトル成分AF(21がしきい値
THFを越えるか否かを判断する。このダイアモンド8
8のN(ノー)分岐はrを1だけ増大させる必要がある
ということを表わすブロック89に導ひかれる。その後
判定ダイアモンド40でrが127以上になるか否かが
判断される。 この判断カッ−(否)である場合にはダイアモンド88
へのループ41が形成される。これによりrの新たな値
に対しダイアモンド88の機能が絆返される。 判定ダイアモンド88のY(イエス1分岐は判定ダイア
モンド84に通じ、この判定ダイアモンド84において
スペクトル成分AF(21が前のスペクトル成分AF(
11以上であるか否か、またスペクトル成分AF121
が次のスペクトル成分AF181を越えるか否かが判断
される。この機能を判定ダイアモンド84で示す。スペ
クトル成分が局部的な極大値を形成すると、ダイアモン
ド84のY分岐に進む。 ダイアモンド84のN分岐はrめ新たな値が127より
も低い限りrを1だけ増大させることヲ示スブロック3
9に導かれている。しきい値THFはまず第1に1ハミ
ング窓”および量子化に起因して生じる雑音のレベルに
よって決まる絶対値により形成される。 第2に、しきい値THFの一部は、隣接のスペクトル成
分が著しく大きな振幅を有する場合にこれらの隣接スペ
クトルによりスペクトル成分をマスキングすることを考
慮する為に可変とすることができる。この効果は人間の
聴・室中に生じるものであり、ピ゛ンチの検出における
重要な要因となる。 判定ダイアモンド84のY分岐に進むと、振幅スペクト
ルの局部的極大値の振幅および周波数を決定する動作が
行なわれる。この目的の為に、二次多項式で値AB’f
r−11、AF(rlおよびAF(rl11間の補間(
放物線補間)を用いる。この機能をIN’I’RPを付
したブロック36で示す。次にブロック87において局
部的な極大値の数を1だけ増大させる。 振幅スペクトルの局部的な極大値に対する探索は、6つ
の有意ピーク位ftPF(ilの極大値が決定されるま
で継続させる。6つの有意ピーク位置が決定されると、
判定ダイアモンド88のY分岐が有効となり、有意ピー
ク位置PF(ilが導出されるCブロック42)。 第8図に示されるルーチンによって生ゼしめられる有意
ピーク位置PT(ilは第4Aおよび4B図に示すルー
チンに対する人力データを構成する。 これら第4Aおよび4B図はその一方(第4B図)が他
方(第4A図)の下側に位置するものである。 第4Aおよび4B図は、マスク概念を用いてピッチの確
草の高い値を決定するプログラムの流れ図を示す。 このプログラムにはブロック48で示すように入力デー
タにより有意ピーク位MPF(il 、 i −1。 −−−、Nが与えられる。これらのピーク位置をコンポ
ーネントとも称する。 まず最初、関連の音声指数qlilを有する8つのf 
の概算値f。+j+、j−1.2.8を零に設定するC
ブロック44)。 与えられたコンポーネントの数が1よりも小さい場合に
は(ダイアモンド45)、ルーチンから(16) 離れ、値f。fjl−oが導出されるCブロック463
゜1つ以上のコンポーネントが導入される場合には、判
定ダイアモンド45のN分岐を経てルーチンが継続され
る。 予備動作としてマスクの数を示す変数lを1に設定し、
このマスクと関連するピッチf。、を50Hzに設定す
るCブロック47)。その後、いくつかの変数を初期値
に設定するCプロ・ンク48)。 次の処理Cプロ・ンク491では、第1コンポーネント
PFrllで開始してこのコンポーネントPFrl・)
・と関連する高調波数’lkの概算を行ない、この値を
最も近い整数のnlkに丸める。 mlkが11を越えると(判定ダイアモンド50)、プ
ログラムの大部分がスキップされる。その理由は、本例
の音声分析方式では、11よりも高い数を有する高調波
がピッチの決定に含まれていない為である。 その後、m1kが値零を有するか否かを検査するC判定
ダイアモンド52】。ノーである場合には、コンポーネ
ントPFln+がピッチf。lを有するマスりの7パー
チヤ内に入るか否かを検査する。基音folの鰹も近い
a調波に対するPF(nlの相対的なずれが予定のパー
セント、本例の方式では5%よりも少ない場合には、P
Flnlが了パーチャ内に含まれていると仮定する(判
定ダイアモンド54)。 コンポーネントPFrnlがマスクの了パーチャ内に位
置する場合には、判定ダイアモンド54のN分岐が有効
となる。 次の動作は、前に決定したmIK(K +1− ](l
に対する値と同じ値がm1kに対しり、い出される場合
に関するものである。この場合マスクの同じアパーチャ
内に2つのコンポーネントがある。本例の音声分析方式
は了パーチャの中心に最も近いコンポーネントのみを容
認し、他のコンポーネントは考慮しない。 変数Kによりアパーチャ中に位置するコンポーネントの
数を表わす。mlkがmIKを越えると(判定ダイアモ
ンド551、その後にはlだけ増大させられる(ブロッ
ク58)。 しかし、m1kがmIKを越えないと、了パーチャの中
心に対する最小の相対的なずれが値mlkおよびmIK
のいずれに対して生じるかが決定される
【判定ダイアモ
ンド6fll。この最小の相対的なずれが値mlkに対
し生じる場合には、値mIKが値”lkに等しいと仮定
される(ブロック57)。他の場合には、値”IKは変
化しない。これらの双方の場合、Kは増大させない。 プログラムが判定ダイアモンド52のY分岐をたどるか
、判定ダイアモンド54のY分岐をたどるか、判定ダイ
アモンド56のN分岐をたどるか、■ブロック57また
は58の動作が終了すると、nの値を1だけ増大させる
〔プロ・ンク59)。変&nにより与えられたコンポー
ネントPFrilの数を表わし、nが与えられるコンポ
ーネントの総数Nよりも小さい場合には〔判定ダイアモ
ンド601.1ループ61に入る。 この場合、上述したルーチンはnの新たな値に対しブロ
ック49で再開される。このようにしてルーチンはN個
のすべてのコンポーネントPFri+に対し繰返される
。 (19) nがNよりも大きくなると、判定ダイアモンド60のY
分岐をたどる。その後、指標1を有するマスクに対し、
考慮したコンポーネントの個数N1がNに等しいという
ことを記録する【ブロック62)。プログラムが判定ダ
イアモンド5oのY分岐をたどると、Mlはnに等しく
設定されるCブロック681゜より一層高い指標値を有
するコンポーネントPF(ilは、llを越える概算高
調波数を有し、ピッチの決定には考慮されない。本例の
音声分析方式では、マスクが11個の了パーチャを有し
、マスクの外側に位置する成分PF(ilはピッチの決
定には含まれない。 次の処理は、コンポーネントPFlilとマスクの了パ
ーチャとが互いに整合する度合を示す音質指数Qの計算
に関するものである。 音質指数は、与えられたコンポーネン) PFli+の
列とマスクのアパーチャの列とが多次元空間中のベクト
ルであると仮定することにより取出しつる。ベクトル間
の距離はコンポーネントPFli+とマスクとが互いに
整合する度合を示す。従って、音質指数は距離分の1と
して#算しつる。距離が最小である場合に最小である、
またその逆であるいかなる他の表現をも距離の代りに用
いることができる。 基本的には、距離りを次式(2)で表わすことができる
。 ここにNはコンポーネントPFは)の個数を示し、Mは
マスクの了パーチャの個数を示し、Kはマスクの7パー
チヤ内に位置するコンポーネントPF(ilの個数を示
す。 音質指&Qは次式(8)で示すことができる。 距離りはこれを次式(4)の単位ベクトルの長さで胡る
ことにより正規化しつる。 E−β+M−K −−−−−(4) 従って音質指数は次式(5)となる。 基本的な演算により、次式(6)によるQ′がその最大
値になるとQは式(5)によりその最大値になるという
ことを証明しつる。 音質指数は、マスク内に入るコンポーネントの個数が多
くなればなる程計算が一層信幀的となるという事実を表
わすのに用いるのが好ましい。このことを達成する為に
次式(7)を満足する音質指数Q′を用いる。 有意ピーク位1iiPF(ilを見い出すのに用いた方
式では、6つのピーク位置を見い出した際に探索を停止
する(第2因の判定ダイアモンド88)。 最も理想的な測定は、6つのピーク位置がマスクの最初
の6つの了パーチャと一致し、従って音質指l!l/Q
′に対し値8が見い吊される測定である。 音質指数Q′を、達成しうるこの最大の値で標準化し、
新たな音質指数Qnが次式(81となるようにするのが
有利である。 理想的な場合には、この音質指数は値1に達し、理想的
でない他のすべての状態では音質指数はそれよりも低い
値に達する。 マスクの外部に出るコンポーネントPF(itはマスク
の基音と高調波関係にあるようにしつるも、。 Kの値に寄与しない。Qに対する式において、量Nをマ
スクの範囲内に位置するコンポーネントの個数を示すN
1と置き挨えればより一層適した音質指数が得られる。 マスクのアパーチャは与えられたコンポーネントの範囲
の外部に出てしまい、従ってコンポーネントを通さない
場合が生じるおそれがある。この状態の場合、Qに対す
る式において歇Mを、コンボーネンtを通しうる了パー
チャの最大個数であるmlkで置き換えることにより音
質指数を補正することができる。 第4Aおよび第8図に示す処理では、音質指数Qnをブ
ロック68において式(8)に応じて計算し、確率の高
いピッチの正確な概算をブロック64において式(1)
に応じて計算する。 ブロック65においては1の値が1だけ増大され、前の
値よりも8%だけ大きいf。lの新たな値・が決定され
る。判定ダイアモンド66においては、1が限界値りを
越えるか否かを検査する。この限界値は本例の音声分析
方式では80に設定する。 lがLを越えない場合には、判定ダイアモンド66から
N分岐を経てループ6りに進み、その後全探索が再開さ
れる。しかし、lが限界値りを越えると、判定ダイアモ
ンド66からY分岐を経てブロック68に進み、ピッチ
の関連の概算値を有する8つの最大の音質指数が探索さ
れ、これらがブロック69における動作出力に得られる
。 第25図は時間領域における有意位置の値を得る為の処
理を詳細に示す。この処理は第8図【ブロック27)に
おけると同じ40ミリ秒の音声区分(プロ・ンク70)
に基づくものである。この信号のエネルギーはNRGを
付したブロック71で計算する。このエネルギーEは次
式(9)で決定される0 音声区分の正規化された自己相関関数はj−1゜−−−
、80に対し次式〔1旧に応じてブロック72で計算さ
れる。 几 この関数は変数jがrで置き換えられてブロック78に
示しである。この場合次のルーチンに対する初期値とし
てr−2およびN’[’0P−0がブロック74で設定
される。 ブロック75では自己相関関数係数AT(21で開始し
て自己相関関数係′1IIAT121かしきい値THA
を越えるか否かを検査する。判定ダイアモンド75のN
分岐はrを1だけ増大させることを指示するブロック8
1に通じる。その後、判定ダイアモンド88においてr
が79以上になるか否かを判断する。rが79に達しな
い限り判定ダイアモンド75へのループ82に進む。こ
の場合判定ダイアモンド76の機能がrの新たな値に対
して皆返される。 判定ダイアモンド75のY分岐は判定ダイアモ否かを判
断する。自己相関関数f−数ATI21が局部的な極大
値を形成すると、判定ダイアモンド76のY分岐に通じ
る。判定ダイアモンド76のN分岐はでを1だけ増大さ
せるということを指示するブロック81に通じる。判定
ダイアモンド76のY分岐に通じると、自己相関関数の
局部的な極大値の時間軸上の位置を決定する動作が行な
われる。 この目的の為に、二次多項式で値ATrr−11、AT
rrlおよびAT(r+11間の補間〔放物線補間)を
用いる。 この機能をINTRPを付したブロック77で示す。ブ
ロック78では、局部的な極大値の個数を1だけ増大さ
せる。自己相関関数における局部的な極大値の探索は6
つの有意ピーク位置PP(ilの極大値が決定されるま
で継続する。 6つの有意ピーク位置が見い出されると、判定ダイアモ
ンド80のY分岐が有効となり、有意ピーク位置が導出
される(プロ・ンク84)。 第5図によるルーチンにより生ゼしぬられる有意ピーク
位置PPfi+は第6Aおよび6B図によるルーチンに
対する入力データを構成1する。これら第flAおよび
6B図は一方(第6B図)が他方C第6A図)の下側に
位置すべきものである。 第6Aおよび6B図は、マスク概念を用いてピッチの8
つのそれらしい(確率の高い)値を決定する処理の流れ
図を示す。この場合マスク概念は、時間領域内に位置し
従って周期を示す有意ピーク位置PP(ilに適用する
。 このプログラムにはブロック90で示すように有意ピー
ク位I%)PP(il (i −1、−−−、N lが
人力データとして与えられる。これらの人力データはコ
ンポーネントとも称する。まず最初、関連の音質指数s
 (i−1を有する8つのt。の概算値t。1ilti
−1,g、81を零に設定する【ブロック91)。与え
られたコンポーネントの個数が1よりも小さい場合には
(判定ダイアモンド92)、ダイアモンド92のY分岐
を経てルーチンを離れ、値t。+il −0が導出され
る(ブロック93)。1個以上のコンポーネントが導入
される場合にはダイアモンド92のN分岐を経てルーチ
ンが継続されるO 準備段階で、マスクの個数を示す変数1が1に設定され
、このマスクと関連する周期t。1が2ミリ秒に調整さ
れるCブロック94)。次の動作(ブロック95)では
数個の変数がこれらの初期値に設定される。ブロック9
6では、第1コンポーネントPPrllから始まってこ
のコンポーネントPPIIIと関連する高調波rlym
1えの概算を行ない、この値を最も近い整” mlkに
丸める。”lkが11を越える場合には(判定ブロック
97)、ループ98を経て処理の大部分がスキップされ
る。その理由は、本例の音声分析方式では、11よりも
大きな数を有する高調波関係はピッチの決定に含まれて
いない為である。 その後、m1kが値零を有するか否かが検出される(判
定ダイアモンド99)。ノー(否)の場合には、N分岐
を経てダイアモンド99を離れ、コンポーネントpp(
nlが周期t。lを有するマスクのアパーチャ内に入る
か否かが検出される。基本周期t。、の最も近い倍数に
対するPP(nlの相対的なずれが予定の百分率、本例
の方式では5%よりもtJ)ない場合には、PP(nl
がアパーチャ内に位置していると仮定するC判定ダイア
モンド101)。 コンポーネントPP(nlがマスクのアパーチャ内に 
゛位置すると、判定ダイアモンド101のN分岐が有効
となる。 次の動作は、前に決定されたmIK(K+1.− k 
+に対する値と同じ値を町、kに対し県い113す場合
に関するものである。この場合にはマスクの同じ了パー
チャ内に2つのコンポーネントがある。 本例の音声分析方式はアパーチャの中心に最も近く位置
するコンポーネントのみを受容し、他のコンポーネント
は考慮しない。変RKはアバーヂャ内に位置するコンポ
ーネントの個数を表わす。 mlkがmIKを越えるとf判定ダイアモンド102)
、その後Kを1だけ増大させる(ブロック1051゜し
かし、m1kが”IKを越えないと、N分岐を経てダイ
アモンド102を離れ、了パーチャの中心に対する最小
のずれが値mlkおよびmIKのいずれに対し生じるか
が決定される(判定ダイアモンド108)。mlkに対
しhψ小のずれが生じる場合には、mlKがmlkに等
しく設定されるCブロック104)。他の場合にはml
Kは変化しない。これらの双方の場合、Kは増大させら
れない。 プログラムが判定ダイアモンド99のY分岐か、判定ダ
イアモンド】01のY分岐か、判定ダイアモンド103
のN分岐に進むか、或いはブロック1(14または10
5によって示す動作後にmの値が1だけ増大されるCブ
ロック106)。 変1inは与えられたコンポーネン) PP1n)の個
数を表わし、この変knが与えられるコンポーネントの
総数を越えないと(判定ダイアモンド107)、ループ
】08に都む。この場合上述したルーチンがnの新たな
値に対しブロック96以後繰返される。このようにして
N個のコンポーネントPP(ilのすべてに対しルーチ
ンが繰返される。 nがNよりも大きくなると、判定ダイアモンド]07の
Y分岐に進む。その後指標lを有するマスクに対し考慮
したコンポーネントN1の個数がHに等しいということ
を記録する(ブロック109)。 プログラムが判定ダイアモンド97のY分岐に進むと、
N1がnに等しく設定される(ブロック11O)。 より一層大きな指標値を有するコンポーネントPP(i
lは11を越える概算高調波数を有し、ピッチの決定に
は考慮されない。本例の音声分析システムではマスクは
11個のアパーチャを有し、マスクの外部に位置するコ
ンポーネントPP(il 4;jピッチの決定には含ま
ない。 ブロック]11では音質指数が式(8)に従って計算さ
れ、ブロック1.12では確率の高い周期が式(1)に
従って正確に計算される。 ブロック118ではlが1だけ増大させられ、前の値よ
りも8%だけ高いt。lの新たな値が計算される。判定
ダイアモンド】15では、lが限界値りよりも大きくな
ったか否かが検査される。本例の音声分析方式ではこの
限界値を80に設定する。1がLを越えない場合には、
ダイアモンド115からN分岐を経て進み、その後ルー
プ114に入り、全音声処理が再び開始される。しかし
、1が限界値L’eMえる場合には判定ダイアモンド1
15からY分岐を経て進み、その後ブロック116にお
いて関連する周期の概算値t。lklを有する最大の8
つの音質指数が探索される。関連の音質指数s(j )
を有するこれら8つの最良整合周期がブロック117で
得られ、その後ブロック118においてt。(j)の反
転を計算することによりこれらの周期がピッチの概算値
に変換される。 関連する音質指数を有するピッチに対する8つの1Lt
J値は、ブロック69で示すように、fo(j)(j 
= 1 # 218 )で示す周波数領域内で作動する
ピッチ計から得られる。更に、関連の音質指数を有する
f。に対する8つの概算値は、ブロック119で示すよ
うに、fo(i) (i−4、5、6)で示す時間領域
中に作動する自己相関関数ピッチ計から得られる。これ
らの結果は次に進む合成処[OMB(第1図のブロック
18)において組合わされてピッチのより一層信頼しう
る測定値を形成する。 この処理に対しては、原理的に、最終的に割当てるべき
ピッチに関するマスク判定に前述したデータよりも多い
データを用いることができる。 更に特定すべきピッチ計に、或いは音質指数を減少させ
た(現在のピッチの決定中過去のデータに幾分小さい重
みを与える為に減少させる)前の測定間隔のピッチ概算
に、或いは近時の過去のデータ(トラッキング)から取
出した測定結果に考えを向けることができる。 合成処理を第7図に示す。この合成処理はブロック12
0において関連の音質指数を有する6つの確率の高いピ
ッチの概算値であるデータから開始する。 ブロック121においては、計数用の変数mを1に設定
し、ブロック122において量SOR(m)を零に設定
する。ブロック128においてはルー1128で有効と
なる計数用の変数kを1に設定する。第m番目のピッチ
の概算値と第に番目のピッチの概算値との間の相対的す
れが12.6%よりも少ない場合には、判定ダイアモン
ド125からY分岐に進む。この場合には、ブロック1
25において、第m番目および第に番目のピッチの概算
値の音質指数の積をS OR(m)に加える。判定ダイ
アモンド124からN分岐に進む場合には、S OR(
m)に何も加えられず、ブロック126に入り、このブ
ロック128で変数kが1だけ増大させられる。判定ダ
イアモンド1g?では、変数kが6よりも大きいか否か
が検査される。変数kが6よりも大きくない場合には、
判定ダイアモンド127のN分岐を経てループ128に
入る。変数kが6よりも大きくなった場合には、判定ダ
イアモンド127からY分岐を経て進み、その後ブロッ
ク129で変数mを1だけ増大させる。判定ダイアモン
ド180では変数mが6を越えるか否かが検査される。 変数mが6を越えない場合には、判定ダイアモンド18
0からN分岐を経て進み、ループ181に入る。変数m
が6を越える場合には、判定ダイアモンド180からY
分岐を経て進・む。このようにして、6つのピッチの概
算値すべてに対するs OR(m)において、6つのピ
ッチの概算値がいかに良好に整合1.ているかが計算さ
れる。ブロック182においては指標jが決定され、こ
れに対し関連のS OR(j)が最大値だとする。 最後にブロック188においてピッチ概算値f。(j)
が最もそれらしい概算値として得られるようになる。 (参考文献) (1)1”975年12月発行の音響学、音声および信
号処理に関するアイ・イー・イー・イー会報(工EKE
 Transactions ) 、第ASSP−28
巻第6号(vol。ASSP−28m /166 )第
670〜674頁“半自動ピッチ検出器(p、 sem
i−auto−matio pitch cletec
tor ) (5APD )”(L、R。 ラビナー氏等著) ($1)1977年2月発行の音響学、音声および信号
処理に関するアイ・イー・イー・イー会報第ASSP−
26巻第1号、第24ル88しく On the us
e of autooorrelation anal
ysisfor pitch dateotion )
”( L.R.ラビナー氏著) (8)オランダ国特許出願第7812161号(特公昭
58−48117号)明細書
【図面の簡単な説明】
第1図は、本発明の一例を示すブロック線図、第2図は
、入力端における数の列間の高調波関係を検出すること
を目的とし、繰返し用いられる処理を示すブロック線図
、 第8図は、振幅スペクトルにおける有意ピーク位置を決
定するフローチャートを示すブロック線図1 第4図は、振幅スペクトルにおける有意ピーク位置に基
づし)で最大の音質指数を有する8つのf。 概算値を決定する処理の詳細な流れ図を示すブロック線
図、 第6図は、正規化した自己相関関数における有意ピーク
位置を決定するフローチャートを示すブロック線図、 第6図は、正規化した自己相関関数における有意ピーク
位置に基づいて最大音質指数を有する8つのf。概算値
を決定する処理のフローチャートを示すブロック線図、 第7図は、データを組合せてピッチの一層信頼しうる概
算値にする合成処理のフローチャートを示すブロック線
図である。 10・・・40ミリ秒の持続時間を有する音声の区分を
開始点として取るブロック 11・・・窓を用いることにより区分の振幅スペクトル
を決定するブロック 12・・・フーリエ変換ブロック 18・・・振幅スペクトルにおける有意ピーク位置を決
定するブロック 14 、17・・・ピーク位置が高調波列に整合してい
るかどうかを検査するブロック 16・・・自己相関関数を決定するブロック16・・・
自己相関関数の有意ピーク位置を決定するブロック 18・・・ピッチに対する値を関連の音質指数と組合せ
るブロック (89 手 続 補 正 書 昭和60年4月IO日 特許庁長官 志 賀 学 殿 1、事件の表示 昭和60年特許願第38019号 2、発明の名称 音声分析方式 3、補正をする者 事件との関係 特許出願人 名称 エヌ・ベー・フィリップス・ フルーイランペンファブリケン 4、代理人 および図面 l、明細書第19頁第16行の「変数Kにより」を「変
数Kによりすべての」に訂正し、 同頁第16〜17行の「コンポーネントの数」を[コン
ポーネントの合計数]に訂正する。 2、同第22頁第10行及び第81頁第7〜8行の「ア
パーチャ内」を「すべてのアパーチャ内Jにそれぞれ訂
正する。 8、同第g2頁第11行及び第81頁第8行の「個数」
を「合計数」にそれぞれ訂正する。 1、図面中、「第7図」を別紙訂正図の通りに訂正する
。 代理人弁理士 杉 村 暁 秀 外1名

Claims (1)

  1. 【特許請求の範囲】 12以上のピッチ検出アルゴリズムを用いて人間の音声
    区分のピッチを決定する音声分析方式において、第1要
    素ピツチ計で音声区分ノ振幅スペクトルを決定し、この
    振幅スペクトル内で有意ピーク位置を決定し、第2要素
    ピツチ計で音声18分の自己相関関数を決定し、この自
    己相関関数内で有意ピーク417置を決定し、振幅スペ
    クトルの有意ピーク位I行および自己相関関数の有意ピ
    ーク位置を以って、−ピッチおよび周期のそれぞれに対
    する蛸を選択し、この値の一次の整数倍の列を決定し、
    この値およびその倍数を含む間隔を決定し、これらの間
    隔によりマスクの了パーチャを規定し、前記の倍数にお
    ける倍率に相当する高縛波数をこれらのアパーチャに関
    連させる工程と、 一有意ヒーク位置とマスクのアパーチャトカ整合してい
    る度合を表わす規準に応じて音質指数を計算する工程と
    、 一ピッチおよび周期のそれぞれの一次に高くなる値に対
    し所定の最高値になるまで前の工程を繰返し、これらの
    ピッチおよび周期のそれぞれの値と関連する音質指数の
    列を得る工程と、 一最高の音質指数を有する所定の個数のピッチおよび周
    期のそれぞれの値を選択する工程と、 一周期に対する値をピッチに対する値に変換する工程と
    、 −これにより見い出したピッチに対する値を関連の音質
    指数と組合せて最も確率の高いピッチの概算値を形成す
    る工程とを有する一組の動作のそれぞれの入力データを
    構成することを特徴とする音声分析方式。
JP60033019A 1984-02-22 1985-02-22 音声分析方式 Expired - Lifetime JPH0632028B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8400552A NL8400552A (nl) 1984-02-22 1984-02-22 Systeem voor het analyseren van menselijke spraak.
NL8400552 1984-02-22

Publications (2)

Publication Number Publication Date
JPS60194499A true JPS60194499A (ja) 1985-10-02
JPH0632028B2 JPH0632028B2 (ja) 1994-04-27

Family

ID=19843518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60033019A Expired - Lifetime JPH0632028B2 (ja) 1984-02-22 1985-02-22 音声分析方式

Country Status (5)

Country Link
US (1) US4791671A (ja)
EP (1) EP0153787B1 (ja)
JP (1) JPH0632028B2 (ja)
DE (1) DE3571093D1 (ja)
NL (1) NL8400552A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635400A (ja) * 1986-06-25 1988-01-11 松下電工株式会社 音声コ−ド変換器
JP4755585B2 (ja) * 2003-03-31 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体
JP2014507689A (ja) * 2011-06-22 2014-03-27 華為技術有限公司 ピッチ検出方法及び装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US5003604A (en) * 1988-03-14 1991-03-26 Fujitsu Limited Voice coding apparatus
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JPH0896514A (ja) * 1994-07-28 1996-04-12 Sony Corp オーディオ信号処理装置
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US6026357A (en) * 1996-05-15 2000-02-15 Advanced Micro Devices, Inc. First formant location determination and removal from speech correlation information for pitch detection
US6092040A (en) * 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals
US6718217B1 (en) 1997-12-02 2004-04-06 Jsr Corporation Digital audio tone evaluating system
US6263086B1 (en) * 1998-04-15 2001-07-17 Xerox Corporation Automatic detection and retrieval of embedded invisible digital watermarks from halftone images
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6470311B1 (en) 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
JP3881932B2 (ja) * 2002-06-07 2007-02-14 株式会社ケンウッド 音声信号補間装置、音声信号補間方法及びプログラム
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US9818120B2 (en) 2015-02-20 2017-11-14 Innovative Global Systems, Llc Automated at-the-pump system and method for managing vehicle fuel purchases
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56128999A (en) * 1980-03-14 1981-10-08 Hitachi Ltd Voice pitch period detector
JPS5876891A (ja) * 1981-10-30 1983-05-10 株式会社日立製作所 音声ピツチ抽出方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3535454A (en) * 1968-03-05 1970-10-20 Bell Telephone Labor Inc Fundamental frequency detector
US3629510A (en) * 1969-11-26 1971-12-21 Bell Telephone Labor Inc Error reduction logic network for harmonic measurement system
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
NL177950C (nl) * 1978-12-14 1986-07-16 Philips Nv Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56128999A (en) * 1980-03-14 1981-10-08 Hitachi Ltd Voice pitch period detector
JPS5876891A (ja) * 1981-10-30 1983-05-10 株式会社日立製作所 音声ピツチ抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635400A (ja) * 1986-06-25 1988-01-11 松下電工株式会社 音声コ−ド変換器
JPH0636154B2 (ja) * 1986-06-25 1994-05-11 松下電工株式会社 音声コ−ド変換器
JP4755585B2 (ja) * 2003-03-31 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体
JP2014507689A (ja) * 2011-06-22 2014-03-27 華為技術有限公司 ピッチ検出方法及び装置

Also Published As

Publication number Publication date
DE3571093D1 (en) 1989-07-20
NL8400552A (nl) 1985-09-16
EP0153787B1 (en) 1989-06-14
EP0153787A2 (en) 1985-09-04
US4791671A (en) 1988-12-13
EP0153787A3 (en) 1985-12-18
JPH0632028B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
JPS60194499A (ja) 音声分析方式
Wang et al. An objective measure for predicting subjective quality of speech coders
Schafer et al. System for automatic formant analysis of voiced speech
US6298322B1 (en) Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP2906970B2 (ja) サウンドの分析及び合成方法並びに装置
KR101110141B1 (ko) 주기 신호 처리 방법, 주기 신호 변환 방법, 주기 신호 처리 장치, 및 주기 신호의 분석 방법
EP1587061B1 (en) Pitch detection of speech signals
Charpentier Pitch detection using the short-term phase spectrum
KR970001166B1 (ko) 언어 처리 방법 및 장치
CA1065490A (en) Emphasis controlled speech synthesizer
US6047254A (en) System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
KR19990088582A (ko) 신호의기본주파수를추정하기위한방법및장치
JPS5848117B2 (ja) 音声分析方式
JP2001051687A (ja) 合成音生成装置
US5577160A (en) Speech analysis apparatus for extracting glottal source parameters and formant parameters
Robinson Speech analysis
JPH0777979A (ja) 音声制御音響変調装置
JP2914332B2 (ja) 周波数荷重評価関数に基づくスペクトル特徴パラメータ抽出装置
Morikawa et al. System identification of the speech production process based on a state-space representation
Szczerba et al. Pitch detection enhancement employing music prediction
Varho et al. Separated linear prediction—A new all-pole modelling technique for speech analysis
JPS63195700A (ja) ホルマント抽出装置
JP3112462B2 (ja) 音声符号化装置
Miller Removal of noise from a voice signal by synthesis