JPS5848117B2 - 音声分析方式 - Google Patents

音声分析方式

Info

Publication number
JPS5848117B2
JPS5848117B2 JP54161723A JP16172379A JPS5848117B2 JP S5848117 B2 JPS5848117 B2 JP S5848117B2 JP 54161723 A JP54161723 A JP 54161723A JP 16172379 A JP16172379 A JP 16172379A JP S5848117 B2 JPS5848117 B2 JP S5848117B2
Authority
JP
Japan
Prior art keywords
value
pitch
significant peak
mask
peak positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54161723A
Other languages
English (en)
Other versions
JPS5583100A (en
Inventor
ヘンドリクス・デユーイヒユーイス
レオナルダス・フランシスカス・ビレムス
ロベルト・ヨハンネス・スルイテル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JPS5583100A publication Critical patent/JPS5583100A/ja
Publication of JPS5848117B2 publication Critical patent/JPS5848117B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Complex Calculations (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル或分を求め、かつ各時間区分
に前記スペクトルにおける有意ピークの位置を前記連続
スペクトル戊分から導出することによって音声信号の振
幅スペクトルを分析する形式の音声分析方式に関するも
のである。
有意ピーク位置は音声分析方式における音声信号のピッ
チを求めるためのつぎの段に対する入力データを構成す
る。
FFT一変換(高速フーリエ変換)を利用する上述した
種類の音声分析方式は、rIEEE Tra−nsac
tions on Acoustics , Spee
ch andSignal Processing
J (Vol. ASSP,44 ,1978年8月
第358〜365頁)に記載されている。
この場合には音声信号のピッチを振幅スペクトルにおけ
るピーク間の間隔から求めている。
音声信号のピッチは高調波間の間隔に関連するのではな
く、集合振動モードの高調波或分の周期性に関連するの
であることは、文献「PhilipsTechncel
Review J (Vol . 5 , AI
0 ,1940年10月第286頁〜294頁)に既に
示されている。
1956年にアムステルダム大学Oこで発表されたE.
de Boerによる論文「On the ”re
−sidue in hearingJでは、m .
s . e . (mean−square − er
ror)基準を用いて、基本音(トーン)に最も近い高
調波の数である所謂「高調波の数」が判っている連続ス
ペクトル或分に関連するピッチの有望値を求めている。
「The Journal of the Acous
tic So−ciety of America J
(Vol. 5 4 , A 6 ,1973年6月
第1496〜1516頁)には、上述したm.s.e.
基準およびこの文献に開示され、かつ精神物理現象に基
いている「最大見込み」基準が音声信号のピッチに関し
て同じ評価となることが示されている。
電話線の如き音源から到来する音声信号の分析に当って
は、基本トーンそのものが存在しないと云う問題が生ず
るだけではなく、雑音戊分が導入され、これが音声信号
のピッチ測定結果に著しく悪影響を及ぼすと云う問題も
生ずる。
本発明の目的は、雑音信号の存在に対して感応せず、し
かも考えられる凡ゆる連続的な高調波数に対して誤差を
計算する場合よりも計算回数が少なくて済む音声信号の
ピッチ測定用音声分析方式を提供せんとするにある。
本発明は音声信号の時間区分を規則的に選択し、各時間
区分から音声信号の各サンプルを涸別にフーリエ変換し
て得られる連続スペクトル戊分を求め、かつ各時間区分
に前記スペクトルにおける有意ピーク位置を前記連続ス
ペクトル或分から導出することによって音声信号の振幅
スペクトルを分析する音声分析方式lこおいて、該音声
分析方式を、一ピッチに対する値を選定し、この選定値
を順次整数倍する順序を決め、前記選定値の近くおよび
該選定値の倍数値近くにおけるスペクトルの間隔を定め
、これらの間隔によってマスクのアパーチャ、特にアパ
ーチャの間隔を定め、前記選定値の倍数値における乗算
係数に相当する高調波の涸数をマスクのアパーチャに関
連させる工程と、一マスクのアパーチャと一致する有意
ピーク位置を決定する工程と、 一有意ピーク位置とマスクのアパーチャとが整合する度
合いを示す判定基準に基いて音質指数を計算する工程と
、 一連続的に高くなるピッチの値に対して、そのピッチの
値が予定した最高値に達するまで以前の工程を繰り返し
て、これらの各ピッチの値に関連する音質指数を順次得
る工程と、 一最高の音質指数を呈し、該最高音質指数に関連するマ
スクが基準マスクとなるピッチの値を選定する工程と、 一基準マスクのアパーチャに属する高調波の涸数をアパ
ーチャと一致している有意ピーク位置に関連させ、これ
らの高調波の1同数によって同一基本トーンの連続高調
波におけるこれらのピーク位置の所在を特徴付ける工程
と、 ーピツチの有望値を求め、上記最後に述べた有意ピーク
位置と高調波の数が同一であるピッチの有望値の相当す
る倍数値との間の偏差ができるだけ小さくなるようにす
る工程 とを具えていることを特徴とする。
最高の音質指数を有しているピッチの値を用いて実際の
ピッチの値を概算することもでき、この場合には上述し
た方法における最後の3つの行程を1行程に減らすこと
ができる。
しかしこれよりも正確な概算は最終工程にm.s.e.
基準を用いる最善策を利用して得ることができる。
図面につき本発明を説明する。
本発明による音声分析方式では、振幅スペクトルの流れ
画像を作る音声信号の所謂「短時間」振幅スペクトルを
形成するのが第1目的である。
持続時間が40msの時間区分は標本化音声信号から取
り出す。
この機能を第1図に40msにて表わしてあるブロック
10によって示す。
各音声信号セグメントに所謂「ハミング窓1を乗算する
つぎの操作(演算)の機能をWNDWで表わしてあるブ
ロック11によって示す。
その後、音声信号セグメントのサンプルをDFTにて表
わすブロック12によって示すように、256の点でフ
ーリエ変換する。
つぎの操作では、DFTによって発生した256涸の実
数および虚数値から128涸のスペクトル或分の振幅を
求める。
これらのスペクトル或分からはスペクトルにおけるピー
ク位置を表わす有意ピーク位置Xiを導出する。
これらの機能をDRVxiにて表わすブロック13にて
示す。
つぎの処理工程ではブロック14によって示すようにピ
ッチの値をF8とする。
ついで、この初期値の近くおよびこの初期値に連続した
整数を掛けた複数涸の倍数値の近くにおけるスペクトル
の間隔(インターバル)ヲ定メる。
これらの間隔はマスクにおけるアパーチャと見なされ、
この場合、アパーチャと一致する周波数値Xiの戊分が
マスクを通過する。
この概念におけるマスクは周波数値に対する一種の「ふ
るい」として作用する。
これらの操作をMSKにて表わすブロック15にて示す
高調波の1同数として示され、しかも選定ピッチの値の
倍数値に該当する乗算係数に相当する数はマスクのアパ
ーチャに関連させる。
有意ピーク位置Xiとマスクのアパーチャとが整合する
度合をつぎの操作で求める。
マスクを通過する有意ピーク位置が殆どない場合には、
整合度が当然劣る。
また、マスクを多数のピーク位置が48するも、マスク
のアパーチャが有意ピーク位置になくて、マスクの多数
のアパーチャが有意ピーク位置を通さない場合にも整合
度は劣る。
後に詳述するように、適当な判定基準を求めて、整合度
を音質指数(quality figure)にて表わ
すことができる。
ここではマスクに対して適当な音質指数を計算すれば十
分である。
この操作をQLTにて表わすブロック16にて示す。
判定ダイアモンド17ではピッチに対する選定値F5が
所定の最大値以下、すなわちF,〈MSであるか否かを
チェックする。
F5<MSの場合には、ダイヤモンド17のY一枝路が
ブロック15へのループ18を辿る。
このループではF,の値を所定の方法で所定量だけ、ま
たは所定の割り合?だけ高める。
この機能をNCR F,にて表わすブロック19にて示
す。
判定ダイヤモンド17の存在によりブロック15および
16にて表わされる操作は F5が最大値MXに達する
までF8の新しい値に対して常時連続的に繰り返される
F5が最大値MXに達すると、N一枝路が有効となり、
ループ18は外される。
本発明による音声分析方式のつぎの操作は、マスクまた
は音質指数が最高値を呈するピッチの値F8を選定する
ことである。
この機能をSLCTF8にて表わすブロック20にて示
す。
本発明音声分析方式ではその後、選定値F,から出発し
ている音声セグメントのピッチを2工程で概算する。
このピッチの値に基準マスクとなるマスクを関連させる
ピッチを求める処理における上記2つの工程の機能をS
TM Fにて表わすブロック21にて示してあり、こ
のブロックの出力枝路はピッチの概算値令○を供給する
上′記2工程における最初の工程では、基準マスクのア
パーチャに属する高調波の涸数をこれらのマスクアパー
チャに一致している有意ピーク位置Xiに関連させる。
ついで、これらの各ピーク位置X・によって高調波の数
会iを得て、これにより同l 一基本トーンの連続高調波におけるピーク位置の所在を
定める。
ピツチF の有望値(probable valus
)、すなわち令とは、上記最後に述べた有意ピーク位置
X・とその有望値の対応する倍数令i−令。
との間I の偏差をできるだけ小さくした値であると定義すること
ができる。
斯る偏差を求めるのにm.s.e.八 判定基準(不偏分散誤差)を用いる場合には、Foを次
式によって計算することができる。
上式における和分法は基準マスクのアパーチャと一致す
るすべての有意ピーク位置に及ぶものであり、上記有意
ピーク位置の数をKにて示す。
基準マスクに関連するピッチの値は、既に求めたピッチ
の最初の概算値であることは明らかである。
この概算値を用いる場合には、上述した処理工程におけ
る最後の3つの工程は実際上1工程に減らすことができ
る。
しかし上式(1)を利用することにより極めて正確な概
算値を得ることができる。
本発明による音声分析方式における幾つかの操作は汎用
コンピュータのソフトウエアで行うことができる。
他の操作は外部ハードウエアの使用により促進させるこ
とができる。
第2図は第1図のブロック13にて行う有意ピーク位置
Xiを決定する機能の流れ図を示す。
第2図のブロック22,23および24は第1図に示す
ブロック10,11および12にそれぞれ対応するもの
である。
MPにて表わしてあるブロック25は第1図のブロック
13における音声スペクトル或分の振幅決定機能を示す
ブロック22〜25の機能は既知の構戒部品を用いてハ
ードウエアで実現することができる。
ブロック25以降の処置は汎用コンピュータのソフトウ
エアによって行う。
入力データによってコンピュータはブロック26にて示
すような振幅スペクトルの戊分AF(r),r−1,・
・・,128を受信する。
ノレーチンに対する初期値としてr=2およびN=0と
設定する。
この機能をブロック27にて表わす。
スペクトル或分AF(2)で出発して、このスペクトル
或分が前のスペクトル或分AF(1)よりも大きいか、
または等しいかを調べると共に、スペクトル戒分AF(
2)がつぎのスペクトル或分AF(3)よりも大きいか
否かを調べる。
この機能を判定ダイヤモンド28にて示す。
スペクトル或分が局部的最大値をとる場合にはダイヤモ
ンド28のY−枝路を辿るようにする。
ダイヤモンド28のN一枝路はブロック29に至り、こ
のブロックではrを1だけ高める必要がある。
その後、判定ダイヤモンド30にてrが127よりも太
きいか、または127に等しくなったかを調べる。
r乏1 2 7が或立しない限り、ダイヤモンド28へ
のループ31が形成される。
従って、ダイヤモンド28の機能は新規のrの値で繰り
返される。
判定ダイヤモンド28のY一枝路は判定ダイヤモンド3
2に至り、ここではスペクトル成分A F (r)が限
界値THD以上であるかどうかを調べる。
限界値以下の場合にはN一枝路が有効となり、rの新規
の値が127である限りはブロック29および30を経
てループ31がルーチンに加わる。
限界値THDは量子化および「ハミング窓」に起因する
雑音レベルによって決まる絶対値によって先ず最初に設
定する。
ついで、限界値THDの一部分を可変として、或るスペ
クトル或分に隣接するスペクトル或分の振幅が非常に大
きい場合に、上記或るスペクトル成分を隣接するスペク
トル成分によってマオクし得るようにする。
この効果は人間の聴覚に現われ、これはピッチを認知す
る上で重要なファクターである。
判定ダイヤモンド32のY一枝路を辿る場合には、値A
F(r−1)と、AP(r)と、AP ( r+1 )
との間にて二次多項式(放物補間法)の補間法を用いて
、振幅スペクトルの局部最大値の振幅および周波数を決
定する操作を行う。
この機能をNTRPにて表わすブロック33にて示す。
つぎの操作は局部最大値付近における振幅スペクトルの
形状を試験することに関連するものである。
斯る振幅スペクトルの形状は前の操作で見られた二次多
項式(放物線)によって省略算される。
局部最大値付近の振幅スペクトルの形状はスペクトル或
分AF(r−2)およびAF(r+2)と放物線上に位
置するこれらのスペクトル或分の期待値との差を見つけ
て試験する。
m.s.e(不偏分散誤差)が予定値以下の時には局部
最大値を正刑なものと見なす。
このように、局部最大値付近の振幅スペクトルの形状を
試験する機能をSHPにて表わす判定ダイヤモンド34
にて示す。
、上記局部最大値付近の振幅スペクトルの形状が判定基
準を満足しない場合には、N一枝路が有効となり、ルー
プ31がブロック29および30を経てダイヤモンド2
8に入る。
ついで判定ダイヤモンド28のルーチンが新規のrの値
で繰り返される。
局部最大値付近の振幅スペクトルの形状が所定条件を満
足すると、判定ダイヤモンド34のY−枝路が有効とな
り、Nの値を1だけ高くするブロック35がルーチンに
入る。
その後判定ダイヤモンド36に入る。
Nが所定値、例えば本例の方式の場合6以下の場合には
N一枝路が有効となり、ブロック29と30を通るルー
プ31がルーテンに加わる。
振幅スペクトルの局部最大値に対する探索は上述した6
涸以上の有意ピーク位置Xiが定まらない限り継続する
6閘以上の有意ピーク位置が定まると直ちに判定ダイヤ
モンド36のY一枝路が有効となり、有意ピーク位置X
tが出力される(ブロック37)。
第2図に示すルーチンにより発生された有意ピーク位置
Xiは第3図に示すルーチンに対する入力データとなる
第3図はマスク概念を用いてピッチの有望値を決定する
プログラムの流れ図を示すものである。
このプログラムは入力データによってブロック38にて
示すように、有意ピーク位置xi,i=1,・・・,N
を受信する。
これらの有意ピーク位置は或分として示されるものであ
る。
ピツチfQの初期値としてf。
=Oとし、また変数Cを最大値に設定(ブロック39)
する。
有意ピーク位置として要求される或分の数Nが1以下(
ダイヤモンド40)の場合にはルーチンが外され、値f
一〇が導出される。(ブロック41)。
1個以上の或分が導入される場合にはルーチンが継続す
る。
前の動作と同様に、マスクの数を示す変数lをA=1に
設定する(ブロック42)。
ついでピツチf。
lの値を明細に定めると共に、幾つかの変数を初期値に
設定する(ブロック43)つぎの操作(ブロック44)
では、或分XnにA 関連する高調波の数が”Vkの第1威分x1で出発して
ピッチの概算を行い、この値を最も近い整数mAk に
丸める。
mlkが11以上(判定ダイヤモンド45)の場合には
プログラムの大部分はスキツプされる。
その理由は本発明による音声分析方式では11以上の高
い数の高調波をピッチの決定操作に含ませないからであ
る。
その後、mlkの値がOになったかどうかをチェックす
る(判定ダイヤモンド46)。
mAkがOでない場合には或分Xiがマスク(このマス
クのピッチはf。
lである)のアパーチャに落下するかどうかをチェック
する。
基本トーンf。lに関する最も近い高調波に対するxn
の相対偏差が所定の割合い以下、本発明方式では5%以
下の場合には、Xiはマスクのアパーチャ内に位置され
るものと見なす(判定ダイヤモンド47)。
或分xnがマスクのアパーチャ内に位置する場合には、
判定ダイヤモンド47のN一枝路が有効となる。
その後、シーケンスffl73 1の最初の高調波の数
が7以上であるかどうかをチェックする(判定ダイヤモ
ンド48)。
7以上の場合にはプログラムの一部をスキツプさせる。
その理由は、本発明音声分析方式では斯様に7以上の高
調波数で開始させるシーケンスをピッチ決定操作に含ま
せないからである。
最低高調波数が7以下か、または7に等しい場合には判
定ダイヤモンド48のN一枝路が有効となり、判定ダイ
ヤモンド49がルーチンに加わる。
つぎの操作はmlkの値に対し、この値が以前に求めた
値m,H, ( K+ 1 = k )と同じ値である
かをチェックすることであり、K:1の場合にrn71
1の値を先に設定したmloと比較する。
この場合にはマスクの同じアパーチャに2つの或分が存
在するっ本発明による音声分析方式ではアパーチャの中
心に最も近い或分だけを考慮し、他の或分は考慮しない
ものとする。
変数Kによってアパーチャ内に位置する戊分の数を数え
る。
mAkが”Vk以上(判定ダイヤモンド49)の時には
Kを後に1だけ高める(ブロック52)。
A しかし、mlkがmAk以下の時には、値mlkお八 よびmAkのどの値に対して最小偏差がアパーチャの中
心に対し発生するかを求める(判定ダイヤモンド50)
値mAkに対して最小偏差が生ずる場合にはmAkはm
7kに等しいものとする(ブロック51)。
他の場合にはmAkを不変とする。倒れの場合でもKは
増大させないようにする。
プログラムが判定ダイヤモンド46のY一枝路、判定ダ
イヤモンド47のY一枝路または判定ダイヤモンド50
のN一枝路を辿る時か、或いはブロック51または52
の操作後にはnの値を1だけ高める(ブロック53)。
変数nは要求される或分Xiを数え、nが要求された威
分の総数よりも小さい(判定ダイヤモンド54)時には
ループ55を導入させる。
これにより再び上述したルーチンを新規のnの値につい
てブロック44で開始させる。
このようにして凡ゆるNの或分Xiにつきルーチンを繰
り返す。
nがN以上になると、判定ダイヤモンド54のY一枝路
を辿る。
その後、指数lのマスクについ・て、当面の戊分Nlの
数をNに等しくする(プロツク56)。
プログラムが判定ダイヤモンド45のY一枝路を辿る時
はNlはnに等しく設定する(ブロック57)。
1以上の高い指数値の戊分Xtは11以上の概算高調波
の数となる。
これらの戊分はピッチの値を求めるのには考慮しない。
本発明による音声分析方式ではマスクが111固のアパ
ーチャを有しており、マスクの外に位置する或分Xiは
ピッチの決定には考慮しないものとする。
つぎの操作は要求された戊分Xiの内の少なくとも半分
の或分がマスクを通過するかどうかをチェックする(判
定ダイヤモンド58)ことである。
このことはN 1 = 0の場合を除いては左程厳しい
要求ではない。
つぎの操作は戊分Xiとマスクのアパーチャとが互いに
整合する度合いを示す音質指数Qを計算することである
音質指数は要求戊分Xiのシーケンスおよびマスクアパ
ーチャのシーケンスを多次元空間にてベクトル化して導
出することができ、これらのベクトルを軸線上に投影し
た値はOか1である。
ベクトル間の距離は戊分Xiとマスクとが互いに整合す
る度合いを示す。
この場合音質指数は上記ベクトル間の距離の逆数として
計算することができる。
距離が極小となる場合に音質指数が極小となったり、そ
の逆となったりする他の式を上記距離と置換することも
できる。
基本的には距離Dを次式によって表わすことができる。
ここにNは成分X,の数を表わし、Mはマスクのア1 パーチャの数、Kはマスクアパーチャ内に位置する或分
の数である。
音質指数Qは次式のように表わすことができる。
によって除算することによって正規化することができる
これにより音質指数はつぎのようになる。
基本的な演算より明らかなように、次式、すなわち に基ず<Q’の値が最大値にある時、音質指数Qは式(
5)に基いて最大値を呈する。
この場合QはQ′と置換えることができる。
他の音質指数は21固のベクトル間の角度に基いて求め
られ、 に基ずくQ“が最犬値である時に2つのベクトル間の角
度が最小となることは明らかである。
マスクの外側に落ちる或分Xiはマスクの基本トーンに
関連する高調波を有するも、これらの或分XiはKの値
には寄与しない。
前記Qに対する式におけるNの値をマスクの範囲内に位
置する戊分の数を示すNlに置換えることにより、より
一層好適な音質指数が得られるようになる。
マスクのアパーチャが要求戊分Xiの範囲以外に落ち、
従ってマスクを通過する或分がないことも起り得る。
このような場合には、Qの式におけるMを”Vkに置換
えて音質指数を補正することができ、mlkは或る或分
を通過させるアパーチャの最高1固数である。
第3図に示す操作では、判定ダイヤモンド58のN一枝
路が有効となった後に、式(6)におけるNをNlに、
MをmAkに置換えた音質指数Qの逆数である量Clを
計算する(ブロック59)。
つぎの操作では、Clが変数Cの値以上であるかどうか
をチェックする(判定ダイヤモンド60)。
ClがC以下の場合にはClをCと指定する。
このことは本例マスクが前のマスクよりも良好に適合し
ていることを意味する。
そこで、ビツチfoを式(1)に基ずいて計算する(ブ
ロック61)。
ブロック61での演算の後、またはプログラムがダイヤ
モンド58のY一枝路或いは判定ダイヤモンド60のY
一枝路を辿る際にはマスクの指数lを1だけ高める(ブ
ロック62)。
指数lがマスクの総数L以下の場合には、判定ダイヤモ
ンド63からのループ64がノレーチンに加わり、すべ
てのマスクが処理されるまでlの新しい値について上述
したルーチンが繰り返される。
lがL以上になると、判定ダイヤフラム63のY一枝路
が有効となり、foの最終計算値が導出される(ブロッ
ク65)。
本発明による音声分析方式は汎用デイジタルコンピュー
タのソフトウエアにより行うか、或いは一部をハードウ
エアで、残りの部分をソフトウエアで実行することがで
きる。
本発明による音声分析方式を実行するのに使用して好適
なハードウエアの一例を第4図6こ示す。
この装置は入力信号としてアナログ音声信号を入力端子
100から受信する。
この信号を低減通過フィルター1.01にでろ波して4
kHz@サンプリング周波数で動作するサンプリングス
イッチ102によって標本化(サンプリング)する。
ついで上記サンプリングした音声信号をA/D変換器1
03にてアナログーデイジタル変換する。
これにより符号化した信号のサンプルをバツファ記憶装
置104に記憶させる。
このバツファ記憶装置の容量は200サンプルとする。
ピッチを計算するのに例えばIOmsかかるが、各計算
には40msの音声セグメントを利用する。
バッファ記憶装置104の容量は50msの音声セグメ
ント、すなわち2001固のサンフ゜ノレに適するもの
とする必要がある。
1固別フーリエ変換(DFT)によって64涸の周波数
点における振幅或分を160fll9の最も新しいサン
プルa− i=1,・・・,160から計算する。
l ク 上記641固の周波数点は周波数( 25+k・25)
Hz ,k=1 ,2 ,−64の1同所である。
DFTの係数はつぎの通りである。
c i1−cos( 2π(k+1)(i−80.5)
/160)s ik= sin (2π(k+IX i
−80.5)/160)「ハミング窓」を掛ける乗算は
DFTの係数につぎの因数に基ずく「ハミング窓」を掛
けて行う。
Hi=0.54+0.46cos(2π(i−80.5
)/160)各周波数点はつぎの如く計算される実数部
分FRkと虚数部分FIkとから或るものであるしこれ
らの演算を乗算器105および係数記憶装置106(R
OM)並びに累算器107にて行う。
641固の周波数点を計算するためには、乗算器105
によって20480回乗算する必要がある。
150nsの乗算時間に対し、計算に要する総合時間は
3,072msである。
乗算器としてはTRW社から市販されているMRY−
1 2AJ型のものが好適である。
各周波数点にて計算した値をバツファ記憶装置108に
記憶させる。
スペクトル或分を計算したら、クロツクパルス発生器1
09により出力端子110に割込み信号を発生させる。
出力端子110はブロック111に示すマイクロコンピ
ュータの割込み信号人力端子127に接続する。
バツファ記憶装置108の出力端子はマイクロコンピュ
ータのデータ入力端子125に接続する。
このマイクロコンピュータは上記割込み信号の受信後、
バツファ記憶装置108からの値をマイクロコンピュー
タの内部記憶装置に転送する。
マイクロコンピュータはS ignetics 3 0
0 0マイクロプロセッサーに基ずくものであり、こ
れは中央処理ユニツl−(CPU)112,ランダムア
クセスメモリー(R.AM)113,マイクロ制御ユニ
ット(MCU) 1 1 4 ,マイクロプログラムメ
モリ(MPM)1 l 5および出力レジスター(OR
)116を具えている。
プログラムの実行中はMCUI 1 4によってMPM
1 1 5に対するアドレスを発生させ、このMPM1
1 5により指令をCPUI 1 2にライン117
を介し7て供給すると共に、つぎの指令についてのデー
タをライン118を介してMCD114に逆に送給する
人/出力側制御のために、MPM115は制御ビットを
ライン119を介してRAM113に供給すると共に、
ライン120を介して出力レジスター(OR)1 1
6に供給する。
CPUI 1 2はライン121を介してアドレスをR
.AM113に供給すると共に、ライン122を介して
RAM1 1 3にデータを供給し、さらにライン12
3を介してOR1 1 6にデータを供給する。
CPUはさらに、ライン124を介してRAMI 1−
3からデータを受信すると共に、ライン125を介して
データ入力端子からもデータを受信する。
MCU114はライン126を介して標識と桁上げ情報
をCPUで交換すると共に、ライン127を介して割込
み信号を受信する。
このマイクロコンピュータは、マイクロプロセッサーの
生産者が配給するユーザ用の情報を用いて第5A−5D
図に含まれる流れ図に基いて当業者がプログラミングす
ることができる。
上記プログラムに応じてマイクロコンピュータにデータ
を入れると、このマイクロコンピュータは、クロツクパ
ルス発生器109からの割込み信号の受信後に出力端子
に令○に対する値を供給する。
この値をクロツクパルス発生器109によって発生され
る各割込み信号の後に更新させる。
これらの割込み信号は、マイクロコンピュータでピッチ
の値を計算するのに十分な時間である10ms毎に発生
させることができる。
マイクロコンピュータは割込み信号の受信後には入力デ
ータにより周波数点FRkおよびFIk,k−1,・・
・64(第5A図のブロック200)の値を受信する。
つぎの操作は振幅値を決定する(ブロック201)こと
である。
その後、最大振幅値の数分の1に相当する限界値を求め
る(ブロック202)。
ついで振幅スペクトルの或分Akの指数(インデックス
)を表わす変数kの値を2に設定すると共に、有意ピー
ク値Xiの数NをOに設定する(ブロック203)。
つぎの操作では先ず有意ピーク位置が8涸の最大数に既
に達したかどうかをチェックする(ブロック204)。
有意ピーク位置の数が8涸の最大数に達していない場合
には、振幅Akが限界値Z以上の局部最大値にあるかど
うかをチェックする(判定ダイヤモンド206)。
振幅値Akが限界値Z以上の局部最大値にある場合には
、判定ダイヤモンド206のY一枝路が有効となり、N
が1だけ高められる(ブロック207)。
振幅スペクトルにおける局部最大値の適当な位置は、或
分Ak,Ak−1およびAk千1間での二次多項式によ
って補間法により計算する(ブロック208)。
このルーチンによって振幅スペクトルにおける有意ピー
クの位置Xiを供給する。
その後、指数kを1だけ高めて(ブロック209)、こ
れによるkの新規の値が依然として63より小さいか、
または63に等しい時にはループ210をルーチンに加
える(判定ダイヤモンド211)。
或分Akが局部最大値を呈さない場合には判定ダイヤモ
ンド206のN一枝路が有効となり、Nはl高められず
、この場合にはkが1だけ高めら?る(ブロック209
)。
ループ210を辿る場合、上述したルーチンは最後の成
分を除くすべての或分が処理されるまで、新規のkの値
に対して判定ダイヤモンド204から上述した操作を繰
返す。
kの新規の値が64であることを判定ダイヤモンド21
1が検出する場合には、N一枝路が有効となり、有意ピ
ーク位置Xiは、これが8涸の有意ピーク位置を見つけ
た(判定ダイヤモンド204)時点よりも早い瞬時に検
出されていなくても出力される(ブロック212)。
上記判定ダイヤモンド204にて8涸の有意ピーク位置
を見つけた場合にはこのダイヤモンド204のY一枝路
が有効となり、その後8涸の有意ピーク位置xiが出刀
される。
有意ピーク位置Xiはつぎのルーチンに対する入力デー
タを形或し、このルーチンによって或分X1の高調波の
数Riを決定する。
以後これらの入カデータを或分Xiとして示す。
第3図に示すルーチンとは異なり、ここでは或分Xiの
近くにアパーチャを有しているマスクを形戊する。
その後、マスクとピッチの連続高調波とが最適に適合す
るピッチの値をチェックする。
このような方法によれば計算上の利点があり、この方法
によるも前述した方法と同じ結果が得られる。
Xiの各値について、低い方の値XLiおよび高い方の
値XHiを計算し、これらの値によって戊分Xiの近く
のアパーチャを定める(ブロック213)。
全或分XIに対するアパーチャの配列によって基準マス
クを形或する。
ルーチンの主ループを開始させる前に、音質指数を示す
変数CをOに調整し、ピツチSFoに対する初期値(5
0Hz) を調整する(ブロック214)。
選定ピッチの連続高調波は最初常に8涸の或分を具えて
いる。
その後、連続高調波の範囲内にある或分Xiの数N′、
すなわちxL7がピンチSFoの選定値の8倍よりも小
さい或分Xtの数を求める(ブロック215)。
N′がO以上の時(判定ダイヤモンド216)には、戊
分xiの範囲内にある選定ピツチSFoの高調波の数M
′を求める。
ここに、M′はxH N ’/S Fの商の値の整数値
となる。
つぎの操作ではマスクのアパーチャに位置する選定ピッ
チの高調波の数を求め、この際暫定高調波数RTiを各
或分Xtに関連させる。
高調波のピッチがアパーチャに全く位置しない場合には
、これに該当する或分Xtの高調波の数はOである。
選定ピッチの高調波が1涸以−Eの或分Xtのアパーチ
ャ内に位置する場合には最低値の或分Xiに高調波の数
を割り当てる(ブロック218)。
第5D図は第5B図のブロック218の1レーチンを詳
細に示した流れ図であり、このブロックにおける操作は
図示した通りである。
ブロック218での操作後にはピツチSFoの選定値に
関連する音質指数Qを計算する(ブロック219)。
その後、音質指数Qが、以前に見つけた値よりも大きい
か、または等しいかを求める(判定ダイヤモンド220
)。
斯る要件を満足する場合には変数CをQに等しくシ、暫
定数RTiを、新規の高調波数を表わす変数Riによっ
て引き継がせる(ブロック221)。
ルーチンが判定ダイヤモンド216のY一枝路か、また
は判定ダイヤモンド220のN一枝路を辿る際、或いは
ブロック221での操作後には、ピッチSFOに対する
新規の初期値を計算する(ブロック222)。
ピッチの新規の値が依然として500Hzより小さいか
、またはそれに等しい時にはルーチンはループ224に
入る(判定ダイヤモンド223)。
上述したルーチンはピツチSFoの新規の値に対してブ
ロック215から繰り返される。
ループ224を多数回通過した後、ピッチSF−oの新
規の値が500Hzよりも大きくなると(判定ダイヤモ
ンド223)、ループ244は外れ、関連する最調波数
Riを有する或分Xiが出力される(ブロック225)
成分Xiおよび高調波の数Riはピッチ令。
の有望値(式(1)に類似する)を計算するルーチンに
対する入力データを構戊する。
斯るルーチンの処理は高調波数の自乗の和を形或する量
DNHの計算から開始する。
この量DNNがOに等しくない(判定ダイヤモンド22
7)時には令0をブロック228で計算する。
他の場合には判定ダイヤモンド227のY一枝路を辿り
、FoはOに設定される(ブロック229)。
倒れの場合にもピツチFoの値を出力する(ブロック2
30)ことによってルーチンは終了する。
ブロック219で計算される音質指数Qは上述した演算
原理から逸脱しない他の式に基いて計算することもでき
ることは勿論である。
基本トーンの連続高調波による最初の場合および有意ピ
ーク位置による第2の場合に規定されるマスク概念を用
いて有意ピーク位置を基本トーンの連続高調波と比較す
る2つの処理は同一結果をもたらす。
これらの各処置は互いに双対(デュアル)ケースと見な
され、雑音或分に対して不感応であると云う点では同じ
利点を有している。
【図面の簡単な説明】
第1図は本発明による音声分析方式の実施に基ずく操作
順序を示す流れ図、第2図は第1図に示す音声分析方式
にて所定の処理を行うためのディジタルコンピュータの
プログラムに関する流れ図、第3図は第1図に示す流れ
図の所定の機能を果すためのコンピュータプログラム用
の流れ図、第4図は本発明による音声分析方式を実施す
るための電子装置の一例を示すブロック線図、第5図は
本発明による音声分析方式における所定の操作を行うた
めの第4図に示す装置のマイクロプロセッサ一段によっ
て実行し得るプログラムの流れ図である。 10・・・標本化音声信号から持続時間が40nsの時
間区分を取り出す手段、11・・・音声信号セグメント
にハミング窓を乗算する手段、12・・・音声信号セグ
メントのサンプルをフーリエ変換する手段、13・・・
スペクトル或分の振幅およびスペクトルの有意ピーク位
置を求める手段、14・・・ピッチの値を選定する手段
、15・・・スペクトル間隔を定める手段、16・・・
音質指数を計算する手段、17・・・選定ピッチの値が
所定の最大値以下であるかどうかを判定する手段、19
・・・ピッチの選定値を所定量高める手段、20・・・
最高の音質指数を呈するピッチの値を選定する手段、2
1・・・音声セグメントのピッチを概算する手段、10
0・・・アナログ音声信号入力端子、101・・・低域
通過フィルタ、102・・・サンプリングスイッチ、1
03・・・A/D変換器、104・・・バツファ記憶装
置、105・・・乗算器、106・・・係数記憶装置、
107・・・累算器、ius・・・バツファ記憶装置、
109・・・クロツクパルス発生器、110・・・割込
み信号出力端子、111・・・マイクロコンピュータ、
112・・・中央処理ユニット、113・・・ランダム
アクセスメモリ、114・・・マイクロ制御ユニット、
115・・・マイクロプログラムメモリ、116・・・
出力レジスター。

Claims (1)

  1. 【特許請求の範囲】 1 音声信号の時間区分を規則的に選択し、各時間区分
    から音声信号の各サンプルを1固別にフーリ工変換して
    得られる連続スペクトル或分を求め、かつ各時間区分に
    前記スペクトルにおける有意ピーク位置を前記連続スペ
    クトル収分から導出することによって音声信号の振幅ス
    ペクトルを分析する音声分析方式において、該音声分析
    方式を、一ピツチに対する値を選定し、この選定値を順
    次整数倍する順序を決め、前記選定値の近くおよび該選
    定値の倍数値近くにおけるスペクトルの間隔を定め、こ
    れらの間隔によってマスクのアパーチャ、特にアパーチ
    ャの間隔を定め、前記選定値の倍数値における乗算係数
    に相当する高調波の1同数をマスクのアパーチャに関連
    させる工程と、一マスクのアパーチャと一致する有意ピ
    ーク位置を決定する工程と、 一有意ピーク位置とマスクのアパーチャとが整合する度
    合いを示す判定基準に基いて音質指数を計算する工程と
    、 一連続的に高くなるピッチの値に対して,そのピッチの
    値が予定した最高値に達するまで以前の工程を繰り返し
    て、これらの各ピッチの値に関連する音質指数を順次得
    る工程と、 一最高の音質指数を呈し、該最高音質指数に関連スるマ
    スクが基準マスクとなるピッチの値を選定する工程と、 一基準マスクのアパーチャに属する高調波の涸数をアパ
    ーチャと一致している有意ピーク位置に関連させ、これ
    らの高調波の1固数によって同一基本トーンの連続高調
    波におけるこれらのピーク位置の所在を特徴付ける工程
    と、 一ピツチの有望値を求め、上記最後に述べた有意ピーク
    位置と高調波の数が団一であるピッチの有望値の相当す
    る倍数値との間の偏差ができるだけ小さくなるようにす
    る工程 とを具えていることを特徴とする音声分析方式。 2 音質指数を次式の1つに基いて計算し、ここにKを
    マスクのアパーチャと一致する有意ピーク位置の数とし
    、Mをマスクのアパーチャの数とし、Nを有意ピーク位
    置の数としたことを特徴とする特許請求の範囲1記載の
    音声分析方式。 3 音質指数Qに対する式中のMの代りにM′を用い、
    ここにM′を有意ピーク位置の範囲以外に位置するアパ
    ーチャの数だけ減じたMの値に等しい値としたことを特
    徴とする特許請求の範囲2記載の音声分析方式。 4 音質指数Qに対する式中のNをN′と置換え、ここ
    にN′をマスクのアパーチャの範囲以外に位置する有意
    ピーク位置の数だけ減UたNの値に等しい値としたこと
    を特徴とする特許請求の範囲2記載の音声分析方式。 5 ピツチの有望値令oを次式に基いて計算し、ここに
    X.はi番目の有意ピーク位置を表わし、l niは該有意ピーク位置に関連する数を表わし、Kはマ
    スクのアパーチャと一致する有意ピーク位置の数を表わ
    すものとしたことを特徴とする特許請求の範囲1記載の
    音声分析方法。 6 音声信号の時間区分を規則的に選択し、各時間区分
    から音声信号の各サンプルを1固別にフーリ工変換して
    得られる連続スペクトル或分を求め、かつ各時間区分に
    前記スペクトルにおける有意ピーク位置を前記連続スペ
    クトル或分から導出することによって音声信号の振゛幅
    スペクトルを分析する音声分析方式において、該音声分
    析方式を、一ピツチに対する値を選定し、この選定値を
    順次整数倍する順序を決め、前記有意ピーク位置の近く
    のスペクトルの間隔を定め、これらの間隔によってマス
    クのアパーチャ、特にアパーチャに属するピーク位置を
    定め、前記選定値の倍数値におけける乗算係数に相当す
    る高調波の涸数をピッチの倍数値に関連させる工程と、 ーマスクのアパーチャと一致するピッチの倍数値を求め
    る工程と、 一ピツチの倍数値とマスクのアパーチャの開口とが整合
    する度合いを示す判定基準に基いて音質指数を計算する
    工程と、 一連続的に高くなるピッチの値に対して、ピッチの値が
    予定した最高値に達するまで以前の工程を繰り返して、
    これらの各ピッチの値に関連する音質指数を順次得る工
    程と、 一基準ピッチを設定する最高の音質指数を呈するピッチ
    の値を選定する工程と、 一基準ピッチの倍数値に属する高調波の個数を同一アパ
    ーチャと一致している有意ピーク位置に関連させ、これ
    らの高調波の1固数によって同一基本トーンの連続高調
    波におけるこれらのピーク位置の所在を特徴付ける工程
    と、 一ピツチの有望値を求め、上記最後に述べた有意ピーク
    位置と高調波の数が同じであるピッチの有望値の相当す
    る倍数値との間の偏差ができるだけ小さくなるようにす
    る工程 とを具えていることを特徴とする音声分析方式。 7 音質指数を次式の1つに基いて計算し、ここにKを
    マスクのアパーチャと一致するピッチの倍数の数とし、
    Mを連続するピッチの倍数の数とし、Nを有意ピーク位
    置の数としたことを特徴とする特許請求の範囲6記載の
    音声分析方式。 8 音質指数Qに対する式中のMをM′と置換え、ここ
    にM′を有意ピーク位置の範囲以外に位置するピッチの
    倍数の数だけ減じたMの値に等しい値としたことを特徴
    とする特許請求の範囲7記載の音声分析方式。 9 音質指数Qに対する式中のNをM′と置換え、ここ
    にN′をピッチの順次の倍数値の範囲以外に位置する有
    意ピーク位置の数だけ減じたNの値Oこ等しい値とした
    ことを特徴とする特許請求の範囲7記載の音声分析方式
    。 10 ピツチの有望値令。 を次式に基いて計算し、ここにX.はi番目の有意ピー
    ク位置の値を表わし、1 R1は該有意ピーク位置の値に関連する数を表わし、N
    は有意ピーク位置の数を表わし、選定ピッチの倍数値が
    該当するマスクアパーチャに位置しない場合に有意ピー
    ク位置の数をOとするようにしたことを特徴とする特許
    請求の範囲6記載の音声分析方式。
JP54161723A 1978-12-14 1979-12-14 音声分析方式 Expired JPS5848117B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NLAANVRAGE7812151,A NL177950C (nl) 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.

Publications (2)

Publication Number Publication Date
JPS5583100A JPS5583100A (en) 1980-06-23
JPS5848117B2 true JPS5848117B2 (ja) 1983-10-26

Family

ID=19832069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54161723A Expired JPS5848117B2 (ja) 1978-12-14 1979-12-14 音声分析方式

Country Status (9)

Country Link
US (1) US4384335A (ja)
JP (1) JPS5848117B2 (ja)
AU (1) AU536724B2 (ja)
CA (1) CA1223074A (ja)
DE (1) DE2949582A1 (ja)
FR (1) FR2444313A1 (ja)
GB (1) GB2037129B (ja)
NL (1) NL177950C (ja)
SE (1) SE465190B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3377951D1 (en) * 1982-12-30 1988-10-13 Victor Company Of Japan Musical note display device
GB2139405B (en) * 1983-04-27 1986-10-29 Victor Company Of Japan Apparatus for displaying musical notes indicative of pitch and time value
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
NL8900520A (nl) * 1989-03-03 1990-10-01 Philips Nv Probabilistische toonhoogtemeter.
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
WO1995024776A2 (en) * 1994-03-11 1995-09-14 Philips Electronics N.V. Transmission system for quasi-periodic signals
US5870704A (en) * 1996-11-07 1999-02-09 Creative Technology Ltd. Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
DE19906118C2 (de) 1999-02-13 2001-09-06 Primasoft Gmbh Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
FR2830118B1 (fr) * 2001-09-26 2004-07-30 France Telecom Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur
US7233894B2 (en) * 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50155105A (ja) * 1974-06-04 1975-12-15
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1541041A (en) * 1976-04-30 1979-02-21 Int Computers Ltd Sound analysing apparatus
DE2715411B2 (de) * 1977-04-06 1979-02-01 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Elektrisches Verfahren zum Bestimmen der Grundperiode eines Sprachsignals
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system

Also Published As

Publication number Publication date
AU536724B2 (en) 1984-05-24
US4384335A (en) 1983-05-17
GB2037129B (en) 1983-02-09
SE465190B (sv) 1991-08-05
NL177950B (nl) 1985-07-16
CA1223074A (en) 1987-06-16
GB2037129A (en) 1980-07-02
JPS5583100A (en) 1980-06-23
NL7812151A (nl) 1980-06-17
NL177950C (nl) 1986-07-16
FR2444313B1 (ja) 1983-08-05
AU5368279A (en) 1980-06-19
DE2949582A1 (de) 1980-06-26
SE7910165L (sv) 1980-06-15
FR2444313A1 (fr) 1980-07-11

Similar Documents

Publication Publication Date Title
JPS5848117B2 (ja) 音声分析方式
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
DK2579249T3 (en) PARAMETER SPEECH SYNTHESIS PROCEDURE AND SYSTEM
CN101051460B (zh) 提取语音信号的特性信息的语音信号预处理系统及方法
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
JPH0632028B2 (ja) 音声分析方式
US10984813B2 (en) Method and apparatus for detecting correctness of pitch period
WO1993018505A1 (en) Voice transformation system
CN110136730B (zh) 一种基于深度学习的钢琴和声自动编配系统及方法
WO2015114216A2 (en) Audio signal analysis
US7835905B2 (en) Apparatus and method for detecting degree of voicing of speech signal
Rajan et al. Group delay based melody monopitch extraction from music
O’Hanlon et al. Comparing cqt and reassignment based chroma features for template-based automatic chord recognition
CN114627892A (zh) 一种基于深度学习的多声部音乐人声主旋律提取方法
Gupta et al. Towards Controllable Audio Texture Morphing
Bosch et al. Melody extraction based on a source-filter model using pitch contour selection
JPH10301594A (ja) 有音検出装置
Derrien A very low latency pitch tracker for audio to MIDI conversion
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
Hsiao et al. A new approach to formant estimation and modification based on pole interaction
JP4603727B2 (ja) 音響信号分析方法及び装置
da Costa Novel Time-Frequency Representations for Music Information Retrieval
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
Mahalakshmi A review on voice activity detection and melfrequency cepstral coefficients for speaker recognition (Trend analysis)
Derrien Multi-scale frame-based analysis of audio signals for musical transcription using a dictionary of chromatic waveforms