JPH09212194A - ピッチ抽出装置及びピッチ抽出方法 - Google Patents

ピッチ抽出装置及びピッチ抽出方法

Info

Publication number
JPH09212194A
JPH09212194A JP8016433A JP1643396A JPH09212194A JP H09212194 A JPH09212194 A JP H09212194A JP 8016433 A JP8016433 A JP 8016433A JP 1643396 A JP1643396 A JP 1643396A JP H09212194 A JPH09212194 A JP H09212194A
Authority
JP
Japan
Prior art keywords
pitch
autocorrelation
evaluation parameter
audio signal
frequency bands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8016433A
Other languages
English (en)
Other versions
JP3840684B2 (ja
Inventor
Kazuyuki Iijima
和幸 飯島
Masayuki Nishiguchi
正之 西口
Atsushi Matsumoto
淳 松本
Shiro Omori
士郎 大森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP01643396A priority Critical patent/JP3840684B2/ja
Priority to US08/788,194 priority patent/US5930747A/en
Priority to MYPI97000322A priority patent/MY120918A/en
Priority to KR1019970002641A priority patent/KR100421817B1/ko
Priority to CNB971031762A priority patent/CN1146862C/zh
Publication of JPH09212194A publication Critical patent/JPH09212194A/ja
Application granted granted Critical
Publication of JP3840684B2 publication Critical patent/JP3840684B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H48/00Differential gearings
    • F16H48/20Arrangements for suppressing or influencing the differential action, e.g. locking devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】 様々な特性を持つ音声信号のピッチを正確に
抽出することができるピッチ抽出装置及びピッチ抽出方
法を提供する。 【解決手段】 HPF12及びLPF16でそれぞれ周
波数帯域が制限されたフレーム単位の入力音声信号の自
己相関データを、自己相関算出部13、17でそれぞれ
求め、ピッチ強度/ピッチラグ算出部14、18でピッ
チラグを算出して正規化し、評価パラメータ算出部1
5、19で、HPF12及びLPF16で帯域制限され
た入力音声信号のピッチ信頼度を算出する。選択部20
では、上記ピッチラグ及び評価パラメータ等を用いて、
HPF12及びLPF16で帯域制限された入力音声信
号によって得られたパラメータの内の一方のパラメータ
を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声信号から
ピッチを抽出するピッチ抽出装置及びピッチ抽出方法に
関する。
【0002】
【従来の技術】音声は、音の性質として、有声音と無声
音とに区別される。有声音は、声帯振動を伴う音声で、
周期的な振動として観測される。無声音は、声帯振動を
伴わない音声で、非周期的な雑音として観測される。通
常の音声では大部分が有声音であり、無声音は無声子音
と呼ばれる特殊な子音のみである。有声音の周期は、声
帯振動の周期で決まり、これをピッチ周期、その逆数を
ピッチ周波数という。これらピッチ周期及びピッチ周波
数は、声の高低やイントネーションを決める需要な要因
となる。従って、原音声波形から正確にピッチ周期を抽
出(以下、ピッチ抽出という)することは、音声を分析
し合成する音声合成の課程の中でも重要となる。
【0003】上記ピッチ抽出の方法(以下、ピッチ抽出
方法)として、相関処理が波形の位相歪みに強いことを
利用した相関処理法があり、この相関処理法の一方法と
しては、自己相関法がある。この自己相関法では、一般
的には、入力音声信号を所定の周波数帯域に制限した後
に、所定のサンプル数の入力音声信号の自己相関を求め
てピッチ抽出を行い、ピッチを得る。入力音声信号を帯
域制限する際には、一般的に、ローパスフィルタ(以
下、LPFという)が用いられる。
【0004】
【発明が解決しようとする課題】ところで、上述の自己
相関法において、例えば、低周波数成分にインパルス状
のピッチが含まれている音声信号を用いるときには、こ
の音声信号をLPFに通すことによって、インパルス状
の成分が除去されてしまう。よって、このLPFを通し
た音声信号のピッチ抽出を行って、低周波数成分にイン
パルス状のピッチが含まれている音声信号の正しいピッ
チを得ることは困難である。
【0005】逆に、低周波数成分のインパルス状の成分
を除去しないために、低周波数成分にインパルス状のピ
ッチが含まれている音声信号をハイパスフィルタ(以
下、HPFという)のみに通すこととすると、この音声
信号波形がノイズ成分の多い波形である場合には、ピッ
チ成分とノイズ成分との区別がつかなくなり、やはり、
正しいピッチを得ることは困難となる。
【0006】そこで、本発明は上述の実情に鑑み、様々
な特性を持つ音声信号のピッチを正確に抽出することが
できるピッチ抽出装置及びピッチ抽出方法を提供するも
のである。
【0007】
【課題を解決するための手段】本発明に係るピッチ抽出
装置及びピッチ抽出方法は、入力音声信号を複数の異な
る周波数帯域に制限し、上記各周波数帯域の音声信号毎
の、所定単位の自己相関データからピークを検出してピ
ッチ強度を求め、ピッチ周期を算出し、また、上記ピッ
チ強度を用いて、ピッチ強度の信頼度を示す評価パラメ
ータを算出し、上記ピッチ周期及び上記評価パラメータ
に基づいて、上記複数の異なる周波数帯域の音声信号の
内の1つの周波数帯域の音声信号のピッチを選択する。
【0008】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。
【0009】図1には、本発明に係るピッチ抽出装置を
用いたピッチサーチ装置の実施の形態の概略的な構成を
示し、図2には、本発明に係るピッチ抽出装置の概略的
な構成を示す。
【0010】この図2に示すピッチ抽出装置は、入力音
声信号を複数の異なる周波数帯域に制限するフィルタ手
段であるHPF12、LPF16と、上記HPF12、
LPF16からの各周波数帯域の音声信号毎に、所定単
位の自己相関データを算出する自己相関算出手段である
自己相関算出部13、17と、上記自己相関算出部1
3、17からの自己相関データからピークを検出して、
ピッチ強度を求め、ピッチ周期を算出するピッチ周期算
出手段であるピッチ強度/ピッチラグ算出部14、18
と、上記ピッチ強度/ピッチラグ算出部14、18から
のピッチ強度を用いて、ピッチ強度の信頼度を示す評価
パラメータを算出する評価パラメータ算出手段である評
価パラメータ算出部15、19と、上記ピッチ強度/ピ
ッチラグ算出部14、18からのピッチ周期及び上記評
価パラメータ算出部15、19からの評価パラメータに
基づいて、上記複数の異なる周波数帯域の音声信号の内
の1つの周波数帯域の音声信号のピッチを選択する選択
手段である選択部20とを備えて成る。
【0011】先ず、図1のピッチサーチ装置について説
明する。
【0012】図1の入力端子1からの入力音声信号は、
フレーム区分部2に送られる。このフレーム区分部2
は、入力音声信号を所定のサンプル数のフレーム単位で
区分する。
【0013】現フレームピッチ算出部3及び他フレーム
ピッチ算出部4は、所定のフレームのピッチを算出して
出力するものであり、図2に示すピッチ抽出装置の構成
から成る。具体的には後述するように、現フレームピッ
チ算出部3は、上記フレーム区分部2で区分された現フ
レームのピッチを算出し、他フレームピッチ算出部4
は、上記フレーム区分部2で区分された現フレーム以外
のフレームのピッチを算出する。
【0014】本実施の形態では、入力音声信号波形を上
記フレーム区分部2により、例えば現フレーム、過去フ
レーム、及び未来フレームに区分している。そして、確
定している過去フレームのピッチを基に、現フレームを
決定し、さらに過去フレームのピッチ及び未来フレーム
のピッチを基に、上記決定された現フレームのピッチを
確定する方法である。このように、過去フレーム、現フ
レーム、及び未来フレームから現フレームのピッチを正
確に出そうという考え方を、Delayed decision(ディレ
イドディシジョン)という。
【0015】比較検出部5は、上記現フレームピッチ算
出部3で検出されたピークが、上記他フレームピッチ算
出部4で算出されたピッチに対して、所定の関係を満た
すピッチ範囲内にあるか否かを比較し、この範囲内にあ
るときにピークを検出する。
【0016】ピッチ決定部6は、上記比較検出部5で比
較検出されたピークから現フレームのピッチを決定す
る。
【0017】次に、現フレームピッチ算出部3及び他フ
レームピッチ算出部4を構成する図2のピッチ抽出装置
におけるピッチ抽出の処理について、具体的に説明す
る。
【0018】入力端子11からのフレーム単位の入力音
声信号は、2つの周波数帯域に制限するために、HPF
12及びLPF16にそれぞれ送られる。
【0019】具体的には、例えば、サンプリング周波数
fsが8kHzの入力音声信号を、256サンプル毎の
フレームに分割したときには、このフレーム毎の入力音
声信号の帯域制限を行うためのHPF12のカットオフ
周波数fcHは1kHz、LPF16のカットオフ周波
数fcLは3.2kHzに定める。このとき、HPF1
2からの出力をxH、LPF16からの出力をxLとする
と、出力xHは3.2〜4.0kHz、出力xLは0〜
1.0kHzにそれぞれ帯域制限されている。但し、入
力音声信号が予め帯域制限されている場合には、この限
りではない。
【0020】自己相関算出部13、17では、FFT
(高速フーリエ変換)によってそれぞれ自己相関データ
を求め、それらのピークをそれぞれ取り出す。
【0021】ピッチ強度/ピッチラグ算出部14、18
では、これらのピークの値を大きい順に並べ換え、即ち
ソーティングした関数をそれぞれrH(n)、rL(n)
とする。このとき、自己相関算出部13で求められた自
己相関データのピークの総数をNH、自己相関算出部1
7で求められた自己相関データのピークの総数をNL
すると、rH(n)、rL(n)は、それぞれ(1)、
(2)式で表される。
【0022】 rH(0)、rH(1)、・・・、rH(NH−1) ・・・(1) rL(0)、rL(1)、・・・、rL(NL−1) ・・・(2) また、rH(n)、rL(n)に対応するピッチラグをそ
れぞれ算出し、lagH(n)、lagL(n)とする。
このピッチラグとは、ピッチ周期毎のサンプル数であ
る。
【0023】さらに、rH(n)の各ピーク値をr
H(0)で、rL(n)の各ピーク値をrL(0)でそれ
ぞれ除算し、正規化した関数を、r'H(n)及びr'
L(n)とすると、r'H(n)、r'L(n)は、それぞ
れ(3)、(4)式で表される。
【0024】 1.0=r'H(0)≧r'H(1)≧r'H(2)≧・・・≧r'H(NH−1) ・・・(3) 1.0=r'L(0)≧r'L(1)≧r'L(2)≧・・・≧r'L(NL−1) ・・・(4) ここで、上記並べ換えたr'H(n)、r'L(n)の中で
一番大きい値(ピーク)は、r'H(0)、r'L(0)で
ある。
【0025】評価パラメータ算出部15、19では、H
PF12で帯域制限された入力音声信号のピッチ信頼度
probH、LPF16で帯域制限された入力音声信号
のピッチ信頼度をprobLを算出する。このピッチ信
頼度probH、probLは、それぞれ(5)、(6)
式で算出する。
【0026】 probH =r'H(1)/r'H(2) ・・・(5) probL =r'L(1)/r'L(2) ・・・(6) 選択部20では、上記ピッチ強度/ピッチラグ算出部1
4、18で算出された各ピッチラグ、及び上記評価パラ
メータ算出部15、19で算出されたピッチ信頼度に基
づいて、HPF12で帯域制限された入力音声信号によ
って得られたパラメータ、あるいは、LPF16で帯域
制限された入力音声信号によって得られたパラメータの
内のいずれか一方のパラメータを、上記入力端子11か
らの入力音声信号のピッチサーチに用いるのかを判別し
て選択する。このとき、以下の表1に示す判別処理を行
う。
【0027】 〔表1〕 if lagH x 0.96 < lagL < lagH x 1.04 then LPFによるパラメータを用いる else if NH > 40 then LPFによるパラメータを用いる else if probH/probL > 1.2 then HPFによるパラメータを用いる else LPFによるパラメータを用いる この判別処理では、LPF16で帯域制限された入力音
声信号から求められたピッチのほうが信頼度が高くなる
ように処理を行っている。
【0028】先ず、LPF16で帯域制限された入力音
声信号のピッチラグlagLと、HPF12で帯域制限
された入力音声信号のピッチラグlagHとを比較し
て、lagHとlagLとの差が小さいときには、LPF
16で帯域制限された入力音声信号によって得られたパ
ラメータを選択する。具体的には、LPF16によるピ
ッチラグlagLの値が、HPF12によるピッチラグ
lagHの0.96倍の値より大きく、また、ピッチラ
グlagHの1.04倍の値より小さいならば、LPF
16で帯域制限された入力音声信号のパラメータを用い
る。
【0029】次に、HPF12によるピークの総数NH
を所定数と比較し、NHが所定数より多いときにはピッ
チが出ていないと判別して、LPF16によるパラメー
タを選択する。具体的には、NHが40以上であるなら
ば、LPF16で帯域制限された入力音声信号のパラメ
ータを用いる。
【0030】次に、評価パラメータ算出部15からのp
robHと評価パラメータ算出部19からのprobL
を比較し、判別を行う。具体的には、probHをpr
obLで除算した値が1.2以上であるならば、HPF
12で帯域制限された入力音声信号のパラメータを用い
る。
【0031】最後に、上述の3段階の判別処理で判別で
きないときには、LPF16で帯域制限された入力音声
信号のパラメータを用いる。
【0032】この選択部20で選択されたパラメータ
は、出力端子21から出力される。
【0033】次に、上記ピッチ抽出装置を用いたピッチ
サーチ装置におけるピッチサーチ方法の手順について、
図3及び図4のフローチャートを用いて説明する。
【0034】先ず、図3のステップS1で、所定数の音
声信号をフレーム区分して、このフレーム単位の入力音
声信号を、ステップS2で、LPFに通して帯域制限を
行うとともに、ステップS3で、HPFに通して帯域制
限を行う。
【0035】次に、ステップS4で、ステップS2の帯
域制限された入力音声信号の自己相関データが算出され
る。一方、ステップS5で、ステップS3の帯域制限さ
れた入力音声信号の自己相関データが算出される。
【0036】ステップS4で求められた自己相関データ
を用いて、ステップS6で、複数あるいは全てのピーク
が検出される。また、それらのピーク値のソーティング
が行われて、rH(n)及びrH(n)に対応するlag
H(n)を求める。また、rH(n)を正規化した関数
r'H(0)を得る。一方、ステップS5で求められた自
己相関データを用いて、ステップS7で、複数あるいは
全てのピークが検出される。また、それらのピーク値の
ソーティングが行われて、rL(n)及びrL(n)に対
応するlagL(n)を求める。また、rL(n)を正規
化した関数r'L(0)を得る。
【0037】ステップS8で、ステップS6で得られた
r'H(n)の内のr'H(1)、r'H(1)を用いてピッ
チ信頼度を求める。一方、ステップS9で、ステップS
7で得られたr'L(n)の内のr'L(1)、r'L(1)
を用いてピッチ信頼度を求める。
【0038】この後、入力音声信号のピッチ抽出のため
のパラメータとして、LPFによるパラメータを用いる
か、あるいはHPFによるパラメータを用いるかの判別
処理を行う。
【0039】先ず、ステップS10で、LPF16によ
るピッチラグlagLの値が、HPF12によるピッチ
ラグlagHの0.96倍の値より大きく、また、ピッ
チラグlagHの1.04倍の値より小さいか否かを判
別する。ここでYESが判別されると、ステップS13
に進み、LPFで帯域制限された入力音声信号の自己相
関データを基に得られたパラメータを使用する。一方、
NOが判別されると、ステップS11に進む。
【0040】ステップS11では、HPFによるピーク
の総数NHが40以上であるか否かを判別する。ここ
で、YESが判別されるならば、ステップS13に進
み、LPFによるパラメータを使用する。一方、NOが
判別されると、ステップS12に進む。
【0041】ステップS12では、ピッチ信頼度である
probHをprobLで除算した値が1.2以下である
か否かを判別する。ここで、YESが判別されるなら
ば、ステップS13に進み、LPFによるパラメータを
使用する。一方、NOが判別されるならば、ステップS
14に進み、HPFで帯域制限された入力音声信号の自
己相関データを基に得られたパラメータを使用する。
【0042】このようにして選択されたパラメータを用
いて、以下のピッチサーチを行う。尚、以下の説明で
は、選択されたパラメータである、自己相関データをr
(n)、この自己相関データの正規化関数をr'
(n)、この正規化関数を並べ換えたものをr's(n)
として説明する。
【0043】図4のフローチャートのステップS15
で、上記並べ換えたピークの中で最大ピークr's(0)
がk=0.4より大きいか否かを判別する。ここで、Y
ES(最大ピークr's(0)が0.4より大きい)が判
別されると、ステップS16に進む。一方、NO(最大
ピークr's(0)が0.4より小さい)が判別される
と、ステップS17に進む。
【0044】ステップS16では、上記ステップS15
でYESが判別された結果、P(0)を現フレームのピ
ッチP0とする。また、このときのP(0)を典型的な
ピッチPtとする。
【0045】ステップS17では、前フレームにおい
て、ピッチP-1が無いのか否かを判別する。ここで、Y
ES(ピッチが無かった)が判別されると、ステップS
18に進む。一方、NO(ピッチがあった)が判別され
ると、ステップS21に進む。
【0046】ステップS18では、最大ピーク値r'
s(0)がk=0.25より大きいか否かを判別する。
ここで、YES(最大ピーク値r's(0)がkより大き
い)が判別されると、ステップS19に進む。一方、N
O(最大ピーク値r's(0)がkより小さい)が判別さ
れると、ステップS20に進む。
【0047】ステップS19では、上記ステップS18
でYESが判別されたとき、即ち、最大ピーク値r'
s(0)がk=0.25より大きいとき、P(0)を現
フレームのピッチP0とする。
【0048】ステップS20では、上記ステップS18
でNOが判別されたとき、即ち、最大ピーク値r'
s(0)がk=0.25より小さいとき、現フレームに
はピッチが無い(P0=P(0))とする。
【0049】ステップS21では、上記ステップS17
で過去フレームのピッチP-1が0でなかった、即ち、ピ
ッチがあることを受けて、この過去のピッチP-1でのピ
ーク値が0.2より大きいか否かを判別する。ここで、
YES(過去のピッチP-1が0.2より大きい)が判別
されると、ステップS22に進む。一方、NO(過去の
ピッチP-1が0.2より小さい)が判別されると、ステ
ップS25に進む。
【0050】ステップS22では、上記ステップS21
でのYESの判別を受けて、過去フレームのピッチP-1
の80%〜120%の範囲で、最大ピーク値r'
s(P-1)を探す。つまり、既に求められている過去の
ピッチP-1に対して、0≦n<jの範囲でr's(n)を
検索する。
【0051】ステップS23では、上記ステップS22
によって探された現フレームのピッチの候補が、所定値
0.3より大きいか否かを判別する。ここで、YESが
判別されると、ステップS24に進み、NOが判別され
ると、ステップS28に進む。
【0052】ステップS24では、上記ステップS23
でのYESの判別結果を受けて、上記現フレームのピッ
チの候補を現フレームのピッチP0とする。
【0053】ステップS25では、上記ステップS21
で、過去のピッチP-1でのピーク値r'(P-1)が0.
2より小さいという判別結果を受けて、このときの最大
ピーク値r's(0)が0.35より大きいか否かを判別
する。ここで、YES(最大ピーク値r's(0)が0.
35より大きい)が判別されると、ステップS26に進
む。一方、NO(最大ピーク値r's(0)が0.35よ
り)が判別されると、ステップS27に進む。
【0054】ステップS26では、上記ステップS25
でYESが判別されたとき、即ち、最大ピーク値r'
s(0)が0.35より大きいとき、P(0)を現フレ
ームのピッチP0とする。
【0055】ステップS27では、上記ステップS25
でNOが判別されたとき、即ち、最大ピーク値r'
s(0)が0.35より小さいとき、現フレームにはピ
ッチが無いとする。
【0056】ステップS28では、上記ステップS23
でNOが判別された結果を受けて、典型的なピッチPt
の80%〜120%の範囲で、最大ピーク値r'
s(Pt)を探す。つまり、既に求められている典型的な
ピッチPtに対して、0≦n<jの範囲でr's(n)を
検索する。
【0057】ステップS29は、上記ステップS28で
探し出されたピッチを現フレームのピッチP0とする。
【0058】このように、フレーム単位で、帯域制限さ
れた周波数帯域毎に、過去のフレームで算出されたピッ
チを基に現フレームのピッチを決定して、評価パラメー
タを算出し、この評価パラメータに基づいて基となるピ
ッチを決定した後に、この過去から決定された現フレー
ムのピッチを、過去フレームのピッチ、現フレームのピ
ッチ、及び未来フレームのピッチを基に決定することに
より、現フレームのピッチを正確なものとする。
【0059】また、図1及び図2で示したピッチサーチ
装置の他の実施の形態を図5に示す。図5のピッチサー
チ装置では、現フレームピッチ算出部60において、現
フレームの周波数帯域制限を行った後にフレーム区分を
行った、このフレーム単位の入力音声信号のパラメータ
を求めると共に、他フレームピッチ算出部61におい
て、他フレームの周波数帯域制限を行った後にフレーム
区分を行った、このフレーム単位の入力音声信号のパラ
メータを求め、これらのパラメータを比較して、現フレ
ームのピッチを求める。
【0060】尚、自己相関算出部42、47、52、5
7は、図2の自己相関算出部13、17と同様の処理を
行い、ピッチ強度/ピッチラグ算出部43、48、5
3、58は、図2のピッチ強度/ピッチラグ算出部1
4、18と同様の処理を行い、評価パラメータ算出部4
4、49、54、59は、図2の評価パラメータ算出部
15、19と同様の処理を行い、選択部33、34は、
図2の選択部20と同様の処理を行い、比較検出部35
は、図1の比較検出部5と同様の処理を行い、ピッチ決
定部36は、図1のピッチ決定部6と同様の処理を行
う。
【0061】先ず、入力端子31から入力される現フレ
ームの音声信号は、HPF40及びLPF45でそれぞ
れ周波数帯域を制限し、フレーム区分部41、46でフ
レーム単位に区分して、フレーム単位の入力音声信号と
して出力する。そして、自己相関算出部42、47でそ
れぞれ自己相関データを算出し、ピッチ強度/ピッチラ
グ算出部43、48でそれぞれピッチ強度及びピッチラ
グを算出し、評価パラメータ算出部44、49でそれぞ
れ評価パラメータであるピッチ強度の比較値を算出す
る。さらに、選択部33で、ピッチラグや評価パラメー
タ等を用いて、HPF40で周波数帯域制限された入力
音声信号のパラメータ及びLPF45で周波数帯域制限
された入力音声信号のパラメータの内のいずれか一方の
パラメータを選択する。
【0062】同様にして、入力端子32から入力される
他フレームの音声信号は、HPF50及びLPF55で
それぞれ周波数帯域を制限し、フレーム区分部51、5
6でフレーム単位に区分して、フレーム単位の入力音声
信号として出力する。そして、自己相関算出部52、5
7でそれぞれ自己相関データを算出し、ピッチ強度/ピ
ッチラグ算出部53、58でそれぞれピッチ強度及びピ
ッチラグを算出し、評価パラメータ算出部54、59で
それぞれ評価パラメータであるピッチ強度の比較値を算
出する。さらに、選択部34で、ピッチラグや評価パラ
メータ等を用いて、HPF50で周波数帯域制限された
入力音声信号のパラメータ及びLPF55で周波数帯域
制限された入力音声信号のパラメータの内のいずれか一
方のパラメータを選択する。
【0063】上記比較検出部35では、上記現フレーム
ピッチ算出部60で検出されたピークが、上記他フレー
ムピッチ算出部61で算出されたピッチに対して、所定
の関係を満たすピッチ範囲内にあるか否かを比較し、こ
の範囲内にあるときにピークを検出する。上記ピッチ決
定部36では、上記比較検出部35で比較検出されたピ
ークから現フレームのピッチを決定する。
【0064】尚、上記フレーム単位の音声信号に対して
LPC(Linear Predictive Coding: 線形予測符号化)
を行い、得られる短期予測残差、即ちLPC(線形予測
符号化)残差を用いてピッチを算出することにより、よ
り正確なピッチ抽出を行うことができる。
【0065】また、表1に示す判別処理及び判別処理に
用いる定数は一例であり、より正確なパラメータを選択
するために、表1に示す判別処理以外の判別処理を用い
たり、定数として他の値を用いたりしてもよい。
【0066】また、上述のピッチ抽出装置では、フレー
ム単位の音声信号の周波数帯域を、HPF及びLPFを
用いて2つの周波数帯域に制限して、最適なピッチを選
択しているが、音声信号の周波数帯域の制限は2つに限
られることはなく、3つ以上の異なる周波数帯域に制限
し、各周波数帯域の音声信号のピッチをそれぞれ算出し
て、最適なピッチを選択するようにしてもよい。このと
き、表1に示す判別処理の代わりに、3つ以上の異なる
周波数帯域の入力音声信号のパラメータを選択するため
の他の判別処理を用いる。
【0067】次に、上述のピッチサーチ装置を音声信号
符号化装置に適用した実施の形態について、図面を用い
て説明する。
【0068】図6に示す音声信号符号化装置は、入力音
声信号の短期予測残差、例えばLPC(線形予測符号
化)残差を求めて、サイン波分析(sinusoidal analysi
s)符号化、例えばハーモニックコーディング(harmoni
c coding)を行い、入力音声信号に対して位相伝送を行
う波形符号化により符号化し、入力信号の有声音(V:
Voiced)の部分及び無声音(UV:Unvoiced)の部分を
それぞれ符号化するものである。
【0069】この図6に示された音声信号符号化装置に
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
【0070】LPC分析・量子化部113のLPC分析
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
【0071】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
【0072】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、20msec を1フレームとし、20msec 毎に算出
されるLSPパラメータを2フレーム分まとめて、マト
リクス量子化及びベクトル量子化している。
【0073】このLSP量子化器134からの量子化出
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、LSP補間回路136に送られる。
【0074】LSP補間回路136は、上記20msec
あるいは40msec 毎に量子化されたLSPのベクトル
を補間し、8倍のレートにする。すなわち、2.5mse
c 毎にLSPベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、LPC係数が20
msec 毎に急激に変化すると異音を発生することがある
からである。すなわち、2.5msec 毎にLPC係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。
【0075】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
【0076】LPC分析・量子化部113のLPC分析
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125及び聴覚重み付きの合
成フィルタ122とに送られる。
【0077】ハーモニック符号化回路等のサイン波分析
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Amの算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Amの個数を次元変換して一定数にしている。
【0078】図6に示すサイン波分析符号化部114の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。
【0079】図6のサイン波分析符号化部114のオー
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。このオープンループピッチサーチ部141
は、上述の本発明に係るピッチサーチ装置の実施の形態
を用いたものであり、このオープンループピッチサーチ
部141では、入力信号のLPC残差をとってオープン
ループによる比較的ラフなピッチのサーチが行われ、抽
出された粗ピッチデータは高精度ピッチサーチ146に
送られて、後述するようなクローズドループによる高精
度のピッチサーチ(ピッチのファインサーチ)が行われ
る。また、オープンループピッチサーチ部141から
は、上記粗ピッチデータと共にLPC残差の自己相関の
最大値をパワーで正規化した正規化自己相関最大値r
(p) が取り出され、V/UV(有声音/無声音)判定部
115に送られている。
【0080】直交変換回路145では例えばDFT(離
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部148
に送られる。
【0081】高精度(ファイン)ピッチサーチ部146
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチデータと、直交変換部145に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部146では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スイッチ118を介して出力端子10
4に送っている。
【0082】スペクトル評価部148では、LPC残差
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
146、V/UV(有声音/無声音)判定部115及び
聴覚重み付きのベクトル量子化器116に送られる。
【0083】V/UV(有声音/無声音)判定部115
は、直交変換回路145からの出力と、高精度ピッチサ
ーチ部146からの最適ピッチと、スペクトル評価部1
48からのスペクトル振幅データと、オープンループピ
ッチサーチ部141からの正規化自己相関最大値r(p)
と、ゼロクロスカウンタ412からのゼロクロスカウン
ト値とに基づいて、当該フレームのV/UV判定が行わ
れる。さらに、MBEの場合の各バンド毎のV/UV判
定結果の境界位置も当該フレームのV/UV判定の一条
件としてもよい。このV/UV判定部115からの判定
出力は、出力端子105を介して取り出される。
【0084】ところで、スペクトル評価部148の出力
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部119では、この可
変個数mMX+1の振幅データを一定個数M個、例えば4
4個、のデータに変換している。
【0085】このスペクトル評価部148の出力部ある
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
【0086】次に、第2の符号化部120について説明
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。この誤差を距離計算回路
124に送って距離計算を行い、誤差が最小となるよう
な代表値ベクトルを雑音符号帳121でサーチする。こ
のような合成による分析(Analysis by Synthesis )法
を用いたクローズドループサーチを用いた時間軸波形の
ベクトル量子化を行っている。
【0087】このCELP符号化構成を用いた第2の符
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
【0088】ここで、これらのスイッチ127s、12
7g及び上記スイッチ117、118は、上記V/UV
判定部115からのV/UV判定結果によりオン/オフ
制御され、スイッチ117、118は、現在伝送しよう
とするフレームの音声信号のV/UV判定結果が有声音
(V)のときオンとなり、スイッチ127s、127g
は、現在伝送しようとするフレームの音声信号が無声音
(UV)のときオンとなる。
【0089】
【発明の効果】以上の説明からも明かなように、本発明
に係るピッチ抽出装置及びピッチ抽出方法は、入力音声
信号を複数の異なる周波数帯域に制限し、上記各周波数
帯域の音声信号毎の、所定単位の自己相関データからピ
ークを検出してピッチ強度を求め、ピッチ周期を算出
し、また、上記ピッチ強度を用いて、ピッチ強度の信頼
度を示す評価パラメータを算出し、上記ピッチ周期及び
上記評価パラメータに基づいて、上記複数の異なる周波
数帯域の音声信号の内の1つの周波数帯域の音声信号の
ピッチを選択することにより、様々な特性を持つ音声信
号のピッチを正確に抽出して、高精度なピッチサーチを
行うことができる。
【図面の簡単な説明】
【図1】本発明に係るピッチ抽出装置を用いたピッチサ
ーチ装置の実施の形態の概略的な構成図である。
【図2】本発明に係るピッチ抽出装置の概略的な構成図
である。
【図3】ピッチサーチ処理を説明するためのフローチャ
ートである。
【図4】図3のピッチサーチ処理に続くピッチサーチ処
理のフローチャートである。
【図5】他のピッチサーチ装置の概略的な構成図であ
る。
【図6】本発明に係るピッチサーチ装置を適用した音声
信号符号化装置の概略的な構成図である。
【符号の説明】
2 フレーム区分部、 3 現フレームピッチ算出部、
4 他フレームピッチ算出部、 5 比較検出部、
6 ピッチ決定部、 12 HPF、 16LPF、
13,17 自己相関算出部、 14,18 ピッチ強
度/ピッチラグ算出部、 15,19 評価パラメータ
算出部、 20 選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大森 士郎 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を複数の異なる周波数帯域
    に制限するフィルタ手段と、 上記フィルタ手段からの各周波数帯域の音声信号毎に、
    所定単位の自己相関データを算出する自己相関算出手段
    と、 上記自己相関算出手段からの自己相関データからピーク
    を検出して、ピッチ強度を求め、ピッチ周期を算出する
    ピッチ周期算出手段と、 上記ピッチ周期算出手段からのピッチ強度を用いて、ピ
    ッチ強度の信頼度を示す評価パラメータを算出する評価
    パラメータ算出手段と、 上記ピッチ周期算出手段からのピッチ周期及び上記評価
    パラメータ算出手段からの評価パラメータに基づいて、
    上記複数の異なる周波数帯域の音声信号の内の1つの周
    波数帯域の音声信号のピッチを選択する選択手段とを備
    えて成ることを特徴とするピッチ抽出装置。
  2. 【請求項2】 上記評価パラメータ算出手段では、上記
    ピッチ強度の比較値を算出することを特徴とする請求項
    1記載のピッチ抽出装置。
  3. 【請求項3】 上記フィルタ手段では、ハイパスフィル
    タ及びローパスフィルタを用い、2つの周波数帯域に制
    限された音声信号を出力することを特徴とする請求項1
    記載のピッチ抽出装置。
  4. 【請求項4】 上記フィルタ手段には、フレーム単位の
    音声信号を入力することを特徴とする請求項1記載のピ
    ッチ抽出装置。
  5. 【請求項5】 上記フィルタ手段では、ハイパスフィル
    タ及びローパスフィルタを用い、2つの周波数帯域に制
    限された音声信号を出力することを特徴とする請求項4
    記載のピッチ抽出装置。
  6. 【請求項6】 上記フィルタ手段で、複数の周波数帯域
    に制限された音声信号を、フレーム単位で出力すること
    を特徴とする請求項1記載のピッチ抽出装置。
  7. 【請求項7】 上記フィルタ手段では、ハイパスフィル
    タ及びローパスフィルタを用い、2つの周波数帯域に制
    限された音声信号を、フレーム単位で出力することを特
    徴とする請求項6記載のピッチ抽出装置。
  8. 【請求項8】 入力音声信号を複数の異なる周波数帯域
    に制限するフィルタ工程と、 上記各周波数帯域の音声信号毎に、所定単位の自己相関
    データを算出する自己相関算出工程と、 上記自己相関データからピークを検出して、ピッチ強度
    を求め、ピッチ周期を算出するピッチ周期算出工程と、 上記ピッチ強度を用いて、ピッチ強度の信頼度を示す評
    価パラメータを算出する評価パラメータ算出工程と、 上記ピッチ周期及び上記評価パラメータに基づいて、上
    記複数の異なる周波数帯域の音声信号の内の1つの周波
    数帯域の音声信号のピッチを選択する選択工程とから成
    ることを特徴とするピッチ抽出方法。
  9. 【請求項9】 上記評価パラメータ算出工程では、上記
    ピッチ強度の比較値を算出することを特徴とする請求項
    8記載のピッチ抽出方法。
  10. 【請求項10】 上記フィルタ工程では、ハイパスフィ
    ルタ及びローパスフィルタを用い、2つの周波数帯域に
    制限された音声信号を出力することを特徴とする請求項
    8記載のピッチ抽出方法。
JP01643396A 1996-02-01 1996-02-01 ピッチ抽出装置及びピッチ抽出方法 Expired - Fee Related JP3840684B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP01643396A JP3840684B2 (ja) 1996-02-01 1996-02-01 ピッチ抽出装置及びピッチ抽出方法
US08/788,194 US5930747A (en) 1996-02-01 1997-01-24 Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands
MYPI97000322A MY120918A (en) 1996-02-01 1997-01-28 Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands.
KR1019970002641A KR100421817B1 (ko) 1996-02-01 1997-01-29 음성의피치추출방법및장치
CNB971031762A CN1146862C (zh) 1996-02-01 1997-02-01 音调提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01643396A JP3840684B2 (ja) 1996-02-01 1996-02-01 ピッチ抽出装置及びピッチ抽出方法

Publications (2)

Publication Number Publication Date
JPH09212194A true JPH09212194A (ja) 1997-08-15
JP3840684B2 JP3840684B2 (ja) 2006-11-01

Family

ID=11916109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01643396A Expired - Fee Related JP3840684B2 (ja) 1996-02-01 1996-02-01 ピッチ抽出装置及びピッチ抽出方法

Country Status (5)

Country Link
US (1) US5930747A (ja)
JP (1) JP3840684B2 (ja)
KR (1) KR100421817B1 (ja)
CN (1) CN1146862C (ja)
MY (1) MY120918A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999038156A1 (fr) * 1998-01-26 1999-07-29 Matsushita Electric Industrial Co., Ltd. Methode et dispositif d'accentuation de registre
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US7012186B2 (en) 2001-07-27 2006-03-14 Amusetec Co., Ltd. 2-phase pitch detection method and apparatus
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
JP2007193294A (ja) * 2005-12-20 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 予測遅延探索方法、その方法を用いた装置、プログラム、および記録媒体
JP2007272118A (ja) * 2006-03-31 2007-10-18 Fujifilm Corp 楽曲テンポ抽出方法、装置及びプログラム
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
JP2008538827A (ja) * 2005-04-25 2008-11-06 ガオンダ コーポレイション オーディオデータの自動生成方法及びこれを利用した使用者端末機及び記録媒体

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6418407B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for pitch determination of a low bit rate digital voice message
AU2001260162A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
DE10123366C1 (de) * 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE60234195D1 (de) * 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
WO2006046587A1 (ja) * 2004-10-28 2006-05-04 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
CN1848240B (zh) * 2005-04-12 2011-12-21 佳能株式会社 基于离散对数傅立叶变换的基音检测方法、设备和介质
US8738370B2 (en) * 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
KR100724736B1 (ko) 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
MX2011008605A (es) * 2009-02-27 2011-09-09 Panasonic Corp Dispositivo de determinacion de tono y metodo de determinacion de tono.
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
CN103165133A (zh) * 2011-12-13 2013-06-19 联芯科技有限公司 一种最大相关系数的优化方法及其装置
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN110379438B (zh) * 2019-07-24 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3617636A (en) * 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999038156A1 (fr) * 1998-01-26 1999-07-29 Matsushita Electric Industrial Co., Ltd. Methode et dispositif d'accentuation de registre
US7012186B2 (en) 2001-07-27 2006-03-14 Amusetec Co., Ltd. 2-phase pitch detection method and apparatus
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
JP2008538827A (ja) * 2005-04-25 2008-11-06 ガオンダ コーポレイション オーディオデータの自動生成方法及びこれを利用した使用者端末機及び記録媒体
JP2007193294A (ja) * 2005-12-20 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 予測遅延探索方法、その方法を用いた装置、プログラム、および記録媒体
JP4738260B2 (ja) * 2005-12-20 2011-08-03 日本電信電話株式会社 予測遅延探索方法、その方法を用いた装置、プログラム、および記録媒体
JP2007272118A (ja) * 2006-03-31 2007-10-18 Fujifilm Corp 楽曲テンポ抽出方法、装置及びプログラム
JP4632136B2 (ja) * 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム

Also Published As

Publication number Publication date
CN1165365A (zh) 1997-11-19
MY120918A (en) 2005-12-30
KR970061590A (ko) 1997-09-12
KR100421817B1 (ko) 2004-08-09
US5930747A (en) 1999-07-27
JP3840684B2 (ja) 2006-11-01
CN1146862C (zh) 2004-04-21

Similar Documents

Publication Publication Date Title
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
CA2140329C (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
EP1738355B1 (en) Signal encoding
JPH05346797A (ja) 有声音判別方法
EP0718822A2 (en) A low rate multi-mode CELP CODEC that uses backward prediction
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
JP2002023800A (ja) マルチモード音声符号化装置及び復号化装置
US6243672B1 (en) Speech encoding/decoding method and apparatus using a pitch reliability measure
WO1995028824A2 (en) Method of encoding a signal containing speech
EP0837453A2 (en) Speech analysis method and speech encoding method and apparatus
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH04270398A (ja) 音声符号化方式
US6012023A (en) Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
US6115685A (en) Phase detection apparatus and method, and audio coding apparatus and method
US6278971B1 (en) Phase detection apparatus and method and audio coding apparatus and method
JP4954310B2 (ja) モード判定装置及びモード判定方法
JP3321933B2 (ja) ピッチ検出方法
JP2892462B2 (ja) コード励振線形予測符号化器
JPH0650440B2 (ja) Lsp型パタンマツチングボコ−ダ
JPH05265489A (ja) ピッチ抽出方法
JPH05265486A (ja) 音声分析合成方法
JPH05281995A (ja) 音声符号化方法
JPH05265488A (ja) ピッチ抽出方法
Kuo et al. Enhancement of VSELP speech coding for North American digital cellular

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060731

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees