JP2004012908A - 音声信号補間装置、音声信号補間方法及びプログラム - Google Patents
音声信号補間装置、音声信号補間方法及びプログラム Download PDFInfo
- Publication number
- JP2004012908A JP2004012908A JP2002167453A JP2002167453A JP2004012908A JP 2004012908 A JP2004012908 A JP 2004012908A JP 2002167453 A JP2002167453 A JP 2002167453A JP 2002167453 A JP2002167453 A JP 2002167453A JP 2004012908 A JP2004012908 A JP 2004012908A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- audio signal
- signal
- unit
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 68
- 238000012935 Averaging Methods 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims description 75
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000010219 correlation analysis Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 1
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】補間する対象の音声を表す音声信号を音声データ入力部1が取得すると、ピッチ抽出部2がこの音声信号をフィルタリングし、フィルタリングの結果に基づいてピッチ長を特定する。ピッチ長固定部3は、この音声信号の単位ピッチ分にあたる区間の時間長を一定に揃え、ピッチ波形データを生成する。ピッチ波形データはサブバンド分割部4によりスペクトルを表すサブバンドデータへと変換され、複数のサブバンドデータが平均化部5により平均化された後、サブバンド合成部6によって音声の波形を表す信号へと変換される。この信号の各区間のピッチの時間長はピッチ復元部7によって復元され、音声出力部8により、この信号が表す音声が再生される。
【選択図】 図1
Description
【発明の属する技術分野】
この発明は、音声信号補間装置、音声信号補間方法及びプログラムに関する。
【0002】
【従来の技術】
有線や無線での放送あるいは通信の手法による音楽などの配信が近年盛んになっている。これらの手法による音楽などの配信を行う場合、帯域が過度に広くなることによるデータ量の増大や占有帯域幅の広がりを避けるため、一般に、音楽を表すデータは、MP3(MPEG1 audio layer 3)形式やAAC(Advanced Audio Coding)形式など、周波数マスキングの手法を採り入れた音声圧縮形式で圧縮された上で配信されている。
周波数マスキングは、音声信号のうち高レベルのスペクトル成分に周波数が近接する低レベルのスペクトル成分が人間には聞き取られにくい、という現象を利用して音声圧縮を行う手法である。
【0003】
図4(b)は、図4(a)に示す原音声のスペクトルが、周波数マスキングの手法を用いて圧縮された結果を示すグラフである。(なお、図(a)は、具体的には、人が発声した音声をMP3形式で圧縮した結果のスペクトルを例示するものである。)
図示するように、音声を周波数マスキングの手法により圧縮すると、一般的には、2キロヘルツ以上の成分が大幅に失われ、また、2キロヘルツ未満であっても、スペクトルのピークを与える成分(音声の基本周波数成分や高調波成分のスペクトル)の近傍の成分はやはり大幅に失われる。
【0004】
一方、圧縮された音声のスペクトルを補間して元の音声のスペクトルに近づける手法としては、特開2001−356788に開示されている手法が知られている。この手法は、圧縮後に残存しているスペクトルのうちから補間用帯域を抽出し、圧縮によりスペクトル成分が失われた帯域内に、補間用帯域内の分布と同じ分布を示すようなスペクトル成分を、スペクトル全体の包絡線に沿うようにして挿入する、という手法である。
【0005】
【発明が解決しようとする課題】
しかし、特開2001−356788の手法を用いて図4(b)に示すスペクトルを補間した場合、図4(c)に示すような、元の音声のスペクトルとは大きく異なるスペクトルしか得られず、このスペクトルを有する音声を再生しても、極めて不自然な音声にしかならない。この問題は、人が発声した音声をこの手法によって圧縮した場合には一般的に生じる問題である。
【0006】
この発明は、上記実状に鑑みてなされたものであり、人の音声を、圧縮された状態から高音質を保ちつつ復元するための周波数補間装置及び周波数補間方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成すべく、この発明の第1の観点にかかる音声信号補間装置は、音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、を備える、
ことを特徴とする。
【0008】
前記ピッチ波形信号生成手段は、
制御に従って周波数特性を変化させ、前記入力音声信号をフィルタリングすることにより、前記音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記入力音声信号を、前記可変フィルタにより抽出された基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記入力音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備えるものであってもよい。
【0009】
前記フィルタ特性決定手段は、前記可変フィルタにより抽出された基本周波数成分が所定値に達するタイミングが来る周期を特定し、特定した周期に基づいて前記基本周波数を特定するクロス検出手段を備えるものであってもよい。
【0010】
前記フィルタ特性決定手段は、
フィルタリングされる前の入力音声信号に基づいて、当該入力音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備えるものであってもよい。
【0011】
前記平均ピッチ検出手段は、
前記可変フィルタによりフィルタリングされる前の入力音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の入力音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、
前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該入力音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備えるものであってもよい。
【0012】
また、この発明の第2の観点にかかる音声信号補間方法は、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工し、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成し、
前記入力音声信号のスペクトルを表す複数の前記データに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成し、
前記平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する、
ことを特徴とする。
【0013】
また、この発明の第3の観点にかかるプログラムは、
コンピュータを、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、
して機能させるためのものであることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態を説明する。
図1は、この発明の実施の形態に係る音声信号補間装置の構成を示す図である。図示するように、この音声信号補間装置は、音声データ入力部1と、ピッチ抽出部2と、ピッチ長固定部3と、サブバンド分割部4と、平均化部5と、サブバンド合成部6と、ピッチ復元部7と、音声出力部8とより構成されている。
【0015】
音声データ入力部1は、例えば、記録媒体(例えば、フレキシブルディスクやMO(Magneto Optical disk)やCD−R(Compact Disc−Recordable)など)に記録されたデータを読み取る記録媒体ドライバ(フレキシブルディスクドライブや、MOドライブや、CD−Rドライブなど)より構成されている。
音声データ入力部1は、音声の波形を表す音声データを取得して、ピッチ長固定部3に供給する。
【0016】
なお、音声データは、PCM(Pulse Code Modulation)変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【0017】
ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、サブバンド合成部6及びピッチ復元部7は、いずれも、DSP(Digital Signal Processor)やCPU(Central Processing Unit)等のデータ処理装置より構成されている。
なお、ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、サブバンド合成部6及びピッチ復元部7の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【0018】
ピッチ抽出部2は、機能的には、たとえば図2に示すように、ケプストラム解析部21と、自己相関解析部22と、重み計算部23と、BPF(Band Pass Filter)係数計算部24と、BPF25と、ゼロクロス解析部26と、波形相関解析部27と、位相調整部28とより構成されている。
なお、ケプストラム解析部21、自己相関解析部22、重み計算部23、BPF(Band Pass Filter)係数計算部24、BPF25、ゼロクロス解析部26、波形相関解析部27及び位相調整部28の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【0019】
ケプストラム解析部21は、音声データ入力部1より供給される音声データにケプストラム分析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0020】
具体的には、ケプストラム解析部21は、音声データ入力部1より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意であり、例えば常用対数などでよい。)
次に、ケプストラム解析部21は、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0021】
自己相関解析部22は、音声データ入力部1より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0022】
具体的には、自己相関解析部22は、音声データ入力部1より音声データを供給されるとまず、数式1の右辺により表される自己相関関数r(l)を特定する。
【0023】
【数1】
【0024】
次に、自己相関解析部22は、自己相関関数r(l)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0025】
重み計算部23は、ケプストラム解析部21及び自己相関解析部22より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部24へと供給する。
【0026】
BPF係数計算部24は、平均ピッチ長を示すデータを重み計算部23より供給され、ゼロクロス解析部26より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(BPF25の通過帯域の中央の周波数)とするように、BPF25の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、BPF25の周波数特性を制御する。
【0027】
BPF25は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、BPF25は、自己の中心周波数を、BPF係数計算部24の制御に従った値に設定する。そして、音声データ入力部1より供給される音声データをフィルタリングして、フィルタリングされた音声データ(ピッチ信号)を、ゼロクロス解析部26及び波形相関解析部27へと供給する。ピッチ信号は、音声データのサンプリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、BPF25の帯域幅は、BPF25の通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
【0028】
ゼロクロス解析部26は、BPF25から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部24へと供給する。
ただし、ゼロクロス解析部26は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部24へと供給するようにしてもよい。
【0029】
波形相関解析部27は、音声データ入力部1より音声データを供給され、波形相関解析部27よりピッチ信号を供給されると、ピッチ信号の単位周期(例えば1周期)の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。
【0030】
具体的には、波形相関解析部27は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、波形相関解析部27は、値corが最大になるようなφの値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部28に供給する。
【0031】
【数2】
【0032】
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えてピッチ波形信号のデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形信号が表す音声が不正確になる、という問題が生じる。
【0033】
位相調整部28は、音声入力部1より音声データを供給され、波形相関解析部27より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を、位相データが示すこの区間の位相Ψに等しくなるように移相する。そして、移相された音声データをピッチ長固定部3に供給する。
【0034】
ピッチ長固定部3は、移相された音声データを位相調整部28より供給されると、この音声データの各区間をサンプリングし直し(リサンプリングし)、リサンプリングされた音声データを、サブバンド分割部4に供給する。なお、ピッチ長固定部3は、音声データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングする。
また、ピッチ長固定部3は、各区間の元のサンプル数を示すサンプル数データを生成し、音声出力部8に供給する。音声データ入力部1が取得し音声データのサンプリング間隔が既知であるものとすれば、サンプル数データは、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。
【0035】
サブバンド分割部4は、ピッチ長固定部3より供給された音声データにDCT(Discrete Cosine Transform)等の直交変換、あるいは離散的フーリエ変換(例えば高速フーリエ変換など)を施すことにより、一定の周期で(例えば、単位ピッチ分の周期又は単位ピッチ分の整数倍の周期で)サブバンドデータを生成する。そして、サブバンドデータを生成するたびに、生成したサブバンドデータを平均化部5へと供給する。サブバンドデータは、サブバンド分割部4に供給された音声データが表す音声のスペクトル分布を表すデータである。
【0036】
平均化部5は、サブバンド分割部4より複数回にわたって供給されるサブバンドデータに基づいて、スペクトル成分の値が平均化されたサブバンドデータ(以下、平均化サブバンドデータと呼ぶ)を生成し、サブバンド合成部6へと供給する。
【0037】
平均化部5は、機能的には、図3に示すように、サブバンドデータ記憶部51と、平均化処理部52とより構成されている。
【0038】
サブバンドデータ記憶部51は、RAM(Random Access Memory)等のメモリより構成されており、サブバンド分割部4より供給されるサブバンドデータを、平均化処理部52のアクセスに従って、最も新しく供給された方から3個記憶する。そして、平均化処理部52のアクセスに従って、自己が記憶している信号のうち最も古い2個(古い方から3個目及び2個目)を、平均化処理部52へと供給する。
【0039】
平均化処理部52は、DSPやCPU等より構成されている。なお、ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、サブバンド合成部6及びピッチ復元部7の一部又は全部の機能を単一のデータ処理装置が、平均化処理部52の機能を行うようにしてもよい。
【0040】
平均化処理部52は、上述のサブバンドデータ1個がサブバンド分割部4より供給されると、サブバンドデータ記憶部51にアクセスする。そして、サブバンド分割部4より供給された最も新しいサブバンドデータをサブバンドデータ記憶部51に記憶させ、また、サブバンドデータ記憶部51が記憶している信号のうち、最も古い2個を、サブバンドデータ記憶部51から読み出す。
【0041】
そして、平均化処理部52は、サブバンド分割部4より供給された1個とサブバンドデータ記憶部51から読み出した2個、合計3個のサブバンドデータが表すスペクトル成分について、周波数が同じもの毎に強度の平均値(例えば、算術平均)を求める。そして、求めた各スペクトル成分の強度の平均値の周波数分布を表すデータ(すなわち、平均化サブバンドデータ)を生成して、サブバンド合成部6へと供給する。
【0042】
平均化サブバンドデータを生成するために用いた3個のサブバンドデータが表すスペクトル成分のうち、周波数がf(ただしf>0)であるものの強度が、i1、i2及びi3であるとすると(ただしi1≧0、i2≧0、且つi3≧0)、平均化サブバンドデータが表すスペクトル成分のうち周波数がfであるものの強度は、i1、i2及びi3の平均値(例えば、i1、i2及びi3の算術平均)に等しい。
【0043】
サブバンド合成部6は、平均化部5より供給された平均化サブバンドデータに変換を施すことにより、この平均化サブバンドデータにより各周波数成分の強度が表されるような音声データを生成する。そして、生成した音声データをピッチ復元部7へと供給する。なお、サブバンド合成部6が生成する音声データは、たとえばPCM変調されたディジタル信号の形式を有していればよい。
【0044】
サブバンド合成部6が平均化サブバンドデータに施す変換は、サブバンド分割部4がサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。具体的には、たとえばサブバンドデータが音声データにDCTを施して生成されたものである場合、サブバンド合成部6は、平均化サブバンドデータにIDCT(Inverse DCT)を施すようにすればよい。
【0045】
ピッチ復元部7は、サブバンド合成部6より供給された音声データの各区間を、ピッチ長固定部3より供給されるサンプル数データが示すサンプル数でリサンプリングすることにより、各区間の時間長を、ピッチ長固定部3で変更される前の時間長に復元する。そして、各区間の時間長が復元された音声データを、音声出力部8へと供給する。
【0046】
音声出力部8は、PCMデコーダや、D/A(Digital−to−Analog)コンバータや、AF(Audio Frequency)増幅器や、スピーカなどより構成されている。
音声出力部8は、ピッチ復元部7から供給された、区間の時間長を復元された音声データを取得して、この音声データを復調し、D/A変換及び増幅を行い、得られたアナログ信号を用いてスピーカを駆動することにより音声を再生する。
【0047】
以上説明した動作の結果得られる音声について、上述した図4、及び図5〜図7を参照して説明する。
図5は、図4(b)に示すスペクトルを有する信号を、図1に示す音声補間装置を用いて補間した結果得られる信号のスペクトルを示すグラフである。
図6(a)は、図4(a)に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
図6(b)は、図4(b)に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
図7は、図5に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【0048】
図5に示すスペクトルを図4(a)及び図4(c)に示すスペクトルと比較すれば分かるように、マスキング処理を施された音声に図1の音声補間装置によってスペクトル成分を補間して得られるスペクトルは、マスキング処理を施された音声に特開2001−356788の手法を用いてスペクトル成分を補間して得られるスペクトルに比べて、原音声のスペクトルに近いものとなる。
【0049】
また、図6(b)に示すように、マスキング処理によって一部のスペクトル成分を除去された音声の基本周波数成分や高調波成分の強度の時間変化のグラフは、図6(a)に示す原音声の基本周波数成分や高調波成分の強度の時間変化のグラフに比べて、滑らかさが失われている。(なお、図6(a)、図6(b)及び図7において、「BND0」として示すグラフは音声の基本周波数成分の強度を示し、「BNDk」(ただし、kは1から8までの整数)として示すグラフは、この音声の(k+1)次高調波成分の強度を示している。)
【0050】
一方、図7に示すように、マスキング処理を施された音声に図1の音声補間装置によってスペクトル成分を補間して得られる信号の基本周波数成分や高調波成分の強度の時間変化のグラフは、図6(b)に示すグラフに比べて滑らかであり、図6(a)に示す原音声の基本周波数成分や高調波成分の強度の時間変化のグラフに近いものとなっている。
【0051】
この結果、図1の音声補間装置により再生される音声は、特開2001−356788の手法による補間を経て再生された音声に比べても、また、マスキング処理を施された上でスペクトルの補間を経ずに再生された音声と比べても、原音声に近い自然な音声として聞こえる。
【0052】
また、この音声信号補間装置に入力された音声データは、ピッチ長固定部3によって単位ピッチ分の区間の時間長を規格化され、ピッチのゆらぎの影響を除去される。このため、サブバンド分割部4により生成されるサブバンドデータは、この音声データが表す音声の各周波数成分(基本周波数成分及び高調波成分)の強度の時間変化を正確に表すものとなる。従って、平均化部5により生成されるサブバンドデータは、この音声データが表す音声の各周波数成分の強度の平均値の時間変化を正確に表すものとなる。
【0053】
なお、このピッチ波形抽出システムの構成は上述のものに限られない。
たとえば、音声データ入力部1は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声データ入力部1は、例えばモデムやDSU(Data Service Unit)、ルータ等からなる通信制御部を備えていればよい。
【0054】
また、音声データ入力部1は、マイクロフォン、AF増幅器、サンプラー、A/D(Analog−to−Digital)コンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、音声データ入力部1が取得する音声データは、必ずしもPCM信号である必要はない。
【0055】
また、音声出力部8は、ピッチ復元部7より供給された音声データやこの音声データを復調して得られるデータを、通信回線を介して外部に供給するようにしてもよい。この場合、音声出力部8は、モデムやDSU等からなる通信制御部を備えていればよい。
また、音声出力部8は、ピッチ復元部7より供給された音声データやこの音声データを復調して得られるデータを、外部の記録媒体や、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、音声出力部8は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
【0056】
また、平均化部5が平均化サブバンドデータを生成するために用いるサブバンドデータの個数は、平均化サブバンドデータ1個あたり複数個であればよく、必ずしも3個には限られない。また、平均化サブバンドデータを生成するために用いる複数回分のサブバンドデータは、互いに連続してサブバンド分割部4から供給されたものである必要はなく、例えば、平均化部5は、サブバンド分割部4より供給されるサブバンドデータを1個おき(又は複数個おき)に複数個取得して、取得したサブバンドデータのみを平均化サブバンドデータの生成に用いるようにしてもよい。
なお、平均化処理部52は、サブバンドデータ1個がサブバンド分割部4より供給されると、サブバンドデータ記憶部51にこのサブバンドデータをいったん記憶させてから、最も新しいサブバンドデータ3個を読み出して、平均化サブバンドデータの生成に用いるようにしても差し支えない。
【0057】
以上、この発明の実施の形態を説明したが、この発明にかかる音声信号補間装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、D/AコンバータやAF増幅器やスピーカを備えたパーソナルコンピュータに上述の音声データ入力部1、ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、平均化部5、サブバンド合成部6、ピッチ復元部7及び音声出力部8の動作を実行させるためのプログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音声信号補間装置を構成することができる。
【0058】
また、例えば、通信回線の掲示板(BBS)にこのプログラムをアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。
そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
【0059】
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
【0060】
【発明の効果】
以上説明したように、この発明によれば、人の音声を、圧縮された状態から高音質を保ちつつ復元するための音声信号補間装置及び音声信号補間方法が実現される。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る音声信号補間装置の構成を示すブロック図である。
【図2】ピッチ抽出部の構成を示すブロック図である。
【図3】平均化部の構成を示すブロック図である。
【図4】(a)は、原音声のスペクトルの一例を示すグラフであり、(b)は、(a)に示すスペクトルを周波数マスキングの手法を用いて圧縮した結果得られるスペクトルを示すグラフであり、(c)は、(a)に示すスペクトルを従来の手法を用いて補間した結果得られるスペクトルを示すグラフである。
【図5】図4(b)に示すスペクトルを有する信号を、図1に示す音声補間装置を用いて補間した結果得られる信号のスペクトルを示すグラフである。
【図6】(a)は、図4(a)に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフであり、(b)は、図4(b)に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【図7】図5に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【符号の説明】
1 音声データ入力部
2 ピッチ抽出部
21 ケプストラム解析部
22 自己相関解析部
23 重み計算部
24 BPF係数計算部
25 BPF
26 ゼロクロス解析部
27 波形相関解析部
28 位相調整部
3 ピッチ長固定部
4 サブバンド分割部
5 平均化部
51 サブバンドデータ記憶部
52 平均化処理部
6 サブバンド合成部
7 ピッチ復元部
8 音声出力部
Claims (7)
- 音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、を備える、
ことを特徴とする音声信号補間装置。 - 前記ピッチ波形信号生成手段は、
制御に従って周波数特性を変化させ、前記入力音声信号をフィルタリングすることにより、前記音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記入力音声信号を、前記可変フィルタにより抽出された基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記入力音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備える、
ことを特徴とする請求項1に記載の音声信号補間装置。 - 前記フィルタ特性決定手段は、前記可変フィルタにより抽出された基本周波数成分が所定値に達するタイミングが来る周期を特定し、特定した周期に基づいて前記基本周波数を特定するクロス検出手段を備える、
ことを特徴とする請求項2に記載の音声信号補間装置。 - 前記フィルタ特性決定手段は、
フィルタリングされる前の入力音声信号に基づいて、当該入力音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備える、
ことを特徴とする請求項3に記載の音声信号補間装置。 - 前記平均ピッチ検出手段は、
前記可変フィルタによりフィルタリングされる前の入力音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の入力音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、
前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該入力音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備える、
ことを特徴とする請求項4に記載の音声信号補間装置。 - 音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工し、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成し、
前記入力音声信号のスペクトルを表す複数の前記データに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成し、
前記平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する、
ことを特徴とする音声信号補間方法。 - コンピュータを、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、
して機能させるためのプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002167453A JP3881932B2 (ja) | 2002-06-07 | 2002-06-07 | 音声信号補間装置、音声信号補間方法及びプログラム |
US10/477,320 US7318034B2 (en) | 2002-06-07 | 2003-05-28 | Speech signal interpolation device, speech signal interpolation method, and program |
EP03730668A EP1512952B1 (en) | 2002-06-07 | 2003-05-28 | Speech signal interpolation device, speech signal interpolation method, and program |
DE60328686T DE60328686D1 (de) | 2002-06-07 | 2003-05-28 | Sprachsignalinterpolationseinrichtung, sprachsignalinterpolationsverfahren und programm |
PCT/JP2003/006691 WO2003104760A1 (ja) | 2002-06-07 | 2003-05-28 | 音声信号補間装置、音声信号補間方法及びプログラム |
DE03730668T DE03730668T1 (de) | 2002-06-07 | 2003-05-28 | Sprachsignalinterpolationseinrichtung |
CNB038003449A CN1333383C (zh) | 2002-06-07 | 2003-05-28 | 语音信号内插的装置和方法 |
US11/797,701 US7676361B2 (en) | 2002-06-07 | 2007-05-07 | Apparatus, method and program for voice signal interpolation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002167453A JP3881932B2 (ja) | 2002-06-07 | 2002-06-07 | 音声信号補間装置、音声信号補間方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004012908A true JP2004012908A (ja) | 2004-01-15 |
JP3881932B2 JP3881932B2 (ja) | 2007-02-14 |
Family
ID=29727663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002167453A Expired - Fee Related JP3881932B2 (ja) | 2002-06-07 | 2002-06-07 | 音声信号補間装置、音声信号補間方法及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (2) | US7318034B2 (ja) |
EP (1) | EP1512952B1 (ja) |
JP (1) | JP3881932B2 (ja) |
CN (1) | CN1333383C (ja) |
DE (2) | DE60328686D1 (ja) |
WO (1) | WO2003104760A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7957958B2 (en) | 2005-04-22 | 2011-06-07 | Kyushu Institute Of Technology | Pitch period equalizing apparatus and pitch period equalizing method, and speech coding apparatus, speech decoding apparatus, and speech coding method |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
JP4769673B2 (ja) * | 2006-09-20 | 2011-09-07 | 富士通株式会社 | オーディオ信号補間方法及びオーディオ信号補間装置 |
JP4972742B2 (ja) * | 2006-10-17 | 2012-07-11 | 国立大学法人九州工業大学 | 高域信号補間方法及び高域信号補間装置 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
BRPI0917953B1 (pt) * | 2008-08-08 | 2020-03-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho de atenuação de espectro, aparelho de codificação, aparelho terminal de comunicação, aparelho de estação base e método de atenuação de espectro. |
CN103258539B (zh) * | 2012-02-15 | 2015-09-23 | 展讯通信(上海)有限公司 | 一种语音信号特性的变换方法和装置 |
JP6048726B2 (ja) * | 2012-08-16 | 2016-12-21 | トヨタ自動車株式会社 | リチウム二次電池およびその製造方法 |
CN108369804A (zh) * | 2015-12-07 | 2018-08-03 | 雅马哈株式会社 | 语音交互设备和语音交互方法 |
US10803857B2 (en) * | 2017-03-10 | 2020-10-13 | James Jordan Rosenberg | System and method for relative enhancement of vocal utterances in an acoustically cluttered environment |
DE102017221576A1 (de) * | 2017-11-30 | 2019-06-06 | Robert Bosch Gmbh | Verfahren zur Mittelung von pulsierenden Messgrößen |
CN107958672A (zh) * | 2017-12-12 | 2018-04-24 | 广州酷狗计算机科技有限公司 | 获取基音波形数据的方法和装置 |
US11287310B2 (en) | 2019-04-23 | 2022-03-29 | Computational Systems, Inc. | Waveform gap filling |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US4783805A (en) * | 1984-12-05 | 1988-11-08 | Victor Company Of Japan, Ltd. | System for converting a voice signal to a pitch signal |
US5003604A (en) * | 1988-03-14 | 1991-03-26 | Fujitsu Limited | Voice coding apparatus |
CA2105269C (en) * | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
JP3390897B2 (ja) * | 1995-06-22 | 2003-03-31 | 富士通株式会社 | 音声処理装置及びその方法 |
US5903866A (en) * | 1997-03-10 | 1999-05-11 | Lucent Technologies Inc. | Waveform interpolation speech coding using splines |
JP3576942B2 (ja) * | 2000-08-29 | 2004-10-13 | 株式会社ケンウッド | 周波数補間システム、周波数補間装置、周波数補間方法及び記録媒体 |
DE04017341T1 (de) | 2000-06-14 | 2005-07-14 | Kabushiki Kaisha Kenwood, Hachiouji | Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren |
JP3538122B2 (ja) | 2000-06-14 | 2004-06-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
JP3810257B2 (ja) * | 2000-06-30 | 2006-08-16 | 松下電器産業株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
JP3881836B2 (ja) * | 2000-10-24 | 2007-02-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
AU2001266341A1 (en) | 2000-10-24 | 2002-05-06 | Kabushiki Kaisha Kenwood | Apparatus and method for interpolating signal |
DE60232560D1 (de) | 2001-08-31 | 2009-07-16 | Kenwood Hachioji Kk | Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz. |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
-
2002
- 2002-06-07 JP JP2002167453A patent/JP3881932B2/ja not_active Expired - Fee Related
-
2003
- 2003-05-28 US US10/477,320 patent/US7318034B2/en active Active
- 2003-05-28 EP EP03730668A patent/EP1512952B1/en not_active Expired - Lifetime
- 2003-05-28 CN CNB038003449A patent/CN1333383C/zh not_active Expired - Fee Related
- 2003-05-28 DE DE60328686T patent/DE60328686D1/de not_active Expired - Lifetime
- 2003-05-28 DE DE03730668T patent/DE03730668T1/de active Pending
- 2003-05-28 WO PCT/JP2003/006691 patent/WO2003104760A1/ja active Application Filing
-
2007
- 2007-05-07 US US11/797,701 patent/US7676361B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7957958B2 (en) | 2005-04-22 | 2011-06-07 | Kyushu Institute Of Technology | Pitch period equalizing apparatus and pitch period equalizing method, and speech coding apparatus, speech decoding apparatus, and speech coding method |
Also Published As
Publication number | Publication date |
---|---|
EP1512952B1 (en) | 2009-08-05 |
JP3881932B2 (ja) | 2007-02-14 |
EP1512952A4 (en) | 2006-02-22 |
DE60328686D1 (de) | 2009-09-17 |
US20040153314A1 (en) | 2004-08-05 |
US20070271091A1 (en) | 2007-11-22 |
CN1514931A (zh) | 2004-07-21 |
EP1512952A1 (en) | 2005-03-09 |
CN1333383C (zh) | 2007-08-22 |
WO2003104760A1 (ja) | 2003-12-18 |
US7676361B2 (en) | 2010-03-09 |
US7318034B2 (en) | 2008-01-08 |
DE03730668T1 (de) | 2005-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7676361B2 (en) | Apparatus, method and program for voice signal interpolation | |
JP5551258B2 (ja) | 狭帯域信号から「より上の帯域」の信号を決定すること | |
JP4345890B2 (ja) | 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築 | |
EP0698876B1 (en) | Method of decoding encoded speech signals | |
JP4170217B2 (ja) | ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム | |
JP3576936B2 (ja) | 周波数補間装置、周波数補間方法及び記録媒体 | |
WO2001097212A1 (fr) | Dispositif et procédé d'interpolation de fréquence | |
JPH0754440B2 (ja) | 音声分析合成装置 | |
JP2007101871A (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
JP3576941B2 (ja) | 周波数間引き装置、周波数間引き方法及び記録媒体 | |
JP3576942B2 (ja) | 周波数補間システム、周波数補間装置、周波数補間方法及び記録媒体 | |
JP3955967B2 (ja) | 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム | |
JPH04358200A (ja) | 音声合成装置 | |
JP4256189B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法及びプログラム | |
JP3875890B2 (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JP2581696B2 (ja) | 音声分析合成器 | |
CA2053133C (en) | Method for coding and decoding a sampled analog signal having a repetitive nature and a device for coding and decoding by said method | |
JP3976169B2 (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JP3994332B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム | |
JP2007108440A (ja) | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム | |
JP2007110451A (ja) | 音声信号調整装置、音声信号調整方法及びプログラム | |
JP3576951B2 (ja) | 周波数間引き装置、周波数間引き方法及び記録媒体 | |
JP4715385B2 (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
JP2003216171A (ja) | 音声信号加工装置、信号復元装置、音声信号加工方法、信号復元方法及びプログラム | |
Berbakov et al. | Evaluation of Different AAC Codec Realizations for Audio Mobile Device based on ARM Architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061113 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |