JPH1074097A - Parameter changing method and device for audio signal - Google Patents

Parameter changing method and device for audio signal

Info

Publication number
JPH1074097A
JPH1074097A JP8197776A JP19777696A JPH1074097A JP H1074097 A JPH1074097 A JP H1074097A JP 8197776 A JP8197776 A JP 8197776A JP 19777696 A JP19777696 A JP 19777696A JP H1074097 A JPH1074097 A JP H1074097A
Authority
JP
Japan
Prior art keywords
frame
audio signal
acoustic
signal
dmae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8197776A
Other languages
Japanese (ja)
Inventor
Enki O
燕暉 王
Tokufu Go
徳傅 呉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to JP8197776A priority Critical patent/JPH1074097A/en
Publication of JPH1074097A publication Critical patent/JPH1074097A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a method in which the distortion and the noise are not present and which changes the pitch and the reproducing speed of an acoustic signal by determining optimal overlapping connection points while calculating means absolute errors of the acoustic signal and changing the pitch and the reproducing speed of the acoustic signal. SOLUTION: An analog /digital converter 14 converts an analog audio signal into a digital signal. Next, the digital signal is divided into acoustic frames in a pitch shifting processor 76 and the pitch and the reproducing speed of the digital signal in certain frames is changed. Next, the changed acoustic frame is overlappingly connected with unchanged acoustic frames so that the unchanged acoustic frames are overlapped with the end area of a pre-changed acoustic frame. This overlapping calculates a differential mean absolute error to minimize an audible noise. Or, the pitch and the reproducing speed are determined by defining the overlapping connection point as the best overlapping point in which the distortion and noise are not entirely present.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、一般的にはオーデ
ィオ信号のピッチ及び再生(または演奏)速度を変更す
るアルゴリズムに関し、より詳しく述べれば、音響信号
の種々の区分を重ね継ぎ(スプライス)してピッチ及び
速度を変更できるように平均絶対誤差を計算して最良の
重ね継ぎ点を見出すことによって、オーディオ信号のピ
ッチ及び速度を変更する高効率のアルゴリズムに関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates generally to algorithms for altering the pitch and playback (or playing) speed of an audio signal, and more particularly, to splicing various sections of an audio signal. The present invention relates to a highly efficient algorithm for changing the pitch and speed of an audio signal by calculating the average absolute error so that the pitch and speed can be changed to find the best lap joint.

【0002】[0002]

【従来の技術及び発明が解決しようとする課題】オーデ
ィオ信号レコーディングにおいては、特定のオーディオ
応用における音響信号のピッチ及び再生速度を変更しよ
うとする努力がなされてきた。例えば、サンプリングシ
ンセサイザ、ハーモナイザ、ボコーダ、言語学習装置、
電話応答装置、及びコンピュータ合成音楽のためのソフ
トウェアの使用のような、いろいろな応用において変更
が試みられてきた。人の音声信号を変更することを望む
場合には、圧縮技術を使用して歌手のピッチに従って音
響信号を変更し、信号の振幅を調整していた。一般に、
調整可能な入力音響信号の振幅の変更範囲は、オクター
ブ以内である。音響信号は、 12 の降順のハーフトーン
と、 12 の昇順のハーフトーンとを含む合計 24 のハー
フトーン内で調整することができる。この変更は、比較
的簡単なハードウェア設計によって、データの実時間処
理に対する要望に合わせなければならない。また音響内
に、如何なる検出可能なひずみも導入してはならない。
BACKGROUND OF THE INVENTION In audio signal recording, efforts have been made to change the pitch and playback speed of audio signals in certain audio applications. For example, sampling synthesizers, harmonizers, vocoders, language learning devices,
Changes have been attempted in a variety of applications, such as telephone answering machines and the use of software for computer synthesized music. If it was desired to alter the human speech signal, compression techniques were used to alter the sound signal according to the singer's pitch and adjust the amplitude of the signal. In general,
The adjustable range of the amplitude of the input audio signal that can be adjusted is within an octave. The acoustic signal can be adjusted within a total of 24 halftones, including 12 descending halftones and 12 ascending halftones. This change must be adapted to the desire for real-time processing of the data by a relatively simple hardware design. Nor should any detectable distortion be introduced into the sound.

【0003】従来、音響信号の変更には再サンプリング
及びフォーマッティングを使用する分離及び重ね継ぎ方
法が採用されていた。しかしながら、この変更方法は受
容できないレベルのひずみを音響内に発生する。再サン
プリング技術はサンプリング周波数を変えることに重点
をおいており、音響信号の振幅を変化させるだけではな
く、信号の長さ及びフォーマット包絡線の形状まで変化
させてしまう。元の信号の長さを維持するために、音響
信号を再サンプリングした後に圧縮及び伸長技術のよう
な他の作業を遂行していた。しかし、これらの圧縮/伸
長段階は、短時間のポップ雑音を発生させることが多
い。更に、フォーマット包絡線の形状が変化すると、高
ピッチの雑音が発生する。分離/重ね継ぎ方法は、フォ
ーマットの形状を維持するために線形予測フィルタ及び
フーリエ変換を使用するが、必要な計算段階の数が莫大
になる。更に他の方法は、音響ピッチを変更するために
複数の発振器及びフィルタバンクを使用している。これ
らの方法は、低周波数及び高周波数の雑音を発生し、更
に計算に多数の段階を必要とする。従って、本発明の目
的は、従来技術の方法の欠陥を有していない、音響信号
のピッチ及び再生速度を変更する方法を提供することで
ある。本発明の別の目的は、音響信号の平均絶対誤差を
計算することによって最適の重ね継ぎ点を決定し、音響
信号のピッチ及び再生速度を変更する方法を提供するこ
とである。本発明のさらなる目的は、ブロック2進探索
方法を組み入れることによって音響信号の平均絶対誤差
を計算し、音響信号のピッチ及び再生速度を変更する方
法を提供することである。
[0003] In the past, separation and splicing methods using resampling and formatting have been used to modify acoustic signals. However, this modification produces unacceptable levels of distortion in the sound. Resampling techniques focus on changing the sampling frequency, not only changing the amplitude of the acoustic signal, but also changing the length of the signal and the shape of the format envelope. Other tasks such as compression and decompression techniques have been performed after resampling the audio signal to maintain the original signal length. However, these compression / decompression stages often generate short-term pop noise. Further, when the shape of the format envelope changes, high pitch noise is generated. The split / splice method uses a linear prediction filter and a Fourier transform to maintain the shape of the format, but the number of computation steps required is enormous. Still other methods use multiple oscillators and filter banks to change the acoustic pitch. These methods generate low and high frequency noise and require a number of steps in the computation. Accordingly, it is an object of the present invention to provide a method of changing the pitch and playback speed of an audio signal that does not have the deficiencies of the prior art methods. It is another object of the present invention to provide a method for determining the optimal splice point by calculating the average absolute error of the audio signal and changing the pitch and playback speed of the audio signal. It is a further object of the present invention to provide a method for calculating the average absolute error of an audio signal by incorporating a block binary search method and changing the pitch and playback speed of the audio signal.

【0004】[0004]

【課題を解決するための手段】上述した目的に従って、
本発明の第1の面においては、先ずアナログオーディオ
信号をディジタル信号に変換するような、オーディオ信
号のパラメタを変更する方法が提供される。次いで、こ
のディジタル信号は音響フレームに分割され、あるフレ
ーム内のディジタル信号のピッチ及び再生速度が変更さ
れる。次に、このように変更さた音響フレームを、クロ
スフェーディングのために、未変更音響フレームが変更
済み音響フレームの端領域に重なるように、未変更音響
フレームと重ね継ぎする。この重ね合わせは、音響構造
が上記端領域に類似したフレームの一部を用いて遂行さ
れる。音響構造の類似性は、関数 DMAE=Σm |x1(m) −x2(m+τ) | +|x1(m+1)− x1(m)−x2(m+1 +τ) −x2(m+τ) | =Σm |x1(m) −x2(m+τ) | +|x1(m+1)−x2(m+1 +τ) −[ x1(m) +x2(m+τ) ] | による計算段階の数を最も少なくするような重ね継ぎの
差分平均絶対誤差を定義することによって決められる。
但し、DMAEは重ね継ぎの差分平均絶対誤差であり、
mは0とcs(csはクロスフェーディングのサイズ)
との間の点の何等かの組合せ和であり、探索領域をsr
として0≦τ<srであり、x1 は変更済みフレームで
あり、そしてx2 は未変更フレームである。変更及び重
ね継ぎ段階は、未変更音響フレームについて繰り返さ
れ、またディジタル信号の残余の未変更音響フレームに
ついても繰り返されて変更されたディジタル信号が求め
られる。最後に変更済みディジタル信号をアナログ形状
に戻すように変換される。
According to the above-mentioned object,
According to a first aspect of the present invention, there is provided a method of changing parameters of an audio signal, such as first converting an analog audio signal to a digital signal. The digital signal is then split into sound frames, and the pitch and playback speed of the digital signal in a frame are changed. Next, the sound frame changed in this way is overlapped with the unchanged sound frame so that the unchanged sound frame overlaps the end region of the changed sound frame for crossfading. This superposition is performed using a part of the frame whose acoustic structure is similar to the end region. Similarity of the acoustic structure, function DMAE = Σ m | x 1 ( m) -x 2 (m + τ) | + | x 1 (m + 1) - x 1 (m) -x 2 (m + 1 + τ) -x 2 (m + τ ) | = Σ m | x 1 (m) -x 2 (m + τ) | + | x 1 (m + 1) -x 2 (m + 1 + τ) - [x 1 (m) + x 2 (m + τ)] | by the calculation step It is determined by defining the difference mean absolute error of the splicing that minimizes the number.
However, DMAE is the difference mean absolute error of the splicing,
m is 0 and cs (cs is the size of crossfading)
Is the sum of some combination of points between
0 ≦ τ <sr, x 1 is the changed frame, and x 2 is the unchanged frame. The altering and splicing steps are repeated for the unaltered audio frames, and also for the remaining unaltered audio frames of the digital signal to determine the altered digital signal. Finally, the modified digital signal is converted back to an analog form.

【0005】変更段階によって音響フレームが長くなる
場合には、過剰な未変更音響フレームを破棄して再生時
間を変化させないように維持する。一方、変更段階によ
って音響フレームが短くなる場合には、不足した音響フ
レームが元のディジタル信号から取り入れられて再生時
間を変化させないように維持する。DMAEは、互いに
離間した点nτ(nは整数であって、許容計算精度の範
囲に依存する)内に定義される。探索領域を複数の区分
に分割し、各区分毎にもDMAEを定義し、定義された
DMAEを互いに比較し、そして最小DMAEを有する
区分を最適の重ね継ぎ位置として選択する。最小DMA
Eを有する区分を探知するのに必要な計算の数は、 n〔3+2( log2 MS/n−2)〕 である。但し、nは区分の数であり、MSは探索領域の
長さである。本発明の第2の面によれば、オーディオ信
号のパラメタを変更する方法が提供され、この方法で
は、先ずアナログオーディオ信号はディジタル信号に変
換される。次いで、このディジタル信号は音響フレーム
に分割され、あるフレームの再生時間が変更される。次
に、このように変更さた音響フレームを、クロスフェー
ディングのために、未変更音響フレームが変更済み音響
フレームの端領域に重なるように、未変更音響フレーム
と重ね継ぎする。この重ね合わせは、音響構造が上記端
領域に類似したフレームの一部を用いて遂行される。音
響構造の類似性は関数 DMAE=Σm |x1(m) −x2(m+τ) | +|x1(m+1)− x1(m)−x2(m+1 +τ) −x2(m+τ) | =Σm |x1(m) −x2(m+τ) | +|x1(m+1)−x2(m+1 +τ) −[ x1(m) +x2(m+τ) ] | による計算段階の数を最も少なくするような重ね継ぎの
差分平均絶対誤差を定義することによって決められる。
但し、DMAEは重ね継ぎの差分平均絶対誤差であり、
mは0とcs(csはクロスフェーディングのサイズ)
との間の点の何等かの組合せ和であり、探索領域をsr
として0≦τ<srであり、x1 は変更済みフレームで
あり、そしてx2 は未変更フレームである。変更及び重
ね継ぎ段階は、未変更音響フレームについて繰り返さ
れ、またディジタル信号の残余の未変更音響フレームに
ついても繰り返されて変更されたディジタル信号が求め
られる。最後に変更済みディジタル信号をアナログ形状
に戻すように変換される。
[0005] When the sound frame becomes longer due to the changing step, the excessive unchanged sound frame is discarded to keep the reproduction time unchanged. On the other hand, if the sound frame is shortened by the change step, the missing sound frame is taken in from the original digital signal and the reproduction time is maintained so as not to change. The DMAE is defined within points nτ separated from each other (n is an integer and depends on the range of allowable calculation accuracy). The search area is divided into a plurality of sections, a DMAE is defined for each section, the defined DMAEs are compared with each other, and a section having the minimum DMAE is selected as an optimal splicing position. Minimum DMA
The number of calculations required to find the partition with E is n [3 + 2 (log 2 MS / n-2)]. Here, n is the number of sections, and MS is the length of the search area. According to a second aspect of the present invention, there is provided a method for modifying parameters of an audio signal, wherein an analog audio signal is first converted to a digital signal. The digital signal is then split into sound frames, and the playback time of a certain frame is changed. Next, the sound frame changed in this way is overlapped with the unchanged sound frame so that the unchanged sound frame overlaps the end region of the changed sound frame for crossfading. This superposition is performed using a part of the frame whose acoustic structure is similar to the end region. Similarity of the acoustic structure function DMAE = Σ m | x 1 ( m) -x 2 (m + τ) | + | x 1 (m + 1) - x 1 (m) -x 2 (m + 1 + τ) -x 2 (m + τ) | = Σ m | x 1 ( m) -x 2 (m + τ) | + | x 1 (m + 1) -x 2 (m + 1 + τ) - [x 1 (m) + x 2 (m + τ)] | number of calculations step by Is defined by defining the difference average absolute error of the overlapping splice so as to minimize
However, DMAE is the difference mean absolute error of the splicing,
m is 0 and cs (cs is the size of crossfading)
Is the sum of some combination of points between
0 ≦ τ <sr, x 1 is the changed frame, and x 2 is the unchanged frame. The altering and splicing steps are repeated for the unaltered audio frames, and also for the remaining unaltered audio frames of the digital signal to determine the altered digital signal. Finally, the modified digital signal is converted back to an analog form.

【0006】この場合も、オーディオ信号処理がオーデ
ィオ信号の振幅を増加させることがあれば、再生時間を
変化させる変更段階はそれを増加させ、オーディオ信号
の再生速度及び振幅を変化させないように維持する。ま
た、オーディオ信号処理がオーディオ信号の振幅を減少
させることがあれば、再生時間を変化させる変更段階は
それを短縮させ、オーディオ信号の再生速度及び振幅を
変化させないように維持する。DMAEは、互いに離間
した点nτ(nは整数であって、許容計算精度の範囲に
依存する)内に定義される。探索領域を複数の区分に分
割し、各区分毎にもDMAEを定義し、定義されたDM
AEを互いに比較し、そして最小DMAEを有する区分
を最適の重ね継ぎ位置として選択する。最小DMAEを
有する区分を探知するのに必要な計算の数は、 n〔3+2( log2 MS/n−2)〕 である。但し、nは区分の数であり、MSは探索領域の
長さである。オーディオ信号のパラメタを変更する装置
も提供される。本発明によれば、この装置は、入力増幅
器及び出力増幅器と、第1及び第2の低域通過フィルタ
と、アナログ・デジタル変換器と、ディジタル・アナロ
グ変換器と、ピッチシフティングプロセッサとを備えて
いる。入力増幅器、第1の低域通過フィルタ、及びアナ
ログ・デジタル変換器はピッチシフティングプロセッサ
の入力と直列に接続され、一方ディジタル・アナログ変
換器、第2の低域通過フィルタ、及び出力増幅器はピッ
チシフティングプロセッサの出力と直列に接続されてい
る。
In this case as well, if the audio signal processing increases the amplitude of the audio signal, the changing step of changing the reproduction time increases it and keeps the reproduction speed and the amplitude of the audio signal unchanged. . In addition, if the audio signal processing reduces the amplitude of the audio signal, the changing step of changing the reproduction time shortens it and keeps the reproduction speed and the amplitude of the audio signal unchanged. The DMAE is defined within points nτ separated from each other (n is an integer and depends on the range of allowable calculation accuracy). The search area is divided into a plurality of sections, a DMAE is defined for each section, and the defined DM is defined.
The AEs are compared with each other and the section with the lowest DMAE is selected as the optimal splice location. The number of calculations required to find the partition with the lowest DMAE is n [3 + 2 (log 2 MS / n-2)]. Here, n is the number of sections, and MS is the length of the search area. An apparatus for changing a parameter of an audio signal is also provided. According to the invention, the device comprises an input amplifier and an output amplifier, first and second low-pass filters, an analog-to-digital converter, a digital-to-analog converter, and a pitch shifting processor. ing. The input amplifier, the first low-pass filter, and the analog-to-digital converter are connected in series with the input of the pitch shifting processor, while the digital-to-analog converter, the second low-pass filter, and the output amplifier are connected to the pitch-shifting processor. It is connected in series with the output of the shifting processor.

【0007】ピッチシフティングプロセッサは、入力バ
ッファに接続されている入力ユニットと、出力バッファ
に接続されている出力ユニットと、クロスフェーディン
グを必要とするオーディオ信号の部分を格納するクロス
フェーディングデータメモリと、入力及び出力バッファ
及びクロスフェーディングデータメモリに接続されてい
るアドレスユニットと、レジスタファイルユニットと、
平均絶対誤差及びクロスフェーディング値を計算するデ
ィジタル処理ユニットと、制御ユニットとを備えてい
る。入力バッファ、クロスフェーディングデータメモ
リ、レジスタファイルユニット、ディジタル処理ユニッ
ト、制御ユニット、及び出力バッファは、バスシステム
を通して作動的に相互接続されている。本発明の他の目
的、特色、及び長所は、以下の添付図面に基づく説明か
ら明白になるであろう。
The pitch shifting processor includes an input unit connected to an input buffer, an output unit connected to an output buffer, and a crossfading data memory for storing a portion of an audio signal requiring crossfading. An address unit connected to the input and output buffers and the crossfading data memory; a register file unit;
A digital processing unit for calculating an average absolute error and a crossfading value; and a control unit. The input buffer, crossfading data memory, register file unit, digital processing unit, control unit, and output buffer are operatively interconnected through a bus system. Other objects, features and advantages of the present invention will become apparent from the following description based on the accompanying drawings.

【0008】[0008]

【発明の実施の形態】本発明によれば、従来技術の方法
の欠陥を有していない、音響信号のピッチ及び再生速度
を変更する方法が提供される。音響信号のピッチを変更
する最も簡単な方法は、あたかもテープレコーダを高速
で、または低速で再生しているかのような効果を発生さ
せることである。この効果は2つの異なる方法で発生さ
せることができる。第1の方法は、もし再生速度を一定
に保つのであれば、サンプリング点を周期的に増加また
は減少させることである。これを図1に示す。元の音響
信号を10で示してある。音響信号12は、高速で再生
された音響の効果を得るために、サンプリング点が周期
的に減少していることを示している。音響信号12は、
低速で音響を再生する効果を発生させるために、サンプ
リング点が周期的に増加している状態を示している。第
2の方法は、再生速度を増加または低下させながら、サ
ンプリング点を一定に保つことである。この方法は、テ
ープレコーダを高速で、または低速で再生する原理に似
ている。しかしながら、これらの方法の何れかによって
もたらされる欠陥の1つは、結果として得られる再生時
間が変化することである。この問題を修正するために、
変更する音響信号の重複/破棄方法を使用し、先ず連続
音響信号を、音響フレームと呼ぶ幾つかの区分に分割す
る。振幅が減少して音響フレームを長くさせるような状
況では、過剰な音響信号を破棄する。一方、振幅が増加
して音響フレームを短くさせる場合には、音響信号の不
足部分を音響フレームの他の区分によって充填する。こ
の技術を使用することによって、各音響フレームの長さ
を一定値に維持することができる。
DETAILED DESCRIPTION OF THE INVENTION In accordance with the present invention, there is provided a method of changing the pitch and playback speed of an audio signal without the deficiencies of the prior art methods. The simplest way to change the pitch of an audio signal is to create the effect as if the tape recorder were playing at a high or low speed. This effect can be generated in two different ways. The first way is to periodically increase or decrease the sampling points if the playback speed is kept constant. This is shown in FIG. The original acoustic signal is shown at 10. The sound signal 12 indicates that the sampling points are periodically reduced in order to obtain the effect of the sound reproduced at high speed. The acoustic signal 12 is
This shows a state in which the number of sampling points is periodically increased in order to generate an effect of reproducing sound at a low speed. The second method is to keep the sampling point constant while increasing or decreasing the playback speed. This method resembles the principle of playing a tape recorder at high speed or low speed. However, one of the deficiencies introduced by any of these methods is that the resulting playback time varies. To fix this problem,
Using a modified sound signal overlap / discard method, a continuous sound signal is first divided into several sections called sound frames. In situations where the amplitude decreases and the acoustic frame becomes longer, the excess acoustic signal is discarded. On the other hand, when the amplitude is increased to shorten the acoustic frame, the insufficient portion of the acoustic signal is filled with another section of the acoustic frame. By using this technique, the length of each acoustic frame can be maintained at a constant value.

【0009】更に、長さが不足する音響信号を他の音響
フレームによって充填する方法は、以下のように実行す
ることができる。Mミリ秒の再生時間長を有する音響フ
レームの場合、もし周波数をx倍に高めることによって
ピッチを増加させたとすれば、音響の再生時間は短縮さ
れて出力音響フレームはM/xミリ秒になる。その時間
スケールの終わりの不足音響フレームは、元の音響信号
の音響フレームのある区分を取り(即ち、元の音響信号
のM/xからM/x+Mミリ秒までの音響フレームを取
ることによって)、それを不足音響フレームの終わりに
重ね継ぎすることによって充填することができる。各音
響フレームには、クロスフェーディングのための音響信
号の小さい領域20を付加(即ち、線形加算)しなけれ
ばならない。これを図2に示す。16で示す入力音響信
号の音響フレームの区分は、サンプリング点が比例的に
減少される、即ちサンプリング周波数が増加された後
は、18の長さまで短縮される。これによって、音響フ
レーム18の終わり(クロスフェーディング部分20を
含まない)からは、元の音響信号に一致するようにな
る。これを図2に22で示す。この段階は、音響信号の
残余の区分について繰り返される。
[0009] Furthermore, a method of filling an acoustic signal of insufficient length with another acoustic frame can be performed as follows. For an acoustic frame having a playback time length of M milliseconds, if the pitch is increased by increasing the frequency x times, the playback time of the audio is reduced and the output audio frame is M / x milliseconds. . The missing sound frame at the end of the time scale takes a section of the sound frame of the original sound signal (ie, by taking sound frames from M / x to M / x + M milliseconds of the original sound signal), It can be filled by splicing it at the end of the missing acoustic frame. A small area 20 of the audio signal for crossfading must be added (ie, linearly added) to each audio frame. This is shown in FIG. The segment of the audio frame of the input audio signal, indicated at 16, is reduced to a length of 18 after the sampling points have been reduced proportionally, ie, after the sampling frequency has been increased. As a result, from the end of the acoustic frame 18 (not including the crossfading portion 20), the original acoustic signal matches. This is indicated at 22 in FIG. This step is repeated for the remaining sections of the audio signal.

【0010】一方、もし音響信号のピッチが低下して周
波数が1/xになると、合計再生時間はxMミリ秒にな
る。これを図3に示す。上述した場合と同じように、音
響再生の終わりに、元の音響信号の対応する部分(即ち
元の音響信号のxMからxM+Mミリ秒までの部分)を
取ることによって、音響フレームのある区分が音響出力
の終わりに接続される。各音響フレームの界面において
クロスフェーディング区分が同じように遂行される。例
えば、音響フレーム32は入力音響信号のある区分であ
って、サンプリング点が増加する、即ちサンプリング周
波数が低下した後は、番号34で示すように長さが増加
する。音響フレームの後端において、クロスフェーディ
ングのために小区分36が使用される。これによって音
響フレームの後端34(クロスフェーディング区分36
を含まない)は、図3の音響フレーム38で示すように
元の音響信号に一致するようになる。この段階はプロセ
スを完了させるために繰り返される。本発明の方法によ
って変更された音響信号では、音響スケールの変化の程
度は音響フレーム及びクロスフェーディングの大きさに
関係する。一般的に言えば、ピッチが高く変更される
程、音響フレーム及びクロスフェーディングの長さが短
くなり、エコーを目立たなくすることができる。また、
クロスフェーディングを長くする程、発生する雑音が小
さくなることを発見した。しかしながら、クロスフェー
ディングが長過ぎると、音響のトーンの質が低下する恐
れがある。たとえ、音響フレームを重ね継ぎするのにク
ロスフェーディング方法を使用して滑らかな移行を得る
ことができるとしても、それでも音響フレームの相対位
置に起因して雑音は発生し得る。従って、他の音響フレ
ームに最も類似する音響フレームの領域を探知し、重大
な雑音を発生させることなくそれらを重ね継ぎできるよ
うに本発明を更に改善することが望ましい。これらの位
置を探知する方法を図4に示す。例えば、音響フレーム
40の後端の小さい音響フレーム区分42と、第2の音
響フレーム46の前区分44とを比較する。小区分42
は、音響フレーム46の前区分44よりは小さいクロス
フェーディング領域の大きさを示している。音響フレー
ム46と音響フレーム40とを重ね継ぎするためには、
音響フレーム46内に同じような区分48を見出す必要
がある。
On the other hand, if the pitch of the sound signal is reduced and the frequency becomes 1 / x, the total reproduction time becomes xM milliseconds. This is shown in FIG. As before, at the end of the sound reproduction, by taking the corresponding part of the original sound signal (ie from xM to xM + M milliseconds of the original sound signal), a section of the sound frame is Connected at end of output. Crossfading sections are performed in the same way at the interface of each acoustic frame. For example, the sound frame 32 is a section of the input sound signal, and the length increases as indicated by the numeral 34 after the sampling points increase, that is, after the sampling frequency decreases. At the rear end of the acoustic frame, a subsection 36 is used for crossfading. As a result, the rear end 34 of the acoustic frame (cross-fading section 36)
) Does not match the original acoustic signal as shown by the acoustic frame 38 in FIG. This step is repeated to complete the process. For an audio signal modified by the method of the present invention, the degree of change in the audio scale is related to the size of the audio frame and the crossfading. Generally speaking, the higher the pitch, the shorter the length of the acoustic frame and crossfading, making the echo less noticeable. Also,
We found that the longer the crossfading, the lower the noise generated. However, if the crossfading is too long, the tone quality of the sound may be degraded. Even though a smooth transition can be obtained using the crossfading method to splice acoustic frames, noise can still occur due to the relative position of the acoustic frames. Accordingly, it is desirable to further improve the present invention so that areas of an acoustic frame that are most similar to other acoustic frames can be located and spliced together without generating significant noise. FIG. 4 shows a method of detecting these positions. For example, the small sound frame section 42 at the rear end of the sound frame 40 is compared with the front section 44 of the second sound frame 46. Subsection 42
Indicates the size of the crossfading area smaller than the front section 44 of the acoustic frame 46. To overlap the acoustic frame 46 and the acoustic frame 40,
A similar section 48 must be found in the acoustic frame 46.

【0011】音響フレームのための最も類似した重ね継
ぎ領域を見出すための数学的方法を提唱する。この方法
は、計算段階の数を最小にするような、従って高効率で
重ね継ぎを行うことができる重ね継ぎの差分平均絶対誤
差(DMAE)を計算することに基づいている。この計
算は、 DMAE=Σm |x1(m) −x2(m+τ) | +|x1(m+1)− x1(m)−x2(m+1 +τ) −x2(m+τ) | =Σm |x1(m) −x2(m+τ) | +|x1(m+1)−x2(m+1 +τ) −[ x1(m) +x2(m+τ) ] | に従って遂行される。但し、DMAEは重ね継ぎの差分
平均絶対誤差であり、mは0とcs(csはクロスフェ
ーディングのサイズ)との間の点の何等かの組合せ和で
あり、探索領域をsrとして0≦τ<srであり、x1
は変更済みフレームであり、そしてx2 は未変更フレー
ムである。mの点を多くする程、音響の質は良好にな
る。DMAEの位置は、その音響フレームにとって最良
の重ね継ぎ点である。DMAEの計算は加算と減算だけ
でよく、これは乗算を必要としないから、簡単なプロセ
スである。
A mathematical method is proposed to find the most similar splice regions for acoustic frames. The method is based on calculating the differential mean absolute error (DMAE) of the splice that minimizes the number of calculation steps and thus can be spliced with high efficiency. This calculation, DMAE = Σ m | x 1 (m) -x 2 (m + τ) | + | x 1 (m + 1) - x 1 (m) -x 2 (m + 1 + τ) -x 2 (m + τ) | = Σ m | x 1 (m) -x 2 (m + τ) | + | x 1 (m + 1) -x 2 (m + 1 + τ) - [x 1 (m) + x 2 (m + τ)] | is performed in accordance with. Here, DMAE is the difference average absolute error of the overlapping splice, m is the sum of some combination of points between 0 and cs (cs is the size of crossfading), and 0 ≦ τ with the search area being sr. <Sr, x 1
It is a modified frame, and x 2 is the unmodified frame. The more points m, the better the sound quality. The position of the DMAE is the best lap joint for the acoustic frame. The calculation of DMAE requires only addition and subtraction, which is a simple process since no multiplication is required.

【0012】最良重ね継ぎ位置を探知するためにDMA
E法を適用する場合、その音響フレーム内の全てのサン
プルが計算される。音響信号はある規則性を有している
から、何れか2つの隣接点間の差は極めて小さい。従っ
て、サブサンプリング法で計算するために各2つの点の
一方を取ることができる。サブサンプリング法を使用す
ることによって、計算の精度を著しく低下させることな
く、計算の合計数が半分に減少する。表1は、男の声、
バイオリンの音、及び電子音楽について、DMAE法及
びDMAE/サブサンプリング法の両者によって計算さ
れた信号対雑音比(SNR)を示している。 表 1 SNR DMAE DMAE及び サブサンプル 男の声 26.25415 26.20773 バイオリンの音 31.56789 31.14602 電子音楽 19.85814 19.737 表1に示すように、サブサンプリングを使用した、また
は使用しない方法を使用することによって、異なる音響
信号について得られたSNR値に大きい差異はない。実
際の聴取試験では、普通の人の耳では差を検出すること
はできなかった。また、精度の偏差が許容範囲内にある
限り、各3つの点から1つのサンプリング点を取り出す
か、または各4つの点から1つのサンプリング点を取り
出して、計算の数を更に減少させることが可能である。
DMA to find the best splice location
When applying the E method, all samples in the acoustic frame are calculated. Since the acoustic signal has a certain regularity, the difference between any two adjacent points is extremely small. Therefore, one of each two points can be taken for calculation by the subsampling method. By using the subsampling method, the total number of calculations is reduced by half without significantly reducing the accuracy of the calculations. Table 1 shows the voice of a man,
FIG. 4 shows signal-to-noise ratios (SNR) calculated by the DMAE method and the DMAE / sub-sampling method for violin sound and electronic music. Table 1 SNR DMAE DMAE and As shown in sub-sample man's voice 26.25415 26.20773 violin sound 31.56789 31.14602 electronic musical 19.85814 19.737 Table 1, by using using the sub-sampling, or methods that do not use, large SNR values obtained for the different acoustic signals There is no difference. In an actual listening test, it was not possible to detect a difference with a normal human ear. It is also possible to take one sampling point out of every three points or one sampling point out of every four points, as long as the accuracy deviation is within an acceptable range, further reducing the number of calculations. It is.

【0013】代替実施例において本発明は、普通は運動
する画像の処理に使用される運動推定法をも使用する。
運動推定法をも組み入れることによって、DMAEを探
知するのに要する計算の合計数が大幅に減少する。換言
すれば、最良の重ね継ぎ位置を探索する際に、二次元法
を一次元2進探索法に縮小することができる。この探索
の精度を改善するために、探索領域を多くの区分に分割
して各区分毎のDMAE値を決定する。次いでこれらの
DMAE値を比較し、最も小さい値を最適の重ね継ぎ位
置として選択する。この変更された方法をブロック2進
探索(BBS)と呼び、図5に示す。音響領域の1つを
52で示す。この音響領域52は4つの等しい部分に分
割され、小区分54、56及び58は各々1/4領域、
2/4領域、及び3/4領域を表している。これらの領
域は各々そのDMAE値が決定され、次いで領域58が
最良の整合位置であることが決定される。次に、対応す
る小区分60を中心位置として、1/8前方の小区分6
2、及び1/8後方の小区分64が使用され、それらの
中で最も整合する位置が決定される。図5に示すよう
に、5/8位置にある小領域62が最も整合しているこ
とが見出される。この方法は、最も整合している位置6
6が2つの音響フレームの重ね継ぎ位置として、3つの
隣接小領域が互いに離間した唯一の点であると決定され
るまで連続して遂行される。
In an alternative embodiment, the present invention also uses motion estimation methods that are commonly used to process moving images.
By also incorporating the motion estimation method, the total number of calculations required to detect the DMAE is greatly reduced. In other words, when searching for the best overlapping position, the two-dimensional method can be reduced to a one-dimensional binary search method. In order to improve the accuracy of this search, the search area is divided into many sections, and the DMAE value for each section is determined. These DMAE values are then compared and the smallest value is selected as the optimal splice position. This modified method is called Block Binary Search (BBS) and is shown in FIG. One of the acoustic regions is indicated by 52. This acoustic area 52 is divided into four equal parts, with subsections 54, 56 and 58 each being a quarter area,
This represents a 2/4 area and a 3/4 area. Each of these regions has its DMAE value determined, and then region 58 is determined to be the best match. Next, with the corresponding subsection 60 as the center position, the subsection 6 1/8 ahead is set.
The 2 and 1/8 back subsections 64 are used to determine the best matching location among them. As shown in FIG. 5, the small region 62 at the 5/8 position is found to be the best match. The method is based on the best matching position 6
6 is performed continuously until the three adjacent sub-regions are determined to be the only points separated from each other as the overlapping position of the two acoustic frames.

【0014】探索領域がn区分に分割されるものとすれ
ば、各最良整合点を探知するのに必要な計算の数は、 n・〔3+2・( log2 MS/n−2)〕 ここに、MSは探索領域の長さである。例えば、もしn
=4であれば、 MS= 10 ミリ秒× 22.05kHz= 220.5 になる。ブロック2進探索法を適用することによって、
必要な計算の合計数は 42 に減少し、これは元の計算数
の僅か 20 %にしか過ぎない。もしサブサンプリング法
をも採用すれば計算の合計数は更に半分に減少し、従っ
て元の計算数の 10 %になる。ブロック2進探索法によ
る計算効率を表2に示す。表に示すように、BBS法を
使用して、または使用せずに決定された3つの異なる音
響信号に関する信号対雑音比の差は極めて小さい。普通
の人は、これらの差を聞き分けることはできない。
Assuming that the search area is divided into n sections, the number of calculations required to find each best matching point is n · [3 + 2 · (log 2 MS / n−2)] where , MS is the length of the search area. For example, if n
If = 4, then MS = 10 ms x 22.05 kHz = 220.5. By applying the block binary search method,
The total number of calculations required is reduced to 42, which is only 20% of the original number. If the sub-sampling method is also employed, the total number of calculations is further reduced by half, and thus is 10% of the original number of calculations. Table 2 shows the calculation efficiency by the block binary search method. As shown in the table, the difference in signal-to-noise ratio for three different acoustic signals determined with or without the BBS method is very small. Ordinary people cannot discern these differences.

【0015】 表 2 SNR DMAE DMAE及び DMAE及びBBS BBS 及びサブサンプル 男の声 26.25415 25.66386 25.32933 バイオリンの音 31.56789 31.11732 31.06021 電子音楽 19.85814 19.60205 19.76816 従って、本発明は、音響の再生速度を変えることによっ
てサンプリング点を変えることができる。上に示した計
算によって、ピッチを変えずに、しかし再生時間を増減
させて同一の再生速度で変更された音響を再生すること
ができる。例えば、もしある音響信号の計算によって振
幅が増加すれば、その音響信号内に含まれるデータ量が
増加する。同じ再生速度ならば合計再生時間が増加し、
振幅は同一に維持される。反対に、もし計算によって振
幅が減少すれば、その音響信号内に含まれるデータ量が
減少する。再生時間を短縮することが可能になるが、振
幅は同一に維持される。
Table 2 SNR DMAE DMAE and DMAE and BBS BBS and subsample male voice 26.25415 25.66386 25.32933 Violin sound 31.56789 31.11732 31.06021 Electronic music 19.85814 19.60205 19.76816 Therefore, the present invention can change the sampling point by changing the sound reproduction speed. The above calculations allow the modified sound to be played at the same playback speed without changing the pitch but with increasing or decreasing the playback time. For example, if the amplitude is increased by calculating a certain acoustic signal, the amount of data included in the acoustic signal increases. At the same playback speed, the total playback time increases,
The amplitude remains the same. Conversely, if the amplitude is reduced by calculation, the amount of data contained in the acoustic signal is reduced. The playback time can be reduced, but the amplitude remains the same.

【0016】通常、音響信号はアナログ信号として供給
される。しかしながら、これらの信号が処理される時に
はディジタル処理法を使用しなければならない。ディジ
タル信号を処理した後に、それらは再びアナログ信号に
変換されて出力される。図6は、ピッチ変更を組み入れ
た音響信号処理のためのブロック線図である。先ず、マ
イクロホンが、処理のために音響をアナログ電子信号x
(τ)に変換する。アナログ信号x(τ)は、信号を増
強するために入力増幅器70によって増幅される。増幅
された信号は、雑音信号を排除するために低域通過フィ
ルタ72を通過させられる。濾波された信号はアナログ
・デジタル変換器74へ印加され、アナログ信号はディ
ジタル信号に変えられる。この点におけるディジタル信
号はPCM信号であり、処理のためにピッチシフティン
グプロセッサ76へ送られる。次いで、処理された信号
はディジタル・アナログ変換器78へ送られ、信号はア
ナログ信号にされる。次に、アナログ信号は別の低域通
過フィルタ80へ送られ、そこから出力増幅器82へ供
給されてスピーカを通して、変更されたピッチを有する
可聴音x’(τ)として出力される。図7に、ピッチシ
フティングプロセッサのアーキテクチャを示す。音響デ
ータはPI 90を通して入力バッファ92へ送られ
る。クロスフェーディングデータ94は、クロスフェー
ディングを必要とする先行音響フレームの後部分を格納
している。DMAE及びクロスフェーディングを計算す
るためにDPU 96が使用される。処理された音響信
号は出力バッファ98及びPO 100を通して外部へ
出力される。
Normally, the audio signal is supplied as an analog signal. However, when these signals are processed, digital processing methods must be used. After processing the digital signals, they are again converted to analog signals and output. FIG. 6 is a block diagram for acoustic signal processing incorporating a pitch change. First, the microphone converts the sound to an analog electronic signal x for processing.
(Τ). Analog signal x (τ) is amplified by input amplifier 70 to enhance the signal. The amplified signal is passed through a low pass filter 72 to reject noise signals. The filtered signal is applied to an analog to digital converter 74, which converts the analog signal to a digital signal. The digital signal at this point is a PCM signal and is sent to pitch shifting processor 76 for processing. The processed signal is then sent to a digital to analog converter 78, which converts the signal to an analog signal. The analog signal is then sent to another low-pass filter 80, from which it is fed to an output amplifier 82 and output through a speaker as an audible tone x '(τ) having a modified pitch. FIG. 7 shows the architecture of the pitch shifting processor. The sound data is sent to the input buffer 92 through the PI 90. The crossfading data 94 stores the rear part of the preceding sound frame that requires crossfading. DPU 96 is used to calculate DMAE and crossfading. The processed sound signal is output to the outside through the output buffer 98 and the PO 100.

【0017】以上に本発明を例示の目的で説明したが、
説明に使用した用語は語の本質を意図するものであっ
て、制約するものではないことを理解されたい。更に、
本発明をその好ましい実施の形態に関して説明したが、
当業者ならばこれらの教示を本発明の他の考え得る変形
に容易に適用できよう。本発明はこれらの実施の形態に
限定されるものではなく、特許請求の範囲によってのみ
限定されるものである。
While the present invention has been described for purposes of illustration,
It is to be understood that the terminology used in the description is intended to be in the nature of the word and not restrictive. Furthermore,
Although the present invention has been described in terms of its preferred embodiments,
One skilled in the art will readily apply these teachings to other possible variations of the present invention. The present invention is not limited to these embodiments, but is limited only by the claims.

【図面の簡単な説明】[Brief description of the drawings]

【図1】サンプリング点を増加及び減少させて同一の再
生速度で再生された音響信号を示す図である。
FIG. 1 is a diagram showing audio signals reproduced at the same reproduction speed by increasing and decreasing sampling points.

【図2】音響スケールを増加させるための本発明の音響
フレーム重ね継ぎ方法を示す図である。
FIG. 2 is a diagram illustrating an acoustic frame splicing method of the present invention for increasing an acoustic scale.

【図3】音響スケールを減少させるための本発明の音響
フレーム重ね継ぎ方法を示す図である。
FIG. 3 is a diagram illustrating an acoustic frame splicing method of the present invention for reducing an acoustic scale.

【図4】音響フレームの最良重ね継ぎ位置を見出すため
の探索の範囲及び方法を示す図である。
FIG. 4 is a diagram showing a search range and a method for finding a best overlap position of an acoustic frame.

【図5】最良重ね継ぎ位置を見出すための本発明の2進
探索方法を示す図である。
FIG. 5 is a diagram showing a binary search method of the present invention for finding the best overlapping position.

【図6】本発明による装置のブロック線図である。FIG. 6 is a block diagram of the device according to the invention.

【図7】図6の装置のピッチシフティングプロセッサの
ブロック線図である。
FIG. 7 is a block diagram of a pitch shifting processor of the apparatus of FIG.

【符号の説明】[Explanation of symbols]

70 入力増幅器 72 低域通過フィルタ 74 アナログ・デジタル変換器 76 ピッチシフティングプロセッサ 78 ディジタル・アナログ変換器 80 低域通過フィルタ 82 出力増幅器 90 PI 92 入力バッファ 94 クロスフェーディングデータ 96 DPU 98 出力バッファ 100 PO Reference Signs List 70 input amplifier 72 low-pass filter 74 analog-to-digital converter 76 pitch shifting processor 78 digital-to-analog converter 80 low-pass filter 82 output amplifier 90 PI 92 input buffer 94 cross-fading data 96 DPU 98 output buffer 100 PO

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 オーディオ信号のパラメタを変更する方
法において、 (a)アナログオーディオ信号をディジタル信号に変換
する段階と、 (b)上記ディジタル信号を音響フレームに分割する段
階と、 (c)あるフレーム内の上記ディジタル信号のピッチ及
び再生速度を変更する段階と、 (d)上記変更済み音響フレームと未変更音響フレーム
とを重ね継ぎする段階と、 (e)上記段階(c)及び(d)を、上記未変更音響フ
レームについて、及び上記ディジタル信号の残余の未変
更音響フレームについて繰り返し、変更済みディジタル
信号を生成する段階と、 (f)上記変更済みディジタル信号をアナログ信号に戻
すように変換する段階とからなり、 上記重ね継ぎ段階(d)は、上記変更済み音響フレーム
の端領域と、音響構造が上記端領域に類似している上記
未変更音響フレームの部分とをクロスフェーディングの
ために重ね合わせることを含み、上記音響構造の類似性
は、DMAEを重ね継ぎの差分平均絶対誤差とし、mを
0とクロスフェーディングのサイズであるcsとの間の
点の何等かの組合せ和とし、探索領域をsrとして0≦
τ<srとし、x1 を変更済みフレームとし、そしてx
2 を未変更フレームとして、 DMAE=Σm |x1(m) −x2(m+τ) | +|x1(m+1)− x1(m)−x2(m+1 +τ) −x2(m+τ) | =Σm |x1(m) −x2(m+τ) | +|x1(m+1)−x2(m+1 +τ) −[ x1(m) +x2(m+τ) ] | なる関数による計算段階の数を最も少なくするような重
ね継ぎの差分平均絶対誤差を定義することによって決め
られることを特徴とする方法。
1. A method for changing parameters of an audio signal, comprising: (a) converting an analog audio signal into a digital signal; (b) dividing the digital signal into sound frames; and (c) a frame. Changing the pitch and the reproduction speed of the digital signal in (d); (d) overlapping the changed sound frame and the unchanged sound frame; and (e) changing the steps (c) and (d). Generating a modified digital signal by repeating the unmodified audio frame and the remaining unmodified audio frame of the digital signal; and (f) converting the modified digital signal back to an analog signal. In the lap splicing step (d), the end region of the modified acoustic frame and the acoustic structure are The superimposition of the acoustic structure includes superimposing a portion of the unmodified acoustic frame that is similar to a region for crossfading, wherein DMAE is the differential mean absolute error of the splice and m is 0. The sum of some combination of points between the crossfading size cs and the search area sr is defined as 0 ≦
Let τ <sr, let x 1 be a modified frame, and x
2 as unmodified frame, DMAE = Σ m | x 1 (m) -x 2 (m + τ) | + | x 1 (m + 1) - x 1 (m) -x 2 (m + 1 + τ) -x 2 (m + τ) | = Σ m | x 1 ( m) -x 2 (m + τ) | + | x 1 (m + 1) -x 2 (m + 1 + τ) - [x 1 (m) + x 2 (m + τ)] | calculation step by comprising function The method is characterized in that it is determined by defining a difference average absolute error of the overlapped splice such that the number of the splices is minimized.
【請求項2】 上記変更によって音響フレームが長くさ
れる場合には、過剰の未変更音響フレームは破棄され、
再生時間は変化せずに保存される請求項1に記載のオー
ディオ信号のパラメタを変更する方法。
2. If the change lengthens the acoustic frame, the excess unmodified acoustic frame is discarded,
The method according to claim 1, wherein the playback time is stored without change.
【請求項3】 上記変更によって音響フレームが短くさ
れる場合には、不足の未変更音響フレームを元のディジ
タル信号から取り入れ、再生時間は変化せずに保存され
る請求項1に記載のオーディオ信号のパラメタを変更す
る方法。
3. The audio signal according to claim 1, wherein when the audio frame is shortened by the change, a missing unaltered audio frame is taken in from the original digital signal, and the reproduction time is stored without change. How to change parameters.
【請求項4】 上記DMAEは、nを許容計算精度の範
囲に依存する整数として、互いに離間する点nτ内に定
義される請求項1に記載のオーディオ信号のパラメタを
変更する方法。
4. The method according to claim 1, wherein the DMAE is defined within points nτ apart from each other, where n is an integer depending on a range of allowable calculation accuracy.
【請求項5】 上記探索領域を複数の区分に分割し、上
記各区分毎にも上記DMAEを定義し、上記定義された
DMAEを互いに比較し、そして最小DMAEを有する
区分を最適の重ね継ぎ位置として選択する請求項1に記
載のオーディオ信号のパラメタを変更する方法。
5. The method according to claim 5, wherein the search area is divided into a plurality of sections, the DMAE is defined for each of the sections, the defined DMAEs are compared with each other, and the section having the minimum DMAE is determined as an optimum splice position. 2. The method for changing parameters of an audio signal according to claim 1, wherein the parameter is selected as:
【請求項6】 上記最小DMAEを有する区分を探知す
るのに必要な計算の数は、nを区分の数、MSを上記探
索領域の長さとして、 n〔3+2( log2 MS/n−2)〕 である請求項5に記載のオーディオ信号のパラメタを変
更する方法。
6. The number of calculations required to find the partition having the minimum DMAE is as follows: n is the number of partitions, MS is the length of the search area, and n [3 + 2 (log 2 MS / n−2). 6. The method for changing parameters of an audio signal according to claim 5, wherein:
【請求項7】 オーディオ信号のパラメタを変更する方
法において、 (a)アナログオーディオ信号をディジタル信号に変換
する段階と、 (b)上記ディジタル信号を音響フレームに分割する段
階と、 (c)あるフレームの再生時間を変更する段階と、 (d)上記変更済み音響フレームと未変更音響フレーム
とを重ね継ぎする段階と、 (e)上記段階(c)及び(d)を、上記未変更音響フ
レームについて、及び上記ディジタル信号の残余の未変
更音響フレームについて繰り返し、変更済みディジタル
信号を生成する段階と、 (f)上記変更済みディジタル信号をアナログ信号に戻
すように変換する段階とからなり、 上記重ね継ぎ段階(d)は、上記変更済み音響フレーム
の端領域と、音響構造が上記端領域に類似している上記
未変更音響フレームの部分とをクロスフェーディングの
ために重ね合わせることを含み、上記音響構造の類似性
は、DMAEを重ね継ぎの差分平均絶対誤差とし、mを
0とクロスフェーディングのサイズであるcsとの間の
点の何等かの組合せ和とし、探索領域をsrとして0≦
τ<srとし、x1 を変更済みフレームとし、そしてx
2 を未変更フレームとして、 DMAE=Σm |x1(m) −x2(m+τ) | +|x1(m+1)− x1(m)−x2(m+1 +τ) −x2(m+τ) | =Σm |x1(m) −x2(m+τ) | +|x1(m+1)−x2(m+1 +τ) −[ x1(m) +x2(m+τ) ] | なる関数による計算段階の数を最も少なくするような重
ね継ぎの差分平均絶対誤差を定義することによって決め
られることを特徴とする方法。
7. A method for changing parameters of an audio signal, comprising: (a) converting an analog audio signal to a digital signal; (b) dividing the digital signal into acoustic frames; and (c) a frame. (D) overlapping the changed sound frame and the unchanged sound frame; and (e) performing the steps (c) and (d) for the unchanged sound frame. And generating a modified digital signal by repeating the remaining unmodified acoustic frames of the digital signal; and (f) converting the modified digital signal back to an analog signal. Step (d) comprises an end region of the modified sound frame and the unmodified sound whose sound structure is similar to the end region. Including overlapping portions of the frame for crossfading, the similarity of the acoustic structure may be such that the DMAE is the difference mean absolute error of the overlap and m is 0 and cs is the size of the crossfading. The sum of some combination of the points between them, the search area is sr and 0 ≦
Let τ <sr, let x 1 be a modified frame, and x
2 as unmodified frame, DMAE = Σ m | x 1 (m) -x 2 (m + τ) | + | x 1 (m + 1) - x 1 (m) -x 2 (m + 1 + τ) -x 2 (m + τ) | = Σ m | x 1 ( m) -x 2 (m + τ) | + | x 1 (m + 1) -x 2 (m + 1 + τ) - [x 1 (m) + x 2 (m + τ)] | calculation step by comprising function The method is characterized in that it is determined by defining a difference average absolute error of the overlapped splice such that the number of the splices is minimized.
【請求項8】 上記再生時間の変更は、上記時間を増加
させることを含み、上記オーディオ信号の処理は、上記
オーディオ信号のサンプリング点を増加させることによ
って再生時間及び上記オーディオ信号のサンプリング点
を維持することを含む請求項7に記載のオーディオ信号
のパラメタを変更する方法。
8. The method of claim 1, wherein the changing of the reproduction time includes increasing the time, and the processing of the audio signal maintains the reproduction time and the sampling point of the audio signal by increasing a sampling point of the audio signal. The method of claim 7, wherein the method comprises: changing a parameter of the audio signal.
【請求項9】 上記再生時間の変更は、上記時間を減少
させることを含み、上記オーディオ信号の処理は、上記
オーディオ信号のサンプリング点を減少させることによ
って再生時間及び上記オーディオ信号のサンプリング点
を維持することを含む請求項7に記載のオーディオ信号
のパラメタを変更する方法。
9. The method of claim 1, wherein the changing of the reproduction time includes reducing the time, and the processing of the audio signal maintains the reproduction time and the sampling point of the audio signal by reducing a sampling point of the audio signal. The method of claim 7, wherein the method comprises: changing a parameter of the audio signal.
【請求項10】 上記DMAEは、nを許容計算精度の
範囲に依存する整数として、互いに離間する点nτ内に
定義される請求項7に記載のオーディオ信号のパラメタ
を変更する方法。
10. The method of changing parameters of an audio signal according to claim 7, wherein the DMAE is defined within a point nτ apart from each other, where n is an integer depending on a range of allowable calculation accuracy.
【請求項11】 上記探索領域を複数の区分に分割し、
上記各区分毎にも上記DMAEを定義し、上記定義され
たDMAEを互いに比較し、そして最小DMAEを有す
る区分を最適の重ね継ぎ位置として選択する請求項7に
記載のオーディオ信号のパラメタを変更する方法。
11. The search area is divided into a plurality of sections,
8. The parameter of the audio signal according to claim 7, wherein the DMAE is defined for each of the sections, the defined DMAEs are compared with each other, and the section having the minimum DMAE is selected as an optimum overlapping position. Method.
【請求項12】 上記最小DMAEを有する区分を探知
するのに必要な計算の数は、nを区分の数、MSを上記
探索領域の長さとして、 n〔3+2( log2 MS/n−2)〕 である請求項11に記載のオーディオ信号のパラメタを
変更する方法。
12. The number of calculations required to find a partition having the minimum DMAE is as follows: n is the number of partitions, MS is the length of the search area, and n [3 + 2 (log 2 MS / n−2). The method according to claim 11, wherein the parameter of the audio signal is changed.
【請求項13】 オーディオ信号のパラメタを変更する
装置において、入力増幅器及び出力増幅器と、第1及び
第2の低域通過フィルタと、アナログ・デジタル変換器
と、ディジタル・アナログ変換器と、ピッチシフティン
グプロセッサとを備え、上記入力増幅器、上記第1の低
域通過フィルタ、及び上記アナログ・デジタル変換器は
上記ピッチシフティングプロセッサの入力に直列に接続
され、上記ディジタル・アナログ変換器、上記第2の低
域通過フィルタ、及び上記出力増幅器は上記ピッチシフ
ティングプロセッサの出力に直列に接続されていること
を特徴とするオーディオ信号のパラメタを変更する装
置。
13. An apparatus for changing parameters of an audio signal, comprising: an input amplifier and an output amplifier; first and second low-pass filters; an analog-to-digital converter; a digital-to-analog converter; A switching processor, wherein the input amplifier, the first low-pass filter, and the analog-to-digital converter are connected in series to an input of the pitch shifting processor, and the digital-to-analog converter, the second An apparatus for changing parameters of an audio signal, wherein the low-pass filter according to claim 1 and said output amplifier are connected in series to an output of said pitch shifting processor.
【請求項14】 上記ピッチシフティングプロセッサ
は、入力バッファに接続されている入力ユニットと、出
力バッファに接続されている出力ユニットと、クロスフ
ェーディングを必要とするオーディオ信号の部分を格納
するクロスフェーディングデータメモリと、上記入力及
び出力バッファ及び上記クロスフェーディングデータメ
モリに接続されているアドレスユニットと、レジスタフ
ァイルユニットと、平均絶対誤差及びクロスフェーディ
ング値を計算するディジタル処理ユニットと、制御ユニ
ットとを備え、上記入力バッファ、上記クロスフェーデ
ィングデータメモリ、上記レジスタファイルユニット、
上記ディジタル処理ユニット、上記制御ユニット、及び
上記出力バッファは、バスシステムを通して互いに作動
的に接続されている請求項13に記載のオーディオ信号
のパラメタを変更する装置。
14. A pitch shifting processor comprising: an input unit connected to an input buffer; an output unit connected to an output buffer; and a crossfading unit for storing a portion of an audio signal requiring crossfading. An address unit connected to the input and output buffers and the crossfading data memory; a register file unit; a digital processing unit for calculating an average absolute error and a crossfading value; and a control unit. The input buffer, the cross-fading data memory, the register file unit,
14. The apparatus for changing parameters of an audio signal according to claim 13, wherein the digital processing unit, the control unit, and the output buffer are operatively connected to each other through a bus system.
JP8197776A 1996-07-26 1996-07-26 Parameter changing method and device for audio signal Pending JPH1074097A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8197776A JPH1074097A (en) 1996-07-26 1996-07-26 Parameter changing method and device for audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8197776A JPH1074097A (en) 1996-07-26 1996-07-26 Parameter changing method and device for audio signal

Publications (1)

Publication Number Publication Date
JPH1074097A true JPH1074097A (en) 1998-03-17

Family

ID=16380166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8197776A Pending JPH1074097A (en) 1996-07-26 1996-07-26 Parameter changing method and device for audio signal

Country Status (1)

Country Link
JP (1) JPH1074097A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084645A3 (en) * 2001-04-13 2002-12-19 Dolby Lab Licensing Corp High quality time-scaling and pitch-scaling of audio signals
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
KR100870870B1 (en) * 2001-04-13 2008-11-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US8170882B2 (en) 2004-03-01 2012-05-01 Dolby Laboratories Licensing Corporation Multichannel audio coding
US8280743B2 (en) 2005-06-03 2012-10-02 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US9136810B2 (en) 2006-04-27 2015-09-15 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195472B2 (en) 2001-04-13 2012-06-05 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2004527000A (en) * 2001-04-13 2004-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション High quality time scaling and pitch scaling of audio signals
KR100870870B1 (en) * 2001-04-13 2008-11-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
WO2002084645A3 (en) * 2001-04-13 2002-12-19 Dolby Lab Licensing Corp High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US8488800B2 (en) 2001-04-13 2013-07-16 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US9311922B2 (en) 2004-03-01 2016-04-12 Dolby Laboratories Licensing Corporation Method, apparatus, and storage medium for decoding encoded audio channels
US9640188B2 (en) 2004-03-01 2017-05-02 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US8170882B2 (en) 2004-03-01 2012-05-01 Dolby Laboratories Licensing Corporation Multichannel audio coding
US8983834B2 (en) 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
US11308969B2 (en) 2004-03-01 2022-04-19 Dolby Laboratories Licensing Corporation Methods and apparatus for reconstructing audio signals with decorrelation and differentially coded parameters
US9779745B2 (en) 2004-03-01 2017-10-03 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US10796706B2 (en) 2004-03-01 2020-10-06 Dolby Laboratories Licensing Corporation Methods and apparatus for reconstructing audio signals with decorrelation and differentially coded parameters
US9454969B2 (en) 2004-03-01 2016-09-27 Dolby Laboratories Licensing Corporation Multichannel audio coding
US9520135B2 (en) 2004-03-01 2016-12-13 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US10269364B2 (en) 2004-03-01 2019-04-23 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US9672839B1 (en) 2004-03-01 2017-06-06 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US10460740B2 (en) 2004-03-01 2019-10-29 Dolby Laboratories Licensing Corporation Methods and apparatus for adjusting a level of an audio signal
US9691405B1 (en) 2004-03-01 2017-06-27 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US9691404B2 (en) 2004-03-01 2017-06-27 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US9697842B1 (en) 2004-03-01 2017-07-04 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US10403297B2 (en) 2004-03-01 2019-09-03 Dolby Laboratories Licensing Corporation Methods and apparatus for adjusting a level of an audio signal
US9704499B1 (en) 2004-03-01 2017-07-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US9715882B2 (en) 2004-03-01 2017-07-25 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8280743B2 (en) 2005-06-03 2012-10-02 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US9698744B1 (en) 2006-04-27 2017-07-04 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9768749B2 (en) 2006-04-27 2017-09-19 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9774309B2 (en) 2006-04-27 2017-09-26 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9768750B2 (en) 2006-04-27 2017-09-19 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9780751B2 (en) 2006-04-27 2017-10-03 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9787268B2 (en) 2006-04-27 2017-10-10 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9787269B2 (en) 2006-04-27 2017-10-10 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9866191B2 (en) 2006-04-27 2018-01-09 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US10103700B2 (en) 2006-04-27 2018-10-16 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9762196B2 (en) 2006-04-27 2017-09-12 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US10284159B2 (en) 2006-04-27 2019-05-07 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9742372B2 (en) 2006-04-27 2017-08-22 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9685924B2 (en) 2006-04-27 2017-06-20 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US10523169B2 (en) 2006-04-27 2019-12-31 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9450551B2 (en) 2006-04-27 2016-09-20 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US10833644B2 (en) 2006-04-27 2020-11-10 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US9136810B2 (en) 2006-04-27 2015-09-15 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US11362631B2 (en) 2006-04-27 2022-06-14 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US11711060B2 (en) 2006-04-27 2023-07-25 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US11962279B2 (en) 2006-04-27 2024-04-16 Dolby Laboratories Licensing Corporation Audio control using auditory event detection

Similar Documents

Publication Publication Date Title
US6073100A (en) Method and apparatus for synthesizing signals using transform-domain match-output extension
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
US5842172A (en) Method and apparatus for modifying the play time of digital audio tracks
KR0129829B1 (en) Audio reproducing velocity control apparatus
CN1144369A (en) Autokeying for musical accompaniment playing apparatus
JPH1195794A (en) Pitch/tempo converting method and device therefor
GB2060321A (en) Speech synthesizer
KR100256718B1 (en) Sound pitch converting apparatus
JPH1074097A (en) Parameter changing method and device for audio signal
JP4076887B2 (en) Vocoder device
JP2000075862A (en) Device for compressing/extending time base of waveform signal
US5877446A (en) Data compression of sound data
US5647005A (en) Pitch and rate modifications of audio signals utilizing differential mean absolute error
US5832442A (en) High-effeciency algorithms using minimum mean absolute error splicing for pitch and rate modification of audio signals
US10319353B2 (en) Method for audio sample playback using mapped impulse responses
US5864792A (en) Speed-variable speech signal reproduction apparatus and method
JP3513414B2 (en) Formant shift compensating acoustic synthesizer and method of operating the same
JP3379348B2 (en) Pitch converter
JP3555490B2 (en) Voice conversion system
JPH11259066A (en) Musical acoustic signal separation method, device therefor and program recording medium therefor
US8484018B2 (en) Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data
Lin et al. High quality and low complexity pitch modification of acoustic signals
JPS642960B2 (en)
JP3336098B2 (en) Sound effect device
KR100359988B1 (en) real-time speaking rate conversion system