JPH07319496A - 入力音声信号の速度を変更する方法 - Google Patents

入力音声信号の速度を変更する方法

Info

Publication number
JPH07319496A
JPH07319496A JP7110257A JP11025795A JPH07319496A JP H07319496 A JPH07319496 A JP H07319496A JP 7110257 A JP7110257 A JP 7110257A JP 11025795 A JP11025795 A JP 11025795A JP H07319496 A JPH07319496 A JP H07319496A
Authority
JP
Japan
Prior art keywords
signal
voice
speech
samples
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7110257A
Other languages
English (en)
Inventor
Willem Bastiaan Kleijn
バスティアン クレイン ウィレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Publication of JPH07319496A publication Critical patent/JPH07319496A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【目的】 再生速度を変えても、もとの録音された音声
の音質に近い音声を提供できる音声速度変換システムを
提供する。 【構成】 入力音声信号の音声速度が、音声速度の所定
の変化を表す信号に基づいて変換され、その後、この変
換された音声速度信号をフィルタ処理して、増加した短
期相関を有する音声信号を生成する。この入力音声信号
の変換は、入力音声信号内に、ピッチサイクルに対応す
るサンプルの前のシーケンスを挿入することにより行わ
れる。別法として、この入力音声信号は、ピッチサイク
ルに相当するサンプルのシーケンスを、入力音声信号か
ら取り除くことにより変換される。また、音声符号化に
おけるシナジーと速度変更操作とを行う。速度変更操作
に必要なフィルタ処理は、音声符号化の線形予測フィル
タにより行われる。この速度変更操作に必要なピッチ周
期は、音声復号化装置の公知のパラメータである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声速度(速度)を変
換するシステム、および、分析・合成音声符号化システ
ムに基づいた線形予測に関する。
【0002】
【従来技術】音声速度変換システムは、それが録音され
た速度とは異なる速度で音声をプレイバック(再生)す
るシステムである。早い再生速度は、リスナーが録音さ
れたメッセージをより短い時間で聞くことができ、一
方、遅い再生速度は、メッセージを書いたり(ディクテ
ーション)、あるいは、話者の話をよりよく理解するた
めに有益である。
【0003】再生するために、音声を記録するコストを
低減するために、多くのシステムは、音声圧縮(すなわ
ち、符号化、コーディング)技術を用いており、その技
術は、分析・合成符号化技術(例えば、CELP)であ
る。音声符号化システムは、デジタル音声信号を符号化
信号に変換する。この符号化された信号は、元の音声信
号よりも少ない記憶スペースでよい。信号を再生する
間、この符号化信号は、音声符号化装置の復号化部分
(通常、「合成装置」と称する)に入力される。この合
成装置は、符号化音声信号をデジタル音声信号に変換す
る。
【0004】音声速度変換システムにおける一つの目的
は、音声の特徴を変更することなく、他の速度に変換す
ることである。有声音(voiced speech)は、3つの主
要な属性を有している。すなわち、短期相関(すなわ
ち、スペクトルエンベロープ)と、疑似周期性と、その
ピッチの3つである。音声信号の短期相関が妨害される
と、パチンと鳴るような音、または、カチンとなるよう
な音が聞こえるようになる。また、有声音の疑似周期性
が妨害されると、音声は、ブツブツ言ったり、騒々しく
なる。これら2つのひずみは、音声信号速度を単にスピ
ードアップしたり、スローダウンした(再生モードにお
けるアナログテープをスピードアップしたりスローダウ
ンしたりするのに相当する)だけでは生成されない。し
かし、このようなスピードアップ、および、スローダウ
ンは、音声の知覚性質を大きく変動させるような音声の
ピッチを変化させる。例えば、早い速度で再生された音
声は、漫画のキャラクターの(声の)用に聞こえる。こ
れらの属性、特に、音声信号ピッチを変えることのない
音声速度変換システムを提供することが望まれている。
【0005】元の有声音信号の音声速度は、ピッチサイ
クルの整数に相当する信号サンプルを取り除いたり、追
加することにより変換する。そのようにすることによ
り、元の信号は、音声のピッチを大幅に変えることな
く、短くしたり長くしたりすることができる。元の有声
音信号は、疑似周期的なため、信号の短期相関、および
/または、その周期性をかえることなく、音声のピッチ
サイクルを除去したり、挿入したりすることは極めて難
しい。これらが困難なために、短期相関に関連するこれ
らのひずみの観点から、および、周期性の妨害(パチン
という音/カチンという音、および、ブツブツ言う音/
騒々しいこと)の観点から、可聴信号の品質の劣化とな
る。ピッチサイクルの除去、あるいは、挿入により、修
正されるような元の領域の音声に対し、オーバーラップ
したウィンドゥプロセデュアを用いることによって、こ
の問題に取り組んでいる。これに関しては、例えば、
“Proc.Int. Conf. Acoust. Speech Sign. Process.”
(1993年)のpII554〜557の“An Overlap
-Add Technique Based on Wave Form Similarity (WSOL
A)for High Quality Time-Scale Modification of Spee
ch”(W. Verhelst、M. Roelands共著)を参照のこと。
【0006】上記文献の技術は、ピッチサイクルの挿入
・削除により引き起こされる可聴ひずみ問題について取
り組んではいるが、音声符号化と、音声速度変更システ
ムとを組み合わせることは、ハードウェアが必要とな
る。それゆえに、ハードウェアを必要とせず、音声符号
化が用いられている場合に、音声速度を変換する機能を
低コストで提供することが望ましい。
【0007】
【発明が解決しようとする課題】したがって、本発明の
目的は、特別なハードウェアを必要とすることなく、元
の録音された音声の音質に近い音声を提供できる音声速
度変換システムを提供することである。
【0008】
【課題を解決するための手段】本発明は、音声速度変換
システムにおけるハードウェアの要件を緩和するため
に、音声速度変換システムで行われる操作と、音声符号
化システムで行われる操作との間のシナジー(synerg
y)を用いる方法と装置を提供しようとするものであ
る。
【0009】本発明によれば、入力音声信号の音声速度
は、音声速度の所定の変化を表す信号に基づいて変換さ
れる。その後、この変換された音声速度信号をフィルタ
処理して、増加した短期相関を有する音声信号を生成す
る。この入力音声信号の修正は、入力音声信号内に、ピ
ッチサイクルに対応するサンプルの先行するシーケンス
を挿入することにより行われる。別法として、この入力
音声信号は、ピッチサイクルに相当するサンプルのシー
ケンスを、入力音声信号から取り除くことによっても修
正される。
【0010】本発明の実施例では、音声符号化における
シナジーと速度変換操作とを行う。例えば、速度変換操
作に必要なフィルタ処理は、音声符号化の線形予測(li
nearprediction:LPC)フィルタにより行われる。さ
らに、速度変換操作に必要なピッチ周期は、音声復号化
装置の公知のパラメータである。
【0011】
【実施例】実施例におけるハードウェアについての説明 本発明の実施例においては、個別の機能ブロックを含む
ように説明がなされている。これらのブロックが表す機
能は、ソフトウェアを実行できる共有ハードウェア、あ
るいは、専用ハードウェアの何れかを用いて実行でき
る。例えば、図1と図3に示した機能は、単一の共有プ
ロセッサでもって実行できる。ここで、用語「プロセッ
サ」とは、ソフトウェアを実行することのできるハード
ウェアとしてのみ解釈すべきものではない。
【0012】実施例に示したデジタル信号プロセッサ
(DSP)ハードウェアは、例えば、AT&T社製のD
SP16、あるいは、DSP32Cであり、以下に説明
するような機能を実行するソフトウェアを記憶するRO
M、および、DSPの結果を記憶するRAMも、ハード
ウェアの一種である。VLSIもハードウェアの一種
で、通常のカスタムメイドのVLSI回路も汎用のDS
P回路と共に用いることもできる。
【0013】実施例の序説 音声をデジタル形式で記憶することは、従来のアナログ
テープに音声を記憶することに比べて、利点がある。こ
のデジタル記憶は、機械的な要素を必要とすることな
く、従って摩耗もなく、そして、メッセージは、テープ
を巻き戻す必要がないために、高速に再生できる。さら
にまた、デジタル媒体は、出力信号を直接変更すること
もできる。例えば、記録された言葉のグループの中から
メッセージを構成するようなアナウンスシステムとして
利用できる。出力音声信号の有効な変更は、音声の再生
速度の変更である。
【0014】4kb/sと16kb/sの間の速度にお
いては、分析・合成音声に基づいた線形予測(linear-p
rediction based analysis by synthesis speech:LP
AS)コーダは、通常、音声記憶のような多くの応用に
用いられている。音声信号の速度変換は、符号化装置に
より再構成される音声信号で行われ、LPASコーダと
速度変換プロセスとの間のシナジーを利用するのが効率
的である。
【0015】例えば、速度変換された音声の短期相関を
保持することは重要なことである。この短期相関は、残
留信号を形成する為に、音声信号から分離される。そし
て、この短期相関は、合成の間、残留信号の量子化バー
ジョンに付加される。残留信号中に短期相関がないと、
速度変換プロセスが促進する。音声速度変換システムに
より、音声セグメントを除去する/挿入するような方法
は、時間的に分離された音声セグメント間の相関の最大
値を探索することに基づいている。この時間分離は、音
声符号化システム、省力計算方法の適応型コードブック
(すなわち、ピッチ予測装置)関連技術では公知であ
る。さらに、音声信号で実行される各処理動作により、
ひずみが付加される。合成された速度変換と符号化シス
テムから余分な動作を取り除くことにより、ひずみを最
小化できる。
【0016】本明細書においては、LPASコーダは、
音声信号の内部表示を用い、これは、音声の速度変換に
利用される。特に、本明細書においては、適応型コード
ブック(ピッチ予測装置)の遅延パラメータと音声信号
の短期相関を有する信号への分解と、短期相関パラメー
タの組は、音声信号を再構成するための効率的な速度変
換手続きに用いることができる。
【0017】図6は、音声信号の音声速度を変換するた
めの本発明の実施例を表すブロック図である。図6の実
施例においては、励起信号を生成する音声信号源601
と、音声速度アジャスタ602と、線形合成フィルタ6
03とを有する(図1の音声合成装置の他の要素は、図
示していない)。この音声信号源601は、符号化音声
パラメータを記憶するメモリを有する。この音声信号源
601は、さらに、従来の励起信号合成システムを有
し、このシステムは、メモリに記憶されたパラメータに
基づいて、励起信号を生成する。
【0018】音声速度アジャスタ602は、音声信号源
601により提供される励起信号の音声速度の変更を、
ピッチ周期に対応する励起信号のサンプルシーケンスを
挿入/除去することにより行う。挿入サンプルは、信号
の音声速度を引き延ばす(すなわち、スローダウンさせ
る)ために繰り返される励起信号の先行サンプルであ
る。サンプルが除去されると、励起信号を短縮(すなわ
ち、スピードアップ)する。サンプルの挿入/除去は、
音声速度の所望の変化を表す信号に応答して実行され
る。この音声速度アジャスタ602は、励起信号のサン
プルを記憶するメモリを用いて、音声信号サンプルを除
去/挿入する。この記憶されたサンプルは、励起信号を
スローダウンするのに必要な繰り返しサンプルのソース
である。音声信号源601の出力信号(変更された音声
速度を表す励起信号)は、その後、線形合成フィルタ6
03に供給される。この線形合成フィルタ603は、音
声速度アジャスタ602の出力信号の音声速度に応答す
る音声速度を有する音声信号を合成する。
【0019】分析・合成コーディングに基づいた線形予
図1は、分析・合成予測に基づいた線形予測(LPA
S)コーダの分析器(送信側)の動作を表す図である。
図1の例は、符号励起線形予測(code-excited linear
prediction:CELP)符号化である。これは、“Spee
ch Communication”Vol.7(1988年)の305〜3
16ページの“An Efficient Stochastically Excited
Linear Predictive Coding Algorithm for High Qualit
y Low Bit Rate Transmission of Speech”(W. B. Kle
ijn、D. J. Ketchum共著)を参照のこと。図1の符号化
装置は、分析・合成符号化として公知のもので、この合
成器は、内在する合成構造を有する。(ただし、LPA
Sコーダの計算上、最適化動作においては、この合成構
造は公知ではない) 図1において、この合成構造は、
合成構造体111内に含まれる。
【0020】この符号化装置は、クロック・ベースで動
作する。各音声のブロックに対し、複数のトライアルで
合成された音声信号は、知覚エラー基準評価器110内
の元の信号と比較される。トライアルで合成された音声
信号の各ブロックは、一組のインデックスによって完全
に記述することができる。いかなる組のインデックス
も、トライアルで合成された音声信号のコードを構成す
る。このような複数のコードから合成された音声信号
は、現在のブロックの元の信号と比較される。ベストマ
ッチとなるコードは、受信器に元の音声信号の符号化表
示として送信される。この受信器は、合成構造体111
を有し、この合成構造体111は、その後、このブロッ
クに対する最適に合成された信号を再構成する。
【0021】実際のLPASコーダにおいては、この来
入音声信号は、線形予測アナライザ101内で線形予測
解析される。この線形予測アナライザ101は、線形予
測係数を計算する。これらの係数は、直接量子化され
(解析・合成プロセスを用いずに)、そして、そのコー
ドは、受信器に送信される。一般的に、線形予測解析
は、フレーム(例えば、25ms)毎に一回実行され
る。この線形予測係数は、通常、内挿され、各サブフレ
ーム(例えば、5ms)に対する個別の係数の組を生成
する。この線形予測係数は、音声信号のパワースペクト
ルのエンベロープを記述する。時間領域においては、こ
れは、音声信号の短期相関に相当する。音声符号化の分
野においては、この短期とは、通常、2ms以下の時間
を意味し、長期とは、2.5〜20msの時間を意味す
る。短期とは、音声信号のフォーマット構造体に関連
し、長期とは、音声信号の周期レベルに関係する。この
線形予測係数を、線形予測無限インパルス応答合成フィ
ルタ102内で用いて、短期相関を励起信号に付加し
て、再構成された音声信号を生成する。
【0022】線形予測無限インパルス応答合成フィルタ
102への入力となる励起信号は、分析・合成プロセス
により量子化される。この励起信号は、1サブフレーム
毎に量子化される。従来のCELP符号化装置において
は、量子化信号は、二段階で形成された。すなわち、ま
ず、適応型符号化分担分で、次に固定型コードブック分
担分により決定された。この二段階プロセスは、計算の
複雑さが少なくなるために、部分最適マッチングにもか
かわらず、好ましいものである。
【0023】過去の励起信号の最も近い部分が、適応型
コードブックプロセッサ104の適応型コードブック内
に記録される。8000Hzのサンプリング速度とL個
のサンプルからなるサブフレームでもって動作する符号
化装置においては、この適応型コードブックプロセッサ
104は、128+L−1個のサンプルを有する。新た
なサブフレームの解析の開始に当たって、過去のサンプ
ルのうち、最も遠いL個のサンプルは廃棄される。選択
された励起の最後のL個のサンプル(最後のサブフレー
ム)は、その後、パスト励起プロセッサ103から獲得
され、適応型コードブックプロセッサ104の適応型コ
ードブックに付加される。この適応型コードブックプロ
セッサ104は、過去の励起信号の全て可能なL個のサ
ンプルのセグメントを、線形予測無限インパルス応答合
成フィルタ102にトライアルの励起信号として提供す
る(固定型コードブックプロセッサ105は、この第1
段階においては、動いていない)。例えば、長さ128
+L−1の1個のコードブック内には、128個のトラ
イアルの励起信号(より多くのエントリーが、このコー
ドブックから生成されるが)がある。この対応するトラ
イアルの音声信号(線形予測無限インパルス応答合成フ
ィルタ102の出力)は、知覚エラー基準に基づいて、
元の信号と比較される。最適なマッチングのとれたトラ
イアルの音声信号が、知覚エラー基準評価器110によ
り決定される。128個のエントリーを有するコードブ
ックに対し、最適なマッチングは、7ビットで符号化さ
れる。この7ビットのコードワードは、受信器に送られ
て、その結果、励起信号に対する最適な適応型コードブ
ック分担分を生成する。この適応型コードブックの検索
プロセスの間、トライアルの励起信号のゲインは、その
最適値に、従来のプロセスを用いて加えられ、このゲイ
ンは、最適な適応型コードブック分担分の選択後、量子
化される。従来のスカラ量子化装置をこのために用いる
ことができる。他の量子化インデックスにおけるのと同
様に、このゲインの量子化インデックスが受信器に送ら
れる。
【0024】この適応型コードブックメモリには、過去
の励起信号のセグメントが含まれる。有声音用の適応型
コードブックメモリの中身の例が、図2に示されてい
る。現在のサブフレームは、サブフレーム207に含ま
れる。表示励起信号210の一部は、現在のサブフレー
ム207の境界206より前であるが、この表示励起信
号210は、適応型コードブックに記憶された音声であ
る。このトライアルの励起信号は、適応型コードブック
を構成する過去の励起信号のセグメントにわたって、長
さLのサンプルの特定の矩形ウィンドゥによって定義さ
れる。この実施例に示されたコードブックにおいては、
第1のトライアルの励起信号は、ウィンドゥ201に含
まれる。第2のトライアルの励起信号は、ウィンドゥ2
02に含まれ、第3のそれは、ウィンドゥ203に含ま
れる。選定されたコードブックエントリーの代表的な例
は、ウィンドゥ205に含まれる。コードブックエント
リーの候補は、選択されたエントリーに対し、パス20
8に沿って、現在のサブフレーム内にそれぞれ配置され
る。選定された適応型コードブックベクトルと、現在の
サブフレームとの間の時間分離は、適応型コードブック
遅延とも称する。この遅延は、サブフレーム207の開
始点206と、適応型コードブック音声用の選択された
セグメントの開始点209との間の距離211に対応す
る。
【0025】従来のLPASコーダにおいて、この適応
型コードブック遅延は、サンプルの整数に限定される。
しかし、最近では、非整数の遅延に相当するトライアル
の励起信号を含む。従来のCLEPアルゴリズムにおい
ては、非整数の遅延を含むことは、ビット速度の小さな
コストで性能を向上させることが示されている。これに
関しては、“IEEE Trans. Signal Processing”Vol.39
(1991年)の733〜735ページの“On the Use
of Pitch Predictors with High Temporal Resolutio
n”(P. Kroon、B.S.Atal共著)を参照のこと。非整数
の遅延に相当するトライアルの励起ベクトルは、適応型
コードブックを形成する信号シーケンスのバンド制限内
挿によって得られる。通常、一つの付加的なビットは、
適応型コードブックの増加した時間解像度のために消費
される。適応型コードブックベクトルのインデックス用
では8ビットが割当られる。
【0026】この固定型のコードブック分担分は、量子
化励起信号の決定の第2段階で決定される。固定型コー
ドブック分担分の決定の間、適応型コードブック分担分
は、上述の方法により決定された最適化値に設定され
る。固定型コードブックプロセッサ105は、K個のエ
ントリーを有する固定コードブックを有する。ここで、
Kは、64と1024との間の数字で、通常、Kは、K
=2Bとして表される。これにより、効率的な二進実行
が促進される。この固定型コードブック内に含まれる固
定コードブックベクトルの各々を用いて、量子化励起信
号を生成する。各これらのベクトルは、それぞれ、加算
手段106により、最適化適合型コードブック分担分に
加えられ、その結果得られたトライアルの励起信号は、
線形予測無限インパルス応答合成フィルタ102内でト
ライアルの音声信号に変換される。このトライアルの音
声信号は、知覚エラー基準評価器110により元の音声
信号と比較され、その最適にマッチングした固定型コー
ドブックベクトルが選択される。この最適な固定型コー
ドブックベクトルのインデックスは、B個のビットで符
号化され、受信器に送られる。再び、検索プロセスの
間、固定型コードブックベクトルのゲインは、従来のプ
ロセスを用いて最適化値にセットされる。最適にマッチ
ングした固定型コードブック分担分を選択すると、固定
型コードブックゲインが量子化され、その量子化インデ
ックスが受信器に送られる。
【0027】上記の説明において、線形予測無限インパ
ルス応答合成フィルタ102のフィルタメモリの処理
は、ここでは説明しない。このフィルタメモリは、フィ
ルタのゼロ入力応答を決定し、これは、ゼロ状態応答
(現行のサブフレームの励起のため)よりも、より大き
な信号分担分を提供する。かくして、線形予測無限イン
パルス応答合成フィルタ102内で正しいフィルタメモ
リを用いることが重要である。トライアルの音声信号を
生成する前に、このフィルタメモリは、最適の励起信号
のために、前のサブフレームの終了点で残された状態に
リセットされなければならない。この最適な励起信号
は、受信器に用いられる励起信号であり、リセット動作
は、送信器と受信器が、完全に同期している(ゼロチャ
ネルエラーを仮定して)ことを補償するものである。L
PASアルゴリズムの実際の実行は、ここで述べたもの
と数学的に等価なアルゴリズムを用いているが、必要な
計算作業を簡略化するために変更することも可能であ
る。
【0028】上記の説明において、「適応型コードブッ
ク」と「ピッチ予測器」とは、均等とみなすことができ
る。サブフレームが遅延時間に等しい場合には、このこ
とは正しいが、サブフレームが遅延時間より長い場合に
は、この2つの用語は異なる意味となる。この適応型コ
ードブックは、“Speech Communication”Vol.7(19
88年)の305〜316ページの“An Efficient Sto
chastically ExcitedLinear Predictive Coding Algori
thm for High Quality Low Bit Rate Transmission of
Speech”(W. B. Kleijn、D. J. Krasinski、R. H. Ket
chum共著)に説明されたプロセスにより、この場合を含
むよう拡張することができる。この拡張は、適応型コー
ドブックは、通常のサブフレーム内の固定型ピッチ予測
フィルタとは等価ではないが、フィルタに基づいたピッ
チ予測装置に比較して、計算の作業を簡略化することが
できる。しかし、これらの差異は、本発明に関連がある
ものではなく、そして、サブフレームと遅延との関係に
拘らず、適応型コードブック、ピッチ予測装置の何れか
用いられることに無関係に、このことが当てはまる。
【0029】本発明のCELPコーダのビット割当につ
いて、以下に説明する。CELP符号コーダの各サブフ
レームのコードは、適応型コードブックベクトルのイン
デックスと、適応型コードブックベクトルのゲインに対
するインデックスと、固定型コードブックベクトルのゲ
インに対するインデックスからなる。各フレーム以外
に、線形予測係数を決定する一組のインデックスが送ら
れる。ベクトル量子化プロセス、例えば、“IEEE Tran
s. Speech Audio Process.”Vol.1(1993年)の3
〜14ページの“Efficient Vector Quantization of L
PC Parameters at 24 Bits/Frame”(K. K. Paliwal、B
.S. Atal共著)に開示されたものは、これらのパラメ
ータに通常用いられ、30ビットの割当が可能となる。
表1は、6.3kb/sCELPコーダの典型的なビッ
ト割当を示している。 表1 6.3kb/sCELPコーダのビット割当の例 パラメータ ビット割当 更新(Hz) 予測係数 30 50 適応型コードブックベクトル 8 200 適応型コードブックゲイン 4 200 固定型コードブックベクトル 8 200 固定型コードブックゲイン 4 200
【0030】LPASコーダの音声速度変換の実施例 本発明の実施例は、音声信号の音声速度の変換システム
に関する。所定のワードシーケンス(すなわち、音声ユ
ニット、例えば、フォニーム(音素)(phoneme))に対
し、このシーケンスを表す信号の音声速度は、単位時間
あたりのワード数(すなわち、音声ユニット)として定
義することができる。この実施例において、処理される
音声信号は、音声復号化装置(すなわち、合成装置)に
より生成されるフィルタ励起信号である。この復号化装
置は、メモリ中に記憶された符号化音声パラメータに基
づいて、この信号を生成する。この符号化された音声パ
ラメータは、図1の音声符号化装置により生成されたも
のである。(図1の符号化装置は、フィルタ励起信号が
生成されるような符号化音声を生成することのできる復
号化装置の単なる一実施例である。)
【0031】本発明の実施例を図3に示す。この実施例
において、音声復号化装置(合成装置)は、ブロック3
01に示されるもので、フィルタ励起信号を生成する。
図1の符号化装置の観点において、図3の合成装置は、
音声復号化装置301で示される固定型、および、適応
型コードブック処理システムの両方を含む。ブロック3
01は、表1で示したようなタイプの符号化音声パラメ
ータを受信し、このパラメータ(適応型コードブックイ
ンデックスとゲイン、および、固定型コードブックイン
デックスとゲイン)を用いて、図1に示したのと同様な
方法で、フィルタ励起信号を合成する(ブロック103
〜106)。音声復号化装置301は、従来公知のもの
であるため、図3には詳細には説明しない。
【0032】LPAS符号化システムにおいて、励起信
号の短期相関は、ゼロに近い平均を有する。このような
相関は、約20〜30msの長さのウィンドゥにわたる
平均によって得られるものとする。かくして、この信
号、そして、その関連した再生音声信号の短期相関は、
ピッチサイクルが挿入されたり、除去される間は、干渉
されない。有声音信号が音声速度の変化を受けない場合
には、ピッチサイクルは、励起信号に挿入されなければ
ならないか、あるいは、励起信号から除去されなければ
ならない。図3は、ピッチサイクルを挿入、あるいは、
除去する実施例を表す。
【0033】図3の実施例において、出力サブフレーム
は、長さMである。このサブフレームの長さは、解析の
間は長さLであるが、出力サブフレームは、長さMであ
る(速度変化のため、L≠M)。比率α=M/Lは、出
力信号の速度変化として定義する。変化した速度の合成
プロセスの実施例では、全部で3個のタイムポインタを
必要とする。このタイムポインタtは、速度−1の信号
内の現行サブフレームの開始点に相当する。この速度−
1信号は、励起信号で、元の時間スケール(α=1)を
保存する。この速度−1信号は、出力信号の最終速度と
は、独立して常に再構成できる。このタイムポインタτ
は、速度−1信号内への第2ポインタである。これは、
速度αの信号に対する現行サブフレームの開始点に相当
する。最後に、kは、現行サブフレームの開始点の出力
信号時点である。この入力タイムポインタtは、各サブ
フレームに対し、Lずつ増加し、出力タイムポインタk
は、各サブフレームに対し、Mずつ増加する。このタイ
ムポインタτを用いて、速度−1励起信号を速度α励起
信号に変換する。
【0034】α<1(スピードアップ)の場合を次に説
明する。サブフレームクロック308は、各出力サブフ
レームの開始時に、1パルスを生成し、これは、M個の
出力サンプル毎の1パルスに相当する。その時点におい
て、このタイムポインタtは、ポインタアジャスタ30
6内でLずつ増加する。したがって、t=t+Lであ
る。このことは、音声復号化装置301が速度−1の励
起のL個のサンプルのサブフレームを生成するよう促
し、この入力時間は、t,t+1,...,t+L−1
を意味する(音声復号化装置301は、図1に示すよう
に適応型コードブックプロセッサ104と固定型コード
ブックプロセッサ105とを有する)。この音声復号化
装置301は、これらのサンプルを励起バッファ303
の最後に付加する。これにより、有限メモリを維持し、
励起バッファ303は、バッファの最古のサンプルを書
き換える最新のサンプルを有する環状構造体で有り得
る。この同一のバッファから、速度αの励起信号が取り
出される。
【0035】各サブフレームの開始時点において、ポイ
ンタアジャスタ306は、タイムポインタτを調整す
る。すなわち、τ=τ+M(すなわち、τは、出力サブ
フレームの長さだけ増加する)である。まず、第2アジ
ャスタ305は、τが変化しないと仮定する。すると、
レトリーバ304は、速度調整無しの励起バッファ30
3から、サンプルe(τ)からe(τ+M−1)までを
取り出す。これらのサンプルは、線形予測無限インパル
ス応答合成フィルタ102に入力され、この線形予測無
限インパルス応答合成フィルタ102は、M個のサンプ
ルs(k),...,s(k+M−1)を生成する。入
力音声の各L個のサンプル(各時間スケールt)に対
し、このシステムは、M個の出力サンプル(タイムスケ
ールk)を生成する。
【0036】実際の速度変換は、必要なときにピッチ期
間だけ、タイムポインタτを前の方向に移動することに
より得られる。このようなτのジャンプがシステム内で
ない場合には、タイムポインタτは、記録されたデータ
の過去の時点で励起バッファ303から出る(それが時
間的に遅れる各M個の出力サンプルと、付加のL−M個
のサンプルがt上で時間的に遅れる)。ポインタτを前
進させることは、第2アジャスタ305内で行われる。
このポインタは、ポインタτが、現行サブフレーム内の
励起バッファ303の将来の端部から出ることができな
いときにはいつでも(すなわち、τ+M+d≦t+Lで
あるときはいつでも)、遅延量dだけ前進させられる。
遅延量dは、入力時間τ+dにおいて、有効な遅延であ
り、時間τにおいては、有効な遅延ではない。
【0037】図4は、L=50、M=25で、60の固
定遅延時間を有する場合の入力時間tと、出力時間kと
の間の関係を示す。直線の0.5の傾斜は、速度0.5
の出力音声の速度αに相当する。階段状のカーブは、入
力速度−1の励起信号と入力速度−0.5との間のマッ
ピングを示す。このカーブの水平方向の部分は、速度−
1の励起信号のセグメントに相当し、これは、速度−
0.5の励起信号で、スキップしている。このステップ
は、出力時間スケールのサブフレーム境界の時のみ発生
し、そこでは、第2アジャスタ305が活性状態であ
る。この速度−0.5の励起は、線形予測無限インパル
ス応答合成フィルタ102に入力されるが、これは、速
度−1の励起信号の鎖状セグメントを有する。これらの
セグメントの間に、速度−1の励起の階段状セグメント
が表れる。この用いられた速度−1の励起のセグメント
は、図4では、1の傾斜を有する。
【0038】次に、α=M/Lが1より大きい(スロー
ダウン)の場合について説明する。前述したのと同様
に、ポインタアジャスタ306は、タイムポインタtを
各サブフレームに対し、Lサンプルだけ前方向に移動
し、そして、タイムポインタτを各サブフレームに対
し、Mサンプルだけ前方向に移動する。かくして、音声
復号化装置301は、L個の励起サンプルを生成し、こ
れらL個のサンプルを励起バッファ303内に記憶させ
る。しかし、レトリーバ304が、励起バッファ303
から取り除いたサンプルの数Mは、302により記憶さ
れたサンプルの数Lよりも、現在のところは大きい。か
くして、適切な速度変化(すなわち、τで後方にジャン
プする)無しに、時間ポインタτは、記録されたデータ
の将来の端部でバッファから出ていく。この速度変更
は、第2アジャスタ305により実行され、これは、タ
イムポインタτを、タイムポインタτが現行のフレーム
内でtを超えたときはいつでも、遅延時間tだけ後方に
移動させる。すなわち、このタイムポインタτは、τ+
M>t+Lの時はいつでも、dだけ後方に移動する。
【0039】図5は、α=2、L=50、M=100
で、遅延がd=60で一定である場合の入力タイムポイ
ンタtと、出力タイムポインタkとの間の関係を示す。
直線の傾斜は、α=2である。第2のカーブは、速度−
1励起と、速度−2励起との間のマッピングを表す。各
出力サブフレームの開始時点で(各100サンプル
毎)、条件τ+M>t+Lがチェックされ、そして、タ
イムポインタは、この条件が満たされたときいつでも、
遅延dだけ後方に移動させられる。この遅延dは、入力
時間τに対し、有効な遅延である。この後方へのジャン
プは、図5において、水平方向のセグメントで示されて
いる。この速度−2の励起は、オーバーラップした速度
−1の励起セグメントの連鎖である。これらのセグメン
トは、マッピングカーブの傾斜位置により特徴づけられ
る。
【0040】上記の速度変換プロセスは、発声(疑似周
期的)音声を例として説明した。この同一のプロセス
は、無声音についても用いることができる。α<1(ス
ピードアップ)の場合、これは、優れた性能を示す。そ
の理由は、セグメントの除去は、速度−1の励起の低い
周波数を大きく変化させることがないからである。しか
し、α>1(スローダウン)の場合には、長さdのセグ
メントが繰り返され、これは、周期性を増加させ、その
結果、無声音における可聴ひずみが発生することにな
る。しかし、この遅延が、あるサブフレームから次のサ
ブフレームに急速に変化する場合には、周期性の増加
は、比較的穏やかで、その結果、スローダウンした音声
は、良好な品質である。それゆえに、無声音の間、スム
ーズな遅延に行かないようなピッチ予測装置を用いるの
が望ましい。
【0041】速度変化プロセスの精細化 上記の基本的なプロセスは、良好な速度変化性能をもた
らすが、以下に説明するその微細化は、さらに、この性
能を改良する。
【0042】ピッチ周期が、フレーム長さ以上の場合
に、現行サブフレームは、ピッチパルスをたまたま含む
ことはない。この状況において、遅延量dは、信頼性あ
るものではない。かくして、このようなサブフレームに
おいて、(第2アジャスタ305において)時間ポイン
タτのジャンプを阻止することが有益である。dが信頼
できない場合のフレームは、速度−1励起信号におい
て、1)現行サブフレームエネルギーと、最後の数個の
サブフレームの平均サブフレームエネルギーとを比較す
るか、あるいは、2)現行サブフレームのピッチ予測ゲ
インと、最後の数サブフレームの平均ピッチ予測ゲイン
とを比較するか、の何れかにより識別することができ
る。この時間尺度が用いられると、現行サブフレームの
エネルギーが、平均値のエネルギーよりも低い場合に
は、時間ポインタτ内でジャンプは許されない。同様
に、現行ピッチ予測ゲインが平均値よりも低い場合に
は、時間ポインタτ内でのジャンプは許されない。エネ
ルギー、あるいは、ピッチ予測ゲインの何れかの平均値
は、いわゆる「リーキーインテグレーター(leaky inte
grator)」(入力としてエネルギー、あるいは、ピッチ
予測ゲインを有する)の出力により置換することがで
き、この公知の方法により、計算手続き、および、記憶
手続きを減少させることができる。
【0043】当然のことながら、あるサブフレーム内で
ジャンプが許されない場合には、タイムポインタτは、
それがバッファから出ることがないように制限される。
このことは、決して犯すことのできないマスター条件と
考えられる。かくして、α<1(バッファの過去の端部
から出ていく)の場合に対する偶発的なジャンプ無しの
サブフレームを許すために、このバッファのサイズを増
加することが必要である。かくして、励起バッファ30
3内の第1のサンプルが、τ0の位置にあると、t−t0
は、増加しなければならない。Eが現行サブフレームの
エネルギーであるとすると、(Eの上付きバーを表
す)は、最後の5個のサブフレームの平均エネルギーで
ある。第2アジャスタ305の第1の条件を次式で置き
換えることにより、性能が改良される。
【数1】 ここで、&&は論理and条件で、||は論理or条件
である。上記の条件は、τ+M>t+LとE>の場
合、および/または、τ<t0の場合、τはτ+dにセ
ットされることを意味する。最後の条件により、タイム
ポインタτが、常にバッファから出ていくことが阻止さ
れる。
【0044】α>1の場合、ジャンプ無しフレームは、
励起バッファ303の将来の端部から出るために、ポイ
ンタτとなる。かくして、このことが起こるのを阻止す
るために、サンプルの追加のセット(バッファ)の将来
の端部に位置しなければならない。この追加のセットが
B個のサンプルであるとすると、第2アジャスタ305
における第2条件は、次式により置換することができ
る。
【数2】 この条件は、τ+M>t+L−BとE>の場合、およ
び/または、τ+M<t+Lの場合、τはτ−dにセッ
トされる。この最後の条件は、τがバッファから出てい
くことを阻止する。
【0045】入力時間tにおいて有効な遅延dは、励起
の同様なセグメントがある場所の過去内への距離であ
る。速度−1の励起信号の各サンプルは、関連遅延量を
有する。それゆえに、時間ポインタτは、遅延量と関連
している。ポインタτ内でジャンプが行われると、ジャ
ンプの距離dは、ジャンプの将来端における遅延に、常
に関連づけられる。かくして、α<1で、ジャンプが前
方向になされた場合には、このジャンプ距離は、ジャン
プが行われた直後のτにおいて、有効な適応型コードブ
ック遅延dに等しい。しかし、α>1で、ジャンプが後
方に行われた場合には、このジャンプ距離は、ジャンプ
が行われる直前のτにおいて、有効な適応型コードブッ
ク遅延dに等しい。
【0046】α>1の場合、および/または、大きなピ
ッチ期間の場合に対し、Bが大きい場合には、このタイ
ムポインタτとポインタtとの間の時間分離は重要であ
る。実際、20msまでの時間分離が発生し得る。良好
な音質の音声にとって、線形予測無限インパルス応答合
成フィルタ102内で線形予測係数を用いることが重要
で、これは、入力時間τに対し、適切であるが、入力時
間tに対しては適切なものではない。多くのLPASコ
ーダにおいて、各サブフレームは、一組の線形予測係数
を有する。正確な線形予測係数は、入力時間τに相当す
るサブフレームに関連したものである。
【0047】ディクテーションモード 多くのメッセージには、多時間の沈黙期間が含まれる。
この沈黙には、音声は存在しないが、背景のノイズ、例
えば、音楽、あるいは、他の非音声信号が含まれるもの
である。高速度(α<1)の音声に対し、これらの沈黙
期間を取り除くことが実際的である。この音声信号がス
ローダウンしたときには、この沈黙は、同一の割合で、
その持続時間も通常増加する。しかし、長い沈黙は、わ
ずらわしいものではないが、例えば、1.5倍以上でス
ローダウンしたような音声は、しばしば、わずらわしい
沈黙期間を含むものである。しかし、1.5倍、あるい
は、2倍ほどのスローダウンは、メッセージを書くのに
は必ずしも充分ではない。かくして、ディクテーション
モードという新たなプロセスをここに導入する。
【0048】ディクテーションモードにおいては、信号
の音声セグメントは、スローダウンされるか、あるい
は、通常の速度で再生される。しかし、検知された沈黙
期間は、大きな係数(例えば、5)でもって、持続時間
が増加する。この係数は、話しながらメッセージを書き
下すことが可能なようなユーザ、あるいは、システムの
デザイナーによって決定される。この沈黙を検知するた
めに、新たな、あるいは、既存の発声活性検知方法(G
SM13kb/sのコーダに用いられる公知のシステム
を含む)を用いることができる。
【0049】話し言葉の中で、沈黙期間が増加するのを
阻止するために、検知された沈黙期間のより長いものに
対してのみ、沈黙期間の長さを増加するのが有効であ
る。このような最長の沈黙期間は、次のようにして選択
することができる。すなわち、音声の選択に際し、その
持続時間に応じて、検知された沈黙期間の順番と、上位
X個の最長の沈黙期間を選択する。ここで、数Xは、全
ての沈黙期間の所定内のものである。一旦、その沈黙期
間が決定されると、このX個の沈黙期間の持続時間は、
信号の音声セグメントの速度変化の係数よりも、より大
きな係数だけ増加させられる。このディクテーションモ
ードは、どのような速度変更システムにおいても用いら
れるが、音声符号化システムと一体に用いられるものと
は、必ずしも限らない。
【0050】
【発明の効果】本発明は、後で再生される圧縮された形
態で、音声信号を記憶するような通信システムに直接適
応できる。そのため、本発明は、電話応答システムに適
応可能で、この応答システムは、加入者の場所、あるい
は、通信ネットワークの何れにも配置できるものであ
る。したがって、本発明は、例えば、登録された電話メ
ッセージをレビューするために、スピードアップした
り、スローダウンしたりするような特徴を具備させるこ
とができる。家庭内、あるいは、事務所内の電話応答シ
ステムで本発明が用いられた場合には、本発明のシステ
ムのスピードアップ/スローダウンの特徴は、ボタンを
押すことにより実行できる。ネットワークに組み込まれ
た場合には、ネットワーク系のメッセージサービスのス
ピードアップ/スローダウンの特徴には、タッチトーン
(DTMF信号)を用いて、通常の信号処理プロトコー
ルによりアクセスできる。顧客系、あるいは、ネットワ
ーク系の何れにおいても、本発明は、図3に示したよう
に実現することができ、この場合、音声符号化/メモリ
システムにより供給される符号化音声パラメータを有
し、構内電話機、あるいは、通信ネットワークの何れか
により、顧客に伝えられる合成された音声信号を有す
る。
【0051】本発明によるネットワークメッセージサー
ビスは、ネットワーク端末におけるメッセージ受信者に
記録されたメッセージを伝えることができる。このネッ
トワークは、メッセージの受信者に対し、再生される音
声メッセージを表す符号化音声パラメータを記憶するメ
モリを有するノードを有する。このネットワークのノー
ドは、ネットワークターミナルからの制御信号に記録さ
れたメッセージの音声速度とは異なる音声速度でもっ
て、記録されたメッセージを可聴バージョンでもって再
生することにより応答する。この制御信号に応答するに
際し、このノードは、メモリ内に記憶された符号化音声
パラメータに基づいて、音声信号を合成する。そして、
このノードは、この合成音声信号に基づいて、変更され
た音声速度信号を生成し、この変更された音声速度信号
をフィルタ処理して、変更された音声速度信号と比較し
て、増加した短期相関を有する音声信号を生成する。一
旦、フィルタ処理された信号が生成されると、それは、
ネットワークターミナルに転送される。
【0052】本発明による電話応答システムは、従来の
装置、および、電話インターフェースとネットワークイ
ンターフェース以外に、受信者に対する音声メッセージ
を表すパラメータを生成する音声符号化装置と、この音
声符号化装置により生成されるパラメータを記憶するメ
モリと、このメモリ内に記録されたパラメータに基づい
て、音声信号を合成する音声復号化装置と、この合成さ
れた音声信号に基づいて、変更した音声速度信号を生成
するプロセッサと、この変更された音声速度信号をフィ
ルタ処理する装置とを有し、この変更された音声速度信
号と比較して、短期相関を増加した音声信号を生成す
る。本発明のシステムは、当然のことながら、可聴フォ
ームで、メッセージ受領者に対し、増加した短期相関を
有する音声信号を提供する通常の装置も有するものであ
る。
【図面の簡単な説明】
【図1】LPAS音声符号化の原理を表す図。
【図2】適応型コードブックの動作を表す図。
【図3】本発明による速度変換メカニズムを表す図。
【図4】速度−1の励起信号から速度0.5の励起信号
へのマッピングを表す図。
【図5】速度−1の励起信号から速度−2の励起信号へ
のマッピングを表す図。
【図6】図3の実施例の全体を表す図。
【符号の説明】
101 線形予測アナライザ 102 線形予測無限インパルス応答合成フィルタ 103 パスト励起プロセッサ 104 適応型コードブックプロセッサ 105 固定型コードブックプロセッサ 106 加算手段 110 知覚エラー基準評価器 111 合成構造体 201、202、203、205 ウィンドゥ 207 サブフレーム 206、209 開始点 208 パス 210 表示励起信号 211 距離 301 音声復号化装置(合成装置) 303 励起バッファ 304 レトリーバ 305 第2アジャスタ 306 ポインタアジャスタ 308 サブフレームクロック 601 音声信号源 602 音声速度アジャスタ 603 線形合成フィルタ

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 (A)音声速度の変化を表す信号と入力
    音声信号とに基づいて、変更した音声速度信号を生成す
    るステップと、 (B)この変更された音声速度信号に比較して、増加し
    た短期相関を有する音声信号を生成するために、この変
    更された音声速度信号をフィルタ処理するステップと、
    からなることを特徴とする入力音声信号の速度を変更す
    る方法。
  2. 【請求項2】 前記(A)のステップは、ピッチサイク
    ルに相当するサンプルの先行シーケンスを、音声信号に
    挿入するステップを有することを特徴とする請求項1の
    方法。
  3. 【請求項3】 前記(A)のステップは、ピッチサイク
    ルに相当するサンプルのシーケンスを、音声信号から除
    去するステップを有することを特徴とする請求項1の方
    法。
  4. 【請求項4】 前記変更した音声速度信号のインデック
    スkのサンプルにおいて、前記入力音声信号は、バッフ
    ァ内にインデックスtのサンプルまで記憶され、生成さ
    れた変更した音声速度信号の各M個のサンプルに対し、
    バッファ内に記憶された入力信号のL個の追加のサンプ
    ルが存在し、ここで、τは、変更した音声速度信号のイ
    ンデックスkのサンプルである入力音声信号のサンプル
    のインデックスであり、ここで、τは、変更した音声速
    度信号の各サンプルに対し、1サンプルだけ増加し、 前記(A)のステップは、tとτとの間の差に基づい
    て、1ピッチサイクルだけ、τの値を変化させるステッ
    プを含むことを特徴とする請求項1の方法。
  5. 【請求項5】 前記(B)のステップは、LPC合成フ
    ィルタで実行されることを特徴とする請求項1の方法。
  6. 【請求項6】 前記(A)のステップは、 バッファメモリ内に入力音声信号のL個のサンプルを記
    憶するステップと、 前記バッファメモリからM個のサンプルを取り出すステ
    ップと、前記取り出されたサンプルは、変更した音声速
    度信号を形成し、ここでL≠Mであることを特徴とする
    請求項1の方法。
  7. 【請求項7】 M/Lは、音声速度の所定の変化を表す
    前記信号に基づくことを特徴とする請求項6の方法。
  8. 【請求項8】 Lは、音声符号化装置のサブフレームに
    相当するサンプル数であることを特徴とする請求項7の
    方法。
  9. 【請求項9】 前記入力音声信号は、励起信号であるこ
    とを特徴とする請求項1の方法。
  10. 【請求項10】 (C)符号化音声パラメータに基づい
    て、入力音声信号を合成するステップをさらに有するこ
    とを特徴とする請求項1の方法。
  11. 【請求項11】 前記符号化音声パラメータは、適合型
    コードブックインデックスと適合型コードブックゲイン
    インデックスとを含むことを特徴とする請求項10の方
    法。
  12. 【請求項12】 前記符号化音声パラメータは、固定型
    コードブックインデックスと固定型コードブックゲイン
    インデックスとを含むことを特徴とする請求項10の方
    法。
  13. 【請求項13】 (A)音声速度の所定の変化を表す信
    号と入力音声信号に基づいて、変更した音声速度信号を
    生成する手段と、 (B)この変更された音声速度信号に比較して、増加し
    た短期相関を有する音声信号を生成するために、この変
    更された音声速度信号をフィルタ処理する手段と、から
    なることを特徴とする入力音声信号の速度を変更する装
    置。
  14. 【請求項14】 前記(A)の手段は、ピッチサイクル
    に相当するサンプルの先行シーケンスを、音声信号に挿
    入する手段を有することを特徴とする請求項13の装
    置。
  15. 【請求項15】 前記(A)の手段は、ピッチサイクル
    に相当するサンプルのシーケンスを、音声信号から除去
    する手段を有することを特徴とする請求項13の装置。
  16. 【請求項16】 前記フィルタ処理手段は、LPC合成
    フィルタで実行されることを特徴とする請求項13の装
    置。
  17. 【請求項17】 (C)符号化音声パラメータに基づい
    て、入力音声信号を合成する手段をさらに有することを
    特徴とする請求項13の装置。
  18. 【請求項18】 前記符号化音声パラメータは、適合型
    コードブックインデックスと適合型コードブックゲイン
    インデックスとを含むことを特徴とする請求項17の装
    置。
  19. 【請求項19】 前記符号化音声パラメータは、固定型
    コードブックインデックスと固定型コードブックゲイン
    インデックスとを含むことを特徴とする請求項17の装
    置。
  20. 【請求項20】 前記符号化音声パラメータを記憶する
    メモリをさらに有することを特徴とする請求項17の装
    置。
  21. 【請求項21】 前記(A)の手段は、入力音声信号の
    L個のサンプルを記憶するバッファメモリを有すること
    を特徴とする請求項13の装置。
  22. 【請求項22】 前記バッファメモリからM個のサンプ
    ルを取り出す手段をさらに有し、前記取り出されたサン
    プルは、変更した音声速度信号を構成する、 ここでL≠Mであることを特徴とする請求項21の装
    置。
  23. 【請求項23】 前記バッファからM個のサンプルの取
    り出しを制御する手段をさらに有することを特徴とする
    請求項22の装置。
  24. 【請求項24】 ネットワークターミナルにいるメッセ
    ージの受信者に、記録されたメッセージを提供する通信
    ネットワークメッセージサービスを提供する方法におい
    て、 前記通信ネットワークは、符号化音声情報を記憶するメ
    モリを有するノードを有し、 前記符号化音声情報は、メッセージ受信者用に記録され
    た音声メッセージを表し、 前記ネットワークノードは、ネットワークターミナルか
    らの制御信号に応答して、記録されたメッセージの可聴
    バージョンを再生し、 (A)ネットワークターミナルから、記録されたメッセ
    ージの音声速度の変更を要求する制御信号を、ノードで
    受信するステップと、 (B)前記メモリ内に記憶された符号化音声パラメータ
    に基づいて、音声信号を合成するステップと、 (C)前記制御信号に応答して、合成音声信号に基づい
    て、変更した音声速度信号を生成するステップと、 (D)変更した音声速度信号に比較して、増加した短期
    相関を有する音声信号を生成するために、前記変更した
    音声速度信号をフィルタ処理するステップと、 (E)増加した短期相関を有する音声信号を、ネットワ
    ーク端末に送信するステップとからなることを特徴とす
    る通信ネットワークのメッセージサービスを提供する方
    法。
  25. 【請求項25】 (A)受信者用に音声メッセージを表
    すパラメータを生成する音声符号化装置と、 (B)前記音声符号化装置により生成されるパラメータ
    を記録するメモリと、 (C)前記メモリ内に記憶された符号化音声パラメータ
    に基づいて、音声信号を合成する音声復号化装置と、 (D)合成音声信号に基づいて、変更した音声速度信号
    を生成する手段と、 (E)変更した音声速度信号に比較して、増加した短期
    相関を有する音声信号を生成するために、前記変更した
    音声速度信号をフィルタ処理する手段と、 (F)増加した短期相関を有する音声信号を、メッセー
    ジ受信者に提供する手段とからなることを特徴とする電
    話応答システム。
  26. 【請求項26】 音声と沈黙とを表す信号の音声速度を
    変更する方法において、 (A)沈黙を表す信号のセグメントを検知するステップ
    と、 (B)係数Qにより、この検知した沈黙セグメントの持
    続時間を増加するステップと、 (C)音声を表す信号のセグメントの音声速度を、係数
    Rで変更するステップと、 ここでR≠Qであるからなることを特徴とする音声と沈
    黙を表す信号の音声速度を変更する方法。
  27. 【請求項27】 R=1であることを特徴とする請求項
    26の方法。
JP7110257A 1994-04-14 1995-04-12 入力音声信号の速度を変更する方法 Pending JPH07319496A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US227845 1988-08-03
US08/227,845 US5717823A (en) 1994-04-14 1994-04-14 Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders

Publications (1)

Publication Number Publication Date
JPH07319496A true JPH07319496A (ja) 1995-12-08

Family

ID=22854705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7110257A Pending JPH07319496A (ja) 1994-04-14 1995-04-12 入力音声信号の速度を変更する方法

Country Status (6)

Country Link
US (1) US5717823A (ja)
EP (1) EP0680033A3 (ja)
JP (1) JPH07319496A (ja)
KR (1) KR950035273A (ja)
CA (1) CA2145016A1 (ja)
TW (1) TW286395B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998021710A1 (fr) * 1996-11-11 1998-05-22 Matsushita Electric Industrial Co., Ltd. Convertisseur de rapidite de reproduction de sons
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
JP2010501896A (ja) * 2006-08-22 2010-01-21 クゥアルコム・インコーポレイテッド 広帯域ボコーダのタイムワーピングフレーム

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
KR100251497B1 (ko) * 1995-09-30 2000-06-01 윤종용 음성신호 변속재생방법 및 그 장치
TW307960B (en) * 1996-02-15 1997-06-11 Philips Electronics Nv Reduced complexity signal transmission system
JP3092652B2 (ja) * 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
US6009395A (en) * 1997-01-02 1999-12-28 Texas Instruments Incorporated Synthesizer and method using scaled excitation signal
FR2762464B1 (fr) * 1997-04-16 1999-06-25 France Telecom Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere"
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
EP0998166A1 (fr) * 1998-10-30 2000-05-03 Koninklijke Philips Electronics N.V. Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
SE516182C2 (sv) 1999-02-26 2001-11-26 Ericsson Telefon Ab L M Mottagning av olika signalformatstandarder i radiosystem med flera standarder
US6266643B1 (en) * 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
US6415029B1 (en) * 1999-05-24 2002-07-02 Motorola, Inc. Echo canceler and double-talk detector for use in a communications unit
SE521462C2 (sv) 1999-07-08 2003-11-04 Ericsson Telefon Ab L M Förfarande och anordning för sändning av information i ett telekommunikationssystem
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
CN1432177A (zh) * 2000-04-06 2003-07-23 艾利森电话股份有限公司 语音速率转换
US7346488B2 (en) * 2000-07-10 2008-03-18 Fujitsu Limited Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
EP1944759B1 (en) * 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
US6931373B1 (en) 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6996523B1 (en) 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7610198B2 (en) * 2001-08-16 2009-10-27 Broadcom Corporation Robust quantization with efficient WMSE search of a sign-shape codebook using illegal space
US7647223B2 (en) * 2001-08-16 2010-01-12 Broadcom Corporation Robust composite quantization with sub-quantizers and inverse sub-quantizers using illegal space
US7617096B2 (en) * 2001-08-16 2009-11-10 Broadcom Corporation Robust quantization and inverse quantization using illegal space
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
US6625387B1 (en) * 2002-03-01 2003-09-23 Thomson Licensing S.A. Gated silence removal during video trick modes
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7130793B2 (en) * 2002-04-05 2006-10-31 Avaya Technology Corp. System and method for minimizing overrun and underrun errors in packetized voice transmission
US7676142B1 (en) 2002-06-07 2010-03-09 Corel Inc. Systems and methods for multimedia time stretching
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
US8340972B2 (en) * 2003-06-27 2012-12-25 Motorola Mobility Llc Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
JP3924583B2 (ja) * 2004-02-03 2007-06-06 松下電器産業株式会社 ユーザ適応型装置およびその制御方法
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
US7830862B2 (en) * 2005-01-07 2010-11-09 At&T Intellectual Property Ii, L.P. System and method for modifying speech playout to compensate for transmission delay jitter in a voice over internet protocol (VoIP) network
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
ATE463028T1 (de) * 2006-09-13 2010-04-15 Ericsson Telefon Ab L M Verfahren und anordnungen für einen sprach- /audiosender und empfänger
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
TWI493917B (zh) * 2013-04-29 2015-07-21 Univ Nat Taipei Technology 檢測雙音多頻訊號之方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4550425A (en) * 1982-09-20 1985-10-29 Sperry Corporation Speech sampling and companding device
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
EP0427953B1 (en) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
FI911165A (fi) * 1991-03-08 1992-09-09 Nokia Mobile Phones Ltd Telefonsvarare foer en mobiltelefon
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
EP0564669A1 (de) * 1992-04-04 1993-10-13 Alcatel SEL Aktiengesellschaft Netzwerk aus Sprach- und/oder Faxspeichersystemen
FR2692070B1 (fr) * 1992-06-05 1996-10-25 Thomson Csf Procede et dispositif de synthese vocale a vitesse variable.
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998021710A1 (fr) * 1996-11-11 1998-05-22 Matsushita Electric Industrial Co., Ltd. Convertisseur de rapidite de reproduction de sons
US6115687A (en) * 1996-11-11 2000-09-05 Matsushita Electric Industrial Co., Ltd. Sound reproducing speed converter
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
JP2010501896A (ja) * 2006-08-22 2010-01-21 クゥアルコム・インコーポレイテッド 広帯域ボコーダのタイムワーピングフレーム
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder

Also Published As

Publication number Publication date
TW286395B (ja) 1996-09-21
US5717823A (en) 1998-02-10
KR950035273A (ko) 1995-12-30
EP0680033A2 (en) 1995-11-02
EP0680033A3 (en) 1997-09-10
CA2145016A1 (en) 1995-10-15

Similar Documents

Publication Publication Date Title
US5717823A (en) Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5752223A (en) Code-excited linear predictive coder and decoder with conversion filter for converting stochastic and impulsive excitation signals
CA2335005C (en) Method and apparatus for performing packet loss or frame erasure concealment
US7047190B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
JP4675692B2 (ja) 話速変換装置
JP2746033B2 (ja) 音声復号化装置
US5251261A (en) Device for the digital recording and reproduction of speech signals
JP2707564B2 (ja) 音声符号化方式
JP2006099124A (ja) デジタル無線チャネル上の自動音声/話者認識
US6873954B1 (en) Method and apparatus in a telecommunications system
JPH0962299A (ja) コード励振線形予測符号化装置
JP3062226B2 (ja) 条件付き確率的励起符号化法
JPH07129195A (ja) 音声復号化装置
JP4420562B2 (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
JPWO2006011445A1 (ja) 信号復号化装置
JP3722366B2 (ja) パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
JP2001053869A (ja) 音声蓄積装置及び音声符号化装置
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3249144B2 (ja) 音声符号化装置
JP3515216B2 (ja) 音声符号化装置
JP3515215B2 (ja) 音声符号化装置
JP2018124304A (ja) 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JPH09179593A (ja) 音声符号化装置
JP2001343984A (ja) 有音/無音判定装置、音声復号化装置及び音声復号化方法