JPH06230800A - 音声データ圧縮及び再生の方法及び装置 - Google Patents

音声データ圧縮及び再生の方法及び装置

Info

Publication number
JPH06230800A
JPH06230800A JP5288003A JP28800393A JPH06230800A JP H06230800 A JPH06230800 A JP H06230800A JP 5288003 A JP5288003 A JP 5288003A JP 28800393 A JP28800393 A JP 28800393A JP H06230800 A JPH06230800 A JP H06230800A
Authority
JP
Japan
Prior art keywords
sound
voiced
unvoiced
representation
compressed data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5288003A
Other languages
English (en)
Inventor
Jr Frank A Mckiel
フランク・エー・マッキール、ジュニア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06230800A publication Critical patent/JPH06230800A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 人間の音声の圧縮されたデータ表現を作り、
それを用いてその人間の音声を正確に再生できる方法及
びシステム。 【構成】 先ず、音声に含まれるサイレンス、有声音及
び無声音のそれぞれの発生が検知される。次に、各有声
音を近似するために繰返し用いられる1つの代表的デー
タフレームが、各有声音の持続期間と共に反復的に決定
される。各無声音のスペクトル内容もまた、その振幅変
化と共に決定される。その後、各サイレンス期間の持続
時間、各有声音の持続時間と1つの代表的データフレー
ム、及び各無声音のスペクトル内容と振幅変化に対する
コード化された表現を含む圧縮されたデータ表現が作ら
れる。後に、この圧縮されたデータ表現は、明瞭さを損
なうことなくその音声を再生するために用いることがで
きる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、広くは音声信号データ
処理のためのシステムに関し、特に人間の音声のデジタ
ルデータ表現を圧縮するための改善された方法及びシス
テムに関するものである。
【0002】
【従来の技術】現代の通信及び情報ネットワークは、し
ばしばデジタル音声、デジタルオーディオ及びデジタル
ビデオを使用することを必要とする。情報、処理及び表
示のための伝送、記憶、協議及び他の多くの信号処理形
式が、これらのタイプのデータを利用する。伝統的なア
ナログ信号によるそのような全てのアプリケーションに
対する基本は、許容できる信号品質レベルが得られるよ
うにその波形を数値化するための技術である。
【0003】生のアナログ音声信号の直接的な数値化
は、当業者であれば理解できるように非常に効率の悪い
ものである。生の音声データは、通常、大体8000サ
ンプル/秒から44000サンプル/秒の間でサンプリ
ングされる。16ビット−8ビット圧伸及び適応デルタ
パルスコード変調(Adaptive Delta Pulse Code Modula
tion:ADPCM)を用いると、データサイズを4:1
に短縮することができる。しかしながらこのような圧縮
比を用いても尚、音声信号を記憶するために要するデー
タ量が膨大であるために、音声注釈付きメール、LAN
伝送による音声及びパーソナル・コンピュータによる電
話通信ソフトウェア・アプリケーションが、極めて利用
し難いものになる。例えば、2キロバイトのデジタルデ
ータを含む1ページのレターに、15秒間継続する音声
メッセージを添えるとすると、そのデータは160キロ
バイトを占める。同様に、記録された音声のマルチメデ
ィア・アプリケーションにおいても、必要とするデータ
サイズが障害となるため通常はCD−ROM等の高密度
記憶媒体に限られている。
【0004】必要とするデータ量が膨大であり且つデー
タ処理システム内における音声もしくはデジタルオーデ
ィオの利用が要望されていることから、音声信号のデジ
タルデータ表現を圧縮するための多くの技術が提示され
ている。例えば、International Business Machines Co
rporation Technical Disclosure Bulletin, July 198
1, pages 1017-1018 には、非対称音声波形の圧縮記録
及び再生が可能であることが記載されている。その記載
によれば、有声音期間中の各ピッチ期間の第1のサイク
ルが、音声の圧縮及び再生に利用される。この技術は、
ほとんどのピッチ期間の内、波形の最初の4分の1から
5分の1がそれに続く部分よりもかなり大きい振幅を有
するという観測を前提としている。
【0005】この波形の最初の部分は、波形の残りの部
分が含むほとんど全ての周波数成分を含むと考えられて
おり、その結果、波形の僅かな部分のみが圧縮及び再生
のために利用される。この技術を適用する音声信号期間
がたまたま無声音である場合は、2つの手順の内の1つ
が用いられる。即ち、無声音が数値化されてその全体が
記憶されるか、あるいは無声音の続く時間の長さに加え
て1ミリ秒の音がコード化される。再生においては、サ
ンプリングされたその1つのピッチ期間が、有声音と同
じ長さの時間の間に減少した振幅レベルにおいて複製さ
れる。この技術は優れた圧縮及び再生方法であるにも拘
らず、明瞭さが損なわれてしまう。
【0006】他の技術としては、無声音のランダム雑音
部分を忠実に再生するために高サンプリング速度を利用
するものがある。しかしながらこの技術は、実質的なレ
ベルのデータが必要であり、また音声の明瞭さを決定す
るために不可欠な信号品質を考慮していない。
【0007】上記の観点から、効率的に音声及びデータ
を圧縮し、尚且つ、音声の明瞭さを本質的に損なわない
データ再生を可能とする方法及びシステムが必要である
ことは明かである。
【0008】
【発明が解決しようとする課題】本発明の目的は、デー
タ処理システム内における音声信号データの処理のため
の改善された方法及びシステムを提供することである。
さらに本発明の目的は、データ処理システム内における
人間の音声のデジタルデータ表現を圧縮する方法及びシ
ステムを提供することである。さらに本発明の目的は、
データ処理システム内における人間の音声のデジタルデ
ータ表現を圧縮する方法及びシステムであって、人間の
音声に含まれる有声音の反復特性を利用するものを提供
することである。
【0009】
【課題を解決するための手段】前記の目的は、以下に記
載するように達成される。本発明の方法及びシステム
は、人間の音声の圧縮されたデータ表現を作り、さらに
それを用いて正確に人間の音声を再生するために利用さ
れるものである。先ず音声が発声される間に、サイレン
ス(無音)、有声音及び無声音の各期間の配置と発生が
検知される。次に、各有声音を近似するために繰返し用
いられる1つの代表的データフレームが、各有声音の持
続時間と共に、反復的に決定される。各無声音のスペク
トル内容もまた、その振幅の変化と共に決定される。そ
の後、圧縮されたデータ表現が作られる。その中には、
各サイレンス期間の持続時間、各有声音の持続時間及び
1つの代表的データフレーム、並びに各無声音のスペク
トル内容及び振幅変化のコード化された表現が含まれ
る。後にこの圧縮されたデータ表現は、発生された音声
を本質的に明瞭さを損なうことなく再生するために用い
られる。本発明の他の目的、特徴及び利点も以下の詳細
な説明において明らかにされるであろう。
【0010】
【実施例】図1には、本発明の方法及びシステムを実施
するために用いられるデータ処理システム10の外観が
描かれている。図示の通り、データ処理システム10
は、プロセッサ・ユニット12を備えており、当業者に
は周知の方法によりディスプレイ14とキーボード16
に接続されている。さらに、マイクロフォン18が描か
れているが、これは、本発明による方法及びシステムに
より、人間の発声する音声を入力して数値化及び処理を
行うために用いられる。もちろん、当業者であれば理解
できるであろうが、事前に数値化された音声をデータ処
理システム10に入力し、それらの音声をデジタル表現
として磁気ディスク等の記憶媒体内に記憶することによ
って本発明の方法及びシステムによる処理を行うことも
できる。
【0011】データ処理システム10としては、例え
ば、International Business Machines Corporation の
PS/2パーソナル・コンピュータ等の適当なコンピュ
ータが利用可能である。本明細書に記載の方法によりデ
ジタルデータを処理できる適当なデジタル・コンピュー
タであれば、人間の音声を組み込んだデジタルデータ表
現を作るために使用でき、そして本発明の方法及びシス
テムによる音声の再生は、デジタル信号プロセッサ(D
SP)集積回路、ソフトウェア・アプリケーションまた
は通信ポートに接続される低級な専用ハードウェア装置
を含むアッドオン・プロセッサ・カードを用いて実行す
ることができる。
【0012】図2は、本発明による、発声された音声の
圧縮されたデジタル表現をつくる処理のハイレベルのデ
ータ流れ図である。図示の通り、発声された音声のデジ
タル表現が、データ入力20となる。データ入力20
は、サイレンス検知器22へ入力される。図示した例に
おいては、サイレンス検知器22は閾値回路のみからな
っており、入力20における信号が所定のレベルを越え
ない場合、サイレンス期間を標示する出力を発生する。
【0013】音声信号の数値化された表現は、ローパス
フィルタ24にも入力される。大振幅、高周波成分中の
位相変動がピッチ抽出器26内の音声基本期間の判定を
ずらさないことを確保するために、数値化された信号を
ピッチ抽出器26に適用するに先立ってローパスフィル
タ24を用いることが好ましい。その後、音声に含まれ
る有声音の存在が、閾値検知器30をピッチ抽出器26
の出力へ接続することにより判断される。そして本発明
の方法及びシステムに従って、有声音の存在を確認し、
その有声音を処理できるようにコード化された表現とす
る。
【0014】後にさらに詳細に説明する方法において、
ピッチ抽出器26は、1つの代表的データフレームを識
別するために用いられる。これを繰返し用いると、人間
の発生した音声に含まれる有声音を非常によく近似でき
る。これは、ピッチ抽出器26に適用される音声信号を
解析し、この代表的データフレームのフレーム幅Wを決
定することにより実現される。以下にさらに詳細に述べ
るように、このフレーム幅Wは、各有声音に含まれる繰
返しユニットを最もよく識別する代表的データフレーム
となる特定のフレーム幅を決めるために反復的に決定さ
れる。次に、生の入力音声信号が代表的データフレーム
再構成器28に適用され、繰返し用いられる場合に各有
声音を最もよく特徴付ける1つの代表的データフレーム
のイメージを、その幅情報を用いて構成する。後者の技
術は、ローパスフィルタ24を通していない生の音声信
号に対して適用されることを注記する。
【0015】代表的フレームとフレーム幅からなる代表
的データフレーム再構成器28の出力は、その後、繰返
し長さ解析器32に適用される。繰返し長さ解析器32
は、閾値検知器30の出力により使用可能になったと
き、時間的な方法で音声信号を処理するために使用され
る。そして、適切に各有声音を表現するために複製され
なければならない代表的データフレームの数を決定す
る。その後、繰返し長さ解析器32の出力は、代表的デ
ータフレームのイメージ、そのフレーム幅及び音声に含
まれるカレント有声音を複製するために必要なフレーム
数から構成される。
【0016】代表的データフレーム再構成器28からの
残りの出力は、歯擦音解析器34に適用される。歯擦音
解析器34は、ピッチ抽出または代表的データフレーム
再構成手順から実質的に残った信号がある場合は必ず用
いられる。その場合は、その音声信号の中に歯擦音もし
くは無声音が存在することを示している。歯擦音の無声
音的性質は、一般的にフィルタを通した白色雑音信号と
して特徴付けられる。歯擦音解析器34は、歯擦音もし
くは無声音の開始時及び停止時を検知して、一連の高速
フーリエ変換(FFT)を実行することによって、それ
らの音を特徴付けるために用いられる。それらはその
後、無声音の全体的なスペクトル内容を解析するために
平均化される。次に、その無声音は多数のタイムスロッ
トに部分分割され、そして振幅の包絡線を導出するため
に各タイムスロットに含まれる信号の平均振幅が概算さ
れる。従って、歯擦音解析器34の出力は、無声音のス
ペクトル値、無声音の持続時間及び連続する振幅値から
構成され、それは無声音を表現するために出力データ流
れに加えられる。
【0017】上記のプロセスは、各サイレンス期間持続
時間のコード化された表現、各有声音の持続時間及び1
つの代表的データフレーム、並びに各無声音を表すスペ
クトル内容及び振幅包絡線のコード化された表現を用い
て作られた圧縮出力データ流れを生じる。このプロセス
は、ランダムデータアクセスプロセスで実現可能であ
る。しかしながら一般的には、音声信号の短いセグメン
トを順番に解析していくように、データを逐次的に処理
してもよい。このプロセスの出力は、データの並んだリ
スト及び命令コードである。
【0018】さらにこの出力流れを、有声音記憶/再現
マネージャ38及び歯擦音記憶/再現マネージャ40を
用いて処理することによって圧縮が得られる。例えば、
有声音記憶/再現マネージャ38は、出力流れの中に存
在する繰り返しユニット・イメージを走査するために用
いられる。そしてそれは、有声音記憶/再現マネージャ
38の中に一時的にカタログ化される。その後、有声音
記憶/再現マネージャ38内の論理を用いて、事前に伝
送された波形を再現してその波形に対してスケーリング
や位相シフト等の変換を適用することにより、いずれの
波形イメージが置き換え可能かを決定する。この方法で
は、伸張時に利用可能な波形記憶位置の限定された数を
効率的に利用できる。さらに出力流れは、伸張データ処
理システムを利用するに適したいずれの方法において
も、有声音記憶/再現マネージャ38内で処理可能であ
る。それは、使用する伸張技術に適した記憶、再現及び
変換命令によってロード命令を置き換えるために出力流
れを修整することによって行われる。
【0019】同様に、歯擦音記憶/再現マネージャ40
は、有声音に関して上記したものと同様の方法で記憶さ
れ再現される、再現スペクトルデータのために出力デー
タ流れを解析する。典型的には、個々の話者について異
なる歯擦音は4個または5個のみであり、このことは圧
縮/伸張の有効性を大きく向上させる。
【0020】図3は、本発明による方法及びシステムに
よる有声音解析プロセスを表現した図である。図示の通
り、有声音サンプルは符号50に示されているが、何度
も繰返される波形52を含んでいる。先ず、代表的デー
タフレームとして仮の幅が選択される。代表的データフ
レームの幅として狭い仮定が選択された場合、各仮定さ
れたフレーム内の波形は、符号54で示されるように実
質的に異なるものとなる。このプロセスは、幅Wの連続
したフレーム内の入力サンプルを解析し、仮定されたフ
レーム幅に含まれる各波形をサンプル空間に複写するこ
とによって進められる。その後、入力サンプルの隣合う
セクションが平均化される。そして代表的データフレー
ム幅が狭く選択された場合は、隣合うサンプル同士が打
消し合う結果、連続データフレームの平均は符号58で
示される様な形になるであろう。
【0021】再び入力サンプル50を参照する。代表的
データフレームの幅として適切な仮定が選択された場
合、入力サンプルに含まれる各フレーム内の信号は、符
号56で示されるように実質的に同一のものとなる。各
仮定されたデータフレーム内の信号を繰返し平均化する
ことによって、ブロック60に示されるように大きな信
号が得られる。これは、代表的データフレームとして適
切な幅が選択されたことを示している。このプロセス
は、直接的な反復的方法により実現可能である。例え
ば、64個の異なる代表的データフレーム幅の値が、8
6ヘルツから172ヘルツまでの1オクターブをカバー
するように選択してもよい。そうすると、有効な解像度
は、0.6ヘルツから2.6ヘルツの範囲になり、各フ
レーム内の信号の平均が大きな信号となるまで可能なフ
レーム幅を1つずつ試みることによって有効な代表的デ
ータフレームが正確に選択される。これは図3の符号6
0で示されている。
【0022】最後に図4は、本発明の方法及びシステム
により音声を再生する手順のハイレベルのデータ流れ図
を示している。図示の通り、再生アルゴリズムは逐次的
な方法で圧縮されたデータに対して適用される。音声の
圧縮されたデジタル表現に含まれるデータ及び命令が処
理されると、即座に音声発声器へ出力されるかまたは音
声データファイルとして記憶される。圧縮されたデジタ
ル表現は、入力70において再構成コマンドプロセッサ
72に入力される。再構成コマンドプロセッサ72は、
データ処理システム10(図1)を用いて実現してもよ
い。
【0023】先ず、有声音の再構成に付いて記載する。
代表的データフレームのイメージが、波形アキュムレー
タ78に適用される。波形アキュムレータ78は、波形
記憶装置82から得られる波形を利用し、その後リピー
タ80を通して代表的データフレームを出力する。波形
変換制御器76は、波形アキュムレータ78の出力を制
御するために用いられ、例えば以下のような命令があ
る。即ち、波形アキュムレータヘ次の波形をロードせ
よ、波形アキュムレータの内容をN回繰返せ、指定され
た記憶位置にあるものを波形アキュムレータに再現せ
よ、波形アキュムレータの内容をN個のサンプルだけ順
送りせよ、波形アキュムレータ内容の振幅をファクタS
でスケーリングせよ、サイレンス期間の再生のためにN
個のサンプルにゼロを入れよ、あるいはライン74から
のデータ入力を繰返し複写せよ、等がある。例えば破裂
音等の異常な音声信号があれば、コード化されず単純に
直接数値化されるのみであり、そしてその波形の再生
は、単にその数値化されたサンプルから直接再生するこ
とにより実現されることは、当業者であれば理解できる
ことである。従って、上記の命令、または他の命令もし
くはこれらの命令の変形を利用すると、記載された方法
により有声音が再生可能である。
【0024】歯擦音等の無声音の再生は、白色雑音発声
器86を用いて実現され、それは振幅ゲート88を通し
て64ポイントデジタルフィルタ90へ接続される。無
声音に含まれる振幅変化を表す包絡線データは、カレン
ト包絡線メモリ84に適用され、振幅ゲート88を変え
るために用いられる。同様に、無声音のスペクトル内容
は、逆直接フーリエ変換92に適用してカレント衝撃応
答回路94を用いて64ポイント衝撃応答を導出する。
この衝撃応答は、符号96で示される記憶された衝撃応
答を用いて作ることもできる。その後、衝撃応答はフィ
ルタ係数としてデジタルフィルタ90に適用され、元の
無声音と実質的に同じスペクトル内容と振幅包絡線を有
する無声音となる。
【0025】入力データに含まれる無声音の再生を実現
するための命令には、以下のようなものがある。即ち、
長さNの包絡線をロードせよ、現設定による歯擦音の発
生をトリガせよ、衝撃応答記憶位置にカレント衝撃応答
を記憶せよ、あるいは指定された記憶位置からカレント
衝撃応答を再現せよ、等がある。
【0026】以上により、本発明による方法及びシステ
ムが、音声信号の有声音部分が通常繰返し波形(音声基
本周波数とその位相固定された調波の全て)からなって
おり、数回のサイクルの間は比較的安定状態を維持する
という事実を利用して、音声信号のデジタルデータ表現
を圧縮し且つその圧縮されたデジタル表現から音声を再
生するために使用できることが当業者には理解できよ
う。このことは、1つの繰返しユニットのイメージ及び
繰返し回数によって各有声音を表現することを可能にす
る。それに引き続く有声音は、先の有声音と比べやや変
形している傾向があるため、先に伝えられそして伸張に
おいて再生される波形が、新しい繰返しユニットのイメ
ージとして与えられるために参照され修整される。先の
イメージに対するこれらの修整には、振幅のスケーリン
グ、周波数のスケーリング、あるいは位相シフト等が含
まれるが、完全に新しいデジタル波形イメージよりもは
るかに簡潔にコード化されるものである。
【0027】同様に、音声の無声音部分もしくは歯擦音
部分は本質的にランダム雑音であり、2つの異なるフィ
ルタによりほとんどろ波されている。無声音のスペクト
ル内容及び振幅包絡線を特徴付けることにより、明瞭さ
をほとんど損なうことなく音声信号のデジタル表現を圧
縮し且つその信号を音声データに再生するために本発明
による方法及びシステムを用いることができる。
【0028】
【発明の効果】本発明により、人間の音声に含まれる有
声音の反復特性を利用して、データ処理システム内で人
間の音声のデジタルデータ表現を圧縮するための方法及
びシステムが提供される。
【図面の簡単な説明】
【図1】本発明の方法及びシステムを実施するために用
いられるデータ処理システムを描いた図である。
【図2】本発明の方法及びシステムによる、圧縮された
音声のデジタル表現をつくるプロセスのハイレベルのデ
ータ流れ図である。
【図3】本発明の方法及びシステムによる、有声音を解
析するプロセスを描いた図である。
【図4】本発明の方法及びシステムによる、音声を再生
するプロセスのハイレベルのデータ流れ図である。
【符号の説明】
10 データ処理システム 50 有声音サンプル 52 有声音繰返し波形 56 データフレーム内の信号 60 平均化されたデータフレーム内の信号

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】有声音及び無声音を含む人間の音声の圧縮
    されたデータ表現を作る方法であって、 前記人間の音声に含まれる各有声音の発生を検知するス
    テップと、 前記各有声音の持続時間、及び繰返し適用されたとき最
    もよく前記有声音を近似する1つの代表的データフレー
    ムを決定するために前記各有声音を解析するステップ
    と、 前記人間の音声に含まれる各無声音の発生を検知するス
    テップと、 前記各無声音のスペクトル内容及び振幅変化を決定する
    ために前記各無声音を解析するステップと、 前記各有声音の持続時間及び1つの代表的データフレー
    ムのコード化された表現、並びに前記各無声音のスペク
    トル内容及び振幅変化のコード化された表現を含む前記
    人間の音声の圧縮されたデータ表現を作るステップとを
    含む、 人間の音声の圧縮されたデータ表現を作る方法。
  2. 【請求項2】前記各有声音の持続時間、及び繰返し適用
    されたとき最もよく前記有声音を近似する1つの代表的
    データフレームを決定するために前記各有声音を解析す
    るステップが、 前記各有声音の持続時間を決定するステップと、1つの
    代表的データフレームの幅Wを仮定するステップと、そ
    の後様々な仮定された幅に対し、ある選択された幅にお
    いて連続するフレームを累積した場合に互いに強調し合
    うまで、前記有声音の幅Wの連続するフレームを累積的
    に積算するステップとを含む、 請求項1記載の人間の音声の圧縮されたデータ表現を作
    る方法。
  3. 【請求項3】前記各無声音のスペクトル内容及び振幅変
    化を決定するために前記各無声音を解析するステップ
    が、 前記各無声音のスペクトル内容を決定するために前記各
    無声音に対して一連のフーリエ変換を実行するステップ
    と、前記無声音に含まれる複数の時間フレームのそれぞ
    れの間における平均振幅を決定するステップとを含む、 請求項1記載の人間の音声の圧縮されたデータ表現を作
    る方法。
  4. 【請求項4】前記圧縮されたデータ表現を用いて人間の
    音声を再生するステップをさらに含む、 請求項1記載の人間の音声の圧縮されたデータ表現を作
    る方法。
  5. 【請求項5】有声音及び無声音を含む人間の音声の圧縮
    されたデータ表現を作るシステムであって、 前記人間の音声に含まれる各有声音の発生を検知する手
    段と、 前記各有声音の持続時間、及び繰返し適用されたとき最
    もよく前記有声音を近似する1つの代表的データフレー
    ムを決定するために前記各有声音を解析する手段と、 前記人間の音声に含まれる各無声音の発生を検知する手
    段と、 前記各無声音のスペクトル内容及び振幅変化を決定する
    ために前記各無声音を解析する手段と、 前記各有声音の持続時間及び1つの代表的データフレー
    ムのコード化された表現、並びに前記各無声音のスペク
    トル内容及び振幅変化のコード化された表現を含む前記
    人間の音声の圧縮されたデータ表現を作る手段とを含
    む、 人間の音声の圧縮されたデータ表現を作るシステム。
  6. 【請求項6】前記人間の音声がサイレンス(無音)期間
    を含み、且つ前記システムが前記各サイレンス期間の発
    生を検知する手段をさらに含む、 請求項5記載の人間の音声の圧縮されたデータ表現を作
    るシステム。
  7. 【請求項7】前記検知された各サイレンス期間の持続時
    間を決定する手段をさらに含む、 請求項6記載の人間の音声の圧縮されたデータ表現を作
    るシステム。
JP5288003A 1992-12-30 1993-11-17 音声データ圧縮及び再生の方法及び装置 Pending JPH06230800A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US999509 1992-12-30
US07/999,509 US5448679A (en) 1992-12-30 1992-12-30 Method and system for speech data compression and regeneration

Publications (1)

Publication Number Publication Date
JPH06230800A true JPH06230800A (ja) 1994-08-19

Family

ID=25546425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5288003A Pending JPH06230800A (ja) 1992-12-30 1993-11-17 音声データ圧縮及び再生の方法及び装置

Country Status (3)

Country Link
US (1) US5448679A (ja)
EP (1) EP0605348A3 (ja)
JP (1) JPH06230800A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3568255B2 (ja) * 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
US5701391A (en) * 1995-10-31 1997-12-23 Motorola, Inc. Method and system for compressing a speech signal using envelope modulation
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US5832441A (en) * 1996-09-16 1998-11-03 International Business Machines Corporation Creating speech models
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
US5897614A (en) * 1996-12-20 1999-04-27 International Business Machines Corporation Method and apparatus for sibilant classification in a speech recognition system
US5899974A (en) * 1996-12-31 1999-05-04 Intel Corporation Compressing speech into a digital format
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6049765A (en) * 1997-12-22 2000-04-11 Lucent Technologies Inc. Silence compression for recorded voice messages
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
DE69931783T2 (de) * 1999-10-18 2007-06-14 Lucent Technologies Inc. Verbesserung bei digitaler Kommunikationseinrichtung
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
SE520375C2 (sv) * 2000-05-05 2003-07-01 Ericsson Telefon Ab L M Ett system, en metod samt ett datorprogram för övervakning av inspelade röstmeddelanden
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
JP2005242231A (ja) * 2004-02-27 2005-09-08 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6476100A (en) * 1987-09-18 1989-03-22 Matsushita Electric Ind Co Ltd Voice compressor
JPH0258100A (ja) * 1988-08-24 1990-02-27 Nec Corp 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0054365B1 (en) * 1980-12-09 1984-09-12 Secretary of State for Industry in Her Britannic Majesty's Gov. of the United Kingdom of Great Britain and Northern Ireland Speech recognition systems
US4495620A (en) * 1982-08-05 1985-01-22 At&T Bell Laboratories Transmitting data on the phase of speech
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
JPS63503094A (ja) * 1986-04-24 1988-11-10 フセソユズニ ナウチノ‐イススレドバテルスキ インスティテュト ラディオベシャテルノゴ プリエマ イ アクスティキ イメニ アー.エス.ポポバ デジタル形式でオーディオ情報信号を記録し読み出す方法とその実現のための装置
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
WO1991014162A1 (en) * 1990-03-13 1991-09-19 Ichikawa, Kozo Method and apparatus for acoustic signal compression
US5140639A (en) * 1990-08-13 1992-08-18 First Byte Speech generation using variable frequency oscillators
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6476100A (en) * 1987-09-18 1989-03-22 Matsushita Electric Ind Co Ltd Voice compressor
JPH0258100A (ja) * 1988-08-24 1990-02-27 Nec Corp 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Also Published As

Publication number Publication date
EP0605348A3 (en) 1996-03-20
US5448679A (en) 1995-09-05
EP0605348A2 (en) 1994-07-06

Similar Documents

Publication Publication Date Title
JPH06230800A (ja) 音声データ圧縮及び再生の方法及び装置
US4864620A (en) Method for performing time-scale modification of speech information or speech signals
CA2257298C (en) Non-uniform time scale modification of recorded audio
US6044341A (en) Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
KR101046147B1 (ko) 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법
CN111667805B (zh) 一种伴奏音乐的提取方法、装置、设备和介质
JP3607450B2 (ja) オーディオ情報分類装置
JP2005122034A (ja) オーディオデータ圧縮方法
JP2965788B2 (ja) 音声用利得制御装置および音声記録再生装置
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
KR100194659B1 (ko) 디지탈 녹음기의 음성 녹음방법
JPH10133678A (ja) 音声再生装置
JPH07272447A (ja) 音声データ編集システム
US5899974A (en) Compressing speech into a digital format
JPH09146587A (ja) 話速変換装置
JP2654946B2 (ja) 音声記録再生装置
JPH10124098A (ja) 音声処理装置
JP2006508386A (ja) サウンドフレームを正弦波成分と残留ノイズとに分離する方法
JPH07261779A (ja) 音節認識装置
JPH0242497A (ja) 音声記録再生装置
KR20030000400A (ko) 음성 재생속도 실시간 변환 방법 및 장치
JP2900078B2 (ja) 波形記録・再生法及び波形再生装置
CN118135993A (zh) 语音合成模型训练方法与语音合成方法、设备、介质及程序产品
JP2002287788A (ja) 録音周波数特性測定方法、録音周波数特性変換方法および音声認識方法
JPH04293100A (ja) 固体記録素子を用いたデジタル録音再生装置