JP5233986B2 - 音声波形補間装置および方法 - Google Patents

音声波形補間装置および方法 Download PDF

Info

Publication number
JP5233986B2
JP5233986B2 JP2009503800A JP2009503800A JP5233986B2 JP 5233986 B2 JP5233986 B2 JP 5233986B2 JP 2009503800 A JP2009503800 A JP 2009503800A JP 2009503800 A JP2009503800 A JP 2009503800A JP 5233986 B2 JP5233986 B2 JP 5233986B2
Authority
JP
Japan
Prior art keywords
audio data
interpolated
waveform
amplitude
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009503800A
Other languages
English (en)
Other versions
JPWO2008111158A1 (ja
Inventor
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008111158A1 publication Critical patent/JPWO2008111158A1/ja
Application granted granted Critical
Publication of JP5233986B2 publication Critical patent/JP5233986B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Analogue/Digital Conversion (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声波形の補間装置、例えばパケット通信システムにおいて音声パケットの伝送途中で消失した音声パケットに相当する音声波形を受信側において再生する場合に使用される音声波形補間装置に関する。また例えば、蓄積した音声素片のデータを編集あるいは加工して新たな音声データを生成するような音声編集/加工処理システムに使用可能な音声波形補間装置に関する。
なお以下においては、前者の音声パケット通信システムを代表例として説明する。
近年、インターネットの普及を背景に、IP(Internet Protocol)ネットワークを介して、音声データをパケット化した音声パケットを伝送する、いわゆるVoIP(Voice over IP)通信システムが急速に普及しつつある。
このようにPCMデータをパケット単位で伝送するIPネットワークにおいては、受信すべき音声パケットの一部が消失したりあるいは欠落したりすると、当該音声パケットにより再生される音声の音声品質を劣化させる原因となる。このため、その音声パケットの消失等による音声品質の劣化を、ユーザに極力気付かせないようにする方法が従来より種々提案されている。
この音声パケット消失隠蔽方法の一つとして、ITU−T(International Telecommunication Union:国際電気通信連合)勧告G.711 Appendix Iが既に知られている。このG.711 Appendix Iにおいて規定されるパケット消失隠蔽方法においては、まず、音声の物理的特性の一つであるピッチ周期を、波形相関を用いることによって抽出する。そしてこの抽出したピッチパターンを、消失した音声パケットに相当する部分に対して繰り返して配置することによって、消失隠蔽信号を生成する。なお、連続して音声パケットの消失が生じるような場合には、その消失隠蔽信号を徐々に減衰させるようにする。
さらにまたいくつかの消失音声の補間再生方法が提案されており、例えば、下記の〔特許文献1〕〜〔特許文献3〕がある。
〔特許文献1〕においては、パケット消失前の、正常に受信した音声データから推定した、ピッチ周期の揺らぎと、パワー変動とを付与して消失隠蔽信号を生成する方式が開示されている。また、〔特許文献2〕においては、パケット消失前および消失後のパケットのうちの少なくとも一方を参照し、そのピッチ変動特性と、パワー変動特性とを利用して、音声消失区間のピッチ変動およびパワー変動を推定する。そしてこの推定した特性を用いることによって、音声消失区間の音声波形を再生する方式が開示されている。さらにまた、〔特許文献3〕においては、欠落以前に入力した音声パケットの信号との最適マッチング波形の算出を非規格化差分演算処理により行い、算出結果の最小値に基づいて、欠落以前に入力した音声パケットの信号から補間する補間信号を決定する方式が開示されている。
特開2001−228896号公報 WO2004/068098号公報 特開平2−4062号公報
上述した従来における消失音声の波形補間方法によれば、消失パケットの直前もしくは直後の波形を抜き出してそのピッチ周期を抽出し、そのピッチ波形を繰り返すことによって補間音声波形を生成している。この場合、その消失パケットの直前もしくは直後の波形が抜き出されるため、その抜き出した波形の如何に拘らず、全て同じようにピッチ波形の繰り返しが行われ、補間音声波形が生成される。
上記の補間音声の波形の生成に用いる直前の波形が、例えば母音の中間付近のように、振幅が一定以上あって、かつ振幅変動も少ないような安定した波形であるならば、音質劣化がほとんどない音声波形の生成が可能である。しかし、例えば母音から子音にフォルマントが大きく変化する渡り部分や、呼気段落末等でパケット消失が生じたような場合には、上記の補間音声波形の生成に用いる波形が、自己相関度の高い周期性波形であっても、ブザー音のような再生音となり、音質劣化をひき起こす場合がある。これを図で示す。
図14は、送信音声波形(A)と、その送信された音声波形(A)のうち、音声パケットの消失による波形の欠落部分を補間した補間音声波形(B)を示す図である。本図の(A)において、一連の音声波形のうち、パケット消失(パケットロス)があったために音声パケットに欠落が生じた部分をPaとして示す。上述した従来の方法によれば、その欠落部分Paの常に直前のパケットPbを抜き出し、これを同図(B)に示すように、繰り返したパケットPb′として、その欠落部分Paに挿入配置している。
このPb′の波形は一見きれいな波形であるが、実際の音声として再生すると、ユーザにとって不快なブザー音となってしまう、という問題がある。
したがって本発明は、上記問題点に鑑み、不快な再生音を生じさせない、音声波形補間装置を提供することを目的とするものである。
また、そのための音声波形補間方法ならびに、コンピュータのための音声波形補間プログラムを提供することを目的とするものである。
本発明に基づく音声波形補間装置は、後に図を用いて説明するとおり、
(i)音声データを記憶する音声格納部と、
(ii)前記音声データの一部を、該音声データの他の一部で補間した音声データを生成する補間波形生成部と、
(iii)前記音声格納部からの音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
(iv)前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、
から構成する。このうち、本発明を最も特徴づけるのは、上記(iv)の補間波形設定機能部である。
この補間波形設定機能部(iv)は、さらに具体的には、前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含んでなる。
さらに詳細には、音声データの単位フレーム当たりの振幅情報を算出して、時間方向の振幅値から振幅包絡を求め、その振幅包絡を元にして波形補間に用いるべき近傍の波形の、振幅包絡上の位置を特定する。この特定した位置の振幅情報から、前述の繰り返しに適した波形か否かを上記音声波形判定部にて判定する。
図1は、本発明の基本構成を示す図である。 図2は、図1の基本構成をさらに具体的に示す図である。 図3は、図14(A)の波形と同様の波形(A)と、波形(A)を中間に含む長時間の音声波形(B)と、波形(B)の振幅値計算により得た振幅包絡(C)を示す図である。 図4は、パケット通信システムの音声波形補間装置の第1例を示す図である。 図5は、図14(A)の波形と同様の波形(A)と、背景雑音区間により補間された音声波形(B)を示す図である。 図6は、図14(A)の波形と同様の波形(A)と、後方音声データにより補間された音声波形(B)を示す図である。 図7は、音声波形補間装置の第2例を示す図である。 図8は、図7に示す音声波形補間装置の動作を示すフローチャートである。 図9は、図8に示すステップS19をさらに詳細に示すフローチャートである。 図10は、音声波形補間装置の第3例を示す図である。 図11は、音声波形補間装置の第4例を示す図である。 図12は、図14(A)の波形を変形した一例(A)と、前方音声データにより補間された音声波形(B)を示す図である。 図13は、図6および図12に示すような波形補間を行うときの動作を表すフローチャートである。 図14は、送信音声波形(A)と、その送信された音声波形(A)のうち、音声パケットの消失による波形の欠落部分を補間した補間音声波形(B)を示す図である。
符号の説明
1 音声波形補間装置
2 音声格納部
3 補間波形生成部
4 波形結合部
5 補間波形設定機能部
6 振幅情報分析部
7 音声波形判定部
8 振幅値算出部
9 振幅情報格納部
11 有声/無声判定部
12 判定閾値判定部
13 振幅使用範囲設定部
14 話者識別部
15 判定閾値格納部
16 振幅使用範囲格納部
図1は本発明の基本構成を示す図である。本図に示すとおり、本発明に係る音声波形補間装置1は、音声データDinを記憶する音声格納部2と、音声データDinの一部を、この音声データDinの他の一部で補間した音声データDcを生成する補間波形生成部3と、音声格納部2からの音声データDinと、その一部を代替する補間波形生成部3からの補間音声データDcとを結合して音声データDoutとして出力する波形結合部4と、上記の音声データDinの一部が、補間波形生成部3にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データDcとして設定する補間波形設定機能部5と、からなる。
ここに補間波形設定機能部5は、音声格納部2からの音声データDinについてその振幅情報を分析する振幅情報分析手段6と、その分析結果に基づいて補間音声データDcとして適切か否かを判定する音声波形判定部7とを含んでなる。
図2は図1の基本構成をさらに具体的に示す図である。なお、全図を通じて同様の構成要素には同一の参照番号または記号を付して示す。
図2においては、図1の振幅情報分析手段6を一層具体的に示す。すなわち、振幅情報分析手段6は、音声データDinの振幅値を計算して時間方向の振幅値を得る振幅値算出部8と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部9とを有してなる。この振幅値算出部8は、振幅包絡や、その振幅の最大値および最小値も算出する。
ここに音声波形判定部7は、上記の時間方向の振幅情報から特定される振幅包絡上の位置から、補間音声データDcとして適切か否かを判定する。なお、本図の右上に示すSWは、出力音声データDoutとして、入力音声データDinをそのまま通過させるか、または補間により得た波形結合部5からの補間音声データDcを含む音声データを、択一的に切り換えるスイッチである。ここで本発明の原理を容易に理解するために図3を参照する。
図3は、図14(A)と同様の波形(A)と、波形(A)を中間に含む長時間の音声波形(B)と、波形(B)の振幅値計算(8)により得た振幅包絡(C)を示す図である。本図(A)のPaの部分に音声パケットの消失が生じた場合に、その消失パケットの直前のパケットに相当する音声波形Pbが補間波形(Dc)として適切か否か、音声波形判定部7にて判定する。
この音声波形判定部7での判定手法を説明するために図3の(B)および(C)を参照する。音声波形判定部7は、アナログ波形で表すと同図(B)のようになる入力音声データDinを振幅情報分析部6にて分析した結果、すなわちアナログで示すと同図(C)のようになる振幅包絡EVを入力として、補間波形として適切か否か、その補間波形としてのいくつかの候補について判定する。
この場合、振幅包絡EV上のどの位置にその候補が位置しているか、をその判定基準とする。ここで本図(C)の振幅包絡EVを分析すると、Pbの部分の音声波形は、振幅が局所的に小さくなった位置にあり、上記の補間波形の候補にはならない。また、Pc1の部分やPc2の部分の各音声波形は、振幅包絡の極小値をとる位置にあり、上記の補間波形の候補にはならない。さらにまた、Pdの部分音声波形は、振幅包絡上の無声音区間Sの直前に位置しており、補間波形の候補にはならない。これらPb,Pc1,Pc2,Pdのいずれかに位置する音声波形を補間波形として用いたとすると、例えば既述したブザー音のような音声が再生されてしまう。そこで本発明は、補間波形生成部3にて補間波形として使用しようとする図3(C)の振幅包絡(EV)上の波形として、これらPb,Pc1,Pc2,Pd等に位置しない波形を選択することとする。
上述した本発明の原理によって、音声編集/加工処理システムに使用される音声補間装置や、パケット通信システムに使用される音声波形補間装置が実現される。
前者の音声編集/加工処理システムに使用される音声波形補間装置にあっては、
多数の音声素片を蓄積して保持する音声格納部2と、一連の音声データDinの一部を、その音声素片の繰り返し使用により補間した音声データDcを生成する補間波形生成部3と、音声格納部2に格納された音声データと、その一部を代替する補間波形生成部4からの補間音声データとを結合する波形結合部4と、音声データの一部が、補間波形生成部3にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データとして設定する補間波形設定機能部5と、から構成する。この音声波形補間装置を用いれば、例えば音声合成波形のラベリングにおける子音の音素境界の決定処理を行うときに、また音声合成時における音声素片の配置処理を行うときに、あるいは、話速変換処理を行う際、音声素片長が伸ばされる音声素片を決定するときに、該当の音素片が適切か否かを判定することができる。
一方後者のパケット通信システムに使用される音声波形補間装置にあっては、
逐次受信する各パケットのうち、正常に受信した各パケットが有する音声データを順次記憶する音声格納部2と、パケットの消失(破棄又は遅延)により音声データDinの一部に欠落を生じたとき、その欠落部を音声データDinの他の一部で補間した音声データDcを生成する補間波形生成部3と、音声格納部2に格納された音声データDinと、その一部を代替する補間波形生成部3からの補間音声データDcとを結合する波形結合部4と、音声データDinの一部が、補間波形生成部3にて補間すべき補間音声データDcとして適切か否かを判定し、適切と判定された音声データを選択して、これをその補間音声データとして設定する補間波形設定機能部5と、から構成する。
図4は上記のパケット通信システムの音声波形補間装置の第1例を示す図である。本図において、参照記号“F”は、パケット通信ネットワークから音声パケットを正常受信しているときに活性化されるブロックを示し、一方、参照記号“G”は、パケット通信ネットワークからの一連の音声パケットの中に欠落した音声パケットがあることを検出したときに活性化されるブロックを示す。ただし、これらブロックFおよびG内の構成は、図2に示した構成と同じである。
本発明の主要部である補間波形設定機能部5は、振幅値算出部8と、振幅情報格納部9と、音声波形判定部7からなる。上記のパケット通信ネットワークにおけるパケット通信において、パケット正常受信区間では、入力音声データDinは、音声格納部2に保存される。振幅値算出部8では、音声格納部2にある音声データDinから、フレーム単位での振幅値を算出し、振幅包絡情報や、振幅最大値、振幅最小値等の振幅情報を算出する。振幅情報格納部9では、振幅値算出部8で算出した振幅情報を保存しておく。
パケット消失(パケットロス)が発生した場合には、音声波形判定部7では、その消失したパケットの前方または後方の波形箇所が、音声格納部2から入力されると、その部分の振幅包絡(EV)上の位置を特定する。補間波形の候補とすべき波形が、振幅包絡(EV)上の極小位置、あるいは、無声音区間Sの直前部分Pdであるか否かの判定を行い、補間波形生成部3にその判定結果が通知される。
補間波形生成部3では、その判定結果に従ってパケット消失した区間の波形を生成する。さらに波形結合部4では、正常受信された区間の音声波形と、補間波形生成部3で生成された補間区間の波形とを、これら波形のつながり部分が滑らかになるように結合して、出力音声データDoutとする。
かくして音声波形判定部7は、代替の候補としての補間音声データDcの振幅包絡(EV)上における位置が、少なくとも、振幅極小位置Pc1,Pc2かあるいは無声音区間の直前位置Pdであると判定したときに、当該部分の音声データを補間音声データDcとして採用せず、当該部分の音声データ以外の位置での別の音声データを探索するあるいは背景雑音区間を探索する(図5参照)。
図5は図14(A)の波形と同様の波形(A)と、背景雑音区間により、補間された音声波形(B)を示す図である。本図(B)の参照記号Pnがその背景雑音区間を示す。パケット消失区間(Pa)の直前区間が波形の繰り返しに不適当と判定された場合、その繰り返しによる波形生成は行わずに、これに代えて背景雑音データをパケット消失区間Paに配置することもできる。この背景雑音区間の音声データは、音声格納部2に格納された音声データと、有声/無声の判定結果(図7の有声/無声判定部11参照)とを利用して無声の雑音のみの音声データを取り出して使用するものである。なお、背景雑音データも時々刻々と変化するので、使用する区間は、できるだけ消失パケットPaに近い音声データを使用するのが望ましい。
さらにまた音声波形判定部7は、補間されるべき音声データDinにおいて時間軸上の前方に順次現れる前方音声データのいずれかおよび、その補間されるべき音声データDinにおいて時間軸上の後方に順次現れる後方音声データのいずれか、の少なくとも一方を、上述した代替の候補としての補間音声データDcとする(図6参照)。
図6は図14(A)の波形と同様の波形(A)と、上記の後方音声データ(Pr)により補間された音声波形(B)を示す図である。本図の補間波形生成の例は、消失パケットの前方だけではなく、消失パケットの後方の音声データも判定して、補間波形を生成した例である。消失パケットの直前のパケットが繰り返しに不適切と判定され、一方消失パケットの直後のパケットが繰り返しに適すると判定された場合、その適すると判定された後方パケットの音声データを繰り返し配置することで、補間区間の波形Dcを生成する。ただし、後方音声データが利用できるのは、音声の若干の遅延が許容される場合である。
なお、補間波形の生成方法は、当然、組み合わせることも可能で、波形の繰り返しによる補間波形に、雑音波形を重畳させたり、パケットの消失が連続して長く生じた場合に、消失パケット区間の前半と後半とに分けて波形生成の方法を変更することも可能である。
図7は音声波形補間装置の第2例を示す図である。本図と図4(第1例)との相違は、有声/無声判定部11が追加されたことである。すなわちこの第2例に基づく音声波形補間装置1は、音声格納部2に記憶された音声データDinを有声部分と無声部分とに分類して判定する有声/無声判定部11をさらに備え、判定された有声部分についてはその振幅最大値と振幅変動率を振幅算出部8にて算出してその結果を振幅情報格納部9に保持し、判定された無声部分についてはその振幅平均値を振幅算出部8にて算出してその結果を振幅情報格納部9に保持するようにする。さらに詳しくは、次のとおりである。
入力音声データDinは有声/無声判定部11に入力されて、音声区間と無声区間に分類される。次段の振幅値算出部8では音声格納部2に格納された入力音声データDinから、フレーム単位(例えば4msec)で音声の振幅値を算出する。この振幅値の時間方向の変化を表す振幅包絡(EV)の情報の他に、上記の有声/無声判定部11で分類された結果を元に、有声区間における振幅の最大値と最小値、音声区間の平均振幅をそれぞれ算出する。そして振幅情報格納部9では、上記のように振幅値算出部8で算出した振幅情報と、有声/無声の判定結果とを保存しておく。
パケットロス(消失)が発生した場合には、音声波形判定部7では、消失したパケットの前方(または後方)の波形箇所が音声格納部2から入力されると、その部分の振幅包絡(EV)上の位置を特定する。補間の候補とすべき波形が、振幅包絡(EV)上の極小位置であるか、あるいは、無声音区間Sの直前部分であるかの判定を行う。実際の音声波形を用いた説明は前述の図5を参照して行ったとおりである。
上記の有声/無声判定部11を導入すると、最大値、最小値、極小値の算出精度が向上するのみならず、振幅値算出部8での演算負荷が軽くなる、という利点が得られる。以下に、この有声/無声判定部11を導入したときの動作フローを説明する。
図8は図7に示す音声波形補間装置の動作を表すフローチャートである。本図において、
ステップS11:パケットを正常受信したか否か判定する。
ステップS12:上記の正常受信が行われると(YES)、その1パケットデータ(音声データ)を取り込み、
ステップS13:その入力音声データDinを音声格納部2に格納する。
ステップS14:さらに上記の有声/無声判定部11は、音声データDinについて有声部分と無声部分との分別処理を行い、
ステップS15:その分別結果による判定を行う。
ステップS16:上記の判定により有声であると判定されると、音声データの振幅包絡(EV)と、その振幅の最大値とが算出され、
ステップS17:一方、上記の判定により無声であると判定されると、その無声音声の振幅の平均値(すなわち、有声音声の振幅の最小値)が算出されて、
ステップS18:これらの算出データが振幅情報格納部9に保持される。
ステップS19:上記の初期ステップS11においてパケットの正常受信が行われなかった旨(パケット消失)の判定がなされると、ステップS18で保持している振幅情報を元に上記音声波形判定部7による判定を行い、
ステップS20:上述したとおりの、補間波形生成部3による補間音声データDcの生成を行う。
ステップS21:さらに入力音声データDinと補間音声データDcとの滑らかな結合を波形結合部4にて行い、
ステップS22:出力音声データDoutを得る。ここで、上記のステップS19についてさらに詳しく説明する。
図9は図8のステップS19をさらに詳細に示すフローチャートである。本図において、
ステップS31:音声波形判定部7は、補間音声波形の候補としようとしている、振幅包絡EV(図3)上における位置での振幅変化率を調べる。この振幅変化率の小さいところには、補間波形としては不適切な箇所が含まれている。
ステップS32:しかし振幅変化率の小さい箇所の中から、以下の3段階の判定で補間波形として不適切な箇所の判定を行う。まず(振幅値−振幅最小値)<無声音直前区間判定閾値ならば、即座に補間波形としては不適当とし、判定フラグをOFF(使用不可)とする。
ステップS33:上記の不等式の成立が「否」であれば、次に、(振幅値−振幅最小値)<極小値判定閾値1の不等式が成立するか調べ、
ステップS34:その不等式が成立すると(YES)、さらに(振幅最大値−振幅値)<極小値判定閾値2の不等式が成立するか調べて、
ステップS35:この不等式が成立すると(YES)、最終的に当該音声データの補間波形としての使用は不可とされる(判定フラグ=OFF)。要するに、前述の図3を参照すると、例えば本図中の振幅範囲“TH”内に入ったときは、使用不可とする。
ステップS36:したがって上記ステップS31,S33およびS34の判定結果のいずれかが“NO”であれば、当該音声データは補間波形として使用が許可される(判定フラグ=ON)。
図10は音声波形補間装置の第3例を示す図であり、
図11は音声波形補間装置の第4例を示す図である。
要約すればこれら第3例と第4例は、音声格納部2に記憶された音声データDinと振幅情報格納部9に格納された振幅情報とを元に、音声波形判定部7において補間音声データDcとして適切か否かの判定をする際の振幅判定閾値T1を設定する判定閾値設定部12をさらに備える音声波形補間装置を示すと共に、
話者識別部14をさらに備え、上記の振幅判定閾値T1を、識別された話者ごとに設定するようにした音声波形補間装置(図11)を示し、また
振幅使用範囲設定部13をさらに備え、この振幅使用範囲設定部13は、音声波形判定部7において使用する振幅情報のうちのどの範囲を使用すべきかを設定するようにした音声波形補間装置(図10、図11)を示す。
判定閾値設定部12は、時々刻々と変化する音声データDinに対応するために、音声波形判定を行う際の判定閾値T1を、音声格納部2の音声データと、振幅情報格納部9の振幅情報を元にして算出して、判定閾値格納部15に格納する。なお、各種判定閾値の具体例を以下に示す。
・呼気段落末判定閾値=(無声音区間)振幅平均値×1.2
・極小値判定閾値1=(有声音声区間)振幅最小値×1.2(図9のS33参照)
・極小値判定閾値2=(有声音声区間)振幅最大値×0.8(図9のS34参照)
一方、図10と図11の振幅使用範囲設定部13では、音声波形判定部7で使用する振幅情報の使用範囲を設定する。振幅情報の使用範囲の設定の仕方としては、(i)時間の範囲として設定したり、(ii)有声/無声判定部11の判定結果を参照して、2つの無声音区間で挟まれた有声音区間を振幅の使用範囲として設定したり、(iii)有声/無声判定部11の判定結果を参照して、一呼気段落を振幅の使用範囲として設定することが考えられる。
上記(i)〜(iii)をさらに詳しく説明すると、
(i)例えばパケットロス消失前の3秒間といった時間を指定し、
(ii)有声/無声判定部11の判定結果より、無声と無声とで挟まれた区間を振幅使用範囲に設定するが、無声は、背景雑音だけの区間だけでなく、摩擦音(例えば「サ行」の音の子音部分)や、破裂音(例えば「タ行」の音の子音部分)も含むものとし、
(iii)有声/無声判定部11の判定結果より、一呼気段落すなわち一息でしゃべる範囲を振幅使用範囲に設定する。
図10および図11の音声波形判定部7では、振幅情報格納部9の振幅情報、判定閾値格納部15の判定閾値、振幅使用範囲格納部16の振幅使用範囲を用いて、音声波形が繰り返して使用可能な音声波形か否かの判定を行う。
また、振幅使用範囲格納部16内に保持された振幅使用範囲内にある振幅情報を振幅情報格納部9から得て、振幅最小値、振幅最大値等を算出する。さらに、判定閾値格納部15の判定閾値を用いて判定するが、このときの判定方法については、図9に示すフローチャートのとおりである。
図11の第4例における話者識別部14は、音声格納部2の音声データDinを元に、話者の識別を行う。話者の識別方法については、音声データをFFT(Fast Fourier Transform)によって周波数変換し、その平均周波数や、フォルマントを調べることによって識別することが可能である。話者によって、母音から子音に移行するときの振幅変化率は異なるし、極小値部分の子音の振幅平均値もまた異なるし、さらにまた振幅最大値と振幅最小値の差も異なる。そこで、判定閾値格納部15には、話者別の閾値情報を格納するものとする。
音声パケットの消失が生じた場合には、音声格納部2の音声データから話者識別を行い、音声波形判定部7では、判定閾値格納部15内に保持された話者別の閾値情報を使用することにより、波形の判定を行うが、このとき話者別の閾値を用いることによって、判定性能をさらに向上させることができる。
波形補間の方法は前述したとおり種々考えられる。例えば前述の図5や図6に示す方法であるが、さらにもう1つの態様を示しておく。
図12は図14(A)の波形を変形した一例(A)と、前方音声データにより補間された音声波形(B)を示す図である。本図の波形生成の例は、消失パケットPaの前方音声波形データのみを用いて、補間区間(W区間)の波形生成を行う例である。パケットロス区間(Pa)の直前区間(U区間)の音声波形が波形の繰り返し使用には不適当と判定された場合に、さらに前方パケット(V区間)の判を行い、その結果、波形繰り返し使用として適切と判定された場合には、V区間の波形をW区間に繰り返して配置し、さらにU区間の波形を続けて配置することによって、補間区間Wの波形PVを生成する。
さらに別の態様として、消失パケットの後方の音声波形データを用いる場合において、その消失パケット区間の直後の区間が波形の繰り返し使用に不適当と判定されたときには、さらにその後方のパケットの判定を行い、そこが繰り返し使用として適切と判定された場合には、まず繰り返し使用が適当とされた上記の区間の波形を一度だけ配置し、上記の後方パケットの波形を繰り返し使用してつなげることにより、補間区間Wの波形を生成することもできる。
図13は図6および図12に示すような波形補間を行うときの動作を表すフローチャートである。本図において、
ステップS41:補間波形設定機能部5において、判定の対象となる入力音声信号(Din)を得る。
ステップS42:その入力音声信号をなすパケットは、消失パケットの前方パケットか後方パケットかを判定し、
ステップS43:前方パケットであれば、その波形(図12のU区間参照)について判定する。
ステップS44:その判定結果により、その前方パケットが補間区間での繰り返し使用に不適当とされると(NO)、
ステップS45:さらに1つ前方のパケット(図12のV区間)を判定の対象として、同様の操作を繰り返し、
ステップS46:ステップS44にて、補間区間での繰り返し使用として適切と判定されると(YES)、その適切とされた前方波形によりその補間区間での波形が生成される。また別の補間の仕方は次のとおりである。
ステップS47:上記ステップS42において、入力音声信号をなすパケットが、消失パケットの前方パケットか後方パケットかを判定し、後方パケットであれば、その波形(図6のPr参照)について判定する。
ステップS48:その判定結果により、その後方パケットが補間区間での繰り返し使用に不適当とされると(NO)、
ステップS49:さらに1つ後方のパケットを判定の対象として、同様の操作を繰り返し、
ステップS50:ステップS48にて、補間区間での繰り返し使用として適切と判定されると(YES)、その適切とされた後方波形によりその補間区間での波形が生成される。
以上詳述した本発明の音声波形補間装置は、方法のステップとして表現することもできる。すなわち、記憶した音声データDinの一部を、該音声データの他の一部で補間した音声データを生成する音声波形補間方法であって、(i)音声データDinを記憶する第1ステップと、(ii)その音声データの一部が、補間すべき補間音声データDcとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データDcとして設定する第2ステップと、(iii)第1ステップ(i)で記憶した音声データと、第2ステップ(ii)で設定された補間音声データDcとを結合する第3ステップと、を有する音声波形補間方法である。
さらに第2ステップ(ii)において、第1ステップ(i)で記憶された音声データDinについてその振幅情報を分析する分析ステップと、その分析結果に基づいて補間音声データDcとして適切か否かを判定する音声波形判定ステップを含む音声波形補間方法である。
また本発明は音声波形補間プログラムとしても表現でき、コンピュータに、記憶した音声データDinの一部を該音声データの他の一部で補間した音声データを生成させるようにした音声波形補間プログラムであって、(i)音声データDinを記憶する第1ステップと、(ii)その音声データの一部が、補間すべき補間音声データDcとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データDcとして設定する第2ステップと、(iii)第1ステップ(i)で記憶した音声データと、第2ステップ(ii)で設定された補間音声データとを結合する第3ステップと、を実行させる音声波形補間プログラムである。

Claims (6)

  1. 音声データを記憶する音声格納部と、
    前記音声データの一部を、該音声データの他の一部で補間した音声データを生成する補間波形生成部と、
    前記音声格納部からの音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
    前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
    前記補間波形設定機能部は、
    前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
    その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
    前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
    前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
  2. 前記音声格納部に記憶された前記音声データを有声部分と無声部分とに分類して判定する有声/無声判定部をさらに備え、判定された有声部分についてはその振幅最大値と振幅変動率を前記振幅値算出部にて算出してその結果を前記振幅情報格納部に保持し、判定された無声部分についてはその振幅平均値を前記振幅値算出部にて算出してその結果を前記振幅情報格納部に保持することを特徴とする請求項1に記載の音声波形補間装置。
  3. パケット通信システムに使用される音声波形補間装置であって、
    逐次受信する各パケットのうち、正常に受信した各パケットが有する音声データを順次記憶する音声格納部と、
    パケットの消失により前記音声データの一部に欠落を生じたとき、該欠落部を前記音声データの他の一部で補間した音声データを生成する補間波形生成部と、
    前記音声格納部に格納された音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
    前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
    前記補間波形設定機能部は、
    前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
    その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
    前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
    前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
  4. 音声編集/加工処理システムに使用される音声波形補間装置であって、
    一連の音声データを構成する多数の音声素片を蓄積して保持する音声格納部と、
    前記一連の音声データの一部を、前記音声素片の繰り返し使用により補間した音声データを生成する補間波形生成部と、
    前記音声格納部に格納された音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
    前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
    前記補間波形設定機能部は、
    前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
    その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
    前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
    前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
  5. 記憶した音声データの一部を、該音声データの他の一部で補間した音声データを生成する音声波形補間方法において、
    前記音声データを記憶する第1ステップと、
    前記音声データの一部が、前記の補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する第2ステップと、
    前記第1ステップで記憶した音声データと、前記第2ステップで設定された前記補間音声データとを結合する第3ステップと、を有し、
    前記第2ステップは、
    前記第1ステップで記憶された前記音声データについてその時間方向の振幅情報を分析する分析ステップと、
    その分析結果に基づいて前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定する音声波形判定ステップを含み、該音声波形判定ステップにおいて、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間方法。
  6. コンピュータに、記憶した音声データの一部を、該音声データの他の一部で補間した音声データを生成させるようにした音声波形補間プログラムであって、
    前記音声データを記憶する第1ステップと、
    前記音声データの一部が、前記の補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する第2ステップと、
    前記第1ステップで記憶した音声データと、前記第2ステップで設定された前記補間音声データとを結合する第3ステップと、を実行させ、かつ
    前記第2ステップは、
    前記第1ステップで記憶された前記音声データについてその時間方向の振幅情報を分析する分析ステップと、
    その分析結果に基づいて前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定する音声波形判定ステップであって代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索するステップ
    を実行させることを特徴とする音声波形補間プログラム。
JP2009503800A 2007-03-12 2007-03-12 音声波形補間装置および方法 Expired - Fee Related JP5233986B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/054849 WO2008111158A1 (ja) 2007-03-12 2007-03-12 音声波形補間装置および方法

Publications (2)

Publication Number Publication Date
JPWO2008111158A1 JPWO2008111158A1 (ja) 2010-06-24
JP5233986B2 true JP5233986B2 (ja) 2013-07-10

Family

ID=39759109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009503800A Expired - Fee Related JP5233986B2 (ja) 2007-03-12 2007-03-12 音声波形補間装置および方法

Country Status (4)

Country Link
US (1) US20090326950A1 (ja)
JP (1) JP5233986B2 (ja)
CN (1) CN101542593B (ja)
WO (1) WO2008111158A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
JP2010245657A (ja) * 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
KR20120056661A (ko) * 2010-11-25 2012-06-04 한국전자통신연구원 음성 신호 전처리 장치 및 방법
JP5694745B2 (ja) * 2010-11-26 2015-04-01 株式会社Nttドコモ 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
JP5671630B2 (ja) * 2011-11-22 2015-02-18 パイオニア株式会社 音声信号補正装置及び音声信号補正方法
US20150249693A1 (en) * 2012-10-12 2015-09-03 Ankush Gupta Method and system for enabling communication between at least two communication devices using an animated character in real-time.
KR20140067512A (ko) * 2012-11-26 2014-06-05 삼성전자주식회사 신호 처리 장치 및 그 신호 처리 방법
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
US11287310B2 (en) 2019-04-23 2022-03-29 Computational Systems, Inc. Waveform gap filling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002271397A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット損失復旧器、及び、パケット損失復旧方法
WO2004068098A1 (ja) * 2003-01-30 2004-08-12 Fujitsu Limited 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
JP2005027051A (ja) * 2003-07-02 2005-01-27 Alps Electric Co Ltd リアルタイムデータの補正方法及びブルートゥースモジュール
JP2005233993A (ja) * 2004-02-17 2005-09-02 Matsushita Electric Ind Co Ltd 音声伝送システム
JP2005274917A (ja) * 2004-03-24 2005-10-06 Mitsubishi Electric Corp 音声復号装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4246617A (en) * 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
JP2795151B2 (ja) * 1993-12-28 1998-09-10 日本電気株式会社 簡易型携帯電話システムのシステム情報と音声の多重方式
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US6278974B1 (en) * 1995-05-05 2001-08-21 Winbond Electronics Corporation High resolution speech synthesizer without interpolation circuit
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6064955A (en) * 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
AUPP829899A0 (en) * 1999-01-27 1999-02-18 Motorola Australia Pty Ltd Method and apparatus for time-warping a digitised waveform to have an approximately fixed period
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7110947B2 (en) * 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US6480827B1 (en) * 2000-03-07 2002-11-12 Motorola, Inc. Method and apparatus for voice communication
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
DE10124421C1 (de) * 2001-05-18 2002-10-17 Siemens Ag Verfahren zur Schätzung eines Codecparameters
JP4170217B2 (ja) * 2001-08-31 2008-10-22 株式会社ケンウッド ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
CA2359771A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
JP4419748B2 (ja) * 2004-08-12 2010-02-24 沖電気工業株式会社 消失補償装置、消失補償方法、および消失補償プログラム
US7672835B2 (en) * 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
JP4744338B2 (ja) * 2006-03-31 2011-08-10 富士通株式会社 合成音声生成装置
JP5157852B2 (ja) * 2008-11-28 2013-03-06 富士通株式会社 音声信号処理評価プログラム、音声信号処理評価装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002271397A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット損失復旧器、及び、パケット損失復旧方法
WO2004068098A1 (ja) * 2003-01-30 2004-08-12 Fujitsu Limited 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
JP2005027051A (ja) * 2003-07-02 2005-01-27 Alps Electric Co Ltd リアルタイムデータの補正方法及びブルートゥースモジュール
JP2005233993A (ja) * 2004-02-17 2005-09-02 Matsushita Electric Ind Co Ltd 音声伝送システム
JP2005274917A (ja) * 2004-03-24 2005-10-06 Mitsubishi Electric Corp 音声復号装置

Also Published As

Publication number Publication date
CN101542593A (zh) 2009-09-23
JPWO2008111158A1 (ja) 2010-06-24
US20090326950A1 (en) 2009-12-31
CN101542593B (zh) 2013-04-17
WO2008111158A1 (ja) 2008-09-18

Similar Documents

Publication Publication Date Title
JP5233986B2 (ja) 音声波形補間装置および方法
US7321851B2 (en) Method and arrangement in a communication system
JP5299436B2 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US6389006B1 (en) Systems and methods for encoding and decoding speech for lossy transmission networks
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP4320033B2 (ja) 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
TW201113873A (en) Reparation of corrupted audio signals
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
US20040184443A1 (en) Low-complexity packet loss concealment method for voice-over-IP speech transmission
TWI354267B (en) Apparatus and method for expanding/compressing aud
JP3331297B2 (ja) 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
JP2001228896A (ja) 欠落音声パケットの代替置換方式
JP6071944B2 (ja) 話者速度変換システムおよびその方法ならびに速度変換装置
JP3159930B2 (ja) 音声処理装置のピッチ抽出方法
CN104934040B (zh) 音频信号的时长调整方法和装置
JP2007178686A (ja) 音声変換装置
JPH0229232B2 (ja)
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
Jelassi et al. Voicing-aware parametric speech quality models over VoIP networks
JPWO2003042648A1 (ja) 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法
Becvar et al. Comparison of Common PLC Methods Used in VoIP Networks
JP3937688B2 (ja) 話速変換方法および話速変換装置
JPS62220996A (ja) 音声認識方法及び装置
Gokhale Packet loss concealment in voice over internet
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121211

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees