JP2012504779A - 音声データの伝送にエラーがある際のエラー隠蔽方法 - Google Patents

音声データの伝送にエラーがある際のエラー隠蔽方法 Download PDF

Info

Publication number
JP2012504779A
JP2012504779A JP2011529523A JP2011529523A JP2012504779A JP 2012504779 A JP2012504779 A JP 2012504779A JP 2011529523 A JP2011529523 A JP 2011529523A JP 2011529523 A JP2011529523 A JP 2011529523A JP 2012504779 A JP2012504779 A JP 2012504779A
Authority
JP
Japan
Prior art keywords
audio signal
signal
received
frame
signal frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011529523A
Other languages
English (en)
Other versions
JP5284477B2 (ja
Inventor
ファリー ペーター
メアツ フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2012504779A publication Critical patent/JP2012504779A/ja
Application granted granted Critical
Publication of JP5284477B2 publication Critical patent/JP5284477B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

本発明は、音声信号(11)の出力方法に関する。本方法においては、音声信号フレーム(1,3)が受信され、出力すべき前記音声信号(11)を形成するために所定の順序で使用され、受信すべき少なくとも1つの音声信号フレーム(2)が受信されない場合には、受信しなかった少なくとも1つの音声信号フレーム(2)の代わりに少なくとも1つの代替音声信号フレーム(100)が使用され、少なくとも1つの代替音声信号フレーム(100)が、事前に受信した少なくとも1つの音声信号フレーム(1)に依存して形成される。事前に受信した少なくとも1つの音声信号フレーム(1)が無声音声信号を有する場合には、少なくとも1つの代替音声信号フレーム(100)の音声信号がノイズ信号を用いて形成される。さらに本発明は、相応の制御装置に関する。

Description

本発明は、独立請求項の上位概念に記載されている方法および装置に関する。
有線または無線のネットワークを介して音声信号を伝送するために、音声信号フレームを基礎として音声信号を伝送し、受信器が音声信号フレームの受信後に、この音声信号フレームを送出すべき音声信号の形成に使用することが公知である。音声信号フレームは有利にはいわゆるパケットの形態のデータとして、ネットワーク、例えばGSMネットワーク、インターネットプロトコルに準拠するネットワーク、または、WLANプロトコルに準拠するネットワークを介して伝送されるが、エラーのあるデータ伝送に基づき音声信号フレームが失われる可能性がある。同様に、データのパケット交換伝送時には、音声信号フレームの伝送の過度に長い時間的な遅延が生じる可能性があり、その結果、音声信号を出力するために、遅延して伝送された音声信号フレーム、または失われた音声信号フレームは存在しないことに起因して、その音声信号フレームを音声信号の連続的な出力においては考慮できない可能性がある。受信しなかった音声信号フレームの代わりに、出力すべき音声信号の相応の位置に信号が挿入されない場合には、これによって、相応の位置においては出力すべき音声信号が欠如し、したがって音声信号の音響的な品質が劣化することになる。この理由から、いわゆるエラー隠蔽を行うために、受信しなかった音声信号フレームの代わりに代替音声信号フレームを使用することが必要になる。
音声信号フレームを基礎として音声信号を伝送するための基本原理、またこの音声信号フレームを基礎として音声信号を形成するための基本原理が図1に示されている。図1は、例えば音声信号フレーム1,2,3の形態の3つのセグメントに分割されている音声信号10を示す。ここでの3というセグメントの数は単に例示的に選択されたものに過ぎない。当業者であれば、音声信号フレーム1,2,3の数は3とは異なる数でもよいことが分かる。伝送後に音声信号フレーム1,2,3が受信されると、続けて種々の時点における音声信号10の出力が行われる。図1には時間軸20が示されており、この時間軸20に沿って種々の時点31,32,33が表されており、それらの時点31,32,33においてその都度、音声信号フレーム1,2,3の受信が終了する。この実施例によれば、第1の時点31に第1の音声信号フレーム1の受信が終了しているので、音声信号10を所定の部分まで第1の時点31に出力することができる。またこの実施例によれば、第2の時点32に第2の音声信号フレーム2の受信が終了しているので、この第2の時点32においては音声信号10の別の部分を出力することができる。このことは第3の時点33についても該当し、この第3の時点33においては第3の音声信号フレーム3が完全に受信されている。
図2に示されている実施例にしたがい、出力すべき別の音声信号11がどのように形成されるかを説明する。この実施例においては、受信した音声信号フレーム1,2,3の境が時間的に接するのではなく、重なり合うように別の音声信号11は構成されている。図2に示されている実施例によれば、別の音声信号11は第1のセグメント111、第2のセグメント112ならびに第3のセグメント113から構成されている。図2からは、第1のセグメント111は第1の音声フレーム1と、第2の音声フレーム2の少なくとも一部とを用いて検出できることが見て取れる。第2のセグメント112は、第2の音声フレームと、第3の音声フレーム3の少なくとも一部とを用いて検出することができる。第3のセグメント113は、第3の音声フレーム3に基づき、また場合によっては後続の別の音声フレームに基づき検出することができる。図2に示されている別の時間軸21上には第1の時点41がプロットされており、この第1の時点41は別の音声信号11の第1のセグメント111の終了時点と一致する。すなわち第1の時点41に別の音声信号11を少なくとも第1のセグメントの終了時点まで出力できるようにするためには、少なくとも第1の音声信号フレーム1も第2の音声信号フレーム2も存在していなければならない。さらに、第2の時間軸21上には第2の時点42がプロットされており、この第2の時点42は別の音声信号11の第2のセグメント112の終了時点と一致する。すなわち、別の音声信号11を少なくとも第2のセグメント112の終了時点まで出力できるようにするためには、第2の時点42に第2の音声信号フレーム2および第3の音声信号フレーム3が存在していなければならない。このことは、第3の音声信号フレーム3また考えられる後続の音声信号フレームに関連する、別の音声信号11の第3のセグメント113についての第3の時点にも該当する。図1および図2に示した音声信号フレーム1,2,3は有利には、受信した音声信号フレームを時間的な順序に対応付けるためにインデクス11,12,13をそれぞれ有する。
図3は、第2の音声信号フレーム2が受信されなかったケースを示す。図3によれば、第1の時点41までは確かに第1の音声信号フレーム1が受信されていたが、第2の音声信号フレーム2は受信されなかったので、第1の時点41においては図2の別の音声信号11を正確に出力することはできない。また、第2の時点42に別の音声信号を出力するためにも、確かに、受信した第3の音声信号フレーム3に基づき別の音声信号を形成することはできるが、この第2の時点42においても第2の音声信号フレーム2は欠如している。したがって、受信しなかった音声信号フレーム2の代わりに、代替音声信号フレーム100を形成し、この代替音声信号フレーム100を出力すべき別の音声信号の形成に使用することが必要になる。これに関しては、相応の方法が文献[1]、[2]から周知である。この方法の構成を図4に基づき詳細に説明する。
図4には方法の種々のステップが示されており、この方法を用いることにより、受信した音声信号フレーム50を基礎として代替音声信号フレーム100が形成される。このために、受信した音声信号フレーム50は先ず線形予測解析部62に供給され、この線形予測解析部62は線形予測解析フィルタ61のための線形予測係数51を決定する。受信した音声信号フレーム50のパルス符号モデリングされた音声信号を線形予測するための線形予測の原理、また解析フィルタのための線形予測係数の決定は文献[1]、[4]から当業者には公知である。線形予測解析フィルタ61は受信した音声信号フレーム50の音声信号をフィルタリングし、これによって残存信号52が得られる。この残存信号52は判定部63に供給され、この判定部63は残存信号52を用いて、受信した音声信号フレーム50の音声信号は有声音声信号であるか無声音声信号であるかを決定する。判定部63は音声信号が有声であるか無声であるか関する判定結果53を基本周波数決定ユニット64に転送する。この基本周波数決定ユニット64は残存信号52および判定結果53を用いて音声信号の基本周波数54を決定する。基本周波数は正規化された自己相関関数の各引数を用いて決定される。正規化された自己相関関数の値は引数に関してその最大値を取る(文献[1]、[2]を参照されたい)。
当業者であれば、基本周波数に関して、人間の音声信号にとって重要である値のみを使用する。ノイズ状の性質を持ち、したがって一義的な基本周波数を有していない無声音声信号が存在する場合には、検出すべき信号における不自然な周期性によって生じる高周波領域におけるアーチファクトを低減するために基本周波数54は最小値にセットされる。
評価ユニット65を用いて、残存信号52および基本周波数54に基づき、被評価残存信号55が決定される(文献[1]を参照されたい)。被評価残存信号55は線形予測統合フィルタ66に供給され、この線形予測統合フィルタ66は、既に決定された線形予測係数51に基づき、被評価残存信号55に統合フィルタリングを実施し、その結果、代替音声信号フレーム100の音声信号が得られる。これによって、音声信号のスペクトルエンベロープが外挿され、他方ではそれと同時に信号の周期的な構造が維持される。
図4にしたがい、受信した音声信号フレーム50を基礎として、代替音声信号フレーム100が形成される。受信した音声信号フレーム50として、例えば図3の第1の音声信号フレーム1が考えられる。音声信号フレームの受信ないし伝送時に短時間の障害が生じた場合、従来技術によれば、個々の音声信号フレームを形成することのみが必要とされる。しかしながら、図3に示されている第3の音声信号フレーム3も受信されない場合には、別の代替音声信号フレームを形成することが必要になる。そのような場合には、別の代替音声信号フレームを形成するために、時間的な順序において、最後に受信した第1の音声信号フレームの前に取得した音声信号フレームを解析することによって取得される基本周波数54が使用される。これによって、形成される種々の音声信号フレームの音声信号の基本周波数の変化が生じ、これによって、過度に長い期間にわたり同一の音声信号が出力される場合に生じる不所望な高調波アーチファクトが回避される。
別の第3の代替音声信号フレームを形成すべき場合には、時間的な順序において、最後に受信した第1の音声信号フレーム1から位置2つ分前に受信した音声信号フレームに基づき基本周波数54が得られることによって、別の第3の代替信号フレームを形成するための基本周波数54が変更される。既に3つの代替信号フレームが決定された後にさらなる代替音声信号フレームを形成すべき場合には、基本周波数のさらなる変更は行われない。その代わりに、第3の代替音声信号フレームを形成するために使用された基本周波数54を用いることにより、さらなる全ての代替音声信号フレームが形成される。第3の代替音声信号フレームを形成するためのこの基本周波数54は受信障害が終了するまで使用される。
このようにして形成された代替音声信号フレームが、受信されなかった代替音声信号フレームの代わりに使用される。有利には、出力すべき音声信号11を形成する際の音声信号フレームの円滑な伝送が行われる。
発明の概要
発明の利点
これに対して、独立請求項の特徴を備えた本発明による方法は、代替音声信号フレームの音声信号を評価するために、この代替音声信号フレームの音声信号が、無声音声信号を有する、受信した音声信号フレームに基づき形成される場合には、音声信号のより良好な信号品質が達成されるという利点を有する。このことは、受信した音声信号フレームの無声音声信号に関して、少なくとも1つの代替音声信号フレームの音声信号がノイズ信号を用いて形成されることによって達成される。ノイズ信号は、一義的な基本周波数を有していない信号である。有利には、所定の値領域内に均等分布しているランダム信号がノイズ信号として使用される。
従属請求項に記載されている構成によって、独立請求項に記載されている構成の有利な発展形態および改善形態が実現される。
本発明の別の実施形態によれば、事前に受信した少なくとも1つの音声信号フレームが有声音声信号を有する場合には、少なくとも1つの代替音声信号フレームの音声信号が基本周波数信号を用いて形成される。このことは、音声信号が有声か無声かを区別することによって、また代替音声信号フレームの音声信号を形成するためにノイズ信号または基本周波数信号を相応に使用することによって、この形成に関してより高いフレキシビリティが存在するという利点を有する。
本発明の別の実施形態によれば、ノイズ信号として、スケーリング係数と乗算された、均等分布するノイズ信号が使用される。このことは、ノイズ信号のスケーリングによって、ノイズ信号の振幅ないし信号エネルギの適合、したがって、そこから評価された代替音声信号フレームの音声信号の振幅ないしエネルギの適合を行うことができるという利点を有する。この適合によって、事前に受信した音声信号フレームの音声信号に可能な限り類似する、代替音声信号フレームの音声信号が形成されるという利点が得られる。
本発明の別の実施形態によれば、事前に受信した音声信号フレームの音声信号の線形予測フィルタを用いたフィルタリングから得られる、フィルタリングされた音声信号の信号エネルギに依存してスケーリング係数が決定される。このことは、このように決定されたスケーリング係数を用いることによって、被評価ノイズ信号がこのスケーリング係数との乗算によって形成されるという利点を有する。被評価信号の信号エネルギは線形予測によって事前に取得された音声信号の信号エネルギに可能な限り類似するものである。何故ならば、被評価測定信号は後に再び線形統合フィルタによって、事前に解析フィルタの線形予測係数を用いてフィルタリングされ、代替音声信号フレームの信号が取得されるからである。
本発明の別の実施形態によれば、フィルタリングされた音声信号が、線形予測解析フィルタを用いたフィルタリング後に、それぞれの部分フレームとそれぞれの音声信号フレームに分割され、各部分フレームについて部分音声信号のそれぞれの信号エネルギが検出される。スケーリング係数は、それぞれの信号エネルギのうち最小の値を有する信号エネルギに依存して決定される。これによって、スケーリング係数、したがって被評価残存信号が得られる。この被評価残存信号によって、出力すべき音声信号を形成するために聴取者にとっての音響的な観点において知覚しうる高品質をもたらす代替音声信号フレームの音声信号が得られる。
本発明の別の実施形態によれば、受信した音声信号フレームの音声信号の正規化された自己相関関数に依存して、また受信した音声信号フレームの音声信号のゼロ通過率に依存して、事前に受信した音声信号フレームが有声音声信号を有するのか無声音声信号を有するのかが判定される。このことは、正規化された自己相関関数とゼロ通過率とのこの種の結合によって、音声信号の有声または無声に関して、従来技術に比べて信頼性の高い判定が下されるという利点を有する。
別の独立請求項によれば、音声信号を出力するための制御装置が提供される。制御装置は第1のインタフェースを有し、この第1のインタフェースを介して制御装置は音声信号フレームを受信する。さらに制御装置は計算ユニットを有し、この計算ユニットは受信した音声信号フレームを所定の順序で、出力すべき音声信号を形成するために使用する。本発明による制御装置は出力すべき音声信号を、第2のインタフェースを介して出力する。計算ユニットは、受信すべき少なくとも1つの音声信号フレームが受信されない場合には、受信しなかった少なくとも1つの音声信号フレームの代わりに代替音声信号フレームを使用し、この代替音声信号フレームを事前に受信した少なくとも1つの音声信号フレームに依存して形成する。本発明による制御装置は、事前に受信した音声信号フレームが無声音声信号を有する場合には、計算ユニットがノイズ信号を用いることにより、1つの代替音声信号フレームの音声信号を形成することを特徴とする。このことは、代替音声信号フレームの音声信号を形成するためにノイズ信号を使用することによって、聴取者にとっての音響的な観点において、代替音声信号フレームを形成するために常に基本周波数信号が使用される従来技術の方法に比べて良好な知覚品質が達成されるという利点を有する。
従属請求項によれば、事前に受信した音声信号フレームが有声音声信号を有する場合には、計算ユニットが基本周波数信号を用いることにより、代替音声信号フレームの音声信号を形成する制御装置が提供される。このことは、代替音声信号フレームの音声信号を形成するために基本周波数信号またはノイズ信号を使用することによって、事前に受信した音声信号フレームの音声信号の有声または無声に対応させることができる相応の音声信号を形成することができるという利点を有する。
別の従属請求項によれば、ノイズ信号および/または基本周波数信号を提供するメモリユニットをさらに有する制御装置が提供される。このことは、ノイズ信号および/または基本周波数信号を計算ユニット自体によって、例えばシフトレジスタ自体によって形成する必要はなく、この信号を簡単なやり方でメモリユニットから呼び出すことができるという利点を有する。
本発明の実施例を図面に示し、以下の記述において詳細に説明する。
音声信号フレームを基礎として音声信号を伝送するための基本原理および音声信号を形成するための基本原理を示す。 出力すべき音声信号がどのように形成されるかを説明するための実施例を示す。 少なくとも1つの音声信号フレームが受信されなかったケースを示す。 従来技術による、代替音声信号フレームを形成するための実施例を示す。 本発明による方法の実施例を示す。 部分フレームに分割されている音声信号フレームを示す。 本発明による制御装置の実施形態を示す。
発明の実施形態
図5には、本発明による方法の有利な実施形態が示されている。事前に受信した音声信号フレーム50の音声信号は、線形予測解析を用いて線形予測係数を検出するユニット62に供給され、これによって線形予測係数51が取得される。線形予測係数51と、受信した音声信号フレーム50の音声信号とを用いることにより、線形予測解析フィルタ61は残存信号52を形成する。音声信号が有声であるか無声であるかを判定する修正判定ユニット83は、従来技術において行われているように残存信号52に基づいて判定を行うのではなく、受信した音声信号フレーム50の音声信号に基づき判定を行う。さらに、受信した音声信号フレーム50の音声信号に依存して、文献[3]から公知である修正基本周波数検出ユニット84を用いて、修正基本周波数74が取得される。修正判定ユニット83による有声であるか無声であるかの修正判定結果73に依存して、残存信号52および修正基本周波数74に基づき修正被評価残存信号75を形成する形成ユニット65への残存信号52の第1の切り替えが行われるか、または、エネルギ算出ユニット85への残存信号52の切り替えが行われる。受信した音声信号フレーム50の音声信号が無声であると識別されるという修正判定結果73が出された場合には、残存信号がエネルギ算出ユニット85へと供給されるように切り替えが行われる。有声信号であると判定された場合には、残存信号52が形成ユニット65へと供給されるように切り替えが行われる。形成ユニット65は修正基本周波数74および残存信号52に基づき、修正被評価残存信号75を形成する。基本周波数および残存信号に基づいてどのように形成が行われるかは文献[1]、[2]から公知である。無声信号の場合には、エネルギ算出ユニット85は残存信号52から増幅係数77を算出し、この増幅係数77は乗算ユニット87において、ノイズ発生器86によって形成されるノイズ信号76と乗算される。受信した音声信号フレーム50の音声信号が無声であると判定された場合に、この乗算によって修正被評価ノイズ信号75が形成される。
第2の切り替えユニット89もやはり修正判定結果73に応じて、修正被評価残存信号75を取り出すために切り替えを行う。つまり、受信した音声信号フレーム50の音声信号が有声であるか無声であるかに依存して、修正基本周波数によって形成される残存信号が取り出されるか、またはノイズ信号によって形成される残存信号が取り出されるように切り替えが行われる。この修正被評価残存信号75は線形予測統合フィルタに供給され、この線形予測統合フィルタは統合のために、供給された線形予測係数51を使用する。これによって、線形予測統合フィルタ66の出力側において、代替音声信号フレーム100の音声信号が得られる。
有利には、修正判定ユニット83において、受信した音声信号フレーム50の音声信号が有声であるか無声であるかに関する判定が、音声信号の正規化された自己相関関数ならび音声信号のゼロ通過率に依存して行われる。長さNと、基本周波数の予め決定された周期長P0とを有する、有利にはディジタル音声信号である音声信号x(n)(ただしインデクスn=0〜N−1)に関して、有利には計算規則
Figure 2012504779
を用いて正規化された自己相関関数ζ(x(n))が決定される。
さらには、有利には計算規則
Figure 2012504779
を用いて、音声信号x(n)に関するゼロ通過率zcr(x(n))が決定される。ここでsignは正弦関数、すなわち符号関数を表す。続いて、本発明の実施形態によれば、
第1に、正規化された自己相関関数ζ(x(n))が第1の閾値thr1を上回る場合、すなわちζ(x(n))>thr1の場合、また、
第2に、ゼロ通過率zcr(x(n))が第2の閾値thr2を下回る場合、すなわちzcr(x(n))<thr2の場合、
に有声信号x(n)であると判定される。
有利には、第1の閾値thr1は値0.5に選定される。当業者であれば、有声音声信号ならびに無声音声信号のゼロ通過率zcr(x(n))の経験上のデータを考察することにより第2の閾値thr2を選択する。
本発明の別の実施形態によれば、ノイズ信号76として均等分布ノイズ信号が使用され、修正被評価残存信号は、ノイズ信号とスケーリング係数ないし増幅係数77との乗算によって得られる。有利には、フィルタリングされた音声信号52の信号エネルギに依存してスケーリング係数77が決定される。図6による特別な実施形態によれば、受信してフィルタリングされた音声信号フレームのフィルタリングされた音声信号52が、それぞれ部分音声信号を有するそれぞれの部分フレーム201〜204に分割される。図6による4つの種々の部分フレーム201〜204への分割は例示的なものに過ぎない。4とは異なる数の部分フレームへの分割もやはり可能である。この実施例によれば、インデクスi=1〜4を有する4つの部分フレームのインデクス化が行われる。この実施例によれば、フィルタリングされた音声信号52を用いて長さNのフィルタリングされた信号e(n)が存在する場合には、各部分フレーム201〜204に関して、長さNSFのそれぞれの部分音声信号ei(n)が得られる。長さNSFはこの実施例によればNSF=N/4である。部分フレームないし部分音声信号ei(n)の各々に関して、計算規則
Figure 2012504779
にしたがい信号エネルギが検出される。
この実施例にしたがい、部分フレーム201〜204の存在する信号エネルギの最小値E=min{E1,E2,E3,E4}が検出されると、有利には、スケーリング係数ないし増幅係数77として√Eが選定されるようにノイズ信号76r(n)がスケーリングされる。したがって有利には、受信した音声信号フレーム50が無声音声信号の場合には
Figure 2012504779
にしたがい被評価残存信号75が検出される。
図7には本発明による制御装置1000が示されている。この制御装置1000は音声信号フレームを受信するための第1のインタフェース1001を有する。制御装置1000の計算ユニット1003は、この制御装置1000の第2のインタフェース1002を介して出力される、出力すべき音声信号を形成するために、受信した音声信号フレームを所定の順序で使用する。有利には、計算ユニット1003、第1のインタフェース1001および第2のインタフェース1002はバスシステム1004またはデータおよび/または信号を交換するための同様の装置を介して相互に接続されている。計算ユニットは、受信すべき音声信号フレームが受信されない場合には、受信されなかった音声信号フレームの代わりに代替音声信号フレームを使用する。このために計算ユニットは、事前に受信した音声信号フレームに依存して代替音声信号フレームを形成する。本発明による制御装置は、事前に受信した音声信号フレームが無声音声信号を有する場合には、計算ユニット1003が代替音声信号フレームの音声信号をノイズ信号を用いて形成することを特徴とする。
有利には、事前に受信した音声信号フレームが有声音声信号を有する場合には、計算ユニット1003は基本周波数信号を用いて代替音声信号フレームの音声信号を形成する。
有利にはこの制御装置1000は、基本周波数信号および/またはノイズ信号を提供するメモリユニット1005を有する。
参考文献
[1] E. Gunduzhan and K. Momtahan, "Linear prediction based packet loss concealment algorithm for PCM coded speech," IEEE Transactions on Speech and Audio Processing, vol. 9, no. 8, pp. 778-785, 2001.
[2] ANSI Recommendation T1.521a-2000 (Annex B), "Packet Loss Concealment for use with ITU-T Recommendation G.711," July 2000.
[3] J. Paulus, Codierung breitbandiger Sprachsignale bei niedriger Datenrate. Dissertation, IND, RWTH Aachen, Templergraben 55, 52056 Aachen, 1997.
[4] P. Vary, U. Heute, W. Hess, Digitale Sprachsignalverarbeitung, B. G. Teubner Verlag, Stuttgart, 1998, ISBN 3-519-06165-1

Claims (10)

  1. 音声信号(11)の出力方法であって、
    音声信号フレーム(1,3)を受信して、出力すべき前記音声信号(11)を形成するために所定の順序で使用し、
    受信すべき少なくとも1つの音声信号フレーム(2)が受信されない場合には、受信しなかった該少なくとも1つの音声信号フレーム(2)の代わりに少なくとも1つの代替音声信号フレーム(100)を使用し、
    該少なくとも1つの代替音声信号フレーム(100)を、事前に受信した少なくとも1つの音声信号フレーム(1)に依存して形成する、音声信号(11)の出力方法において、
    前記事前に受信した少なくとも1つの音声信号フレーム(1)が無声音声信号を有する場合には、前記少なくとも1つの代替音声信号フレーム(100)の音声信号をノイズ信号を用いて形成することを特徴とする、音声信号(11)の出力方法。
  2. 前記事前に受信した少なくとも1つの音声信号フレーム(1)が有声音声信号を有する場合には、前記少なくとも1つの代替音声信号フレーム(100)の音声信号を基本周波数信号を用いて形成する、請求項1記載の方法。
  3. 前記事前に受信した少なくとも1つの音声信号フレーム(1)の音声信号の正規化された自己相関関数およびゼロ通過率に依存して、前記事前に受信した音声信号フレーム(1)が有声音声信号を有するか無声音声信号を有するかを判定する、請求項2記載の方法。
  4. 前記正規化された自己相関関数が第1の所定の閾値を上回り、かつ、前記ゼロ通過率が第2の所定の閾値を下回る場合には、前記事前に受信した少なくとも1つの音声信号フレーム(1)の音声信号を有声音声信号と判定する、請求項3記載の方法。
  5. 前記ノイズ信号(75)として、スケーリング係数(77)と乗算された、均等分布するノイズ信号(76)を使用する、請求項1から4までのいずれか1項記載の方法。
  6. 前記事前に受信した少なくとも1つの音声信号フレーム(1)の音声信号を線形予測フィルタによってフィルタリングし、前記スケーリング係数(77)をフィルタリングされた音声信号(52)の信号エネルギに依存して決定する、請求項5記載の方法。
  7. 前記フィルタリングされた音声信号(52)を、それぞれ部分音声信号を有するそれぞれの部分フレームに分割し、各部分音声信号に関してそれぞれの信号エネルギを検出し、それぞれの信号エネルギのうち最小値を有する信号エネルギに依存して前記スケーリング係数(77)を決定する、請求項6記載の方法。
  8. 音声信号を出力するための制御装置(1000)であって、
    第1のインタフェース(1001)を有し、該第1のインタフェース(1001)を介して前記制御装置(1000)は音声信号フレームを受信し、
    計算ユニット(1003)を有し、該計算ユニット(1003)は受信した音声信号フレームを、出力すべき前記音声信号を形成するために所定の順序で使用し、
    第2のインタフェース(1002)を有し、該第2のインタフェース(1002)を介して前記制御装置(1000)は音声信号を出力し、
    受信すべき少なくとも1つの音声信号フレームが受信されない場合には、受信しなかった該少なくとも1つの音声信号フレームの代わりに少なくとも1つの代替音声信号フレームを使用し、
    前記計算ユニット(1003)は、前記少なくとも1つの代替音声信号フレームを、事前に受信した少なくとも1つの音声信号フレームに依存して形成する、音声信号を出力するための制御装置(1000)において、
    前記事前に受信した少なくとも1つの音声信号フレームが無声音声信号を有する場合には、前記計算ユニット(1003)は前記少なくとも1つの代替音声信号フレームの音声信号をノイズ信号を用いて形成することを特徴とする、音声信号を出力するための制御装置。
  9. 前記事前に受信した少なくとも1つの音声信号フレームが有声音声信号を有する場合には、前記計算ユニット(1003)は、前記少なくとも1つの代替音声信号フレームの音声信号を基本周波数信号を用いて形成する、請求項8記載の制御装置。
  10. 前記制御装置(1000)はノイズ信号および基本周波数信号のうちの少なくとも一方を提供するメモリユニット(1005)を有する、請求項8または9記載の制御装置。
JP2011529523A 2008-10-02 2009-09-28 音声データの伝送にエラーがある際のエラー隠蔽方法 Active JP5284477B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008042579.6A DE102008042579B4 (de) 2008-10-02 2008-10-02 Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
DE102008042579.6 2008-10-02
PCT/EP2009/062527 WO2010037713A1 (de) 2008-10-02 2009-09-28 Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten

Publications (2)

Publication Number Publication Date
JP2012504779A true JP2012504779A (ja) 2012-02-23
JP5284477B2 JP5284477B2 (ja) 2013-09-11

Family

ID=41491479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011529523A Active JP5284477B2 (ja) 2008-10-02 2009-09-28 音声データの伝送にエラーがある際のエラー隠蔽方法

Country Status (6)

Country Link
US (1) US8612218B2 (ja)
EP (1) EP2345028A1 (ja)
JP (1) JP5284477B2 (ja)
CN (1) CN102171753B (ja)
DE (1) DE102008042579B4 (ja)
WO (1) WO2010037713A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) * 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
JP5973582B2 (ja) 2011-10-21 2016-08-23 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN103489448A (zh) * 2013-09-03 2014-01-01 广州日滨科技发展有限公司 语音数据处理方法及系统
PT3285255T (pt) 2013-10-31 2019-08-02 Fraunhofer Ges Forschung Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
JP6306177B2 (ja) 2013-10-31 2018-04-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
US10475466B2 (en) 2014-07-17 2019-11-12 Ford Global Technologies, Llc Adaptive vehicle state-based hands-free phone noise reduction with learning capability
US20160019890A1 (en) * 2014-07-17 2016-01-21 Ford Global Technologies, Llc Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability
EP4292088A4 (en) * 2021-02-12 2024-04-03 Visa Int Service Ass METHOD AND SYSTEM FOR ENABLING SPEAKER IDENTIFICATION IN PUBLIC AUDIO DATA BY USING ADVERSARIAL PERTURBATION

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09281996A (ja) * 1996-04-15 1997-10-31 Sony Corp 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP2001022367A (ja) * 1993-08-17 2001-01-26 Mitsubishi Electric Corp 音声判別装置及び音声判別方法
WO2006130236A2 (en) * 2005-05-31 2006-12-07 Microsoft Corporation Robust decoder

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE15563T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
TW326070B (en) * 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
CN101232347B (zh) * 2007-01-23 2011-01-12 联芯科技有限公司 语音传输的方法及amr系统
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022367A (ja) * 1993-08-17 2001-01-26 Mitsubishi Electric Corp 音声判別装置及び音声判別方法
JPH09281996A (ja) * 1996-04-15 1997-10-31 Sony Corp 有声音/無声音判定方法及び装置、並びに音声符号化方法
WO2006130236A2 (en) * 2005-05-31 2006-12-07 Microsoft Corporation Robust decoder
JP2008542838A (ja) * 2005-05-31 2008-11-27 マイクロソフト コーポレーション 堅牢なデコーダ

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012039279; Wang Xiaoli, et al.: '"Reconstruction of Missing Speech Packet Using Trend-Considered Excitation"' Proceedings of the 6th International Conference on Signal Processing, 2002 , 200208, pp.1680-1683, IEEE *
JPN6012039281; Emre Gunduzhan, et al.: '"A Linear Prediction Based Packet Loss Concealment Algorithm for PCM Coded Speech"' IEEE Transactions on Speech and Audio Processing Vol.9,No.8, 200111, pp.778-785 *

Also Published As

Publication number Publication date
DE102008042579A1 (de) 2010-04-08
JP5284477B2 (ja) 2013-09-11
CN102171753A (zh) 2011-08-31
CN102171753B (zh) 2013-07-17
EP2345028A1 (de) 2011-07-20
DE102008042579B4 (de) 2020-07-23
WO2010037713A1 (de) 2010-04-08
US8612218B2 (en) 2013-12-17
US20110218801A1 (en) 2011-09-08

Similar Documents

Publication Publication Date Title
JP5284477B2 (ja) 音声データの伝送にエラーがある際のエラー隠蔽方法
JP4320033B2 (ja) 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
JP3963850B2 (ja) 音声区間検出装置
KR970001166B1 (ko) 언어 처리 방법 및 장치
US8185384B2 (en) Signal pitch period estimation
WO2010070840A1 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JPH0820878B2 (ja) 並列処理型ピッチ検出器
CN103229517A (zh) 包括多个音频传感器的设备及其操作方法
JP2007065679A (ja) 音声復号器におけるフレームエラー隠蔽に対する改善されたスペクトルパラメータ代替
WO2017084545A1 (zh) 一种语音丢包补偿的方法及系统
CN108346434A (zh) 一种语音质量评估的方法和装置
JP2016500453A (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
AU2018363701B2 (en) Encoding and decoding audio signals
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
CN102903364B (zh) 一种进行语音自适应非连续传输的方法及装置
JP5782402B2 (ja) 音声品質客観評価装置及び方法
RU2742739C1 (ru) Выбор задержки основного тона
US20140303980A1 (en) System and method for audio kymographic diagnostics
JPH0844395A (ja) 音声ピッチ検出装置
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
EP1143414A1 (en) Estimating the pitch of a speech signal using previous estimates
EP1143413A1 (en) Estimating the pitch of a speech signal using an average distance between peaks
EP1143412A1 (en) Estimating the pitch of a speech signal using an intermediate binary signal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130529

R150 Certificate of patent or registration of utility model

Ref document number: 5284477

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250