JP2006504300A - Celpパラメータ領域におけるdtmf検索と音声ミキシングのための方法及び装置 - Google Patents

Celpパラメータ領域におけるdtmf検索と音声ミキシングのための方法及び装置 Download PDF

Info

Publication number
JP2006504300A
JP2006504300A JP2004545611A JP2004545611A JP2006504300A JP 2006504300 A JP2006504300 A JP 2006504300A JP 2004545611 A JP2004545611 A JP 2004545611A JP 2004545611 A JP2004545611 A JP 2004545611A JP 2006504300 A JP2006504300 A JP 2006504300A
Authority
JP
Japan
Prior art keywords
dtmf
celp
parameters
input
celp parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004545611A
Other languages
English (en)
Inventor
ジャブリ、マーワン、エー
ワン、ジランウェイ
ジョージ、サムチ
イブラハム、マイケル
Original Assignee
ディリティアム ネットワークス ピーティーワイ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディリティアム ネットワークス ピーティーワイ リミテッド filed Critical ディリティアム ネットワークス ピーティーワイ リミテッド
Publication of JP2006504300A publication Critical patent/JP2006504300A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L27/00Modulated-carrier systems
    • H04L27/26Systems using multi-frequency codes
    • H04L27/30Systems using multi-frequency codes wherein each code element is represented by a combination of frequencies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】十分に符号化と音声信号を再構成せずに、DTMF検出と符号励起線形予測(CELP)パラメータ空間における音声混合のための方法と装置を提供する。
【解決手段】 この装置はデュアルトーン多重化周波数(DTMF)信号検出モジュールと多重−入力混合モジュールを含む。DTMF信号検出モジュールはDTMF信号を検出する。DTMF信号検出モジュールは入力CELPパラメータからの特徴的な特性を計算し、DTMF信号の知られた特性と比較することによりDTMF信号検出モジュールを検出する。多重−入力混合モジュールは多重音声信号を表す入力CELPパラメータの多重セットを混合し、CELPパラメータの単一セットにする。混合計算は入力CELPパラメータの各セットを解析し、入力セットの重要度を決定し、CELPパラメータを混合するための戦略を選択し、混合したCELPパラメータを出力することにより実施される。方法はCELPパラメータの一つもしくはそれ以上のセットと外部コマンドを入力し、DTMFトーンを検出し、CELPパラメータ多重セットを混合し、DTMF信号をもし検出されれば、出力し、混合したCELPパラメータを出力する。

Description

本出願は、2002年10月25日に出願され、発明の名称を「音声トランスコーダにおけるインバンドDTMF検出及び生成の方法」とする米国仮特許出願第60/421342号(アトーニードケット番号021318−001200US)、及び2002年10月25日に出願され、発明の名称を「複数入力源音声トランスコーディングの方法」とする米国仮特許出願第60/421271号(アトーニードケット番号021318−001400US)、について優先権を主張する。これらの出願の内容は参照として本願に取り込むものとする。
本願発明は、一般的に電気通信信号処理に関する。より詳細には、本発明はDTMF(すなわち、デュアルトーン変調周波数)検索とCELP(即ち、符号励起線形予測)領域における音声ミキシングを実行するための方法と装置を提供する。詳細には、CELPパラメータからの圧縮された信号におけるDTMF音声の存在を検索するための方法と装置に関する。そして又CELPパラメータの複数セットにより表された多重(複数)入力圧縮音声信号をミキシングしてCELPパラメータの単一のセットのための方法と装置に関する。単に実施例によってのみ、本発明は音声符号化に追うようされている。しかし、本発明はより広い応用範囲を有していると認識されている。
電気通信技術は長年にわたり発達してきた。最近、特定のバンド幅の異なるパケットネットワークとモバイル通信システムの要求に適合するように発達したさまざまなデジタル音声符号器がある。デジタル音声符号器は逆変換関数と同様にデジタル化された音声信号の圧縮を提供する。多様なネットワークと無線通信システムにおける早い成長は、一般的に音声信号が異なる圧縮形式の間で変換されることを要求する。このような変換に対する従来の方法は2つの音声符号器を一列に連結して配置し単一の連結を提供することである。このような場合、第一の圧縮された音声信号は第一の音声デコーダにより復号化されデジタル化された信号にされ、生成されるデジタル信号は第二の音声エンコーダにより再び符号化(エンコード)され第二の圧縮された音声信号にされる。一列に連結された2つの音声符号器は「タンデムコーディング」アプローチと通常呼ばれる。タンデムコーディングアプローチは十分に圧縮された信号を復号化してパルス符号変調(PCM)表現のようなデジタル化された信号にし、そして信号を再びコード化(エンコード)する。このことはしばしば多くの処理を要求し遅延の増加を招く。多くの効率的なアプローチはとりわけスマートな符号変換と呼ばれる技術を含む。
現在の多様なネットワークと無線通信システムにおける音声符号変換の要求に加えて、先進の特徴処理のための機能を提供することも要求される。上位機能の特別な例はデュアルトーン多重化周波数(DTMF)信号検出である。DTMF信号は電話のダイアリング、ボイスメール、電子バンキングシステムにおいて広く使用され、さらに、インターネット・プロトコル(IP)電話を使用する場合でさえ、IPアドレスに固定するために広く使用される。電気通信音声コーデックにおいて、インバンドDTMF信号は圧縮されたビット列にエンコードされる。従来のDTMF信号検出は音声信号空間において実施される。単に一例として、2極無限インパルス応答(IIR)型フィルターに伴うGoertzelアルゴリズムは入力デジタル信号から必要なスペクトル情報を抽出するために広く使用され、DTMF検出の基礎を形成するために使用される。
DTMF信号検出が音声符号変換に要求されるとき、タンデムアプローチが広く使用される。このアプローチでは、入力圧縮音声信号はDTMF信号を検出するために音声領域にデコード(復号化)され、圧縮フォーマットへ再エンコードされる。音声符号変換における先進の利口な処理はCELPパラメータ空間において実施されるので、既知のDTMF検出方法はしばしば適合しない。さらに、既知の先進的な音声符号変換方法はDTMF信号検出機能を含まず、従って制限される。
音声符号化のための新進的な構成の別の特定の例は多重(複数)入力信号を取り扱う能力である。入力信号が複数の音声信号で有る場合、単に音声ミキサーは音声信号を混合し、混合音声信号を出力するのみである。しかし、パケットネットワークもしくは無線通信システムにおいては、入力信号は多重圧縮信号である。さらに、パケットネットワークの現在の多様性と無線通信システムとともに、入力信号は様々な圧縮形式を有している。従来の音声混合ソリューションは、音声信号を音声信号に復号化し音声信号を混合し、混合音声信号を出力パケットに再度エンコードすることにより、入力パケットを混合する。これは、それぞれの入力圧縮信号を復号化し再エンコード(符号化)するために大きな計算複雑性を要求する。
パケットネットワークに対して音声ミキシングにより生成された音声の質を改善する試みにおいて、あるスマートな会議ブリッジング方法が提案されている。このような方法は補足的な情報を提供し、混合音声信号の質を改善することができる。しかしながら、この方法は復号化し、音声空間において混合し、再符号化(再エンコード)を含む一連の処理を行うというアプローチをまだ使用している。このアプローチは音声空間に行くことなしに、CELPパラメータ空間において動作する音声トランスコーダにしばしば適していない。
上述したことから、電気通信信号の処理を改善するための技術は非常に望まれている。
本発明によれば、電気通信信号を処理するための技術が提供される。より詳細には、本発明はDTMF検索とCELP領域における音声ミキシングを実施するための方法と装置を提供する。より詳細には、CELPパラメータからの圧縮された信号におけるDTMFトーンの存在を検索し、又、CELPパラメータの多重セットにより表示される多重(複数)入力圧縮音声信号を混合して、CELPパラメータの単一のセットにするための方法と装置に関する。単に実施例のみによれば、本発明は音声符号変換に応用される。しかし、本発明はより広い応用範囲を有していることが理解されるであろう。
詳細な実施例において、本願発明はCELPパラメータを使用して音声符号変換における上位機能処理のための方法と装置を提供する。この装置は入力として、要求されれば、フレームサイズ、サブフレームサイズもしくは他の特性値及び外からのコマンドに合わせるために、補間されうる1つもしくはそれ以上のCELPパラメータの集合を受け取る。上記装置は入力CELPパラメータからのDTMF信号と多重CELPコーデックからCELPパラメータの単一のセットへ混合する多重−入力混合モジュールを検出するDTMF単一検出モジュールとを備える。詳細な実施例では、多重−入力混合モジュールはダイナミックトポロジーを有し、入力圧縮信号の数に従って異なるトポロジーを配列できる。上記装置は、もし検出されれば、DTMF信号とCELPパラメータを出力する。
DTMF信号検出モジュールはDTMF特性を計算するためにDTMF特性計算部、DTMF信号に対応するストアされた特性データを伴ったDTMF特性パターンテーブル、計算された特性とストアされたパターンテーブルを比較するためDTMF特性比較部、過去の特性データをストアするためにDTMF特性バッファ及びDTMF信号を決定するためのDTMF決定部を含む。
多重−入力混合モジュールはCELPパラメータの各セットからの多数の音声特性を検出するための機能検出部、CELPパラメータの各セットの重要度をランクするためのソーティング部、混合戦略を決定するための混合決定部及びCELPパラメータの多重セットの混合を実施するための混合計算部を含む。
本発明はCELPパラメータ空間における上位機能処理の方法を提供する。この方法はフレームサイズ、サブフレームサイズもしくは他の特性及び外のコマンドに合うように補間されうるCELPパラメータの一つもしくはそれ以上のセットを受け取るステップと、DTMFトーンを検索するステップと、CELPパラメータの多重セットを混合するステップ、及び上述の検出されたDTMF信号と混合CELPパラメータを出力するステップとを含む。
別の実施例によれば、本願発明はCELPパラメータ空間におけるDTMF信号を検出するための方法を提供する。この方法はCELPパラメータからのDTMF検出を計算する構成と、あらかじめ計算されたDTMF特性データと比較する構成と、DTMF検出と先のサブフレームにおける構成の状態をチェックするステップと、DTMF信号仕様に従ったDTMF信号を決定するステップと、先のサブフレームの状態と構成パラメータを構成するステップ、及び検出されたDTMF数字を出力するステップを含む。
さらに別の実施例によれば、入力CELPパラメータの混合多重セットのための方法を提供する。この方法はCELPパラメータの多重セットを受信するステップと、選択された混合戦略に従ってCELPパラメータのセットを混合するステップ、及びこの混合されたCELPパラメータを出力するステップを含む。入力されたCELPパラメータの混合多重セットを混合CELPパラメータの単一のセットに混合する方法は、各入力の重要性を決定するために要求される信号構成パラメータを計算するステップと、構成パラメータ計算結果に従って入力CELPパラメータの多重セットの重要性の順序を配列するステップと、外の制御コマンドからの優先順位を考慮するステップと、混合された入力を選択するステップと、選択された入力からの混合されたCELPパラメータを計算するステップをさらに備える。
別の実施例において、本発明は電気通信信号の構成の処理の装置を提供する。この装置は、音声信号領域に復号化することなしにCELP領域において動作するように適合される。この装置はデュアルトーンモデュレーション(DTMF)信号検出モジュールを有する。デュアルトーンモデュレーション周波数(DTMF)信号検出モジュールは少なくとも一つもしくはそれ以上の入力CELPパラメータに基づいた一つもしくはそれ以上のDTMFトーンに適合され、DTMF信号検出モジュールも又、もし決定すれば、一つもしくはDTMF信号に出力するように適合される。
さらに、別の実施例において、本発明は電気通信信号の特性の処理のための装置を提供する。この装置は音声信号領域に復号化することなしにCELP領域において動作するように適合する。この装置はDTMF信号検出モジュールに連結された多重入力混合モジュールを有する。多重入力混合モジュールは一つ以上の音声信号それぞれを表す、一つ以上のCELPベースのコーデックから、CELPパラメータの単一のセットへと、CELPパラメータを処理するように適合される。
従来の技術に対して本発明には数多くの利点がある。実施例において、本発明はCELP情報を音声領域の中に変換せずにDTMF信号を検出する簡単な方法を提供する。さらに、本発明は従来のハードウェアとソフトウェアを使用して提供されうる。ある実施例において、本発明は又、符号変換技術に結びつけられ得る追加の上位モジュールを考慮する。実施例により、一つもしくは複数のこれらの利点もしくは構成が達成可能である。これらのそして多くの利点は発明の詳細な説明において、そして以下により詳細に述べられる。
詳細な説明に含まれており、一部分をなしている、添付した図面は、本発明の実施例を説明し、図面の簡単な説明とともに本発明の原理を説明することに役に立つ。
本発明によれば、電気通信信号を処理するための技術が提供される。より詳細には、本発明はCELP領域におけるDTMF検出と音声混合を実行する方法と装置を提供する。より詳細には、CELPパラメータからの圧縮信号におけるDTMFトーンの存在を検出し、さらに、CELPパラメータの複数セット(組)により表される複数の入力圧縮音声信号を混合してCELPパラメータの単一のセットにするための方法と装置に関する。単に例としてのみ、本発明は音声符合変換に適用される。しかし、本発明はより広い適用範囲を有する。
図1は改良型構成処理モジュール100を示すブロック図である。好ましくは、このモジュールは、本発明の実施の形態に係るDTMF検出モジュールと複数入力混合モジュールとを有する。外部コマンドと共に一つ以上のCELP−ベースのコーデックにより送信されたビット列を元に戻す(アンパックする)ことによりもたらされたCELPパラメータの一つ以上のセットが入力として受信される。出力は、検出されたならば、DTMF信号と、混合されたCELPパラメータとである。改良型特徴処理は、異なる構成でも可能であり、異なる応用分野への適用を可能とする。追加の処理モジュールを改良型処理モジュールに含めてもよく、DTMF検出モジュールを省略してもよい、もしくは、複数入力混合モジュールを省略してもよい。
好ましくは、デュアル−トーン変調周波数(DTMF)信号検出モジュールは少なくとも一つもしくはそれ以上の入力CELPパラメータ(例えば、サイレンス ディスクリプタ フレーム)に基づいた一つもしくはDTMFトーンを決定するような構成を有する。また、DTMF信号検出モジュールは、もし決定されれば、一つもしくはそれ以上のDTMF信号を出力するように構成される。好ましくは、複数入力混合モジュールは、一つ以上のCELP−ベースのコーデックからの、一つ以上の音声信号を表しているCELPパラメータをCELPパラメータの単一のセットに処理するように構成される。
DTMF信号は電話のダイアリング、音声メール、電子バンキンギングシステム等に広く使用され、IPアドレスに固定するIP電話にさえ使用されている。多くの標準化された電気通信音声コーデックにおいて、インバンドDTMF信号は、音声圧縮の間、CELP−ベースのビットストリームにエンコードされる。詳細は以下の明細書において以下に詳細に述べられる。
DTMF信号200は図2において示される16のプッシュホンのキー(0−9、A−D、#、*)の一つに対応する。DTMF信号は低周波数の発信音と高周波数の発信音を有している。実現可能な4つの低周波数と4つの高周波数がある。水平行は低周波数を表し、垂直列は高周波数を表す。低周波数は697,770,852,及び941Hzである。高周波数は1209、1336、1477、及び1633Hzである。このように、16のDTMF信号は特定の具体例に従って一意的に特定される。
一般に、DTMFアルゴリズムは周波数が特定のトレランス(公差)内にある信号に対応しなければならない。やや広めのトレランスを受け入れるようにしてもよい。しかしより広い制限によって、雑音への感応度を増大させる可能性があり、ディジットシミュレーションを音声に適用させる可能性がある。又、DTMFアルゴリズムは、パワーレベルが受容範囲内にある信号を適切に受容可能とするものでなければならない。送信振幅と伝送減衰は異なる周波数で異なる可能性があることに注意が必要である。
さらに、DTMFアルゴリズムは、デュレーション(継続時間)が加入者からの最小の期待値を超える信号を認識しなければならない。誤った信号の指標に対して保護するために、DTMFアルゴリズムは、デュレーションが特定の最大値より小さい信号に対応すべきでない。同様に、特定された最小値より長い中止間隔は、DTMFアルゴリズムにより認識されなければならない。例えば見せかけの故障もしくは誤りを最小するために、伝送における小さな中断もしくは雑音パルスにより受信が妨害され、及び、特定の最大値より中断が短い場合に、信号の二重登録は認識されてはならない。
図3はDTMF検出モジュール300を詳細に示す。この図は単に一例に過ぎず、本特許請求の範囲を狭く制限するものでは決してない。当業者の一人であれば、多くの変形例、代替例、修正例を認識できるであろう。DTMF検出モジュールはCELPパラメータと外部制御コマンドを入力とする。DTMF検出モジュールは、CELPパラメータからDTMF信号特徴構成を計算するDTMF特性パラメータ生成サブモジュールと、各DTMF信号に対応する構成データをストアする予め定義された検索テーブルと、入力構成パラメータと検索テーブルとの間の類似性を計算する比較サブモジュールと、有限状態遷移機械(FSM(Finit State Machine))を介してDTMF信号を決定するDTMF決定部分モジュールと、従前のサブフレームのデータをストアするバッファとを備える。例として、DTMF信号特性構成パラメータは信号エネルギー情報、ピッチ情報及びスペクトル情報である。このような情報は入力CELPパラメータから得られる。比較サブモジュールは、入力構成パラメータを検索テーブルと適合させることにより入力信号をチェックする。もし、マッチング結果が特定の閾値以上の場合、潜在的なDTMFディジットはDTMF決定サブモジュールに出力される。DTMF決定サブモジュールは、DTMFトーンが存在するか否かを決定するためにDTMF信号要求仕様に対して以前の状態をチェックする。
好ましくは、デュアル−トーン変調周波数(DTMF)信号検出モジュールは、DTMF特性計算部を有する。DTMF特性計算部は、一つ以上のCELPパラメータと外部コマンドを受け取り、一つもしくはそれ以上のDTMF特性(構成)を計算することができる。このモジュールは、一つ以上のDTMF特性パターンテーブルを有する。このテーブルは、一つ以上のDTMF信号に対応する一つ以上の特定の構成データを有する。DTMF特性比較部も含まれている。DTMF特性比較部は、一つもしくはそれ以上のDTMF特定信号を識別し、さらに、一つ以上のDTMF特定信号を分類するために、DTMF特性パターンテーブルにおける一つ以上の特定の構成のデータを用いて、DTMF特性計算部から引き出される一つもしくはそれ以上のDTMF特性を処理するように構成されている。DTMF特性バッファが含まれている。特性バッファは一つ以上のDTMF特性パラメータと一つもしくはそれ以上の従前のサブフレームもしくはフレームの一つもしくはそれ以上のDTMF分類データをストアすることが可能である。さらに、このモジュールは、DTMF決定部を備える。DTMF決定部は、一つ以上のDTMF仕様に従って、現在と一つもしくはそれ以上の従前のサブフレームもしくはフレームのDTMF分類データから、一つもしくはそれ以上のDTMF信号を決定し、DTMF決定信号を送信することが可能である。好ましくは、DTMF特性計算部は、線形予測パラメータ情報、ピッチ情報、及びエネルギー情報のうち少なくとも一つもしくはそれ以上を使用して、一つ以上のDTMF特性を処理する。DTMF特性パターンテーブルは、一つ以上のDTMF信号に対応するCELPパラメータから付随した特定の事前に計算された構成データを有する。所定の実施例において、DTMF特性比較部は、国際電気通信単位(ITU)仕様に従って、「1」、「2」、「3」、「4」、「5」、「6」、「7」、「8」、「9」、「0」、「A」、「B」、「C」、「D」、「#」及び「*」の16個の「数字」に対応しているDTMF特定信号を分類する。実施例によれば、DTMF決定部はさらに、論理状態機械と、一つ以上のDTMF信号と一つ以上の特定の「数字」を判定するDTMF信号判定基準を備える。これら及び他の特徴は本明細書及び以下に詳細に述べられる。
図4は、DTMF検出アルゴリズム400のフローチャートを示す。まず、入力コーディックの線スペクトルペア(LSP)、ピッチラグ、及び利得等のCELPパラメータから、DTMF特性が計算される。第二に、この計算された特性は、16の可能なDTMF信号に対してあらかじめ定義されたテーブルにおける特性と比較される。もしマッチ(合致)しなければ、DTMF検出フラグはリセットされDTMF信号状態に到達しない。全ての必要なデータの更新が起こる。もし別の入力サブフレームがあれば、検出アルゴリズムは継続し、さもなければ検出アルゴリズムは終了する。もし、DTMFマッチすると(類似すると)、DTMF信号要求仕様は潜在検出結果に対してチェックされる。もしこれが満たされるならば、DTMFフラグがセットされ、DTMFの「数」が出力に信号として送信される。再び、全ての必要なデータの更新が起こり、他のサブフレームがあれば、前記検出アルゴリズムは、CELPコーディングパラメータ空間において、完璧に動作し全ての入力サブフレームに対して実行される。
図5のブロック図500において示されるように、改良型構成処理の応用は2つの符号励起線形予測(CELP)ベース音声コーデック間の音声符号化にある。ソースコーデックアンパックモジュールはCELPパラメータを生成するためにソースコーデックビット列をアンパックする。CELPパラメータ補間モジュールはフレーム長と、もし要求されれば目標コーデックのサブフレーム長に適合するようにCELPパラメータを補間する。補間されたCELPパラメータは、エンコード(符号化)された目標(宛先)コーデックパラメータにマップされる。宛先コーデックパッカーはエンコードされたパラメータを、要求された形式のビット列へパックする。この典型的な音声符号化アプローチに加えて、改良型特徴処理モジュール501は前記音声トランスコーダに加えられる。改良型特徴処理モジュールは補間CELPパラメータを入力としてとり、要求された特性を計算する。もたらされる特性は、目標コーデックのビット列に並行する出力(バンド外に送信された)か、上位処理に対する音声トランスコーダに移行される(バンド内に送信される)か、バンド内とバンド外の両方に送信される。DTMF検出アルゴリズムは音声符号化と平行して働く(すなわち、メインストリーム音声符号変換化を妨害しない)。
一例として、DTMF信号検出はGSM−AMR音声コーデックとG.723.1音声コーデック間の音声トランスコーダに適用される。符号変換方法とシステムの例は、共通して所有され、ここに参照としてあらゆる目的のために引用された、Jabri,Marwan,Anwarの名で,国際出願番号PCT/US02/08218を有し、2002年3月13日に提出された「符号変換化ビデオと音声信号に対する方法と装置」と、Jabri,Marwan Anwar Wang, Jianwei, Gould, Stephenの名で、国際出願番号PCT/US03/00649を有し、2003年8月1日に提出された「CELP−ベース音声間のコード符号変換方法とシステム」に発見される。実施例において、DTMF信号検出モジュールと多重−入力モジュールがCELP−ベース音声トランスコーダ内に含まれる。
図6は完全−二重構造GSM−AMRの単純化されたブロック図、即ち、G.723.1音声トランスコーダ600がDTMF検出の上位機能を伴うことを可能にすることを示す。本発明のDTMF信号検出処理を使用して、DTMF検出は、G.723.1コーデックビット列への音声符号変換プロセスと平行してGSM−AMR入力CELPパラメータ上で実施され得る。まず、20msフレーム入力GSM−AMRビット列は4つの5msサブフレームに対するCELPパラメータにアンパックされる。次の20msフレームのCELPパラメータからの別の2つのGSM−AMRサブフレームを有するこれらの4つのGSM−SMRサブフレームはCELPパラメータの一つG.723.1フレームへ補間される。結果として得られた補間されたCELPパラメータは一つのG.723.1フレームに対するビット列にマップされ、パックされる。この処理に平行して、4つのGSM−AMRサブフレームのCELPパラメータは、音声トランスコーダ内のDTMF検出モジュールに与えられる。DTMF検出モジュールはCELPの各サブフレームからのDTMF特性を計算し、あらかじめ定義されたDTMF特性データと比較し、入力圧縮スピーチ信号がDTMF仕様の最小要求に従ってDTMF信号を含むか否かを決める。入力構成パラメータが検索テーブルにおいてあらかじめ定義されたDTMFデータにマッチし、既に述べた有限状態機械を通したDTMF信号の要求を満足するならば、検出されたDTMFディジットは出力に信号として送信される。もしDTMF検出モジュールはGSM−AMRフレームからG.723.1へ音声トランスコーダにおいて可能とされるならば、DTMF検出アルゴリズムは全ての入力GSM−AMRフレーム上で実行する。このように、音声符号化の間、常に入力CELPパラメータからDTMF信号を検出することができる。
同様に、G.723.1からGSM−AMRに符号変換するにあたって、DTMF検出計算は入力G.723.1フレーム上で応用される。少し異なる変形例は異なるサブフレームサイズとGSM−AMRとG.723.1コーデックのフレームサイズにより存在する。
DTMF信号の一意的な特別な構成はCELPパラメータから計算され得ることを示すために、図7は可能なDTMFディジットに対して12.2kbpsの割合で入力GSM−AMRフレーム線スペクトル対(LSP)パラメータ700を示す。図8は可能なDTMFディジットに対して6.3kbpsの割合で入力G.723.1の線スペクトル対パラメータ800を示す。同様に、アンパックされたCELPピッチラグと利得情報は、DTMFディジットを検出し分類するために使用される。
GSM−AMRコーデックは音声圧縮の8つの異なるモードにおいて動作することができ、G.723.1は音声圧縮の2つの異なるモードにおいて動作することができることに注意する必要がある。図5において例示されるDTMF検出アルゴリズムはGSM−AMRとG.723.1コーデックの如何なる割合にも適用できる。このアルゴリズムは又如何なるCELP−ベースの音声コーデックに適用される。
図9は、入力として、多重圧縮音声を有する多重−入力混合器900を示す概念図である。圧縮された信号は異なるコーデック標準を使用し、符号化されている。多重(複数)−入力混合器は多重(複数)入力からの音声情報を混合し、出力された混合圧縮信号を出力する。
実施例において、多重−入力混合モジュールは一つかそれ以上のCELPパラメータと外部コマンドを受け取ることと多重の音声構成を検出することを可能とする構成検出部を備える。実施例において、構成検出部は多数の音声信号構成を決定するように適合され、この決定は、動作音声、サイレンス記述語フレーム、もしくは不連続伝送フレームとしてCELPパラメータにより表される入力を分類するステップを含んでいる。他の実施例において、特性検出部はLSPスペクトル情報、ピッチ情報、固定−コードブック情報、エネルギー情報のうち、一つもしくはそれ以上を含む複数の音声信号の特性を決定する。このモジュールは又CELPパラメータより以上の検出された特性を処理し、あらかじめ決められた判定に基づくCELPパラメータの各セットに対して重要度をランク付けすることが可能なソート部を有している。このソート部は特性検出部からデータを受け取り、ある実施例によれば所定の判定に基づくCELPパラメータの多重セットの重要度を配置する。特別な実施例において、一つもしくはそれ以上のCELPパラメータのセットは一つ以上の音声圧縮標準により特徴付け可能であり、もしくは、2つのCELPパラメータのセットは同じ音声圧縮標準により特徴付け可能、もしくは全てのCELPパラメータのセットは同じ音声圧縮標準により特徴付け可能である。フレームサイズ、サブフレームサイズ又ある実施例における他の特性に適合させるために、異なる音声圧縮標準を使用することで、生成されるならば、一つもしくはそれ以上のCELPパラメータのセットは補間されうる。更に、モジュールは処理戦略、処理のためのCELPパラメータのいくつかもしくは全てのセットを選択し、CELPパラメータの一つのセット以上の処理をコントロールすることを決定することを可能とする混合決定ユニットを有している。特別な実施例によれば、処理されるCELPパラメータのセットを決定するためのソーティングユニットと外部制御コマンドから混合決定ユニットがデータを受け取る。CELPパラメータの一つのセット以上を処理することができる混合計算ユニットが含まれる。好ましくは、CELPパラメータの単一のセット混合計算ユニットはCELPパラメータの単一のセットを通過し、もしくはCELPパラメータの多重セットを選択し、混合し、もしくはサイレンス記述語データ情報を送信する。
従来の音声混合ソリューションはタンデムアプローチにおいて音声コーデック入力を取り扱う。多重ビット列入力に含まれる音声情報が得られ、復号化される。音声情報入力の音声ミキシングは音声領域において実施され、混合音声は再びエンコードされる。音声混合アプリケーションの一例は会議呼び出しの間多重チャネルを取り扱う会議の橋である。会議の呼び出しのシナリオにおいて、参加者は異なる音声コーデックを有するならば、再符号化処理は混合音声のための複数の特定のエンコード処理を含む。
図10はタンデムアプローチにおける従来の音声混合ソリューション1000を説明する。スピーカー1はコーデックA圧縮形式における音声情報を送信し、スピーカー2はコーデックB圧縮形式における音声情報を送信する。リスナーはコーデックC音声圧縮形式を受け入れる。スピーカー1と2から音声を混合するために、リスナーへ混合音声を送信するために、音声混合器はデコーダAとBを要求して2つの入力音声圧縮形式を同じ音声領域へ変換し、入力音声信号をミックスする。混合信号を送信する前、コーデックC形式へ再符号化される必要がある。
音声ミキシングへのタンデム−ベースアプローチが十分でないことは明らかである。入力ビット列を音声信号に完全に復号化すること、音声空間におけるこれらの信号を組み合わせること、出力ビット列への混合音声信号の完全な符号化に関わる。
図11は本発明について述べられた実施例において、多重−入力混合モジュール1100をさらに説明する。多重−入力混合モジュールは構成検出部分、ソート部分モジュール、混合決定部分モジュールと混合計算部分モジュールを備える。構成検出部分モジュールはCELPパラメータの各セットからの音声信号構成を計算する。CELPパラメータが異なるCELP圧縮標準から生成されれば、CELPパラメータの補間が、フレームサイズ、サブフレームサイズまたは他の特性にマッチするように要求される。計算された信号構成は信号エネルギー、フレームタイプと信号タイプ(すなわち、アクティブな音声、アクティブでない音声、不連続な伝送)を含む。ソート部分モジュールは計算された信号構成からCELPパラメータの各セットの重要性を計算し、それらの重要性によりCELPパラメータの入力セットをソートする。混合決定部分モジュールはソート結果、外部コマンド、及び以前の混合決定からのファクターを混合戦略を決定するために結合する。
この決定はCELPパラメータのセットは選択されておらず、CELPパラメータの一つのセットのみが選択されており、もしくは、CELPパラメータの全てのセットが選択されていることである。混合計算部分モジュールはCELPパラメータの選択されたセットを混合し混合CELPパラメータを出力する。
一例として、多重−入力混合モジュールは会議呼び出しの間入力チャネルを混合するために使用される。1、2、3とラベル付けされた3人の参加者が、呼に加わっており、参加者1のみがあるタイミングで話している場面を想定する。参加者1向きのための混合決定では、参加者2と3が話していない間に、入力チャネルが選択されない。参加者2及び3向きの混合決定では、アクティブな音声を含んでいるものとして検出されるチャネルが1つだけなので、参加者1からのチャネルのみが選択される。
参加者1と2の両方があるときに話しているならば、参加者3への混合決定は入力チャネル1と2が選択される。しかし、参加者1と2の方向への混合決定は、参加者3からの入力チャネルが沈黙しているので、ただ一つのチャネルが選択されていることである。混合モジュールは望まれていないエコーを避けるために参加者の自分自身への音声を混合しないように構成される。
幾つかの混合計算のアプローチがある。一例として、2つの入力AとBを混合するために、各入力列に対する総サブフレーム励起エネルギーが次の式で与えられる。
Figure 2006504300

Figure 2006504300
ここに、e(n)とe(n)は入力AとBそれぞれの励起ベクタであり、Nは目標コーデックのサブフレームサイズで、EχAとEχBは入力AとBそれぞれのエネルギーである。
ピッチラグは次式のように導かれる。
Figure 2006504300
ここでPLとPLは入力AとBそれぞれのピッチラグで、PLmixは混合信号のピッチラグである。
新しいLSPパラメータの生成のための2、3の異なる方法がある。これらの第一はLSPパラメータをスペクトルパラメータに変換し、サブフレームエネルギーによりスペクトルパラメータを平均し、スペクトルパラメータからLSPパラーメタに変換することに関する。スペクトルパラメータの平均は以下の等式に示される。
Figure 2006504300
ここで、LSFとLSFは、それぞれ入力AとBのスペクトルパラメータであり、LSFmixは混合信号のスペクトルパラメータである。
他の方法は、フィルター付けされた励起信号を組み合わせ、LSPパラメータと合成励起を再計算するために各々の励起信号へのLSPの寄与を再導入するだろう。
他の方法はより低いエネルギーの入力のLSPパラメータを無視することと、チャンネル優先度のような、いくつかの制御パラメータに基づいた、より高いエネルギー入力のLSPパラメータを使用することに関与する。
LSP混合計算と同様に、混合励起パラメータは2、3の異なる方法により計算され得る。サブフレームエネルギーにより励起パラメータを平均し、混合LSPパラメータを使用しそれらを再計算し、又、最も高いエネルギー入力の励起を使用することにより得られる。
電話会議のような、多くのシナリオにおいて、CELPパラメータの全てのセットがアクティブ音声を表すわけではない。このケースでは、CELPパラメータはサイレンス記述語フレームを表す。これらのフレームは無視される。言い換えれば、混合されるCELPの唯一のセットは音声を含む信号を表す。これはアクティブ音声を表さないCELPパラメータのセットにおいて伝送される雑音を拒絶するのと同量の計算を削減する。
図12はCELP領域多重−入力混合方法1200のフローチャートを示す。このフローチャートは、CELPパラメータの各セット上の信号特性の計算を実施すること、構成の計算の結果に従ってCELPパラメータのセットの重要度を配列すること、外部コマンドにより特定されるあらゆる優先順位をチェックし、重要性と優先度に従い混合されようとするCELPパラメータのセットを決定すること、CELPパラメータの選択されたセットを混合すること、そして最後に混合CELPパラメータを出力することに関する。
主に3つのタイプの混合戦略がある。第一の場合、CELPパラメータのどのセットはアクティブ音声を表し、混合計算はサイレンス記述語フレームもしくは不連続伝送情報を出力する。第二の場合、CELPパラメータの一つのみがアクティブ音声を表すか、もしくは、CELPパラメータの一つのみは混合のために選択され、混合計算は選択されたCELPパラメータを混合された結果として出力される。第3の場合、CELPパラメータの一つのセット以上は混合のために選択され、混合計算はCELPパラメータの選択されたセットを混合して混合された結果を出力する。
図13は本発明に従って、音声トランスコーダ内のCELP領域における多重−入力混合1300の実施例のブロック図を示す。多重−入力混合を伴う音声トランスコーダは2人以上の参加者以上を結びつける。一例として、多重−入力混合システムは3人の参加者を結び付ける。2つのソースコーデック入力圧縮音声信号の混合を実施し、目標コーデックフォーマットに符号変換するために、多重−入力混合システムは第一入力ビット列データをCELPパラメータにアンパックするソースコーデックアンパッカーモジュール、第二の入力ビット列をCELPパラメータにアンパックする他のソースコーデックアンパッカーモジュール、第一のソースコーデックCELPパラメータを目標コーデックのフレームとサブフレームサイズをマッチさせる補間CELPパラメータに変換する補間モジュール、第二のソースコーデックCELPパラメータをフレームと目標コーデックのサブフレームサイズをマッチさせる補間CELPパラメータに変換させる他の補間モジュール、二つの入力から補間CELPパラメータを混合し、補間CELPパラメータを次のステージへ送信する混合モジュール、目標コーデックに従い、混合CELPパラメータを量子化CELPパラメータに混合する目標コーデックマッピングモジュール、目標コーデック標準に従い、量子化CELPパラメータをビット列に変換する目標コーデックパッカーモジュールを備える。
既に述べた実施例に従い、入力ビット列は音声空間に十分に復号化されず、好ましくはCELPパラメータ空間において混合する。このことは、入力ビット列は十分に音声信号に復号されず、再び十分に再符号化されるので、かなり低い計算要求の利点を提供する。
図14は、音声符号変換において多重−入力混合器1400の他の構成のブロック図を示す。混合圧縮音声信号は、異なるフレームサイズの2つの目標コーデックに送信されることを要求される。
図15はVOICE−OVER−IPパケットネットワークと無線通信システム間の会議呼において使用される多重−入力混合器を伴う典型的な音声トランスコーダ1500を描写する。会議呼び出しに参加する4つの参加者がある。2つの参加者はパケットネットワークからで、二人の参加者は無線通信システムからのものである。全ての音声入力信号は圧縮音声形式である。これらの形式は異なる。G.729、G.723.1とGSM−AMRにより生成される。パケットネットワーク内の参加者AとBはG.729コーデックとG.723.1コーデックを別個に使用し、無線通信システム内の参加者CとDはGSM−AMRコーデックを使用する。
図16は3つの音声コーデックG.729、GSM−AMR、G.723.1 1600間のフレームサイズとサブフレームサイズにおける相違を示す。これらの3つの音声コーデックは異なるサイズフレーム長を有する。G.729コーデックは10msのフレーム長を有する。GSM−AMRコーデックは20msのフレーム長を有する。G.723.1は30ms.のフレーム長を有する。更に、G.729は各フレームに2つのサブフレームを有し、GSM−AMRとG.723.1はフレーム当たり4つのサブフレームを有する。
図17は本発明によればコーデックG.729、G.723.1とGSM−AMRの間の全ての指示に対して多重−入力混合器を有する音声符号変換のブロック図を示す。参加者への各連結は入力と出力ビット列両方に対する経路を有する。従って、各コーデック標準に対してトランスコーダは入力と出力両方のビット列を操作するためにアンパッカーモジュールとパッカーモジュール、目標コーデックにおいて参加者の以外の全ての参加者の音声情報を混合するための混合モジュール、量子化されたCELPパラメータへの混合CELPパラメータを変換するために特別なマッピングモジュールを含む。会議呼び出しにおいて使用される3つの異なるコーデックG.723.1、GSM−AMRとG.729があるので、各連結は2つの補間モジュールをアンパッカーモジュールに従い、要求する。二つの補間モジュールはフレームサイズ、サブフレームサイズと他の目標コーデックの他の特定にマッチするCELPパラメータを補間するためにソースコーデックCELPパラメータを補間する。一例として、G.729コーデックフォーマットにおける参加者Aからの入力ビット列があげられる。参加者Aに対して、目標コーデックは参加者Bに対してはG.723.1であり、参加者CとDに対してはGSM−AMRである。G.729の連結は、G.729CELPパラメータをAMR CELP パラメータに変換するために補間モジュールG.729−>AMRを、G.729CELPパラメータをG.723.1CELPパラメータに変換するために他の補間モジュールG.729−>G.723.1を要求する。このように、上記、多重−入力混合方法の記述に従って、このシステムは、十分な復号と再暗号処理なしに多重−入力混合機能を有する音声符号を実施することができる。実施例に従って、他の変形、修正、代替物があり得る。他のCELPトランスコーダのある例は本明細書を通じて、そして以下により詳細に見い出すことができるだろう。
DTMF信号検出とこの文書に述べられているCELP領域における多重−入力混合の発明はコーデックG.723.1、GSM−AMR、EVRC、G.728、G729、G.729A、QCELP、MPEG−4 CELP、SMV、AMR−WB、VMR そして符号−励起線形予測音声符号化を利用する全ての音声コーデックのような音声コーデックに基づく全てのCELPにより生成されるCELPパラメータに一般的である。
以上の実施例の以上の記述は当業者に本発明をなし、使用することを可能とするように提供される。これらの実施例に対するさまざまな修正は当業者に直ちに明らかであり、ここに定義される一般原則は進歩的な性質を使用することなしに他の実施例に適用され得る。このように、本発明はここに示された実施例に限定されることを意図したものではなく、ここに開示された原則と新規性を有する構成と首尾一貫する最も広い範囲と一致する。
新規性があると信じられている対象、構成、及び利点は特許請求の範囲に詳細に述べられている。構成と動作の方法の両方に関して、さらなる対象と利点を伴って、図面と結びついた、以下の説明を参照することにより最も良く理解されるであろう。
図1は、本発明の実施例による、CELPパラメータ領域におけるDTMF検出と多重入力ミキシングのための装置の単純化されたブロック図である。 図2は本発明の実施例による、DTMF信号周波数の類別を示すブロック図である。 図3は本発明の実施例による、DTMF信号検出の簡略化されたブロック図の表示である。 図4は本発明の実施例による、CELPパラメータを使用しDTMF信号検出のための方法の簡略化されたフローチャートである。 図5は本発明の実施例による、先進の音声トランスコーダ内のDTMF検出と多重−入力ミキシングの簡略化されたブロック図の表示である。 図6は本発明の実施例による、音声コーデックGSM−AMRとG.723.1間の音声符号変換におけるDTMF検出モジュールの簡略化されたブロック図表示である。 図7は本発明の実施例による、入力GSM−AMRコーデックビット列からDTMF信号のLSP表示を示す。 図8は本発明の実施例による、入力G.723.1コーデックビット列からDTMF信号のLSP表示を示す。 図9は本発明の実施例による、多重−入力混合器を伴う3つのスピーカーを接続する通信リンクの概念図である。 図10は本発明の実施例による、圧縮音声コーデック形式を伴うスピーカー間の従来の多重−入力混合の簡略化された図である。 図11は本発明の実施例による、多重−入力混合モジュールの簡略化されたブロック図である。 図12は本発明の実施例による、多重−入力混合方法のフローチャートである。 図13は本発明の実施例による、音声トランスコーダ内の多重−入力混合装置の簡略化されたブロック図である。 図14は本発明の実施例による、異なる音声コーデック出力を伴う音声トランスコーダ内の多重−入力混合器装置のブロック図である。 図15は本発明の実施例による、異なる音声コーデック形式を伴う異なる4人の参加者間の4つのパーティ会議の概念図である。 図16は本発明の実施例による、音声コーデックG.729、GSM−AMRとG.723.1間のフレームサイズ差を示す。 図17は本発明の実施例による、音声符号変換内の4つのパーティの多重−入力混合システムに対する実施例のブロック図を示す。

Claims (34)

  1. 電気通信の特徴処理のための装置であり、前記装置は、音声信号領域に復号化することをせずにCELP領域において動作するように構成され、
    少なくとも一つもしくはそれ以上の入力CELPパラメータに基づいた一つもしくはそれ以上のDTMFトーンを決定し、決定されると、一つもしくはそれ以上のDTMF信号を出力するように構成されたデュアル−トーン変調周波数(DTMF)信号検出モジュールと、
    前記DTMF信号検出モジュールに接続され、対応する一つより多い音声信号を表し、一つ以上のCELP−ベースのコーデックからのCELPパラメータを、CELPパラメータの単一セットに、処理する複数入力混合モジュールと、
    を備える、ことを特徴とする装置。
  2. 前記デュアルトーン変調周波数(DTMF)信号検出モジュールは、
    一つ以上のCELPパラメータと外部コマンドとを受信し、一以上のDTMF特徴を計算するDTMF特徴計算部と、
    一以上のDTMF信号に対応する一以上の特定の構成データを有する一つ以上のDTMF構成パターンテーブルと、
    一つ以上のDTMF特別信号を特定し一つ以上のDTMF特別の信号を分類(識別)するために、DTMF構成パターンテーブルの一つそれ以上の特定の構成データを用いてDTMF構成計算部から導かれる一以上のDTMF構成を処理するように構成されたDTMF構成比較部と、
    一つ以上のDTMF構成パラメータと、一つ以上の以前のサブフレームもしくはフレームの一つもしくはそれ以上のDTMF分類データを格納することが可能なDTMF構成バッファと、
    一以上のDTMF仕様に従って、現在及び一つ以上の以前のサブフレーム又はフレームのDTMF分類データから、一つ以上のDTMF信号を決定し、DTMF決定信号を送信することが可能なDTMF決定部と、
    を備えることを特徴とする請求項1に記載の装置。
  3. 前記DTMF構成計算部が、少なくとも一つ以上の線形予測パラメータ情報、ピッチ情報、エネルギー情報を使用し、一つ以上のDTMF構成を処理する、
    ことを特徴とする請求項2に記載の装置。
  4. 前記DTMF構成パターンテーブルは、一つ以上のDTMF信号に対応するCELPパラメータに付随する特定の予め計算された構成データを有する、ことを特徴とする請求項2に記載の装置。
  5. DTMF構成計算部は、国際電気通信ユニット(ITU)仕様に従って「1」、「2」、「3」、「4」、「5」、「6」、「7」、「8」、「9」、「0」、「A」、「B」、「C」、「D」、「#」と「*」の16のディジットに対応するDTMF特定信号を分類する、
    ことを特徴とする請求項2に記載の装置。
  6. 前記DTMF決定部は、さらに論理状態機械と、前記一つ以上のDTMF信号と一以上の特定なディジットを判別するDTMF信号判定基準と、を備える、ことをさらに特徴とする請求項2に記載の装置。
  7. 前記複数入力混合モジュールは、
    一つ以上のCELPパラメータと外部のコマンドとを受け取り、複数の音声構成を検出することが可能な構成検出部と、
    CELPパラメータの一つのセット以上の検出された構成を処理し、所定の判定基準に基づいてCELPパラメータの各セットの重要度をランキングすることが可能なソート部と、
    処理戦略を決定し、処理のための幾つかのもしくは全てのCELPパラメータのセットを選択し、一つ以上のCELPパラメータのセットを処理することを制御することが可能な混合決定部と、
    CELPパラメータの一つ以上のセットを処理することが可能な混合計算部と、
    を備えることを特徴とする請求項1に記載の装置。
  8. 一つ以上のCELPパラメータのセットは、一つ以上の音声圧縮標準により特徴付けられ、もしくは、CELPパラメータの2つのセットは同じ音声圧縮により特徴付けられ、もしくは、CELPパラメータの全てのセットは同じ音声圧縮標準によって特徴付けられる、
    ことを特徴とする請求項7に記載の装置。
  9. CELPパラメータの一つの以上のセットは、それらが異なる音声圧縮基準を使用して生成されているならば、フレームサイズ、サブフレームサイズもしくは他の特性に適合するように、補間される、
    ことを特徴とする請求項7に記載の装置。
  10. DTMF検出モジュールに接続された符号変換モジュールをさらに備え、複数入力混合モジュールに接続されている、
    ことを特徴とする請求項1に記載の装置。
  11. 複数入力混合モジュールに接続された符号変換モジュールをさらに備えることを請求項1に記載の装置。
  12. 複数入力混合モジュールとDTMF信号検出モジュールは、改善処理モジュールにおいて提供され、改善処理モジュールは符号変換モジュールに接続されている、
    ことを特徴とする請求項1に記載の装置。
  13. 前記CELPパラメータはサイレンス記述語フレームを表す、
    ことを特徴とする請求項1に記載の装置。
  14. 複数入力混合モジュールは、動的トポロジーを有し、入力圧縮信号の数に従って異なるトポロジーを構成することが可能である、ことを特徴とする請求項1に記載の装置。
  15. DTMF信号検出モジュールと複数入力モジュールとは、CELP−ベース音声トランスコーダ内に組み込まれている、
    ことを特徴とする請求項1に記載の装置。
  16. 前記構成検出部は多数の音声信号特性を決定するように構成され、前記決定は、CELPパラメータにより表される入力を、アクティブ音声、サイレンス記述語フレーム、もしくは不連続な伝送フレームに分類することを備える、
    ことを特徴とする請求項7に記載の装置。
  17. 前記構成検出部は一つもしくはそれ以上のLSPスペクトル情報、ピッチ情報、固定された符号帳情報、エネルギー情報を含む複数の音声信号構成を決定する、
    ことを特徴とする請求項7に記載の装置。
  18. ソート部は、前記構成決定部からのデータを受け取り、所定の基準に基づいてCELPパラメータの複数のセットの重要度を配列する、
    ことを特徴とする請求項7に記載の装置。
  19. 前記混合決定部は、ソート部からのデータと処理されるCELPパラメータのセットを決定する外部制御コマンドと、を受け取る、
    ことを特徴とする請求項7に記載の装置。
  20. 前記混合計算部は、CELPパラメータの単一のセットを入出力することができ、又、CELPパラメータの複数セットを選択及び混合し、もしくはサイレンス記述語データ情報を送信する、
    ことを特徴とする請求項7に記載の装置。
  21. CELPベース領域における電気通信信号を処理するための方法であって、
    DTMFトーンを決定すること、及び、音声信号への復号化をせずに、それぞれ一以上のCELP−ベースの符号器の一つもしくはそれ以上のCELPパラメータを使用し、複数入力圧縮信号を処理することを備え、
    CELPパラメータの一つ以上のセットと外部コマンドを入力し、
    一つ以上のCELPパラメータから、圧縮された信号における一つ以上のDTMFトーンを決定し、
    CELPパラメータの複数セットをCELPパラメータの単一のセットへ処理し、
    前記決定された一以上のDTMFトーンを出力し、もし検出されれば、単一のセットにおける処理されたCELPパラメータを出力する、
    ことを特徴とする方法。
  22. 前記CELPパラメータは、一以上のLSP情報、ピッチ情報、励起ベクタ情報、エネルギー情報、固定された符号帳情報と、サイレンス記述語情報を備える、
    ことを特徴とする請求項21に記載の方法。
  23. DTMFトーンを決定するステップは、
    CELPパラメータからDTMF特性パラメータを導き出し、
    DTMF信号特性データのあらかじめ定義された探索テーブルを用いて、構成パラメータを処理し、一つ以上の結果を出力し、
    該一以上の結果をDTMF決定ユニットに転送し、
    一つ以上の以前のサブフレームの結果を分類し、DTMF信号決定標準に従って、一つ以上のDTMF信号を出力し、
    現在のサブフレームの一つ以上の結果を保存し、一つ以上の以前のサブフレームの結果を更新する、
    DTMF信号が検出されるならば、DTMFトーンを出力する、
    ことを特徴とする請求項21に記載の方法。
  24. 一つ以上のDTMFトーンを決定するステップは、全てのサブフレームに対して実行される、
    ことを特徴とする請求項21に記載の方法。
  25. 前記一つ以上のDTMF特性は、一つ以上のLSPスペクトル情報、ピッチ情報、エネルギー情報を使用する、
    ことを特徴とする請求項23に記載の方法。
  26. DTMF信号特性データの前記あらかじめ定義された探索テーブルは、DTMF信号を選択されたCELP圧縮形式におけるCELPパラメータに変換することにより予め計算され、DTMF検出処理の前に、テーブルに予めロードされる、
    ことを特徴とする請求項23に記載の方法。
  27. 前記CELPパラメータの複数セットの処理は、2つ以上の入力コーデックCELPパラメータを混合することができる、
    ことを特徴とする請求項21に記載の方法。
  28. 前記CELPパラメータの複数セットの処理は、サイレンス記述語フレームと不連続伝送とを、操作することが可能である、
    ことを特徴とする請求項21に記載の方法。
  29. 前記CELPパラメータの複数セットの処理は、
    入力CELPパラメータの各セットに信号特性の計算を実施するステップと、
    信号特性の計算の結果に従って入力CELPパラメータの各セットの重要度を配列するステップと、
    重要性の配列と外部コマンドとに従って、混合戦略を決定するステップと、
    選択された混合戦略に従ってCELPパラメータの入力セットを混合するステップと、
    混合されたCELPパラメータを出力するステップと、
    を備えることを特徴とする請求項21に記載の方法。
  30. 前記信号特性の計算を実施することは、LSP情報、ピッチ情報、励起情報、固定された符号帳情報、エネルギー情報、サイレンスフレーム情報のうちの1つもしくはそれ以上を使用して信号の特性を計算する、
    ことを特徴とする請求項29に記載の方法。
  31. 混合戦略は、最高の重要性を有するCELPパラメータのただ一つのセットのみを選択するステップ、外部コマンドに従ってCELPパラメータの特別なセットを選択するステップ、CELPパラメータの入力セットのいくつかを混合するステップ、もしくはCELPパラメータの入力セットの全てを混合するステップ、を備える、
    ことを特徴とする請求項29に記載の方法。
  32. CELPパラメータの入力セットは、会議の呼び出しへの入力チャネルであり、遅延のためのエコーを避けるために、混合のために選択されたCELPパラメータのセットは宛先チャネルのCELPパラメータを含まない、
    ことを特徴とする請求項29に記載の方法。
  33. 電気通信信号の特性処理のための装置であって、前記装置は音声信号領域に復号化せずにCELP領域において動作し、前記装置は、
    デュアル−トーン変調周波数(DTMF)信号検出モジュールを備え、
    該デュアル−トーン変調周波数(DTMF)信号検出モジュールは、少なくとも一つ以上の入力CELPパラメータに基づいた一つ以上のDTMFトーンを決定するように構成され、
    前記DTMF信号検出モジュールは、もし決定されれば、一つ以上のDTMF信号を出力するように構成される、
    ことを特徴とする装置。
  34. 電気通信信号の特性処理のための装置であって、前記装置は音声信号領域にデコードせずにCELP領域において動作するように構成され、前記装置は、
    前記DTMF信号検出モジュールに接続された複数入力混合モジュールを備え、
    前記DTMF信号検出モジュールは、各々一つ以上の音声信号を表す一つ以上のCELP−ベースコーデックからCELPパラメータをCELPパラメータの単一のセットへ処理するように構成されている。
JP2004545611A 2002-10-25 2003-10-24 Celpパラメータ領域におけるdtmf検索と音声ミキシングのための方法及び装置 Pending JP2006504300A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US42127102P 2002-10-25 2002-10-25
US42134202P 2002-10-25 2002-10-25
PCT/AU2003/001413 WO2004039096A1 (en) 2002-10-25 2003-10-24 Method and apparatus for dtmf detection and voice mixing in the celp parameter domain

Publications (1)

Publication Number Publication Date
JP2006504300A true JP2006504300A (ja) 2006-02-02

Family

ID=32179852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004545611A Pending JP2006504300A (ja) 2002-10-25 2003-10-24 Celpパラメータ領域におけるdtmf検索と音声ミキシングのための方法及び装置

Country Status (7)

Country Link
US (2) US7133521B2 (ja)
EP (1) EP1557052A1 (ja)
JP (1) JP2006504300A (ja)
KR (1) KR100756311B1 (ja)
CN (1) CN1708997A (ja)
AU (1) AU2003273625A1 (ja)
WO (1) WO2004039096A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7023880B2 (en) * 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
US7630488B2 (en) * 2003-05-16 2009-12-08 Alcatel-Lucent Usa Inc. DTMF tone generation in a media gateway
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
WO2007064256A2 (en) * 2005-11-30 2007-06-07 Telefonaktiebolaget Lm Ericsson (Publ) Efficient speech stream conversion
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
US8050397B1 (en) * 2006-12-22 2011-11-01 Cisco Technology, Inc. Multi-tone signal discriminator
US20080192736A1 (en) * 2007-02-09 2008-08-14 Dilithium Holdings, Inc. Method and apparatus for a multimedia value added service delivery system
WO2008098249A1 (en) * 2007-02-09 2008-08-14 Dilithium Networks Pty Ltd. Method and apparatus for the adaptation of multimedia content in telecommunications networks
WO2009001292A1 (en) * 2007-06-27 2008-12-31 Koninklijke Philips Electronics N.V. A method of merging at least two input object-oriented audio parameter streams into an output object-oriented audio parameter stream
JP4992979B2 (ja) * 2007-11-06 2012-08-08 富士通株式会社 多地点間音声通話装置
US9208797B2 (en) * 2008-04-18 2015-12-08 General Motors Llc Tone detection for signals sent through a vocoder
WO2010030569A2 (en) * 2008-09-09 2010-03-18 Dilithium Networks, Inc. Method and apparatus for transmitting video
US8838824B2 (en) * 2009-03-16 2014-09-16 Onmobile Global Limited Method and apparatus for delivery of adapted media
US8730852B2 (en) * 2009-12-11 2014-05-20 At&T Intellectual Property I, L.P. Eliminating false audio associated with VoIP communications
US9813562B1 (en) * 2010-09-01 2017-11-07 Sprint Communications Company L.P. Dual tone multi-frequency transcoding server for use by multiple session border controllers
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US9208796B2 (en) * 2011-08-22 2015-12-08 Genband Us Llc Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
IN2015DN04001A (ja) * 2012-11-07 2015-10-02 Dolby Int Ab
US8755514B1 (en) * 2013-09-16 2014-06-17 The United States Of America As Represented By The Secretary Of The Army Dual-tone multi-frequency signal classification
CN103596292A (zh) * 2013-11-26 2014-02-19 广东欧珀移动通信有限公司 一种通过声音来实现蓝牙快速配对连接的方法
PT3000110T (pt) * 2014-07-28 2017-02-15 Fraunhofer Ges Forschung Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos.
US10122767B2 (en) 2015-05-29 2018-11-06 Nagravision S.A. Systems and methods for conducting secure VOIP multi-party calls
US9900769B2 (en) 2015-05-29 2018-02-20 Nagravision S.A. Methods and systems for establishing an encrypted-audio session
US9891882B2 (en) 2015-06-01 2018-02-13 Nagravision S.A. Methods and systems for conveying encrypted data to a communication device
US10356059B2 (en) 2015-06-04 2019-07-16 Nagravision S.A. Methods and systems for communication-session arrangement on behalf of cryptographic endpoints
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
CN111325957B (zh) * 2018-12-13 2021-09-03 比亚迪股份有限公司 微控制单元及dtmf报警信号输出方法和系统
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치
US20230326473A1 (en) * 2022-04-08 2023-10-12 Digital Voice Systems, Inc. Tone Frame Detector for Digital Speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214922A (ja) * 1996-01-30 1997-08-15 Fujitsu Ltd 多地点会議装置
JPH11252594A (ja) * 1998-03-04 1999-09-17 Uniden Corp Dtmf信号検出装置及びdtmf信号検出方法並びにphs端末装置及びコードレス留守番電話機

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US5150410A (en) * 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
GB9120032D0 (en) * 1991-09-19 1991-11-06 Saulsbury Ashley An interactive communication device
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5754589A (en) * 1993-01-08 1998-05-19 Multi-Tech Systems, Inc. Noncompressed voice and data communication over modem for a computer-based multifunction personal communications system
US5452289A (en) * 1993-01-08 1995-09-19 Multi-Tech Systems, Inc. Computer-based multifunction personal communications system
US5453986A (en) * 1993-01-08 1995-09-26 Multi-Tech Systems, Inc. Dual port interface for a computer-based multifunction personal communication system
US5812534A (en) * 1993-01-08 1998-09-22 Multi-Tech Systems, Inc. Voice over data conferencing for a computer-based personal communications system
US5535204A (en) * 1993-01-08 1996-07-09 Multi-Tech Systems, Inc. Ringdown and ringback signalling for a computer-based multifunction personal communications system
US5617423A (en) * 1993-01-08 1997-04-01 Multi-Tech Systems, Inc. Voice over data modem with selectable voice compression
US6009082A (en) * 1993-01-08 1999-12-28 Multi-Tech Systems, Inc. Computer-based multifunction personal communication system with caller ID
US5612974A (en) * 1994-11-01 1997-03-18 Motorola Inc. Convolutional encoder for use on an integrated circuit that performs multiple communication tasks
US5659698A (en) * 1994-11-01 1997-08-19 Motorola, Inc. Method and apparatus for generating a circular buffer address in integrated circuit that performs multiple communications tasks
US5652903A (en) * 1994-11-01 1997-07-29 Motorola, Inc. DSP co-processor for use on an integrated circuit that performs multiple communication tasks
US5621800A (en) * 1994-11-01 1997-04-15 Motorola, Inc. Integrated circuit that performs multiple communication tasks
US5841763A (en) * 1995-06-13 1998-11-24 Multilink, Inc. Audio-video conferencing system
CA2202025C (en) 1997-04-07 2003-02-11 Tero Honkanen Instability eradicating method and device for analysis-by-synthesis speeech codecs
US6873701B1 (en) * 2001-03-29 2005-03-29 3Com Corporation System and method for DTMF detection using likelihood ratios
JP2004222009A (ja) 2003-01-16 2004-08-05 Nec Corp 異種網接続ゲートウェイおよび異種網間通信課金システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214922A (ja) * 1996-01-30 1997-08-15 Fujitsu Ltd 多地点会議装置
JPH11252594A (ja) * 1998-03-04 1999-09-17 Uniden Corp Dtmf信号検出装置及びdtmf信号検出方法並びにphs端末装置及びコードレス留守番電話機

Also Published As

Publication number Publication date
US7133521B2 (en) 2006-11-07
KR100756311B1 (ko) 2007-09-07
CN1708997A (zh) 2005-12-14
US20070025546A1 (en) 2007-02-01
EP1557052A1 (en) 2005-07-27
US20040174984A1 (en) 2004-09-09
KR20050072456A (ko) 2005-07-11
WO2004039096A1 (en) 2004-05-06
AU2003273625A1 (en) 2004-05-13

Similar Documents

Publication Publication Date Title
JP2006504300A (ja) Celpパラメータ領域におけるdtmf検索と音声ミキシングのための方法及び装置
US7012901B2 (en) Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US5995923A (en) Method and apparatus for improving the voice quality of tandemed vocoders
KR101353847B1 (ko) 반향 검출 방법 및 장치
US7599834B2 (en) Method and apparatus of voice mixing for conferencing amongst diverse networks
US20040032860A1 (en) Quality of voice calls through voice over IP gateways
US8340959B2 (en) Method and apparatus for transmitting wideband speech signals
US6697342B1 (en) Conference circuit for encoded digital audio
CN103988486A (zh) 在多方电话会议的混音中选择活动信道的方法
US6765995B1 (en) Telephone system and telephone method
US20130066641A1 (en) Encoder Adaption in Teleconferencing System
US9961209B2 (en) Codec selection optimization
US7715365B2 (en) Vocoder and communication method using the same
US7313233B2 (en) Tone clamping and replacement
US7619994B2 (en) Adapter for use with a tandem-free conference bridge
Varun et al. Transcoding of Voice Codecs G. 711 to G. 729 and Vice-versa Implementation on FPGA
EP1414024A1 (en) Realistic comfort noise for voice calls over packet networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100518