JP6058824B2 - パーソナライズされた帯域幅拡張 - Google Patents

パーソナライズされた帯域幅拡張 Download PDF

Info

Publication number
JP6058824B2
JP6058824B2 JP2015558081A JP2015558081A JP6058824B2 JP 6058824 B2 JP6058824 B2 JP 6058824B2 JP 2015558081 A JP2015558081 A JP 2015558081A JP 2015558081 A JP2015558081 A JP 2015558081A JP 6058824 B2 JP6058824 B2 JP 6058824B2
Authority
JP
Japan
Prior art keywords
bandwidth extension
speaker
end station
narrowband
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015558081A
Other languages
English (en)
Other versions
JP2016510133A (ja
JP2016510133A5 (ja
Inventor
キム、レ−ホン
リュ、サン−ウク
シン、ジョンウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016510133A publication Critical patent/JP2016510133A/ja
Publication of JP2016510133A5 publication Critical patent/JP2016510133A5/ja
Application granted granted Critical
Publication of JP6058824B2 publication Critical patent/JP6058824B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

[0001] 信号の帯域幅拡張(Bandwidth extension)は、周知のものであり、有用なコンテンツまたは効果を含む信号の周波数範囲(帯域幅)を拡張するプロセスとして定義され得る。近年では、帯域幅拡張は、電話システムにおける音声のような、コード化された音声(speech)およびオーディオの高周波数向上において使用されている。よって、例えば、狭帯域電話音声の品質は、帯域幅拡張によって改善されることができる。
[0002] 周知の帯域幅拡張のうちの1つのタイプは、ブラインド帯域幅拡張と称される。ブラインド帯域幅拡張の技術は、狭帯域オーディオ信号の高周波数帯域を再現するために使用される。これら方法は、電話または無線通信システムにあるような狭い周波数帯域を介して送信される信号の知覚品質(perceived quality of signals)を高める。
[0003] しかしながら、既存のブラインド帯域幅拡張の技術は、帯域幅拡張を実行するための汎用モデルを使用する。そのような汎用モデルは、典型的に、任意の話者(speaker)のための帯域幅拡張において使用され、それは、誤りまたは質の悪いユーザ経験をもたらし得る。
[0004] 本願のシステムおよび方法は、帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる(例えば、調整される)、パーソナライズされた(すなわち、話者導出可能な(speaker-derivable))帯域幅拡張に関するものである。
[0005] 実現において、トレーニングフェーズは、ユーザにパーソナライズされた帯域幅拡張モデルを生成するように実行される。モデルは、ユーザを伴う通話中の帯域幅拡張フェーズで続いて使用され得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域(例えば、広帯域)が利用不可能であり、呼が低帯域(例えば、狭帯域)で行なわれる場合にアクティベートされる。
[0006] 実現において、モデルは、ユーザが(例えば、発信者IDによって)識別されることができる広帯域呼中の遠端局(far-end station)(例えば、携帯電話)でトレーニングされる(それが話者導出可能な情報に基づくように、ユーザにパーソナライズされる)。
[0007] 別の実現において、モデルは、呼中の近端局(near-end station)で(例えば、ユーザの携帯電話で)トレーニングされる(近端はネットワーク条件にかかわらず、広帯域音声をキャプチャすることができることに留意されたい)。
[0008] 別の実現において、モデルは、ユーザの声または移動局の所有者によって選択されたターゲットボイスのいずれかにより、(通話中でない)移動局においてオフラインでトレーニングされる。オフライントレーニングは、電話が通話に使用されていない場合、ユーザのボイスまたはターゲットボイスを記録することを伴う。
[0009] この発明の概要は、詳細な説明において以下にさらに説明される概念の選択を簡略化された形態で紹介するために提供される。この発明の概要は、特許請求されているような主題事項の重要な特徴または本質的な特徴を特定するように意図されておらず、特許請求されているような主題事項の範囲を限定するために使用されるようにも意図されていない。
[0010] 上述の概要、並びに以下の例示的な実施形態の詳細な説明は、添付の図面と併せて読むとより良く理解される。実施形態を例示する目的については、実施形態の図面構築例に示されているが、その実施形態は、特定の方法および開示された主題に限定されない。図面は、以下を記載している:
[0011] 図1は、パーソナライズされた帯域幅拡張が生成され、使用され得る典型的なシステムのブロック図である。 [0012] 図2は、パーソナライズされた帯域幅拡張のためのトレーニング方法の実現の動作フローである。 [0013] 図3は、パーソナライズされた帯域幅拡張を実行する方法の実現の動作フローである。 [0014] 図4は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0015] 図5は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0016] 図6は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0017] 図7は、スペクトル包絡/励起ベース(spectral envelope/excitation-based)のパーソナライズされた帯域幅拡張のためのトレーニングを実行する方法の実現の動作フローである。 [0018] 図8は、スペクトル包絡/励起ベースのパーソナライズされた帯域幅拡張と共に使用され得るマッピング表の例のブロック図である。 [0019] 図9は、スペクトル包絡/励起ベースのパーソナライズされた帯域幅拡張と共に使用され得る別のマッピング表の例のブロック図である。 [0020] 図10は、スペクトル包絡/励起ベースのパーソナライズされた帯域幅拡張を実行する方法の実現の動作フローである。 [0021] 図11は、移動局の例のブロック図である。 [0022] 図12は、典型的なコンピューティング環境を示す。
詳細な説明
[0023] 図面を参照し、組み込む以下の詳細な説明は、1つ以上の特定の実施形態を説明し、例示する。これらの実施形態は、限定のためでなく例示および教示のためだけに提供され、当業者が特許請求の範囲を実現することを可能にさせるために、十分詳細に示され、説明される。したがって、簡潔さのために、説明は、当業者に知られているある特定の情報を省略し得る。
[0024] 図1は、パーソナライズされた帯域幅拡張が(話者導出可能な情報に基づいて)生成され、受信された狭帯域(NB)音声信号から広帯域(WB)音声信号を展開(develop)させるために使用され得る、典型的なシステム100のブロック図である。システム100は、対応する受信されたアナログ信号の周波数範囲よりも広い周波数範囲を有するアナログ信号を生成するために使用され得る。よって、信号が広帯域信号であるのか、または狭帯域信号であるのかは、それの他との関係に依存する。本明細書で説明される例および実現はNB音声信号からWB音声信号を展開させることを指しているが、本明細書に開示されるシステムおよび方法は、例えば、超広帯域(SWB)からWBとなる、またはSWBからNBとなるように、任意の他の音声信号のセットから任意の音声信号のセットを展開させるために使用されることができるので、本願のシステムおよび方法は、それらに限定されない。
[0025] 示されるように、システム100は、送信側によって使用され得る近端局110と、受信側によって使用され得る遠端局150とを含む。近端局110および遠端局150は、それぞれ、移動局またはコンピューティングデバイスのような、通信するためのデバイスであり得る。移動局800の例は、図11に関して記載され、コンピューティングデバイス900の例は、図12に関して記載される。
[0026] 近端局110および遠端局150は、1つ以上の送信チャネル145を介して通信し得る。通信は、話者の音声発話(speech utterances)105(ボイスデータ)の狭帯域バージョンに対応する狭帯域音声信号の、近端局110から遠端局150への送信を備え得る。遠端局150は、話者の音声発話105の対応する広帯域バージョンを生成および出力するように(すなわち、話者導出可能な情報に基づいて)話者にトレーニングされたモデル163を使用し得る。本明細書でさらに説明されるように、モデル123、163は、実現に応じて、近端局110または遠端局150のいずれかでトレーニングされ、生成され、記憶され得る。
[0027] よって、(実現に応じて)音声発話105およびトレーニングされたモデル123、163またはデータは、1つ以上の送信チャネル145を介して送信され得る。より具体的には、送信機125は、例えば、1つ以上の電気通信送信規格に従って、話者の音声発話105(ボイスデータ)を、送信のために本来の音声発話105の狭帯域バージョンに変換する。本来の音声発話およびトレーニングされたモデルまたはデータの狭帯域バージョンの送信は、一般に同時方法で、または、例えば、送信プロセス中の別個の時間で、生じ得る。この例での、並びに以下に説明される例での使用に適している送信チャネルは、電話ネットワークチャネル、ワイヤレスセルラネットワークチャネル、携帯用無線電話機システム、ワイヤードネットワーク、等を含む。そのような送信システムで使用される狭帯域音声信号は、300Hzから3.4kHzの帯域幅に限定され得、それは、移動通信のためのグローバルシステム(GSM(登録商標))ネットワークを使用して音声信号を送信するために使用される帯域幅に対応する。
[0028] 実現に応じて、近端局110は、トレーニングモジュール115、1つ以上のトレーニングされたモデル123を記憶し得る記憶装置120(例えば、メモリ)、送信機125、特徴抽出モジュール130、および音声シンセサイザ135を備え得る。完全に同じではないが同様に、実現に応じて、遠端局150は、トレーニングモジュール155、1つ以上のトレーニングされたモデル163を記憶し得る記憶装置160(例えば、メモリ)、受信機165、特徴抽出モジュール170、および音声シンセサイザ175を備え得る。
[0029] いくつかの実現において、近端局110における音声シンセサイザ135は、必要とされない、または使用されない。例えば、近端局110におけるWB入力からのみ特徴領域比較機構(feature domain comparison mechanism)を使用する実現では、実際の音声は生成されないので、音声シンセサイザ135は必要とされない、または使用されない。そのような(各既存のエントリと入力との間の類似点を計算するために特徴領域類似比較(feature domain similarity comparison)を使用する)場合では、遠端局150においてWB音声が合成されることができるように、(NBの特徴のような)特徴およびモデルが遠端局150に送信される。しかしながら、実際のWB入力と合成されたWB入力とを比較することでモデルを知るための「合成による分析」機構を使用する実現では、音声シンセサイザ135が使用され得る。この種の実現は、各既存のエントリと入力との間の類似点を計算するために、合成された音声信号領域類似比較を使用する。
[0030] 音声発話105は、近端局110のユーザから近端局110において受信される。音声発話105は、帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる(例えば、調整される)、パーソナライズされた帯域幅拡張を提供するために使用される。
[0031] 実現において、トレーニングフェーズは、ユーザにパーソナライズされた(本明細書で「モデル」とも称される)帯域幅拡張モデルを生成するように実行される。トレーニングフェーズは、トレーニングモジュール115を使用して近端局110で、またはトレーニングモジュール155を使用して遠端局150で、実行され得る。トレーニングモジュール115によって生成されたパーソナライズされた帯域幅拡張モデル123は記憶装置120に記憶され、トレーニングモジュール155によって生成されたモデル163は記憶装置160に記憶され得る。記憶装置120、160は、(例えば、異なるユーザにパーソナライズされた)2つ以上のモデルを記憶し、例えば、データベースの形態をとり得る。
[0032] 実現に応じて、近端局110および/または遠端局150は、(例えば、それぞれ、特徴抽出モジュール130、170のような)特徴抽出モジュールを備え得る。特徴抽出モジュールは、ユーザの音声から広帯域の特徴を抽出し、これら広帯域の特徴は、トレーニングモデルの生成において使用される。
[0033] トレーニングされたモデル123、163は、ユーザの電話(例えば、近端局110)に記憶されることができる、または他のユーザの電話(例えば、遠端局150)に送信されることができる。広帯域トレーニングデータに基づくモデル123、163は、その後、ユーザを伴う狭帯域呼中に使用され得る。モデルは、通話の再生側で(すなわち、遠端局150で)利用可能となる。
[0034] よって、モデル123またはモデル163のような、モデルは、モデルに関連付けられたユーザを伴う通話中の帯域幅拡張フェーズにおいて続いて使用され得る。通話は、1つ以上の送信チャネル145を介して近端局110と遠端局150との間で行われ得る。具体的には、近端局110の送信機125は、(単数または複数の)送信チャネル145を介して遠端局の受信機165に、それが受信した音声を送信し得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域(例えば、広帯域)が利用不可能であり、呼が低帯域(例えば、狭帯域)で行なわれる場合にアクティベートされる。狭帯域呼中に、受信機165は、話者の音声発話105の広帯域バージョンに対応する広帯域音声信号を生成するために、(予め生成および記憶されていた)トレーニングされたモデル123、163と共に話者からの狭帯域音声信号を使用する。
[0035] 特徴抽出モジュール130、170はまた、通話中に通話から狭帯域の特徴を抽出し、それら狭帯域の特徴を音声シンセサイザ135、175に提供し得る。実現に応じて、近端局110および/または遠端局150は、音声シンセサイザ(例えば、音声シンセサイザ135、175)を備え得る。音声シンセサイザ135、175は、抽出された狭帯域の特徴と組み合わせられたパーソナライズされた帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行する。広帯域音声は、その後、出力され得る。
[0036] 図2は、パーソナライズされた帯域幅拡張のためのトレーニング方法200の実現の動作フローである。トレーニングフェーズは、狭帯域呼で続いて使用され得るモデルを生成するために使用される。実現に応じて、本明細書でさらに説明されるように、トレーニングフェーズは、着信広帯域呼を有する遠端局で、広帯域呼中の近端局で、またはオフラインで、実行される。210において、(本明細書ではユーザとも称される)話者は、例えば、彼らの名前または他の識別子を局にエントリまたは入力するユーザによって、または、例えば、発信者IDによって、識別される。
[0037] 220において、話者は、キャプチャされた、または別の方法で局によって受信された(音声発話とも称される)発話を話す。230において、広帯域の特徴が、発話から(例えば、発話に対応するボイスデータから)抽出される。特徴トレーニングは、240においてトレーニングモデルを生成するために(適切なトレーニングのために十分なデータが収集されるまで)実行される。データは、例えば、データが十分に多様となる(ダイバーシチ閾値または基準を満たす)まで、および/またはデータが十分に長い間(例えば、実現に応じて分、時間、日)収集されるまで、のように、1つ以上の所定の条件が満たされるまで、収集される。この時点で、トレーニングモデルは、250において記憶され、狭帯域呼で使用され得る。
[0038] パーソナライズされた帯域幅拡張のためのトレーニングモデルを生成するのに十分なデータが収集されない場合、一般大衆(general population)のためにトレーニングされた帯域幅拡張モデル(すなわち、「汎用モデル」)が、これまで収集されたパーソナライズされたデータと共に適応され得ることが企図される。例えば、(図7−10に関して以下に説明される表のような)表が汎用モデルのためのデータを含み、その表がパーソナライズされたトレーニングモデルとして(または、それと共に)使用するためのパーソナライズされたデータを含む表に修正される実現では、その表は、これまで受信されたパーソナライズされたデータを使用して適応され得る。これは、完璧なパーソナライズされたデータのセットが収集され(例えば、上述した1つ以上の所定の条件が満たされ)、表に組み込まれる場合(すなわち、収集された完璧なパーソナライズされたデータのセットを使用して表が修正された場合)、よりスムーズな遷移を可能にする。別の実現では、パーソナライズされた帯域幅拡張のためのトレーニングモデルを生成するのに十分なデータが収集されない場合、汎用モデルは、十分なパーソナライズされたデータが収集されるまで使用され得る。
[0039] 図3は、パーソナライズされた帯域幅拡張を実行する方法300の実現の動作フローである。310において、狭帯域呼が近端局と遠端局との間で行なわれ、帯域幅拡張フェーズが開始される。話者は、(例えば、発信者IDを使用して)320において識別され、330において(その話者に関連付けられた)適切な帯域幅拡張トレーニングモデルが(例えば、遠端局のような再生局側において)記憶装置から取り出される、または送信局側(例えば、近端局のような、狭帯域音声ソース)から受信される。何らかの話者識別方法は、現在話している人物がモデルの生成中に話していた人物と同じかどうかを確かめるために用いられる。話者を識別できない場合、パーソナライズされた帯域幅拡張は、拒否され得る、または終了させられ得る。
[0040] 340において、通話における音声発話からの(例えば、ボイスデータからの)狭帯域の特徴が抽出され、モデルを使用して話者のパーソナライズされた広帯域の特徴にマッピングされる。広帯域音声合成は、抽出された狭帯域の特徴と組み合わせられた、パーソナライズされた帯域幅拡張トレーニングモデルを使用して、350において実行される。広帯域音声が、360において出力される。
[0041] 図4は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。この実現において、モデルは、(例えば、発信者IDによって)ユーザが識別されることができる広帯域呼中の遠端局150においてトレーニングされる(ユーザにパーソナライズされる)。
[0042] 410において、話者のボイス(例えば、音声発話)は、近端局から広帯域呼中の遠端局において受信される。415において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。品質は、例えば、信号対雑音比(SNR)、または他の雑音ベースの統計および/または測定値に基づき得る。よって、例えば、SNRが所定の閾値を上回る場合、発話の品質は、パーソナライズされた帯域幅拡張トレーニングモデルの生成に使用されるのに十分に高い。そうでない場合、処理は、410に戻り、音響条件が許容可能になるまで続く。
[0043] 415において音響条件が許容可能であると決定された場合、狭帯域および広帯域の特徴が420において音声発話から抽出され、話者が430において、例えば、話者、遠端局のユーザ、または発信者ID425のいずれかによって、識別される。これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、話者に関する帯域幅拡張(BWE)の特徴は、435において(ローカルデータベースのような)記憶装置から取り出され得る。
[0044] 440において、特徴トレーニングが、420から抽出された特徴および435から取り出された帯域幅拡張の特徴を使用して実行される。この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。上述した特徴領域類似比較、上述した合成された音声信号領域類似比較、並びに(時間領域または周波数領域において)許容可能な時間調整と一致する最小二乗法、(LPC/LPCC、MFCCまたはオーディオ諮問を使用するような)特徴ベースのアプローチ、または(クロスキュムラント、実証的カルバックライブラー情報量、または板倉−斉藤距離のような)高次ベースのアプローチを含むがそれらに限定されない任意の距離メトリックのような、類似性測定(similarity measure)を決定し、一致させるための任意の技術が使用され得る。
[0045] 実現において、更新することは、初期化された特徴空間(例えば、一般大衆のためのユニバーサルコードブック)からパーソナライズされた特徴空間(例えば、話者のためのパーソナライズされたコードブック)に向かって実行され得る。コードブックエントリは、現在の特徴ベクトルと最も近い既存のコードブックエントリとの間の加重和に置き換えられ得る。過剰なメモリ消費が問題となった場合、実現において、ユニバーサル特徴空間からの更新条件を緩和することによって、ある特定の話者にメモリ消費の優先順位が与えられ得る。さらに、またはあるいは、異なる特徴空間のみ、またはユニバーサル特徴空間からのデルタ(delta)または変更のみが記憶され得る。汎用特徴空間は、局で事前に記憶され得る、または後続使用のための局に送信または別の方法で提供され得る。
[0046] 特徴空間の更新がなくても、パーソナライズされた帯域幅拡張は、依然としてパーソナライズされた狭帯域−広帯域マッピングモデルを使用して取得され得ることが企図される。
[0047] 450において、帯域幅拡張の特徴空間および話者のためのマッピングは、(例えば、トレーニングモデルの完了前に生じるマッピングおよび/または特徴の量の所定の閾値に関連する)トレーニングの完了率と共に(例えば、ローカルデータベースに)記憶され得る。実現において、モデルトレーニング完了率は、非音声部分を除外するために適切なVAD(ボイスアクティビティ検出)と共にトレーニングするために使用される時間を測定することと、新しい狭帯域−広帯域マッピングがいくつ構成されたかのカウントを測定することによって取得され得る、またはそれらに基づき得る。
[0048] 実現において、何らかのトレーニング完了率では広帯域が利用可能であることを示すために、ユーザが利用できる、アドレスブックにインジケータが提供されることができる。アドレスブックは、例えば、トレーニング完了率および/または広帯域がユーザ毎に利用可能であるかどうかを示すインジケータおよび様々なユーザをリストし、記憶するデータベースを備え得る。ユーザは、トレーニング完了率を有するユーザインターフェースに基づいて、広帯域に帯域幅拡張を使用するか否かを決めることができる。あるいは、またはさらに、トレーニング完了率がある特定のレベル(例えば、99%)に達する場合は常に、広帯域に対する帯域幅拡張が、広帯域が利用不可能な場合、または、例えば、何らかのコーディングリソースが保存または保護されるべき場合(例えば、悪いネットワーク条件または呼中の大量のデータ転送)、自動的に切り替えられるように、デフォルトがセットされ得る。
[0049] 460において、広帯域接続が利用不可能なときに、呼中で使用されるために(例えば、所定の閾値と比べて)十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために410において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、470において、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。
[0050] 実現に応じて、パーソナライズされた帯域幅拡張は、例えば、(1)広帯域が呼中ずっと利用不可能な場合;(2)広帯域が呼の一部分に使用可能であるが、呼の別の部分には利用不可能であり、パーソナライズされた帯域幅拡張が、広帯域が利用不可能なときにアクティベートされる場合;および(3)広帯域が常時利用可能である、または呼のいくつかの部分に利用可能であり、パーソナライズされた帯域幅拡張が、パーソナライズされた帯域幅拡張モデルが十分に良くなり、キャリア企業がパーソナライズされた帯域幅拡張モードに切り替えることを決定すれば、広帯域が利用可能であるときでさえ、アクティベートされる場合、のようないくつかのケースのいずれかで使用され得る。
[0051] 図5は、パーソナライズされた帯域幅拡張のためのトレーニングの方法500の別の実現の動作フローである。この実現では、モデルは、呼中の近端局110で(例えば、ユーザの携帯電話で)トレーニングされる。近端局110はネットワーク条件にかかわらず、広帯域音声をキャプチャすることができることに留意されたい。
[0052] 510において、通話が行われ(すなわち、オンライン呼)、そこでは、話者がその呼に応じており、話者の局に話している(音声発話を提供している)。515において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。上述したように、SNR技術は、音響条件が許容可能かどうかを決定するために使用され得る。そうでない場合、処理は、510に戻り、音響条件が許容可能になるまで続く。
[0053] 515において音響条件が許容可能であると決定された場合、話者は、例えば、ユーザ入力525を介した話者によって、520において識別される。530において、(例えば、話者の識別を、話者の局に関連付けられた記憶装置内に登録されたユーザのリストと比較することによって)識別された話者が登録されたユーザかどうかを決定する。識別された話者が登録されたユーザかどうかを決定することは、局の所有者(例えば、携帯電話の所有者)として登録されたユーザ以外の人物に対して望ましくないトレーニングを防ぐために使用される。話者が登録されたユーザではない場合、処理は510に戻る。しかしながら、識別された話者が登録されたユーザであると決定された場合、これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、540において狭帯域および広帯域の特徴が音声発話から抽出され、545において話者に関連する帯域幅拡張の特徴が(ローカルデータベースのような)記憶装置から取り出され得る。
[0054] 550において、特徴トレーニングが、540から抽出された特徴および545から取り出された帯域幅拡張の特徴を使用して実行される。方法400について上述したものと同様に、この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。555において、帯域幅拡張の特徴空間および話者のためのマッピングは、(例えば、特徴の量の所定の閾値および/またはトレーニングモデルの完了前に生じるマッピングに関連する)トレーニングの完了率と共に(例えば、ローカルデータベースに)記憶され得る。
[0055] 560において、広帯域接続が利用不可能なときに、呼中で使用されるために(例えば、所定の閾値と比べて)十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために510において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。
[0056] モデルは、狭帯域ボイス通信で使用するために、570において遠端局に送信され得る。そのようなデータ送信は、ユーザ間のデータ接続が利用可能となり、以前のデータからのデルタが存在する場合は常にバックグラウンドで作成されることができる。あるいは、メールまたはショートメッセージプッシュと同じように、モデルの所有者が彼女/彼のモデルを更新したい場合は常に、それの電話アドレスブックにおけるコンタクト(contact)を有するユーザに、利用可能なユーザのモデルを知らせることができる。あるいは、呼の開始で、トレーニングされたモデルが利用可能であり、新しいまたは最後の同期更新以来修正されたものである場合、それは送信されることができる。
[0057] 図6は、パーソナライズされた帯域幅拡張のためのトレーニングの方法600の別の実現の動作フローである。この実現では、モデルは、ユーザのボイスまたは移動局の所有者によって選択されたターゲットボイスのいずれかにより移動局において(例えば、近端局110または遠端局150または適切な機能を有する任意の移動局のいずれかにおいて)、(例えば、通話中ではない)オフラインでトレーニングされる。オフライントレーニングは、電話が通話に使用されていない場合、ユーザのボイスまたはターゲットボイスを記録することを伴う。
[0058] 610において、局がオフラインである(すなわち、通話が行なわれていない)間、話者は、話者の局に音声発話を提供するために局に話す。615において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。そうでない場合、処理は、610に戻り、音響条件が許容可能になるまで続く。
[0059] 615において音響条件が許容可能であると決定された場合、話者は、(例えば、局に関連付けられた所定の電話帳からの識別のユーザ選択のように)ユーザ入力630を介した話者により、625において識別される。
[0060] これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、620において狭帯域および広帯域の特徴が音声発話から抽出され、635において識別された話者に関連する帯域幅拡張の特徴が(ローカルデータベースのような)記憶装置から取り出され得る。
[0061] 640において、特徴トレーニングが、620から抽出された特徴および635から取り出された帯域幅拡張の特徴を使用して実行される。この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。方法400について上述したものと同様に、650において、帯域幅拡張の特徴空間および話者のためのマッピングは、(例えば、特徴の量の所定の閾値および/またはトレーニングモデルの完了前に生じるマッピングに関係する)トレーニングの完了率と共に(例えば、ローカルデータベースに)記憶され得る。
[0062] 660において、広帯域接続が利用不可能なときに、呼中で使用されるために(例えば、所定の閾値と比べて)十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために610において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、670において、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。
[0063] 図7は、広帯域ソースが利用可能な場合、スペクトル包絡/励起(spectral envelope/excitation)ベースのパーソナライズされた帯域幅拡張のためのトレーニングを実行する方法700の実現の動作フローである。705において、音声ソース(例えば、音声発話)からの音声が生成され、局に提供される。広帯域(WB)特徴の抽出が710において実行され、狭帯域(NB)特徴の抽出が720において実行される。715において、WB線スペクトル周波数(LSF)およびNB LSFは、WB LSFコードブック更新に提供され、NB LSFコードからWB LSFコードにマップするマッピング表を構築するために提供される。715において生成されているもののような、マッピング表740の例は、図8に示される。NB LSFインデックス745は、図8において、対応するWB LSF747と共に提供される。WBコードブックは、(例えば、一般大衆(a general population of people)に関連する)汎用LSFで初期化される。NB LSFコードiでは、現在のフレームのWB LSFに基づいて、関連付けられたWB LSFコードブックエントリを更新する。
[0064] 図7を参照すると、725において、WB励起は、NB LSFおよびNB励起と共に、WB励起コードブック更新に提供され、NBからWB励起へのコードブックマッピング表を構築するために提供される。(例えば、十分なトレーニングデータが取得されたかどうかに基づいて)トレーニングを中止するか否かが、730において決定される。そうである場合、トレーニングは735において中止され、そうでなければ、処理は、705に進み、更なる音声発話がトレーニングで使用される。725において生成されているもののような、マッピング表750の例は、図9に示される。LSFインデックス755は、対応する励起インデックス757と共に提供される。コードブックは、汎用励起(すなわち、一般大衆から導出された励起)で初期化される。NBLSFコードiおよびNB励起コードjでは、関連付けられたWB励起コードブックエントリを更新する。
[0065] 図10は、狭帯域ソースのみが利用可能な場合、スペクトル包絡/励起ベースのパーソナライズされた帯域幅拡張を実行する方法760の実現の動作フローである。765において、狭帯域音声は、遠端局150のような局に提供される。770において、狭帯域の特徴が抽出され、NB励起コードおよびNB LSFコードをもたらす。
[0066] 775において、NB励起コードおよびNB LSFコードを使用して、マッピングがWB励起に対して実行される。マッピングはまた、780において、NB LSFからWB LSFに実行される。マッピングを使用すると、WB音声は、785において合成され、790において出力される。
[0067] NBとWBとの間に一意ではないマッピング問題がある可能性があることに留意されたい。この課題を解決するために、N−グラムと呼ばれる音声認識のための言語モデルに類似した技術が使用され得る。実現において、マッピングを構築するための過去の(または遅延が許可された場合に可能な将来の)フレームに注目する。例えば、2−グラムが構築された場合、マッピングは、NB_{i}−WB{i}ではなく、NB_{i−1},NB{i}−WB{i}となる。
[0068] スペクトル包絡(例えば、LPC(線形予測モデル)、LSF、メル周波数ケプストラム係数(MFCC)、等)のためのトレーニングフェーズの実現において、広帯域信号が利用可能である場合、狭帯域音声のためのスペクトル包絡(SE)コードブックエントリおよび対応する広帯域信号のSEを発見して、例えば、コードブックマッピングまたはHMM/GMM(隠れマルコフモデル/混合ガウスモデル)を構築する。低帯域SEを保持する、および/または近過ぎるSEを防ぐための任意の方法もまた、適用され得る。
[0069] 実現において、コードブックマッピングでは、WB SE表が一般大衆のためのBWE用の表で初期化される。表への各エントリは、対応するNB SEが観測された場合、置き換えられる/適応される。更新されたエントリ数および/またはエントリ毎の更新数は、十分なトレーニングデータが取得されたかどうかを決定するために維持され、分析され得る。
[0070] スペクトル包絡のためのパーソナライズされた帯域幅拡張フェーズの実現では、NB SEを考慮すると、コードブックマッピング(表検索またはフィルタリング)によって、または確率的モデル(GMM/HMM)から、対応するWB SEが決定される。
[0071] 励起の実現ためのトレーニングフェーズについては、NB−励起コードブック(FCB(固定コードブック)またはFCB/ACB(適応コードブック))およびNB SEを考慮すると、本願のシステムおよび方法は、NB SEおよび励起からWB励起に対するマッピング/確率的モデルを構築し得る。例えば、1つはN×Mエントリと共にWB励起表を構築する可能性があり、ここで、Nは、NB励起コードブックへのエントリ数であり、Mは、NB SEコードブックへのエントリ数である。この表は、一般大衆のための帯域幅拡張のためのエントリで初期化される。表への各エントリは、対応するNB SE/励起の組み合わせが観測された場合に置き換えられる/適応される。更新されたエントリ数および/またはエントリ毎の更新数は、十分なトレーニングデータが取得されたかどうかを決定するために維持され、分析され得る。
[0072] 帯域幅拡張フェーズでは、信頼性測定(reliability measure)(基準)が、パーソナライズされた帯域幅拡張を使用するかどうかを決定するために使用され、表への更新されたエントリ数および/または時間のトレーニングデータ長に基づき得る。所定の量または閾値を上回った場合、例えば、パーソナライズされた帯域幅拡張が使用され得る。
[0073] さらに、いくつかの実現では、複数レベルの信頼性測定が使用されることができる。例えば、(1)信頼性測定が非常に高い場合、パーソナライズされた帯域幅拡張は、(ネットワーク容量を減らすために)ネットワークリソースがWBには十分である時でさえ使用され得る;(2)信頼性測定が中間範囲にある場合、パーソナライズされた帯域幅拡張は、ネットワークがWBをサポートできないときに使用され得る;(3)信頼性測定が低い場合、狭帯域通信または汎用帯域幅拡張が使用され得る。
[0074] 他の方法で示されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ように明確に意図され、また、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ように明確に意図される。
[0075] 本明細書で使用される場合、用語「決定すること(determining)」(およびそれの文法的異形)は、極めて広い意味で使用される。用語「決定すること」は、多種多様なアクションを包含するため、「決定すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、調べること(例えば、表、データベース、あるいは別のデータ構造を調べること)、確認すること、等を含むことができる。また、「決定すること」は、受信すること(例えば、情報を受信すること)、アクセスすること(例えば、メモリ内のデータにアクセスすること)、等を含むことができる。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、等を含むことができる。
[0076] 用語「信号処理すること(signal processing)」(およびそれの文法的異形)は、信号の処理および解釈を指し得る。対象信号(signals of interest)は、音、画像、他多数を含み得る。そのような信号の処理は、記憶および再構成、雑音からの情報の分離、圧縮、および特徴の抽出を含み得る。用語「デジタル信号処理」は、デジタル表現における信号の研究およびこれら信号の処理方法を指し得る。デジタル信号処理は、移動局、非移動局、およびインターネットのような、多くの通信技術のエレメントであり得る。デジタル信号処理に利用されるアルゴリズムは、特殊なコンピュータを使用して実行され得、これは、デジタルシグナルプロセッサ(時々DSPと略される)と呼ばれる特殊なマイクロプロセッサを使用し得る。
[0077] 本明細書に開示された実施形態に関連して説明された方法、プロセス、またはアルゴリズムのステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、あるいは2つの組み合わせにおいて、具現化され得る。方法またはプロセスにおける様々なステップまたは行動は、示される順序で実行され得る、あるいは別の順序で実行され得る。さらに、1つ以上のプロセスまたは方法のステップは、省略され得る、あるいは、1つ以上のプロセスまたは方法のステップは、方法およびプロセスに加えられ得る。更なるステップ、ブロック、または行動は、方法およびプロセスの開始、終了、または介在する既存のエレメントに加えられ得る。
[0078] 図11は、ワイヤレス通信システムにおける移動局800の例の設計のブロック図を示す。移動局800は、スマートフォン、セルラ電話、端末、ハンドセット、PDA、ワイヤレスモデム、コードレス電話、等であり得る。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、GSMシステム、等であり得る。
[0079] 移動局800は、受信経路および送信経路を介して双方向通信を提供することができる。受信経路において、基地局によって送信された信号は、アンテナ812によって受信され、受信機(RCVR)814に提供される。受信機814は、受信された信号を調整およびデジタル化し、更なる処理のためにデジタルセクション820にサンプルを提供する。送信経路において、送信機(TMTR)816は、デジタルセクション820から送信されるデータを受信し、そのデータを処理および調整し、変調された信号を生成し、これは、アンテナ812を介して基地局に送信される。受信機814および送信機816は、CDMA、GSM、等をサポートし得るトランシーバの一部であり得る。
[0080] デジタルセクション820は、例えば、モデムプロセッサ822、縮小命令セットコンピュータ/デジタルシグナルプロセッサ(RISC/DSP)824、コントローラ/プロセッサ826、内部メモリ828、汎用オーディオエンコーダ832、汎用オーディオデコーダ834、グラフィック/ディスプレイプロセッサ836、および外部バスインターフェース(EBI)838のような、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ822は、例えば、符号化、変調、復調、および復号のような、データ送信および受信のための処理を実行し得る。RISC/DSP824は、移動局800のための汎用および特殊処理を実行し得る。コントローラ/プロセッサ826は、デジタルセクション820内の様々な処理およびインターフェースユニットの動作を指示し得る。内部メモリ828は、デジタルセクション820内の様々なユニットのためのデータおよび/または命令を記憶し得る。
[0081] 汎用オーディオエンコーダ832は、オーディオソース842、マイクロフォン843、等からの入力信号に対する符号化を実行し得る。汎用オーディオデコーダ834は、コード化されたオーディオデータに対する復号を実行し、スピーカ/ヘッドセット844に出力信号を提供し得る。グラフィック/ディスプレイプロセッサ836は、ディスプレイユニット846に表示され得るグラフィック、ビデオ、画像、およびテキストに対する処理を実行し得る。EBI838は、デジタルセクション820とメインメモリ848との間のデータの転送を容易にし得る。
[0082] デジタルセクション820は、1つ以上のプロセッサ、DSP、マイクロプロセッサ、RISC、等により実現され得る。デジタルセクション820はまた、1つ以上の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上で組み立てられ得る。
[0083] 図12は、実現例および態様例が実現され得る例示的なコンピューティング環境を示す。コンピューティングシステムの環境は、適切なコンピューティング環境の一例にすぎず、使用または機能の範囲についての限定を示唆するように意図されない。
[0084] コンピュータによって実行されている、プログラムモジュールのような、コンピュータ実行可能な命令が、使用され得る。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データタイプを実現する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等を含む。タスクが通信ネットワークまたは他のデータ送信媒体を通してリンクされる遠隔処理デバイスによって実行された場合、分散コンピューティング環境が使用され得る。分散コンピューティング環境において、プログラムモジュールおよび他のデータは、メモリ記憶デバイスを含む局所的および遠隔コンピュータ記憶媒体の両方にあり得る。
[0085] 図12について、本明細書で説明された態様を実現するための例示的なシステムは、コンピューティングデバイス900のような、コンピューティングデバイスを含む。それの最も基本的な構成において、コンピューティングデバイス900は、典型的に、少なくとも1つの処理ユニット902およびメモリ904を含む。正確な構成およびコンピューティングデバイスのタイプに応じて、メモリ904は、(ランダムアクセスメモリ(RAM)のような)揮発性、(読み出し専用メモリ(ROM)、フラッシュメモリ、等のような)不揮発性、またはその2つの何らかの組み合わせであり得る。この最も基本的な構成は、破線906によって図12に例示されている。
[0086] コンピューティングデバイス900は、更なる特徴および/または機能を有し得る。例えば、コンピューティングデバイス900は、磁気または光ディスクまたはテープを含むがそれらに限定されない(取り外し可能な、および/または取り外し不可能な)更なる記憶装置含み得る。そのような更なる記憶装置は、取り外し可能な記憶装置908および取り外し不可能な記憶装置910によって図12に例示されている。
[0087] コンピューティングデバイス900は、典型的に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、デバイス900によってアクセスされ、揮発性および不揮発性の媒体、取り外し可能および取り外し不可能な媒体の両方を含むことができる、任意の利用可能な媒体であり得る。コンピュータ記憶媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、または他のデータのような情報の記憶のために、任意の方法または技術において実現される、揮発性および不揮発性の媒体、取外し可能および取外し不可能な媒体を含む。メモリ904、取り外し可能な記憶装置908、および取り外し不可能な記憶装置910は、すべてコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、それに限定されるものではないが、RAM、ROM、電気的消去可能な読み出し専用メモリ(EEPROM(登録商標))、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは所望の情報を記憶するために使用されることができ、コンピューティングデバイス900によってアクセスされることができる、任意の他の媒体を含む。そのようないかなるコンピュータ記憶媒体は、コンピューティングデバイス900の一部であり得る。
[0088] コンピューティングデバイス900は、デバイスが他のデバイスと通信することを可能にする(単数または複数の)通信接続912を含み得る。コンピューティングデバイス900はまた、キーボード、マウス、ペン、ボイス入力デバイス、タッチ入力デバイス、等のような、(単数または複数の)入力デバイス914を有し得る。ディスプレイ、スピーカ、プリンタ、等のような、(単数または複数の)出力デバイス916もまた、含まれ得る。これらデバイスはすべて、当技術分野において周知ものであり、本明細書では詳細に議論される必要はない。
[0089] 一般に、本明細書に記載された任意のデバイスは、ワイヤレスまたはワイヤード電話、セルラ電話、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信PCカード、PDA、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを通して通信するデバイス、等のような、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、携帯電話、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイス、非移動局、非モバイルデバイス、エンドポイント、等のような、様々な名称を有し得る。本明細書に記載された任意のデバイスは、命令およびデータを記憶するためのメモリ、並びにハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせを有し得る。
[0090] 本明細書に説明された技術は、様々な手段によって実現され得る。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現され得る。当業者はさらに、本明細書における開示に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実現され得ることを理解するであろう。ハードウェアとソフトウェアとのこの互換性を明確に例示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップが、それらの機能の観点から一般的に上述されている。そのような機能が、ハードウェアとして実現されるか、あるいはソフトウェアとして実現されるかは、特定のアプリケーションおよびシステム全体に課せられる設計制約に依存する。当業者であれば、説明された機能を特定のアプリケーションごとに様々な方法で実現し得るが、そのような実現の決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。
[0091] ハードウェアの実現では、技術を実行するために使用される処理ユニットは、1つ以上のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲート・アレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に説明された機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組み合わせ内で実現され得る。
[0092] よって、本明細書における開示に関連して説明された様々な例示的な論理ブロック、モジュール、および回路は、本明細書で説明された機能を実行するように設計された、汎用プロセッサ、DSP、ASIC、FPGA、または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理、離散ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて、実現または実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであり得る。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携した1つ以上のマイクロプロセッサ、あるいは任意の他このような構成として実現され得る。
[0093] ファームウェアおよび/またはソフトウェアの実現では、技術は、ランダムアクセスRAM、ROM、不揮発性RAM、プログラマブルROM、EEPROM、フラッシュメモリ、コンパクトディスク(CD)、磁気または光学データ記憶デバイス、または同様のもののような、コンピュータ可読媒体における命令として具現化され得る。命令は、1つ以上のプロセッサによって実行可能であり得、(単数または複数の)プロセッサに本明細書で説明された機能のある特定の態様を実行させ得る。
[0094] ソフトウェアで実現された場合、その機能は、コンピュータ可読媒体上の1つ以上の命令またはコードとして記憶または送信され得る。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされることができる任意の入手可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROM、または他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、または、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用されることができ、かつ、汎用または専用コンピュータ、または汎用または専用プロセッサによってアクセスされることができる、任意の他の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、電波、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合、この同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、電波、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。本明細書で使用される場合、ディスク(disk)およびディスク(disc)は、CD、レーザーディスク(登録商標)、光ディスク、デジタル多目的ディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイ(登録商標)ディスクを含み、ここでディスク(disks)は、通常磁気的にデータを再生し、一方ディスク(discs)は、レーザーを用いて光学的にデータを再生する。上記の組み合わせはまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[0095] ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROM(登録商標)メモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当該技術分野において周知である任意の他の形態の記憶媒体内に存在し得る。典型的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替において、記憶媒体はプロセッサと一体化され得る。プロセッサおよび記憶媒体は、ASIC内に存在し得る。ASICは、ユーザ端末内に存在し得る。代替において、プロセッサおよび記憶媒体は、ユーザ端末内の離散コンポーネントとして存在し得る。
[0096] 典型的な実現は1つ以上のスタンドアロンコンピュータシステムとの関連で現在開示されている主題事項の態様を使用することを指し得るが、主題事項は、そのように限定されず、むしろ、ネットワークまたは分散型コンピューティング環境のような、任意のコンピューティング環境に関連して実現され得る。さらに、現在開示されている主題事項の態様は、複数の処理チップまたはデバイスで、またはそれらにわたって実現され得、記憶装置は、複数のデバイスにわたって同様に達成され得る。そのようなデバイスは、例えば、PC、ネットワークサーバ、およびハンドヘルドデバイスを含む可能性がある。
[0097] 主題事項は構造上の特徴および/または方法的行動に特有の言語で記載されているが、添付の特許請求の範囲において定義された主題事項が上述した特定の特徴または行動に必ずしも限定されないことを理解されたい。むしろ、上述した特定の特徴および行動は、特許請求の範囲を実現する形態例として開示されている。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
帯域幅拡張のための方法であって、
識別された話者のデータで帯域幅拡張モデルを生成することと、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行することと
を備える、方法。
[C2]
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、C1に記載の方法。
[C3]
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、C1に記載の方法。
[C4]
前記帯域幅拡張モデルを生成することは、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングすることを備える、C1に記載の方法。
[C5]
前記帯域幅拡張モデルを生成することは、前記話者を識別することと、前記話者のボイスデータから広帯域の特徴を抽出することを備える、C1に記載の方法。
[C6]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、広帯域呼の遠端局で前記広帯域の特徴を抽出することを備える、C5に記載の方法。
[C7]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、呼の近端局で前記広帯域の特徴を抽出することを備える、C5に記載の方法。
[C8]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、オフライン移動局で前記広帯域の特徴を抽出することを備える、C5に記載の方法。
[C9]
前記狭帯域呼上で帯域幅拡張を実行することは、
前記話者を識別することと、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すことと、
前記狭帯域呼から狭帯域の特徴を抽出することと、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行することと
を備える、C1に記載の方法。
[C10]
前記広帯域音声合成を実行した後で、広帯域音声を出力することをさらに備える、C9に記載の方法。
[C11]
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、C1に記載の方法。
[C12]
帯域幅拡張のための装置であって、
識別された話者のデータで帯域幅拡張モデルを生成するための手段と、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するための手段と
を備える、装置。
[C13]
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、C12に記載の装置。
[C14]
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、C12に記載の装置。
[C15]
前記帯域幅拡張モデルを生成するための前記手段は、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングするための手段を備える、C12に記載の装置。
[C16]
前記帯域幅拡張モデルを生成するための前記手段は、前記話者を識別するための手段と、前記話者のボイスデータから広帯域の特徴を抽出するための手段を備える、C12に記載の装置。
[C17]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、広帯域呼の遠端局で前記広帯域の特徴を抽出するための手段を備える、C16に記載の装置。
[C18]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、呼の近端局で前記広帯域の特徴を抽出するための手段を備える、C16に記載の装置。
[C19]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、オフライン移動局で前記広帯域の特徴を抽出するための手段を備える、C16に記載の装置。
[C20]
前記狭帯域呼上で帯域幅拡張を実行するための前記手段は、
前記話者を識別するための手段と、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すための手段と、
前記狭帯域呼から狭帯域の特徴を抽出するための手段と、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行するための手段と
を備える、C12に記載の装置。
[C21]
前記広帯域音声合成を実行した後で、広帯域音声を出力するための手段をさらに備える、C20に記載の装置。
[C22]
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、C12に記載の装置。
[C23]
コンピュータに、
識別された話者のデータで帯域幅拡張モデルを生成させ、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行させる命令を備える、コンピュータ可読媒体。
[C24]
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、C23に記載のコンピュータ可読媒体。
[C25]
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、C23に記載のコンピュータ可読媒体。
[C26]
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングさせる命令を備える、C23に記載のコンピュータ可読媒体。
[C27]
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記話者を識別させ、前記話者のボイスデータから広帯域の特徴を抽出させる命令を備える、C23に記載のコンピュータ可読媒体。
[C28]
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、広帯域呼の遠端局で前記広帯域の特徴を抽出させる命令を備える、C27に記載のコンピュータ可読媒体。
[C29]
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、呼の近端局で前記広帯域の特徴を抽出させる命令を備える、C27に記載のコンピュータ可読媒体。
[C30]
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、オフライン移動局で前記広帯域の特徴を抽出させる命令を備える、C27に記載のコンピュータ可読媒体。
[C31]
前記コンピュータに、前記狭帯域呼上で帯域幅拡張を実行させる前記命令は、前記コンピュータに、
前記話者を識別させ、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出させ、
前記狭帯域呼から狭帯域の特徴を抽出させ、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行させる命令を備える、C23に記載のコンピュータ可読媒体。
[C32]
前記コンピュータに、前記広帯域音声合成を実行した後で、広帯域音声を出力させる命令をさらに備える、C31に記載のコンピュータ可読媒体。
[C33]
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、C23に記載のコンピュータ可読媒体。
[C34]
帯域幅拡張のためのシステムであって、
識別された話者のデータで帯域幅拡張モデルを生成するように適応されたトレーニングモジュールと、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するためのプロセッサと
を備える、システム。
[C35]
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、C34に記載のシステム。
[C36]
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、C34に記載のシステム。
[C37]
前記トレーニングモジュールは、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングするように適応される、C34に記載のシステム。
[C38]
前記話者を識別し、前記話者のボイスデータから広帯域の特徴を抽出するように適応された特徴抽出モジュールをさらに備える、C34に記載のシステム。
[C39]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、広帯域呼の遠端局で前記広帯域の特徴を抽出することを備える、C38に記載のシステム。
[C40]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、呼の近端局で前記広帯域の特徴を抽出することを備える、C38に記載のシステム。
[C41]
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、オフライン移動局で前記広帯域の特徴を抽出することを備える、C38に記載のシステム。
[C42]
前記プロセッサは、前記話者を識別し、記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すように適応され、
前記狭帯域呼から狭帯域の特徴を抽出するように適応された特徴抽出モジュールと、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行するように適応された音声シンセサイザと
をさらに備える、C34に記載のシステム。
[C43]
前記プロセッサは、前記帯域幅音声合成を実行した後で、広帯域音声をさらに出力するように適応される、C42に記載のシステム。
[C44]
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、C34に記載のシステム。

Claims (32)

  1. 近端局から遠端局に送信された信号の帯域幅拡張のための方法であって、
    前記遠端局において、前記近端局から送信された広帯域信号を受信することと、
    前記遠端局において、前記近端局から帯域幅拡張モデルを受信することと、
    別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行することと、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
    を備える、方法。
  2. 前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項1に記載の方法。
  3. 前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項1に記載の方法。
  4. 前記帯域幅拡張モデルを生成することは、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングすることを備える、請求項1に記載の方法。
  5. 前記帯域幅拡張モデルを生成することは、前記話者を識別することと、前記広帯域信号から広帯域の特徴を抽出することを備える、請求項1に記載の方法。
  6. 前記狭帯域呼上で帯域幅拡張を実行することは、
    前記話者を識別することと、
    記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すことと、
    を備える、請求項1に記載の方法。
  7. 帯域音声合成を実行した後で、広帯域音声を出力することをさらに備える、請求項6に記載の方法。
  8. 広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項1に記載の方法。
  9. 近端局から遠端局に送信された信号の帯域幅拡張のための装置であって、
    前記遠端局において、前記近端局から送信された広帯域信号を受信するための手段と、
    前記近端局から帯域幅拡張モデルを受信するための手段と、
    別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するための手段と、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
    を備える、装置。
  10. 前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項9に記載の装置。
  11. 前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項9に記載の装置。
  12. 前記帯域幅拡張モデルを生成するための前記手段は、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングするための手段を備える、請求項9に記載の装置。
  13. 前記帯域幅拡張モデルを生成するための前記手段は、前記話者を識別するための手段と、前記広帯域信号から広帯域の特徴を抽出するための手段を備える、請求項9に記載の装置。
  14. 前記狭帯域呼上で帯域幅拡張を実行するための前記手段は、
    前記話者を識別するための手段と、
    記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すための手段と、
    を備える、請求項9に記載の装置。
  15. 帯域音声合成を実行した後で、広帯域音声を出力するための手段をさらに備える、請求項14に記載の装置。
  16. 広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項9に記載の装置。
  17. 近端局から遠端局に送信された信号の帯域幅拡張を実行するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、コンピュータに、
    前記遠端局において、前記近端局から送信された広帯域信号を受信させ、
    前記近端局から帯域幅拡張モデルを受信させ、
    別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行させる、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
    コンピュータ可読媒体。
  18. 前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項17に記載のコンピュータ可読媒体。
  19. 前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項17に記載のコンピュータ可読媒体。
  20. 前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングさせる命令を備える、請求項17に記載のコンピュータ可読媒体。
  21. 前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記話者を識別させ、前記広帯域信号から広帯域の特徴を抽出させる命令を備える、請求項17に記載のコンピュータ可読媒体。
  22. 前記コンピュータに、前記狭帯域呼上で帯域幅拡張を実行させる前記命令は、前記コンピュータに、
    前記話者を識別させ、
    記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出させる
    命令を備える、請求項17に記載のコンピュータ可読媒体。
  23. 前記コンピュータに、広帯域音声合成を実行した後で、広帯域音声を出力させる命令をさらに備える、請求項22に記載のコンピュータ可読媒体。
  24. 広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項17に記載のコンピュータ可読媒体。
  25. 通信の近端局から遠端局に送信された信号の帯域幅拡張のためのシステムであって、
    前記遠端局において、前記近端局から送信された広帯域信号および帯域幅拡張モデルを受信するように適応された受信機と
    別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するためのプロセッサと、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
    を備える、システム。
  26. 前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項25に記載のシステム。
  27. 前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項25に記載のシステム。
  28. レーニングモジュールは、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングするように適応される、請求項25に記載のシステム。
  29. 前記話者を識別し、前記広帯域信号から広帯域の特徴を抽出するように適応された特徴抽出モジュールをさらに備える、請求項25に記載のシステム。
  30. 前記プロセッサは、前記話者を識別し、記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すように適応される、
    請求項25に記載のシステム。
  31. 前記プロセッサは、広帯域音声合成を実行した後で、広帯域音声をさらに出力するように適応される、請求項30に記載のシステム。
  32. 広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項25に記載のシステム。
JP2015558081A 2013-02-15 2014-02-11 パーソナライズされた帯域幅拡張 Expired - Fee Related JP6058824B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/768,946 US9319510B2 (en) 2013-02-15 2013-02-15 Personalized bandwidth extension
US13/768,946 2013-02-15
PCT/US2014/015852 WO2014126933A1 (en) 2013-02-15 2014-02-11 Personalized bandwidth extension

Publications (3)

Publication Number Publication Date
JP2016510133A JP2016510133A (ja) 2016-04-04
JP2016510133A5 JP2016510133A5 (ja) 2016-07-21
JP6058824B2 true JP6058824B2 (ja) 2017-01-11

Family

ID=50346086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558081A Expired - Fee Related JP6058824B2 (ja) 2013-02-15 2014-02-11 パーソナライズされた帯域幅拡張

Country Status (6)

Country Link
US (1) US9319510B2 (ja)
EP (1) EP2956939B1 (ja)
JP (1) JP6058824B2 (ja)
KR (1) KR20150119151A (ja)
CN (1) CN104981871B (ja)
WO (1) WO2014126933A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052778A1 (ja) * 2005-11-02 2007-05-10 Buhei Kono 有機物や無機物の反応を促進する方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
CN107886966A (zh) * 2017-10-30 2018-04-06 捷开通讯(深圳)有限公司 终端及其优化语音命令的方法、存储装置
CN110232909A (zh) * 2018-03-02 2019-09-13 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN111132037B (zh) * 2019-12-02 2022-04-08 南京云巅电子科技有限公司 基于uwb技术的工业现场通讯系统及方法
CN112562702B (zh) * 2020-11-30 2022-12-13 哈尔滨工程大学 基于循环帧序列门控循环单元网络的语音超分辨率方法
EP4303873A1 (en) 2022-07-04 2024-01-10 GN Audio A/S Personalized bandwidth extension

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144244A (en) * 1999-01-29 2000-11-07 Analog Devices, Inc. Logarithmic amplifier with self-compensating gain for frequency range extension
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US7174135B2 (en) * 2001-06-28 2007-02-06 Koninklijke Philips Electronics N. V. Wideband signal transmission system
US8438026B2 (en) * 2004-02-18 2013-05-07 Nuance Communications, Inc. Method and system for generating training data for an automatic speech recognizer
DE602005001048T2 (de) * 2005-01-31 2008-01-03 Harman Becker Automotive Systems Gmbh Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
JP2011090031A (ja) * 2009-10-20 2011-05-06 Oki Electric Industry Co Ltd 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
WO2011116820A1 (en) * 2010-03-25 2011-09-29 Nokia Siemens Networks Oy Bandwidth extension usage optimization
WO2013066244A1 (en) * 2011-11-03 2013-05-10 Telefonaktiebolaget L M Ericsson (Publ) Bandwidth extension of audio signals
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052778A1 (ja) * 2005-11-02 2007-05-10 Buhei Kono 有機物や無機物の反応を促進する方法

Also Published As

Publication number Publication date
US20140233725A1 (en) 2014-08-21
EP2956939A1 (en) 2015-12-23
CN104981871B (zh) 2018-01-02
JP2016510133A (ja) 2016-04-04
CN104981871A (zh) 2015-10-14
WO2014126933A1 (en) 2014-08-21
KR20150119151A (ko) 2015-10-23
US9319510B2 (en) 2016-04-19
EP2956939B1 (en) 2017-11-01

Similar Documents

Publication Publication Date Title
JP6058824B2 (ja) パーソナライズされた帯域幅拡張
JP5964455B2 (ja) 複数のコーディングモードのための、オーディオ信号を分類する方法および装置
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
KR102317296B1 (ko) 음성 프로파일 관리 및 스피치 신호 생성
KR101615421B1 (ko) 유사한 사운드 환경 내의 모바일 디바이스들을 식별하는 방법 및 장치
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
CN106409313B (zh) 一种音频信号分类方法和装置
JP5819435B2 (ja) モバイルデバイスのロケーションを決定するための方法および装置
JP5813789B2 (ja) 環境音を認識するためのシステムおよび方法
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
Lee et al. Intra‐and Inter‐frame Features for Automatic Speech Recognition
WO2012121856A1 (en) Sound recognition method and system
CN104078049B (zh) 信号处理设备和信号处理方法
WO2024082928A1 (zh) 语音处理方法、装置、设备和介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160531

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160531

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161207

R150 Certificate of patent or registration of utility model

Ref document number: 6058824

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees