JP6058824B2

JP6058824B2 - パーソナライズされた帯域幅拡張

Info

Publication number: JP6058824B2
Application number: JP2015558081A
Authority: JP
Inventors: キム、レ−ホン; リュ、サン−ウク; シン、ジョンウォン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-02-15
Filing date: 2014-02-11
Publication date: 2017-01-11
Anticipated expiration: 2034-02-11
Also published as: US20140233725A1; EP2956939A1; CN104981871B; JP2016510133A; CN104981871A; WO2014126933A1; KR20150119151A; US9319510B2; EP2956939B1

Description

[0001] 信号の帯域幅拡張（Bandwidth extension）は、周知のものであり、有用なコンテンツまたは効果を含む信号の周波数範囲（帯域幅）を拡張するプロセスとして定義され得る。近年では、帯域幅拡張は、電話システムにおける音声のような、コード化された音声（speech）およびオーディオの高周波数向上において使用されている。よって、例えば、狭帯域電話音声の品質は、帯域幅拡張によって改善されることができる。

[0002] 周知の帯域幅拡張のうちの１つのタイプは、ブラインド帯域幅拡張と称される。ブラインド帯域幅拡張の技術は、狭帯域オーディオ信号の高周波数帯域を再現するために使用される。これら方法は、電話または無線通信システムにあるような狭い周波数帯域を介して送信される信号の知覚品質（perceived quality of signals）を高める。

[0003] しかしながら、既存のブラインド帯域幅拡張の技術は、帯域幅拡張を実行するための汎用モデルを使用する。そのような汎用モデルは、典型的に、任意の話者（speaker）のための帯域幅拡張において使用され、それは、誤りまたは質の悪いユーザ経験をもたらし得る。

[0004] 本願のシステムおよび方法は、帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる（例えば、調整される）、パーソナライズされた（すなわち、話者導出可能な（speaker-derivable））帯域幅拡張に関するものである。

[0005] 実現において、トレーニングフェーズは、ユーザにパーソナライズされた帯域幅拡張モデルを生成するように実行される。モデルは、ユーザを伴う通話中の帯域幅拡張フェーズで続いて使用され得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域（例えば、広帯域）が利用不可能であり、呼が低帯域（例えば、狭帯域）で行なわれる場合にアクティベートされる。

[0006] 実現において、モデルは、ユーザが（例えば、発信者ＩＤによって）識別されることができる広帯域呼中の遠端局（far-end station）（例えば、携帯電話）でトレーニングされる（それが話者導出可能な情報に基づくように、ユーザにパーソナライズされる）。

[0007] 別の実現において、モデルは、呼中の近端局（near-end station）で（例えば、ユーザの携帯電話で）トレーニングされる（近端はネットワーク条件にかかわらず、広帯域音声をキャプチャすることができることに留意されたい）。

[0008] 別の実現において、モデルは、ユーザの声または移動局の所有者によって選択されたターゲットボイスのいずれかにより、（通話中でない）移動局においてオフラインでトレーニングされる。オフライントレーニングは、電話が通話に使用されていない場合、ユーザのボイスまたはターゲットボイスを記録することを伴う。

[0009] この発明の概要は、詳細な説明において以下にさらに説明される概念の選択を簡略化された形態で紹介するために提供される。この発明の概要は、特許請求されているような主題事項の重要な特徴または本質的な特徴を特定するように意図されておらず、特許請求されているような主題事項の範囲を限定するために使用されるようにも意図されていない。

[0010] 上述の概要、並びに以下の例示的な実施形態の詳細な説明は、添付の図面と併せて読むとより良く理解される。実施形態を例示する目的については、実施形態の図面構築例に示されているが、その実施形態は、特定の方法および開示された主題に限定されない。図面は、以下を記載している：
[0011] 図１は、パーソナライズされた帯域幅拡張が生成され、使用され得る典型的なシステムのブロック図である。 [0012] 図２は、パーソナライズされた帯域幅拡張のためのトレーニング方法の実現の動作フローである。 [0013] 図３は、パーソナライズされた帯域幅拡張を実行する方法の実現の動作フローである。 [0014] 図４は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0015] 図５は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0016] 図６は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。 [0017] 図７は、スペクトル包絡／励起ベース（spectral envelope/excitation-based）のパーソナライズされた帯域幅拡張のためのトレーニングを実行する方法の実現の動作フローである。 [0018] 図８は、スペクトル包絡／励起ベースのパーソナライズされた帯域幅拡張と共に使用され得るマッピング表の例のブロック図である。 [0019] 図９は、スペクトル包絡／励起ベースのパーソナライズされた帯域幅拡張と共に使用され得る別のマッピング表の例のブロック図である。 [0020] 図１０は、スペクトル包絡／励起ベースのパーソナライズされた帯域幅拡張を実行する方法の実現の動作フローである。 [0021] 図１１は、移動局の例のブロック図である。 [0022] 図１２は、典型的なコンピューティング環境を示す。

詳細な説明

[0023] 図面を参照し、組み込む以下の詳細な説明は、１つ以上の特定の実施形態を説明し、例示する。これらの実施形態は、限定のためでなく例示および教示のためだけに提供され、当業者が特許請求の範囲を実現することを可能にさせるために、十分詳細に示され、説明される。したがって、簡潔さのために、説明は、当業者に知られているある特定の情報を省略し得る。

[0024] 図１は、パーソナライズされた帯域幅拡張が（話者導出可能な情報に基づいて）生成され、受信された狭帯域（ＮＢ）音声信号から広帯域（ＷＢ）音声信号を展開（develop）させるために使用され得る、典型的なシステム１００のブロック図である。システム１００は、対応する受信されたアナログ信号の周波数範囲よりも広い周波数範囲を有するアナログ信号を生成するために使用され得る。よって、信号が広帯域信号であるのか、または狭帯域信号であるのかは、それの他との関係に依存する。本明細書で説明される例および実現はＮＢ音声信号からＷＢ音声信号を展開させることを指しているが、本明細書に開示されるシステムおよび方法は、例えば、超広帯域（ＳＷＢ）からＷＢとなる、またはＳＷＢからＮＢとなるように、任意の他の音声信号のセットから任意の音声信号のセットを展開させるために使用されることができるので、本願のシステムおよび方法は、それらに限定されない。

[0025] 示されるように、システム１００は、送信側によって使用され得る近端局１１０と、受信側によって使用され得る遠端局１５０とを含む。近端局１１０および遠端局１５０は、それぞれ、移動局またはコンピューティングデバイスのような、通信するためのデバイスであり得る。移動局８００の例は、図１１に関して記載され、コンピューティングデバイス９００の例は、図１２に関して記載される。

[0026] 近端局１１０および遠端局１５０は、１つ以上の送信チャネル１４５を介して通信し得る。通信は、話者の音声発話（speech utterances）１０５（ボイスデータ）の狭帯域バージョンに対応する狭帯域音声信号の、近端局１１０から遠端局１５０への送信を備え得る。遠端局１５０は、話者の音声発話１０５の対応する広帯域バージョンを生成および出力するように（すなわち、話者導出可能な情報に基づいて）話者にトレーニングされたモデル１６３を使用し得る。本明細書でさらに説明されるように、モデル１２３、１６３は、実現に応じて、近端局１１０または遠端局１５０のいずれかでトレーニングされ、生成され、記憶され得る。

[0027] よって、（実現に応じて）音声発話１０５およびトレーニングされたモデル１２３、１６３またはデータは、１つ以上の送信チャネル１４５を介して送信され得る。より具体的には、送信機１２５は、例えば、１つ以上の電気通信送信規格に従って、話者の音声発話１０５（ボイスデータ）を、送信のために本来の音声発話１０５の狭帯域バージョンに変換する。本来の音声発話およびトレーニングされたモデルまたはデータの狭帯域バージョンの送信は、一般に同時方法で、または、例えば、送信プロセス中の別個の時間で、生じ得る。この例での、並びに以下に説明される例での使用に適している送信チャネルは、電話ネットワークチャネル、ワイヤレスセルラネットワークチャネル、携帯用無線電話機システム、ワイヤードネットワーク、等を含む。そのような送信システムで使用される狭帯域音声信号は、３００Ｈｚから３．４ｋＨｚの帯域幅に限定され得、それは、移動通信のためのグローバルシステム（ＧＳＭ（登録商標））ネットワークを使用して音声信号を送信するために使用される帯域幅に対応する。

[0028] 実現に応じて、近端局１１０は、トレーニングモジュール１１５、１つ以上のトレーニングされたモデル１２３を記憶し得る記憶装置１２０（例えば、メモリ）、送信機１２５、特徴抽出モジュール１３０、および音声シンセサイザ１３５を備え得る。完全に同じではないが同様に、実現に応じて、遠端局１５０は、トレーニングモジュール１５５、１つ以上のトレーニングされたモデル１６３を記憶し得る記憶装置１６０（例えば、メモリ）、受信機１６５、特徴抽出モジュール１７０、および音声シンセサイザ１７５を備え得る。

[0029] いくつかの実現において、近端局１１０における音声シンセサイザ１３５は、必要とされない、または使用されない。例えば、近端局１１０におけるＷＢ入力からのみ特徴領域比較機構（feature domain comparison mechanism）を使用する実現では、実際の音声は生成されないので、音声シンセサイザ１３５は必要とされない、または使用されない。そのような（各既存のエントリと入力との間の類似点を計算するために特徴領域類似比較（feature domain similarity comparison）を使用する）場合では、遠端局１５０においてＷＢ音声が合成されることができるように、（ＮＢの特徴のような）特徴およびモデルが遠端局１５０に送信される。しかしながら、実際のＷＢ入力と合成されたＷＢ入力とを比較することでモデルを知るための「合成による分析」機構を使用する実現では、音声シンセサイザ１３５が使用され得る。この種の実現は、各既存のエントリと入力との間の類似点を計算するために、合成された音声信号領域類似比較を使用する。

[0030] 音声発話１０５は、近端局１１０のユーザから近端局１１０において受信される。音声発話１０５は、帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる（例えば、調整される）、パーソナライズされた帯域幅拡張を提供するために使用される。

[0031] 実現において、トレーニングフェーズは、ユーザにパーソナライズされた（本明細書で「モデル」とも称される）帯域幅拡張モデルを生成するように実行される。トレーニングフェーズは、トレーニングモジュール１１５を使用して近端局１１０で、またはトレーニングモジュール１５５を使用して遠端局１５０で、実行され得る。トレーニングモジュール１１５によって生成されたパーソナライズされた帯域幅拡張モデル１２３は記憶装置１２０に記憶され、トレーニングモジュール１５５によって生成されたモデル１６３は記憶装置１６０に記憶され得る。記憶装置１２０、１６０は、（例えば、異なるユーザにパーソナライズされた）２つ以上のモデルを記憶し、例えば、データベースの形態をとり得る。

[0032] 実現に応じて、近端局１１０および／または遠端局１５０は、（例えば、それぞれ、特徴抽出モジュール１３０、１７０のような）特徴抽出モジュールを備え得る。特徴抽出モジュールは、ユーザの音声から広帯域の特徴を抽出し、これら広帯域の特徴は、トレーニングモデルの生成において使用される。

[0033] トレーニングされたモデル１２３、１６３は、ユーザの電話（例えば、近端局１１０）に記憶されることができる、または他のユーザの電話（例えば、遠端局１５０）に送信されることができる。広帯域トレーニングデータに基づくモデル１２３、１６３は、その後、ユーザを伴う狭帯域呼中に使用され得る。モデルは、通話の再生側で（すなわち、遠端局１５０で）利用可能となる。

[0034] よって、モデル１２３またはモデル１６３のような、モデルは、モデルに関連付けられたユーザを伴う通話中の帯域幅拡張フェーズにおいて続いて使用され得る。通話は、１つ以上の送信チャネル１４５を介して近端局１１０と遠端局１５０との間で行われ得る。具体的には、近端局１１０の送信機１２５は、（単数または複数の）送信チャネル１４５を介して遠端局の受信機１６５に、それが受信した音声を送信し得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域（例えば、広帯域）が利用不可能であり、呼が低帯域（例えば、狭帯域）で行なわれる場合にアクティベートされる。狭帯域呼中に、受信機１６５は、話者の音声発話１０５の広帯域バージョンに対応する広帯域音声信号を生成するために、（予め生成および記憶されていた）トレーニングされたモデル１２３、１６３と共に話者からの狭帯域音声信号を使用する。

[0035] 特徴抽出モジュール１３０、１７０はまた、通話中に通話から狭帯域の特徴を抽出し、それら狭帯域の特徴を音声シンセサイザ１３５、１７５に提供し得る。実現に応じて、近端局１１０および／または遠端局１５０は、音声シンセサイザ（例えば、音声シンセサイザ１３５、１７５）を備え得る。音声シンセサイザ１３５、１７５は、抽出された狭帯域の特徴と組み合わせられたパーソナライズされた帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行する。広帯域音声は、その後、出力され得る。

[0036] 図２は、パーソナライズされた帯域幅拡張のためのトレーニング方法２００の実現の動作フローである。トレーニングフェーズは、狭帯域呼で続いて使用され得るモデルを生成するために使用される。実現に応じて、本明細書でさらに説明されるように、トレーニングフェーズは、着信広帯域呼を有する遠端局で、広帯域呼中の近端局で、またはオフラインで、実行される。２１０において、（本明細書ではユーザとも称される）話者は、例えば、彼らの名前または他の識別子を局にエントリまたは入力するユーザによって、または、例えば、発信者ＩＤによって、識別される。

[0037] ２２０において、話者は、キャプチャされた、または別の方法で局によって受信された（音声発話とも称される）発話を話す。２３０において、広帯域の特徴が、発話から（例えば、発話に対応するボイスデータから）抽出される。特徴トレーニングは、２４０においてトレーニングモデルを生成するために（適切なトレーニングのために十分なデータが収集されるまで）実行される。データは、例えば、データが十分に多様となる（ダイバーシチ閾値または基準を満たす）まで、および／またはデータが十分に長い間（例えば、実現に応じて分、時間、日）収集されるまで、のように、１つ以上の所定の条件が満たされるまで、収集される。この時点で、トレーニングモデルは、２５０において記憶され、狭帯域呼で使用され得る。

[0038] パーソナライズされた帯域幅拡張のためのトレーニングモデルを生成するのに十分なデータが収集されない場合、一般大衆（general population）のためにトレーニングされた帯域幅拡張モデル（すなわち、「汎用モデル」）が、これまで収集されたパーソナライズされたデータと共に適応され得ることが企図される。例えば、（図７−１０に関して以下に説明される表のような）表が汎用モデルのためのデータを含み、その表がパーソナライズされたトレーニングモデルとして（または、それと共に）使用するためのパーソナライズされたデータを含む表に修正される実現では、その表は、これまで受信されたパーソナライズされたデータを使用して適応され得る。これは、完璧なパーソナライズされたデータのセットが収集され（例えば、上述した１つ以上の所定の条件が満たされ）、表に組み込まれる場合（すなわち、収集された完璧なパーソナライズされたデータのセットを使用して表が修正された場合）、よりスムーズな遷移を可能にする。別の実現では、パーソナライズされた帯域幅拡張のためのトレーニングモデルを生成するのに十分なデータが収集されない場合、汎用モデルは、十分なパーソナライズされたデータが収集されるまで使用され得る。

[0039] 図３は、パーソナライズされた帯域幅拡張を実行する方法３００の実現の動作フローである。３１０において、狭帯域呼が近端局と遠端局との間で行なわれ、帯域幅拡張フェーズが開始される。話者は、（例えば、発信者ＩＤを使用して）３２０において識別され、３３０において（その話者に関連付けられた）適切な帯域幅拡張トレーニングモデルが（例えば、遠端局のような再生局側において）記憶装置から取り出される、または送信局側（例えば、近端局のような、狭帯域音声ソース）から受信される。何らかの話者識別方法は、現在話している人物がモデルの生成中に話していた人物と同じかどうかを確かめるために用いられる。話者を識別できない場合、パーソナライズされた帯域幅拡張は、拒否され得る、または終了させられ得る。

[0040] ３４０において、通話における音声発話からの（例えば、ボイスデータからの）狭帯域の特徴が抽出され、モデルを使用して話者のパーソナライズされた広帯域の特徴にマッピングされる。広帯域音声合成は、抽出された狭帯域の特徴と組み合わせられた、パーソナライズされた帯域幅拡張トレーニングモデルを使用して、３５０において実行される。広帯域音声が、３６０において出力される。

[0041] 図４は、パーソナライズされた帯域幅拡張のためのトレーニング方法の別の実現の動作フローである。この実現において、モデルは、（例えば、発信者ＩＤによって）ユーザが識別されることができる広帯域呼中の遠端局１５０においてトレーニングされる（ユーザにパーソナライズされる）。

[0042] ４１０において、話者のボイス（例えば、音声発話）は、近端局から広帯域呼中の遠端局において受信される。４１５において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。品質は、例えば、信号対雑音比（ＳＮＲ）、または他の雑音ベースの統計および／または測定値に基づき得る。よって、例えば、ＳＮＲが所定の閾値を上回る場合、発話の品質は、パーソナライズされた帯域幅拡張トレーニングモデルの生成に使用されるのに十分に高い。そうでない場合、処理は、４１０に戻り、音響条件が許容可能になるまで続く。

[0043] ４１５において音響条件が許容可能であると決定された場合、狭帯域および広帯域の特徴が４２０において音声発話から抽出され、話者が４３０において、例えば、話者、遠端局のユーザ、または発信者ＩＤ４２５のいずれかによって、識別される。これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、話者に関する帯域幅拡張（ＢＷＥ）の特徴は、４３５において（ローカルデータベースのような）記憶装置から取り出され得る。

[0044] ４４０において、特徴トレーニングが、４２０から抽出された特徴および４３５から取り出された帯域幅拡張の特徴を使用して実行される。この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。上述した特徴領域類似比較、上述した合成された音声信号領域類似比較、並びに（時間領域または周波数領域において）許容可能な時間調整と一致する最小二乗法、（ＬＰＣ／ＬＰＣＣ、ＭＦＣＣまたはオーディオ諮問を使用するような）特徴ベースのアプローチ、または（クロスキュムラント、実証的カルバックライブラー情報量、または板倉−斉藤距離のような）高次ベースのアプローチを含むがそれらに限定されない任意の距離メトリックのような、類似性測定（similarity measure）を決定し、一致させるための任意の技術が使用され得る。

[0045] 実現において、更新することは、初期化された特徴空間（例えば、一般大衆のためのユニバーサルコードブック）からパーソナライズされた特徴空間（例えば、話者のためのパーソナライズされたコードブック）に向かって実行され得る。コードブックエントリは、現在の特徴ベクトルと最も近い既存のコードブックエントリとの間の加重和に置き換えられ得る。過剰なメモリ消費が問題となった場合、実現において、ユニバーサル特徴空間からの更新条件を緩和することによって、ある特定の話者にメモリ消費の優先順位が与えられ得る。さらに、またはあるいは、異なる特徴空間のみ、またはユニバーサル特徴空間からのデルタ（delta）または変更のみが記憶され得る。汎用特徴空間は、局で事前に記憶され得る、または後続使用のための局に送信または別の方法で提供され得る。

[0046] 特徴空間の更新がなくても、パーソナライズされた帯域幅拡張は、依然としてパーソナライズされた狭帯域−広帯域マッピングモデルを使用して取得され得ることが企図される。

[0047] ４５０において、帯域幅拡張の特徴空間および話者のためのマッピングは、（例えば、トレーニングモデルの完了前に生じるマッピングおよび／または特徴の量の所定の閾値に関連する）トレーニングの完了率と共に（例えば、ローカルデータベースに）記憶され得る。実現において、モデルトレーニング完了率は、非音声部分を除外するために適切なＶＡＤ（ボイスアクティビティ検出）と共にトレーニングするために使用される時間を測定することと、新しい狭帯域−広帯域マッピングがいくつ構成されたかのカウントを測定することによって取得され得る、またはそれらに基づき得る。

[0048] 実現において、何らかのトレーニング完了率では広帯域が利用可能であることを示すために、ユーザが利用できる、アドレスブックにインジケータが提供されることができる。アドレスブックは、例えば、トレーニング完了率および／または広帯域がユーザ毎に利用可能であるかどうかを示すインジケータおよび様々なユーザをリストし、記憶するデータベースを備え得る。ユーザは、トレーニング完了率を有するユーザインターフェースに基づいて、広帯域に帯域幅拡張を使用するか否かを決めることができる。あるいは、またはさらに、トレーニング完了率がある特定のレベル（例えば、９９％）に達する場合は常に、広帯域に対する帯域幅拡張が、広帯域が利用不可能な場合、または、例えば、何らかのコーディングリソースが保存または保護されるべき場合（例えば、悪いネットワーク条件または呼中の大量のデータ転送）、自動的に切り替えられるように、デフォルトがセットされ得る。

[0049] ４６０において、広帯域接続が利用不可能なときに、呼中で使用されるために（例えば、所定の閾値と比べて）十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために４１０において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、４７０において、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。

[0050] 実現に応じて、パーソナライズされた帯域幅拡張は、例えば、（１）広帯域が呼中ずっと利用不可能な場合；（２）広帯域が呼の一部分に使用可能であるが、呼の別の部分には利用不可能であり、パーソナライズされた帯域幅拡張が、広帯域が利用不可能なときにアクティベートされる場合；および（３）広帯域が常時利用可能である、または呼のいくつかの部分に利用可能であり、パーソナライズされた帯域幅拡張が、パーソナライズされた帯域幅拡張モデルが十分に良くなり、キャリア企業がパーソナライズされた帯域幅拡張モードに切り替えることを決定すれば、広帯域が利用可能であるときでさえ、アクティベートされる場合、のようないくつかのケースのいずれかで使用され得る。

[0051] 図５は、パーソナライズされた帯域幅拡張のためのトレーニングの方法５００の別の実現の動作フローである。この実現では、モデルは、呼中の近端局１１０で（例えば、ユーザの携帯電話で）トレーニングされる。近端局１１０はネットワーク条件にかかわらず、広帯域音声をキャプチャすることができることに留意されたい。

[0052] ５１０において、通話が行われ（すなわち、オンライン呼）、そこでは、話者がその呼に応じており、話者の局に話している（音声発話を提供している）。５１５において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。上述したように、ＳＮＲ技術は、音響条件が許容可能かどうかを決定するために使用され得る。そうでない場合、処理は、５１０に戻り、音響条件が許容可能になるまで続く。

[0053] ５１５において音響条件が許容可能であると決定された場合、話者は、例えば、ユーザ入力５２５を介した話者によって、５２０において識別される。５３０において、（例えば、話者の識別を、話者の局に関連付けられた記憶装置内に登録されたユーザのリストと比較することによって）識別された話者が登録されたユーザかどうかを決定する。識別された話者が登録されたユーザかどうかを決定することは、局の所有者（例えば、携帯電話の所有者）として登録されたユーザ以外の人物に対して望ましくないトレーニングを防ぐために使用される。話者が登録されたユーザではない場合、処理は５１０に戻る。しかしながら、識別された話者が登録されたユーザであると決定された場合、これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、５４０において狭帯域および広帯域の特徴が音声発話から抽出され、５４５において話者に関連する帯域幅拡張の特徴が（ローカルデータベースのような）記憶装置から取り出され得る。

[0054] ５５０において、特徴トレーニングが、５４０から抽出された特徴および５４５から取り出された帯域幅拡張の特徴を使用して実行される。方法４００について上述したものと同様に、この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。５５５において、帯域幅拡張の特徴空間および話者のためのマッピングは、（例えば、特徴の量の所定の閾値および／またはトレーニングモデルの完了前に生じるマッピングに関連する）トレーニングの完了率と共に（例えば、ローカルデータベースに）記憶され得る。

[0055] ５６０において、広帯域接続が利用不可能なときに、呼中で使用されるために（例えば、所定の閾値と比べて）十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために５１０において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。

[0056] モデルは、狭帯域ボイス通信で使用するために、５７０において遠端局に送信され得る。そのようなデータ送信は、ユーザ間のデータ接続が利用可能となり、以前のデータからのデルタが存在する場合は常にバックグラウンドで作成されることができる。あるいは、メールまたはショートメッセージプッシュと同じように、モデルの所有者が彼女／彼のモデルを更新したい場合は常に、それの電話アドレスブックにおけるコンタクト（contact）を有するユーザに、利用可能なユーザのモデルを知らせることができる。あるいは、呼の開始で、トレーニングされたモデルが利用可能であり、新しいまたは最後の同期更新以来修正されたものである場合、それは送信されることができる。

[0057] 図６は、パーソナライズされた帯域幅拡張のためのトレーニングの方法６００の別の実現の動作フローである。この実現では、モデルは、ユーザのボイスまたは移動局の所有者によって選択されたターゲットボイスのいずれかにより移動局において（例えば、近端局１１０または遠端局１５０または適切な機能を有する任意の移動局のいずれかにおいて）、（例えば、通話中ではない）オフラインでトレーニングされる。オフライントレーニングは、電話が通話に使用されていない場合、ユーザのボイスまたはターゲットボイスを記録することを伴う。

[0058] ６１０において、局がオフラインである（すなわち、通話が行なわれていない）間、話者は、話者の局に音声発話を提供するために局に話す。６１５において、話者のボイスまたは音声発話の音響条件がトレーニングに使用されるのに十分高品質かどうかを決定する。そうでない場合、処理は、６１０に戻り、音響条件が許容可能になるまで続く。

[0059] ６１５において音響条件が許容可能であると決定された場合、話者は、（例えば、局に関連付けられた所定の電話帳からの識別のユーザ選択のように）ユーザ入力６３０を介した話者により、６２５において識別される。

[0060] これは反復プロセスなので、任意の帯域幅拡張の特徴が予め生成され、記憶されていた場合、６２０において狭帯域および広帯域の特徴が音声発話から抽出され、６３５において識別された話者に関連する帯域幅拡張の特徴が（ローカルデータベースのような）記憶装置から取り出され得る。

[0061] ６４０において、特徴トレーニングが、６２０から抽出された特徴および６３５から取り出された帯域幅拡張の特徴を使用して実行される。この特徴トレーニングは、特徴空間を更新することと、話者のために狭帯域−広帯域マッピングを適応させることを含み得る。方法４００について上述したものと同様に、６５０において、帯域幅拡張の特徴空間および話者のためのマッピングは、（例えば、特徴の量の所定の閾値および／またはトレーニングモデルの完了前に生じるマッピングに関係する）トレーニングの完了率と共に（例えば、ローカルデータベースに）記憶され得る。

[0062] ６６０において、広帯域接続が利用不可能なときに、呼中で使用されるために（例えば、所定の閾値と比べて）十分な帯域幅拡張データが記憶されたかどうかを決定する。そうでない場合、より多くの発話を集め、より多くの帯域幅拡張データを生成するために６１０において処理が続く。しかしながら、十分な帯域幅拡張データが生成され、記憶された場合、処理が停止し、６７０において、結果として生じるモデルは狭帯域ボイス通信で使用される状態にある。

[0063] 図７は、広帯域ソースが利用可能な場合、スペクトル包絡／励起（spectral envelope/excitation）ベースのパーソナライズされた帯域幅拡張のためのトレーニングを実行する方法７００の実現の動作フローである。７０５において、音声ソース（例えば、音声発話）からの音声が生成され、局に提供される。広帯域（ＷＢ）特徴の抽出が７１０において実行され、狭帯域（ＮＢ）特徴の抽出が７２０において実行される。７１５において、ＷＢ線スペクトル周波数（ＬＳＦ）およびＮＢＬＳＦは、ＷＢＬＳＦコードブック更新に提供され、ＮＢＬＳＦコードからＷＢＬＳＦコードにマップするマッピング表を構築するために提供される。７１５において生成されているもののような、マッピング表７４０の例は、図８に示される。ＮＢＬＳＦインデックス７４５は、図８において、対応するＷＢＬＳＦ７４７と共に提供される。ＷＢコードブックは、（例えば、一般大衆（a general population of people）に関連する）汎用ＬＳＦで初期化される。ＮＢＬＳＦコードｉでは、現在のフレームのＷＢＬＳＦに基づいて、関連付けられたＷＢＬＳＦコードブックエントリを更新する。

[0064] 図７を参照すると、７２５において、ＷＢ励起は、ＮＢＬＳＦおよびＮＢ励起と共に、ＷＢ励起コードブック更新に提供され、ＮＢからＷＢ励起へのコードブックマッピング表を構築するために提供される。（例えば、十分なトレーニングデータが取得されたかどうかに基づいて）トレーニングを中止するか否かが、７３０において決定される。そうである場合、トレーニングは７３５において中止され、そうでなければ、処理は、７０５に進み、更なる音声発話がトレーニングで使用される。７２５において生成されているもののような、マッピング表７５０の例は、図９に示される。ＬＳＦインデックス７５５は、対応する励起インデックス７５７と共に提供される。コードブックは、汎用励起（すなわち、一般大衆から導出された励起）で初期化される。ＮＢＬＳＦコードｉおよびＮＢ励起コードｊでは、関連付けられたＷＢ励起コードブックエントリを更新する。

[0065] 図１０は、狭帯域ソースのみが利用可能な場合、スペクトル包絡／励起ベースのパーソナライズされた帯域幅拡張を実行する方法７６０の実現の動作フローである。７６５において、狭帯域音声は、遠端局１５０のような局に提供される。７７０において、狭帯域の特徴が抽出され、ＮＢ励起コードおよびＮＢＬＳＦコードをもたらす。

[0066] ７７５において、ＮＢ励起コードおよびＮＢＬＳＦコードを使用して、マッピングがＷＢ励起に対して実行される。マッピングはまた、７８０において、ＮＢＬＳＦからＷＢＬＳＦに実行される。マッピングを使用すると、ＷＢ音声は、７８５において合成され、７９０において出力される。

[0067] ＮＢとＷＢとの間に一意ではないマッピング問題がある可能性があることに留意されたい。この課題を解決するために、Ｎ−グラムと呼ばれる音声認識のための言語モデルに類似した技術が使用され得る。実現において、マッピングを構築するための過去の（または遅延が許可された場合に可能な将来の）フレームに注目する。例えば、２−グラムが構築された場合、マッピングは、ＮＢ＿｛ｉ｝−ＷＢ｛ｉ｝ではなく、ＮＢ＿｛ｉ−１｝，ＮＢ｛ｉ｝−ＷＢ｛ｉ｝となる。

[0068] スペクトル包絡（例えば、ＬＰＣ（線形予測モデル）、ＬＳＦ、メル周波数ケプストラム係数（ＭＦＣＣ）、等）のためのトレーニングフェーズの実現において、広帯域信号が利用可能である場合、狭帯域音声のためのスペクトル包絡（ＳＥ）コードブックエントリおよび対応する広帯域信号のＳＥを発見して、例えば、コードブックマッピングまたはＨＭＭ／ＧＭＭ（隠れマルコフモデル／混合ガウスモデル）を構築する。低帯域ＳＥを保持する、および／または近過ぎるＳＥを防ぐための任意の方法もまた、適用され得る。

[0069] 実現において、コードブックマッピングでは、ＷＢＳＥ表が一般大衆のためのＢＷＥ用の表で初期化される。表への各エントリは、対応するＮＢＳＥが観測された場合、置き換えられる／適応される。更新されたエントリ数および／またはエントリ毎の更新数は、十分なトレーニングデータが取得されたかどうかを決定するために維持され、分析され得る。

[0070] スペクトル包絡のためのパーソナライズされた帯域幅拡張フェーズの実現では、ＮＢＳＥを考慮すると、コードブックマッピング（表検索またはフィルタリング）によって、または確率的モデル（ＧＭＭ／ＨＭＭ）から、対応するＷＢＳＥが決定される。

[0071] 励起の実現ためのトレーニングフェーズについては、ＮＢ−励起コードブック（ＦＣＢ（固定コードブック）またはＦＣＢ／ＡＣＢ（適応コードブック））およびＮＢＳＥを考慮すると、本願のシステムおよび方法は、ＮＢＳＥおよび励起からＷＢ励起に対するマッピング／確率的モデルを構築し得る。例えば、１つはＮ×Ｍエントリと共にＷＢ励起表を構築する可能性があり、ここで、Ｎは、ＮＢ励起コードブックへのエントリ数であり、Ｍは、ＮＢＳＥコードブックへのエントリ数である。この表は、一般大衆のための帯域幅拡張のためのエントリで初期化される。表への各エントリは、対応するＮＢＳＥ／励起の組み合わせが観測された場合に置き換えられる／適応される。更新されたエントリ数および／またはエントリ毎の更新数は、十分なトレーニングデータが取得されたかどうかを決定するために維持され、分析され得る。

[0072] 帯域幅拡張フェーズでは、信頼性測定（reliability measure）（基準）が、パーソナライズされた帯域幅拡張を使用するかどうかを決定するために使用され、表への更新されたエントリ数および／または時間のトレーニングデータ長に基づき得る。所定の量または閾値を上回った場合、例えば、パーソナライズされた帯域幅拡張が使用され得る。

[0073] さらに、いくつかの実現では、複数レベルの信頼性測定が使用されることができる。例えば、（１）信頼性測定が非常に高い場合、パーソナライズされた帯域幅拡張は、（ネットワーク容量を減らすために）ネットワークリソースがＷＢには十分である時でさえ使用され得る；（２）信頼性測定が中間範囲にある場合、パーソナライズされた帯域幅拡張は、ネットワークがＷＢをサポートできないときに使用され得る；（３）信頼性測定が低い場合、狭帯域通信または汎用帯域幅拡張が使用され得る。

[0074] 他の方法で示されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ように明確に意図され、また、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ように明確に意図される。

[0075] 本明細書で使用される場合、用語「決定すること（determining）」（およびそれの文法的異形）は、極めて広い意味で使用される。用語「決定すること」は、多種多様なアクションを包含するため、「決定すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、調べること（例えば、表、データベース、あるいは別のデータ構造を調べること）、確認すること、等を含むことができる。また、「決定すること」は、受信すること（例えば、情報を受信すること）、アクセスすること（例えば、メモリ内のデータにアクセスすること）、等を含むことができる。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、等を含むことができる。

[0076] 用語「信号処理すること（signal processing）」（およびそれの文法的異形）は、信号の処理および解釈を指し得る。対象信号（signals of interest）は、音、画像、他多数を含み得る。そのような信号の処理は、記憶および再構成、雑音からの情報の分離、圧縮、および特徴の抽出を含み得る。用語「デジタル信号処理」は、デジタル表現における信号の研究およびこれら信号の処理方法を指し得る。デジタル信号処理は、移動局、非移動局、およびインターネットのような、多くの通信技術のエレメントであり得る。デジタル信号処理に利用されるアルゴリズムは、特殊なコンピュータを使用して実行され得、これは、デジタルシグナルプロセッサ（時々ＤＳＰと略される）と呼ばれる特殊なマイクロプロセッサを使用し得る。

[0077] 本明細書に開示された実施形態に関連して説明された方法、プロセス、またはアルゴリズムのステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、あるいは２つの組み合わせにおいて、具現化され得る。方法またはプロセスにおける様々なステップまたは行動は、示される順序で実行され得る、あるいは別の順序で実行され得る。さらに、１つ以上のプロセスまたは方法のステップは、省略され得る、あるいは、１つ以上のプロセスまたは方法のステップは、方法およびプロセスに加えられ得る。更なるステップ、ブロック、または行動は、方法およびプロセスの開始、終了、または介在する既存のエレメントに加えられ得る。

[0078] 図１１は、ワイヤレス通信システムにおける移動局８００の例の設計のブロック図を示す。移動局８００は、スマートフォン、セルラ電話、端末、ハンドセット、ＰＤＡ、ワイヤレスモデム、コードレス電話、等であり得る。ワイヤレス通信システムは、符号分割多元接続（ＣＤＭＡ）システム、ＧＳＭシステム、等であり得る。

[0079] 移動局８００は、受信経路および送信経路を介して双方向通信を提供することができる。受信経路において、基地局によって送信された信号は、アンテナ８１２によって受信され、受信機（ＲＣＶＲ）８１４に提供される。受信機８１４は、受信された信号を調整およびデジタル化し、更なる処理のためにデジタルセクション８２０にサンプルを提供する。送信経路において、送信機（ＴＭＴＲ）８１６は、デジタルセクション８２０から送信されるデータを受信し、そのデータを処理および調整し、変調された信号を生成し、これは、アンテナ８１２を介して基地局に送信される。受信機８１４および送信機８１６は、ＣＤＭＡ、ＧＳＭ、等をサポートし得るトランシーバの一部であり得る。

[0080] デジタルセクション８２０は、例えば、モデムプロセッサ８２２、縮小命令セットコンピュータ／デジタルシグナルプロセッサ（ＲＩＳＣ／ＤＳＰ）８２４、コントローラ／プロセッサ８２６、内部メモリ８２８、汎用オーディオエンコーダ８３２、汎用オーディオデコーダ８３４、グラフィック／ディスプレイプロセッサ８３６、および外部バスインターフェース（ＥＢＩ）８３８のような、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ８２２は、例えば、符号化、変調、復調、および復号のような、データ送信および受信のための処理を実行し得る。ＲＩＳＣ／ＤＳＰ８２４は、移動局８００のための汎用および特殊処理を実行し得る。コントローラ／プロセッサ８２６は、デジタルセクション８２０内の様々な処理およびインターフェースユニットの動作を指示し得る。内部メモリ８２８は、デジタルセクション８２０内の様々なユニットのためのデータおよび／または命令を記憶し得る。

[0081] 汎用オーディオエンコーダ８３２は、オーディオソース８４２、マイクロフォン８４３、等からの入力信号に対する符号化を実行し得る。汎用オーディオデコーダ８３４は、コード化されたオーディオデータに対する復号を実行し、スピーカ／ヘッドセット８４４に出力信号を提供し得る。グラフィック／ディスプレイプロセッサ８３６は、ディスプレイユニット８４６に表示され得るグラフィック、ビデオ、画像、およびテキストに対する処理を実行し得る。ＥＢＩ８３８は、デジタルセクション８２０とメインメモリ８４８との間のデータの転送を容易にし得る。

[0082] デジタルセクション８２０は、１つ以上のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣ、等により実現され得る。デジタルセクション８２０はまた、１つ以上の特定用途向け集積回路（ＡＳＩＣ）および／または何らかの他のタイプの集積回路（ＩＣ）上で組み立てられ得る。

[0083] 図１２は、実現例および態様例が実現され得る例示的なコンピューティング環境を示す。コンピューティングシステムの環境は、適切なコンピューティング環境の一例にすぎず、使用または機能の範囲についての限定を示唆するように意図されない。

[0084] コンピュータによって実行されている、プログラムモジュールのような、コンピュータ実行可能な命令が、使用され得る。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データタイプを実現する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等を含む。タスクが通信ネットワークまたは他のデータ送信媒体を通してリンクされる遠隔処理デバイスによって実行された場合、分散コンピューティング環境が使用され得る。分散コンピューティング環境において、プログラムモジュールおよび他のデータは、メモリ記憶デバイスを含む局所的および遠隔コンピュータ記憶媒体の両方にあり得る。

[0085] 図１２について、本明細書で説明された態様を実現するための例示的なシステムは、コンピューティングデバイス９００のような、コンピューティングデバイスを含む。それの最も基本的な構成において、コンピューティングデバイス９００は、典型的に、少なくとも１つの処理ユニット９０２およびメモリ９０４を含む。正確な構成およびコンピューティングデバイスのタイプに応じて、メモリ９０４は、（ランダムアクセスメモリ（ＲＡＭ）のような）揮発性、（読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、等のような）不揮発性、またはその２つの何らかの組み合わせであり得る。この最も基本的な構成は、破線９０６によって図１２に例示されている。

[0086] コンピューティングデバイス９００は、更なる特徴および／または機能を有し得る。例えば、コンピューティングデバイス９００は、磁気または光ディスクまたはテープを含むがそれらに限定されない（取り外し可能な、および／または取り外し不可能な）更なる記憶装置含み得る。そのような更なる記憶装置は、取り外し可能な記憶装置９０８および取り外し不可能な記憶装置９１０によって図１２に例示されている。

[0087] コンピューティングデバイス９００は、典型的に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、デバイス９００によってアクセスされ、揮発性および不揮発性の媒体、取り外し可能および取り外し不可能な媒体の両方を含むことができる、任意の利用可能な媒体であり得る。コンピュータ記憶媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、または他のデータのような情報の記憶のために、任意の方法または技術において実現される、揮発性および不揮発性の媒体、取外し可能および取外し不可能な媒体を含む。メモリ９０４、取り外し可能な記憶装置９０８、および取り外し不可能な記憶装置９１０は、すべてコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、それに限定されるものではないが、ＲＡＭ、ＲＯＭ、電気的消去可能な読み出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディスク（ＤＶＤ）または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは所望の情報を記憶するために使用されることができ、コンピューティングデバイス９００によってアクセスされることができる、任意の他の媒体を含む。そのようないかなるコンピュータ記憶媒体は、コンピューティングデバイス９００の一部であり得る。

[0088] コンピューティングデバイス９００は、デバイスが他のデバイスと通信することを可能にする（単数または複数の）通信接続９１２を含み得る。コンピューティングデバイス９００はまた、キーボード、マウス、ペン、ボイス入力デバイス、タッチ入力デバイス、等のような、（単数または複数の）入力デバイス９１４を有し得る。ディスプレイ、スピーカ、プリンタ、等のような、（単数または複数の）出力デバイス９１６もまた、含まれ得る。これらデバイスはすべて、当技術分野において周知ものであり、本明細書では詳細に議論される必要はない。

[0089] 一般に、本明細書に記載された任意のデバイスは、ワイヤレスまたはワイヤード電話、セルラ電話、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信ＰＣカード、ＰＤＡ、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを通して通信するデバイス、等のような、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、携帯電話、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイス、非移動局、非モバイルデバイス、エンドポイント、等のような、様々な名称を有し得る。本明細書に記載された任意のデバイスは、命令およびデータを記憶するためのメモリ、並びにハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせを有し得る。

[0090] 本明細書に説明された技術は、様々な手段によって実現され得る。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現され得る。当業者はさらに、本明細書における開示に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実現され得ることを理解するであろう。ハードウェアとソフトウェアとのこの互換性を明確に例示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップが、それらの機能の観点から一般的に上述されている。そのような機能が、ハードウェアとして実現されるか、あるいはソフトウェアとして実現されるかは、特定のアプリケーションおよびシステム全体に課せられる設計制約に依存する。当業者であれば、説明された機能を特定のアプリケーションごとに様々な方法で実現し得るが、そのような実現の決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。

[0091] ハードウェアの実現では、技術を実行するために使用される処理ユニットは、１つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲート・アレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に説明された機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組み合わせ内で実現され得る。

[0092] よって、本明細書における開示に関連して説明された様々な例示的な論理ブロック、モジュール、および回路は、本明細書で説明された機能を実行するように設計された、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ、または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理、離散ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて、実現または実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであり得る。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１つ以上のマイクロプロセッサ、あるいは任意の他このような構成として実現され得る。

[0093] ファームウェアおよび／またはソフトウェアの実現では、技術は、ランダムアクセスＲＡＭ、ＲＯＭ、不揮発性ＲＡＭ、プログラマブルＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、コンパクトディスク（ＣＤ）、磁気または光学データ記憶デバイス、または同様のもののような、コンピュータ可読媒体における命令として具現化され得る。命令は、１つ以上のプロセッサによって実行可能であり得、（単数または複数の）プロセッサに本明細書で説明された機能のある特定の態様を実行させ得る。

[0094] ソフトウェアで実現された場合、その機能は、コンピュータ可読媒体上の１つ以上の命令またはコードとして記憶または送信され得る。コンピュータ可読媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされることができる任意の入手可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、または他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、または、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用されることができ、かつ、汎用または専用コンピュータ、または汎用または専用プロセッサによってアクセスされることができる、任意の他の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、電波、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合、この同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、電波、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。本明細書で使用される場合、ディスク（disk）およびディスク（disc）は、ＣＤ、レーザーディスク（登録商標）、光ディスク、デジタル多目的ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイ（登録商標）ディスクを含み、ここでディスク（disks）は、通常磁気的にデータを再生し、一方ディスク（discs）は、レーザーを用いて光学的にデータを再生する。上記の組み合わせはまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0095] ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭ（登録商標）メモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当該技術分野において周知である任意の他の形態の記憶媒体内に存在し得る。典型的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替において、記憶媒体はプロセッサと一体化され得る。プロセッサおよび記憶媒体は、ＡＳＩＣ内に存在し得る。ＡＳＩＣは、ユーザ端末内に存在し得る。代替において、プロセッサおよび記憶媒体は、ユーザ端末内の離散コンポーネントとして存在し得る。

[0096] 典型的な実現は１つ以上のスタンドアロンコンピュータシステムとの関連で現在開示されている主題事項の態様を使用することを指し得るが、主題事項は、そのように限定されず、むしろ、ネットワークまたは分散型コンピューティング環境のような、任意のコンピューティング環境に関連して実現され得る。さらに、現在開示されている主題事項の態様は、複数の処理チップまたはデバイスで、またはそれらにわたって実現され得、記憶装置は、複数のデバイスにわたって同様に達成され得る。そのようなデバイスは、例えば、ＰＣ、ネットワークサーバ、およびハンドヘルドデバイスを含む可能性がある。

[0097] 主題事項は構造上の特徴および／または方法的行動に特有の言語で記載されているが、添付の特許請求の範囲において定義された主題事項が上述した特定の特徴または行動に必ずしも限定されないことを理解されたい。むしろ、上述した特定の特徴および行動は、特許請求の範囲を実現する形態例として開示されている。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
帯域幅拡張のための方法であって、
識別された話者のデータで帯域幅拡張モデルを生成することと、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行することと
を備える、方法。
［Ｃ２］
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、Ｃ１に記載の方法。
［Ｃ３］
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、Ｃ１に記載の方法。
［Ｃ４］
前記帯域幅拡張モデルを生成することは、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングすることを備える、Ｃ１に記載の方法。
［Ｃ５］
前記帯域幅拡張モデルを生成することは、前記話者を識別することと、前記話者のボイスデータから広帯域の特徴を抽出することを備える、Ｃ１に記載の方法。
［Ｃ６］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、広帯域呼の遠端局で前記広帯域の特徴を抽出することを備える、Ｃ５に記載の方法。
［Ｃ７］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、呼の近端局で前記広帯域の特徴を抽出することを備える、Ｃ５に記載の方法。
［Ｃ８］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、オフライン移動局で前記広帯域の特徴を抽出することを備える、Ｃ５に記載の方法。
［Ｃ９］
前記狭帯域呼上で帯域幅拡張を実行することは、
前記話者を識別することと、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すことと、
前記狭帯域呼から狭帯域の特徴を抽出することと、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行することと
を備える、Ｃ１に記載の方法。
［Ｃ１０］
前記広帯域音声合成を実行した後で、広帯域音声を出力することをさらに備える、Ｃ９に記載の方法。
［Ｃ１１］
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、Ｃ１に記載の方法。
［Ｃ１２］
帯域幅拡張のための装置であって、
識別された話者のデータで帯域幅拡張モデルを生成するための手段と、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するための手段と
を備える、装置。
［Ｃ１３］
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、Ｃ１２に記載の装置。
［Ｃ１４］
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、Ｃ１２に記載の装置。
［Ｃ１５］
前記帯域幅拡張モデルを生成するための前記手段は、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングするための手段を備える、Ｃ１２に記載の装置。
［Ｃ１６］
前記帯域幅拡張モデルを生成するための前記手段は、前記話者を識別するための手段と、前記話者のボイスデータから広帯域の特徴を抽出するための手段を備える、Ｃ１２に記載の装置。
［Ｃ１７］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、広帯域呼の遠端局で前記広帯域の特徴を抽出するための手段を備える、Ｃ１６に記載の装置。
［Ｃ１８］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、呼の近端局で前記広帯域の特徴を抽出するための手段を備える、Ｃ１６に記載の装置。
［Ｃ１９］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出するための前記手段は、オフライン移動局で前記広帯域の特徴を抽出するための手段を備える、Ｃ１６に記載の装置。
［Ｃ２０］
前記狭帯域呼上で帯域幅拡張を実行するための前記手段は、
前記話者を識別するための手段と、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すための手段と、
前記狭帯域呼から狭帯域の特徴を抽出するための手段と、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行するための手段と
を備える、Ｃ１２に記載の装置。
［Ｃ２１］
前記広帯域音声合成を実行した後で、広帯域音声を出力するための手段をさらに備える、Ｃ２０に記載の装置。
［Ｃ２２］
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、Ｃ１２に記載の装置。
［Ｃ２３］
コンピュータに、
識別された話者のデータで帯域幅拡張モデルを生成させ、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行させる命令を備える、コンピュータ可読媒体。
［Ｃ２４］
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ２５］
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ２６］
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングさせる命令を備える、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ２７］
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記話者を識別させ、前記話者のボイスデータから広帯域の特徴を抽出させる命令を備える、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ２８］
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、広帯域呼の遠端局で前記広帯域の特徴を抽出させる命令を備える、Ｃ２７に記載のコンピュータ可読媒体。
［Ｃ２９］
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、呼の近端局で前記広帯域の特徴を抽出させる命令を備える、Ｃ２７に記載のコンピュータ可読媒体。
［Ｃ３０］
前記コンピュータに、前記話者の前記ボイスデータから前記広帯域の特徴を抽出させる前記命令は、前記コンピュータに、オフライン移動局で前記広帯域の特徴を抽出させる命令を備える、Ｃ２７に記載のコンピュータ可読媒体。
［Ｃ３１］
前記コンピュータに、前記狭帯域呼上で帯域幅拡張を実行させる前記命令は、前記コンピュータに、
前記話者を識別させ、
記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出させ、
前記狭帯域呼から狭帯域の特徴を抽出させ、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行させる命令を備える、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ３２］
前記コンピュータに、前記広帯域音声合成を実行した後で、広帯域音声を出力させる命令をさらに備える、Ｃ３１に記載のコンピュータ可読媒体。
［Ｃ３３］
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ３４］
帯域幅拡張のためのシステムであって、
識別された話者のデータで帯域幅拡張モデルを生成するように適応されたトレーニングモジュールと、
前記識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するためのプロセッサと
を備える、システム。
［Ｃ３５］
前記帯域幅拡張モデルは、前記識別された話者の前記データでパーソナライズされる、Ｃ３４に記載のシステム。
［Ｃ３６］
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、Ｃ３４に記載のシステム。
［Ｃ３７］
前記トレーニングモジュールは、前記識別された話者の前記データで前記帯域幅拡張モデルをトレーニングするように適応される、Ｃ３４に記載のシステム。
［Ｃ３８］
前記話者を識別し、前記話者のボイスデータから広帯域の特徴を抽出するように適応された特徴抽出モジュールをさらに備える、Ｃ３４に記載のシステム。
［Ｃ３９］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、広帯域呼の遠端局で前記広帯域の特徴を抽出することを備える、Ｃ３８に記載のシステム。
［Ｃ４０］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、呼の近端局で前記広帯域の特徴を抽出することを備える、Ｃ３８に記載のシステム。
［Ｃ４１］
前記話者の前記ボイスデータから前記広帯域の特徴を抽出することは、オフライン移動局で前記広帯域の特徴を抽出することを備える、Ｃ３８に記載のシステム。
［Ｃ４２］
前記プロセッサは、前記話者を識別し、記憶装置から前記話者に関連付けられた前記帯域幅拡張トレーニングモデルを取り出すように適応され、
前記狭帯域呼から狭帯域の特徴を抽出するように適応された特徴抽出モジュールと、
前記抽出された狭帯域の特徴と組み合わせられた前記帯域幅拡張トレーニングモデルを使用して広帯域音声合成を実行するように適応された音声シンセサイザと
をさらに備える、Ｃ３４に記載のシステム。
［Ｃ４３］
前記プロセッサは、前記帯域幅音声合成を実行した後で、広帯域音声をさらに出力するように適応される、Ｃ４２に記載のシステム。
［Ｃ４４］
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、Ｃ３４に記載のシステム。

Claims

近端局から遠端局に送信された信号の帯域幅拡張のための方法であって、
前記遠端局において、前記近端局から送信された広帯域信号を受信することと、
前記遠端局において、前記近端局から帯域幅拡張モデルを受信することと、
識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行することと、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
を備える、方法。
前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項１に記載の方法。
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項１に記載の方法。
前記帯域幅拡張モデルを生成することは、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングすることを備える、請求項１に記載の方法。
前記帯域幅拡張モデルを生成することは、前記話者を識別することと、前記広帯域信号から広帯域の特徴を抽出することを備える、請求項１に記載の方法。
前記狭帯域呼上で帯域幅拡張を実行することは、
前記話者を識別することと、
記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すことと、
を備える、請求項１に記載の方法。
広帯域音声合成を実行した後で、広帯域音声を出力することをさらに備える、請求項６に記載の方法。
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項１に記載の方法。
近端局から遠端局に送信された信号の帯域幅拡張のための装置であって、
前記遠端局において、前記近端局から送信された広帯域信号を受信するための手段と、
前記近端局から帯域幅拡張モデルを受信するための手段と、
識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するための手段と、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
を備える、装置。
前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項９に記載の装置。
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項９に記載の装置。
前記帯域幅拡張モデルを生成するための前記手段は、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングするための手段を備える、請求項９に記載の装置。
前記帯域幅拡張モデルを生成するための前記手段は、前記話者を識別するための手段と、前記広帯域信号から広帯域の特徴を抽出するための手段を備える、請求項９に記載の装置。
前記狭帯域呼上で帯域幅拡張を実行するための前記手段は、
前記話者を識別するための手段と、
記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すための手段と、
を備える、請求項９に記載の装置。
広帯域音声合成を実行した後で、広帯域音声を出力するための手段をさらに備える、請求項１４に記載の装置。
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項９に記載の装置。
近端局から遠端局に送信された信号の帯域幅拡張を実行するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、コンピュータに、
前記遠端局において、前記近端局から送信された広帯域信号を受信させ、
前記近端局から帯域幅拡張モデルを受信させ、
識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行させる、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
コンピュータ可読媒体。
前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項１７に記載のコンピュータ可読媒体。
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項１７に記載のコンピュータ可読媒体。
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングさせる命令を備える、請求項１７に記載のコンピュータ可読媒体。
前記コンピュータに、前記帯域幅拡張モデルを生成させる前記命令は、前記コンピュータに、前記話者を識別させ、前記広帯域信号から広帯域の特徴を抽出させる命令を備える、請求項１７に記載のコンピュータ可読媒体。
前記コンピュータに、前記狭帯域呼上で帯域幅拡張を実行させる前記命令は、前記コンピュータに、
前記話者を識別させ、
記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出させる
命令を備える、請求項１７に記載のコンピュータ可読媒体。
前記コンピュータに、広帯域音声合成を実行した後で、広帯域音声を出力させる命令をさらに備える、請求項２２に記載のコンピュータ可読媒体。
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項１７に記載のコンピュータ可読媒体。
通信の近端局から遠端局に送信された信号の帯域幅拡張のためのシステムであって、
前記遠端局において、前記近端局から送信された広帯域信号および帯域幅拡張モデルを受信するように適応された受信機と、
識別された話者を含む狭帯域呼上で前記帯域幅拡張モデルを使用して帯域幅拡張を実行するためのプロセッサと、ここにおいて、前記狭帯域呼におけるボイスデータからの狭帯域の特徴が抽出され、前記識別された話者のパーソナライズされた広帯域の特徴に前記帯域幅拡張モデルを使用してマッピングされる、
を備える、システム。
前記帯域幅拡張モデルは、前記識別された話者のデータでパーソナライズされる、請求項２５に記載のシステム。
前記帯域幅拡張モデルは、話者導出可能な情報に基づく、請求項２５に記載のシステム。
トレーニングモジュールは、前記識別された話者のデータで前記帯域幅拡張モデルをトレーニングするように適応される、請求項２５に記載のシステム。
前記話者を識別し、前記広帯域信号から広帯域の特徴を抽出するように適応された特徴抽出モジュールをさらに備える、請求項２５に記載のシステム。
前記プロセッサは、前記話者を識別し、記憶装置から前記話者に関連付けられた前記帯域幅拡張モデルを取り出すように適応される、
請求項２５に記載のシステム。
前記プロセッサは、広帯域音声合成を実行した後で、広帯域音声をさらに出力するように適応される、請求項３０に記載のシステム。
広帯域が利用不可能であり、前記呼が狭帯域上で行なわれる場合、前記狭帯域呼上で帯域幅拡張を実行することが、アクティベートされる、請求項２５に記載のシステム。