JP2023541879A

JP2023541879A - 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識

Info

Publication number: JP2023541879A
Application number: JP2023515727A
Authority: JP
Inventors: ボーマン、アーロン; シェルトン、コリー; ハマー、スティーブン; クワトラ、シカール
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-09
Filing date: 2021-08-24
Publication date: 2023-10-04
Also published as: US11538464B2; CN116075887A; WO2022053310A1; US20220076665A1; EP4211678A1

Abstract

分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識。本開示は、音声認識のために、分離されたオーディオ入力からの音声内容のダイレーションを使用することを含む。話者からのオーディオ入力、および、外部ノイズに基づく、オーディオ入力についての予測される変更がＣＮＮ（畳み込みニューラルネットワーク）において受信される。ＣＮＮにおいて、ダイアライゼーションがオーディオ入力に適用され、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、ＣＮＮ出力を生成する。結果のダイレーションはＣＮＮ出力から決定される。音声－テキスト出力の精度を決定するために、単語誤り率が、ダイレーションされたＣＮＮ出力について決定される。単語誤り率に基づいてダイレーションの範囲を変更するために調整パラメータが設定され、ＣＮＮ出力の結果のダイレーションは、調整されたパラメータに基づいて調整され、単語誤り率を低減する。

Description

本開示は、コンピュータを使用する、オーディオ入力からの音声内容の音声認識についての技法に関する。より具体的には、オーディオ入力は、オーディオ入力から分離された音声内容を含む。

技法は、コンピュータを使用して、人間の音声をテキストに変換するために使用され得る。人間の音声は例えば、話された単語、歌を単独またはグループで含み得る。人間の音声の間、音声出力の変換、または、音声出力信号がテキストに変換されることは困難であり得る。例えば、音声認識および変換は、音が変更されるとき、または、単語の典型的な発音より一般的でないときに困難であり得る。例えば、音は引き延ばされるか、または、他の１または複数のノイズと混合されることがあり得る。一例において、話者が話しているときにバックグラウンドノイズがあり得る。別の例において、話者のグループが話し得、話者に重複があり得る。別の例において、バックグラウンドノイズは、１または複数の話者が話しているときに生じ得る。別の例において、話者は、意図せず、または強調のために意図して、または、非正当もしくは非典型的な音声パターンの一部として、またはアクセントの一部として、１または複数の単語の典型的な発音を変更し得る。話者が話すときの、そのような変更された音、もしくは、非典型的な音、またはその組み合わせは、音声識別、および、音声からテキストへの変換にとって困難な音声を生じさせる。

本開示は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識のための現在の技法に関連する短所および問題を認識する。

本発明は、複数の話者の各々の音声認識のために、インターレースされたオーディオ入力からの音声内容を解析し、音声内容からテキストへの変換を提供し得る。例えば、音が変更された、または、典型的な単語の発音より一般的でないときの音声認識および変換の課題は、音声内容が音声からテキストへの変換のための話者からの変更された音、もしくは、非典型的な音、またはその組み合わせを含むとき、本発明を使用して克服できる。

例えば、アーティストが曲を歌っていて、単語の一部が一般的な発音ではなく和声楽に従う方式で変更または改変されるときに、１つの問題が生じ得る。別の例において、騒々しい環境において、音波および音の混合は、変換するときに単語誤り率を増加させ得る。例えば、大きいイベント、大きい群衆の大声、またはスポーツイベントにおいて、音は音声符号を閉塞し得る。本発明は、音声信号、音声入力のダイレーションを使用する音声認識を含み、単語を認識することを試みる、または、音声内容を解析して１または複数の単語を認識する前にサンプルまたは音声サンプリング間の空間を増加させる。本発明による一例において、異なるダイレーションパラメータを有する畳み込みニューラルネットワーク（ＣＮＮ）を訓練して、これらの問題に適用することができる。さらに、予想される環境ノイズおよび音声タイプは、どのダイレーションを使用するかを示し得る。加えて、別の例において、各話者は、機械学習を通じてダイレーションパラメータを割り当てることができる。会話または曲のグループ設定において、パラメータのダイレーションは、各話者の振幅に基づいてグループごとに共に重み付けすることができる。

本発明は、各人間の話者のオーディオ信号または音声内容を未来に向けて予想することを含む。一例において、本発明は、外部ノイズに基づいて、話者のオーディオ信号または音声内容がどのように変化するかを予想し得る。出力がダイレーションなしでＣＮＮに入力され、未来のトレンドに基づいて、音声内容のダイレーションがどのように変化するかが予測され得る。結果のダイレーションが決定され、音声－テキスト変換に適用され得る。

ある態様において、本発明によれば、音声認識のためのコンピュータ実装方法は、分離されたオーディオ入力からの音声内容のダイレーションを使用し、ＣＮＮ（畳み込みニューラルネットワーク）においてオーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信する段階を備え、オーディオ入力は、話者からの音声内容を含む。方法は、ＣＮＮにおいて、ダイアライゼーションをオーディオ入力に適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、ＣＮＮ出力を生成する段階を備える。ＣＮＮ出力からの結果のダイレーションが決定され、ＣＮＮ出力の結果のダイレーションは、オーディオ入力の音を分離することを含む。音声－テキスト出力の精度を決定するために、ダイレーションされたＣＮＮ出力についての単語誤り率が決定される。単語誤り率に基づいてダイレーションの範囲を変更するために調整パラメータが設定される。方法は、調整パラメータに基づいてＣＮＮ出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。

本発明の１つの利点は、本発明による方法を使用して音声認識を使用してオーディオ入力からテキストに音声を変換するために分離されたオーディオ入力からの音声内容を変換するときに単語誤り率を低減することを含む。

関連する態様において、方法はさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。

関連する態様において、方法は、識別された音声内容からテキストを生成する段階を備える。

関連する態様において、オーディオ入力および予測される変更は、音声内容のダイレーションなしで受信される。

関連する態様において、方法は、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。

関連する態様において、方法は、コンピュータにおいて、話者についての予想オーディオ入力を受信する段階であって、予想オーディオ入力は、話者についての音声内容を含む、段階と、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階とを備える。

関連する態様において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階と、話者についての調整された結果のダイレーションに適用された学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階と、識別された音声内容からテキストを生成する段階とを備える。

関連する態様において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階とを備える。

関連する態様において、方法はさらに、識別された音声内容からテキストを生成する段階を備える。

関連する態様において、方法はさらに、ＣＮＮにおいて、複数の話者の１人の音声内容についてのダイレーションパラメータを受信する段階であって、ダイレーションパラメータは、複数の話者からのオーディオ入力から導出される、段階を備える。

関連する態様において、複数の話者からのオーディオ入力はインターレースされたオーディオ入力である。

本発明による別の態様において、音声認識のためのシステムは、コンピュータシステムを含む分離されたオーディオ入力からの音声内容のダイレーションを使用する。コンピュータシステムは、コンピュータプロセッサ、コンピュータ可読記憶媒体、およびプロセッサによって実行可能であるコンピュータ可読記憶媒体に記憶されたプログラム命令を含み、コンピュータシステムに以下の機能、すなわち、ＣＮＮ（畳み込みニューラルネットワーク）においてオーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信することであって、オーディオ入力は話者からの音声内容を有する、こと、ＣＮＮにおいて、ダイアライゼーションをオーディオ入力に適用し、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測してＣＮＮ出力を生成すること、ＣＮＮ出力から結果のダイレーションを決定することであって、ＣＮＮ出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、こと、ダイレーションされたＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力についての精度を決定すること、調整パラメータを設定して、単語誤り率に基づいてダイレーションの範囲を変更すること、および、調整パラメータに基づいてＣＮＮ出力の結果のダイレーションを調整して単語誤り率を低減することを実行させる。

関連する態様において、システムはさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。

関連する態様において、システムはさらに、識別された音声内容からテキストを生成する段階を備える。

関連する態様において、システムはさらに、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。

関連する態様において、システムはさらに、コンピュータにおいて、話者についての予想オーディオ入力を受信する段階であって、予想オーディオ入力は、話者についての音声内容を含む、段階と、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階とを備える。

関連する態様において、システムはさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階と、話者についての調整された結果のダイレーションに適用された学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階と、識別された音声内容からテキストを生成する段階とを備える。

関連する態様において、システムはさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階とを備える。

関連する態様において、システムは、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。

別の態様において、本発明によれば、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含む。プログラム命令はコンピュータによって実行可能であり、コンピュータに、コンピュータによる機能を実行させ、当該機能は、ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信することであって、オーディオ入力は、話者からの音声内容を有する、こと、ＣＮＮにおいて、オーディオ入力にダイアライゼーションを適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測してＣＮＮ出力を生成すること、ＣＮＮ出力から結果のダイレーションを決定することであって、ＣＮＮ出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、こと、ダイレーションされたＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力についての精度を決定すること、調整パラメータを設定して、単語誤り率に基づいてダイレーションの範囲を変更すること、および、調整パラメータに基づいて、ＣＮＮ出力の結果のダイレーションを調整して単語誤り率を低減することを含む。

関連する態様において、コンピュータプログラム製品はさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。

関連する態様において、コンピュータプログラム製品はさらに、識別された音声内容からテキストを生成することを含む。

本発明のこれらの目的、特徴および利点並びに他の目的、特徴および利点は、本発明の例示的な実施形態に係る以下の詳細な説明から明らかとなろう。例示的な実施形態は、添付図面と併せて読まれたい。例示は当業者が詳細な説明に関する本発明の理解を容易にする上での明確性のためのものであるので、図面の様々な特徴は正確な縮尺ではない。図面については、以下で論じられる。

本発明の実施形態による、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのシステムの概要、システムの特徴またはコンポーネント、および方法を示す概略的ブロック図である。

本発明の実施形態による、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１に示されるシステムを使用して実装される方法を示すフローチャートである。

本開示によるダイレーションの実施形態を示す一連の表である。

インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１に示されるシステムを使用して実装される、本開示による方法の別の実施形態を示すフローチャートである。

本発明の実施形態による、図４に示される方法の継続を描写する、図４に示されるフローチャートから継続するフローチャートである。

インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１、図２、図３、図４および図５に示される実施形態に関連する、本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。

インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１、図２、図３、図４および図５に示される実施形態に関連する本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。

本発明の実施形態による、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１に示されるシステムを使用して実装される、本開示の実施形態による方法を示すフローチャートである。

分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図１に示されるシステムを使用して実装される、本開示による方法の別の実施形態を示すフローチャートである。

本開示の実施形態による、図９に示される方法の継続を描写する、図９に示されるフローチャートから継続するフローチャートである。

分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図８、９および１０に示される実施形態に関連する本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。

分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図８、図９および図１０において示される実施形態に関連する、本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。

図１に示される１または複数のコンピュータまたはデバイスに全部または部分的に組み込まれ得、図１、図２、図３、図４、図５、図６、図７、図８、図９、図１０、図１１および図１２に示されるシステムおよび方法と協働する、本開示の実施形態によるコンピュータシステムを描写する概略的ブロック図である。

バスを使用して相互接続されるシステムコンポーネントを描写するシステムの概略的ブロック図である。コンポーネントは、全部または一部が、本開示の１または複数の実施形態に従い、本開示の実施形態と共に用いるためのものである。

本発明の実施形態によるクラウドコンピューティング環境を描写するブロック図である。

本発明の実施形態による抽象モデル層を示すブロック図である。

添付図面を参照する以下の説明は、特許請求の範囲およびそれらの同等物によって定義される本発明の例示的な実施形態の包括的な理解を助けるために提供される。それは、理解を助ける様々な具体的詳細を含むが、これらは単に例示とみなされるべきである。したがって、当業者は、本明細書に記載された実施形態の様々な変更および修正は、本発明の範囲から逸脱することなく行われることが可能であると認識するだろう。加えて、明確性および簡潔性のために、周知の機能および構造の説明は省略され得る。

以下の説明および特許請求の範囲で使用される用語および単語は、書誌的な意味に限定されず、本発明の明確で一貫性のある理解を可能にするために使用されるに過ぎない。したがって、本発明の例示的な実施形態に関する以下の説明は、例示目的のみのために提供されており、添付の特許請求の範囲およびその均等物によって定義される本発明を限定する目的で提供されているのではないということは、当業者には明らかなはずである。

文脈での明確な指示がない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」には複数の指示対象が含まれることを理解されたい。よって、例えば、「コンポーネントの表面」に言及する場合に、文脈が明らかにそうでないと指示していない場合には、そのような表面が１または複数が存在することを指す場合を含む。

本開示による実施形態は、インターレースされたオーディオ入力からの音声内容を解析して複数の話者の各々についての音声認識を提供し、それにより、単語認識および識別ならびに音声内容からテキストへの変換を提供する。本開示は、音が変更されるとき、または、単語の典型的な発音より一般的でないとき、例えば、音声内容が、話者からの変更された音、もしくは、非典型的な音、またはその組み合わせを含むとき、音声認識および音声からテキストへの変換を可能にする。

本開示の実施形態は、音声信号または音声入力のダイレーションを使用する音声認識を含み、単語の認識を試みるか、または、音声内容を解析して１または複数の単語を認識する前に、サンプルまたは音声サンプリング間の空間を増加させる。本開示による一例において、異なるダイレーションパラメータを有する畳み込みニューラルネットワーク（ＣＮＮ）を訓練して、これらの問題に適用することができる。別の例において、予想された環境ノイズおよび音声タイプは、どのダイレーションを使用するかを示し得る。別の例において、各話者は、機械学習を通じてダイレーションパラメータを割り当てられ得る。別の例において、会話または曲のグループ設定において、パラメータのダイレーションは、各話者の振幅に基づいて、グループごとに共に重み付けられ得る。

本開示の実施形態はそれにより、予想環境ノイズを提供して、ダイレーションパラメータを設定し得る。別の例において、本開示の実施形態は、音声タイプ（例えば歌、発話）を分類して、ダイレーションパラメータに寄与する。別の例において、本開示の実施形態は、音声スプレッドを他の独立モデルに適合する。別の例において、本開示の実施形態は、話者ダイアライゼーションおよびグループモデルに基づく平均ダイレーションパラメータを含み得る。そして別の例において、本開示の実施形態は、知識のソーシャルダイレーション転送を含み得る。

それにより、本開示の実施形態は、環境ノイズからのダイレーションをモデリングすること、および、ダイレーションパラメータを予想することを含む。ダイレーションスプレッドがマッピングされ得、さらに、ソーシャル態様が会話の各人物のダイレーションメトリクスと組み合わされ得る。

図１および図２を参照すると、本開示の実施形態によるシステム１０（図１）に関する方法１００（図２）が、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識のために提供される。図２を参照すると、方法は、本開示による一実施形態を実装するための一連の動作ブロックを含む。図２を参照すると、方法１００は、ブロック１０４のように、学習モデル３２０（図６を参照）を開始して、オーディオ入力６０としてコンピュータ２２で受信された複数の人間の話者５２からの音声内容６４の複数の可聴音６２の各々についてダイレーションパラメータ３２４を決定する段階を備える。

図６を参照すると、機能システム３００は、本開示による実施形態についてのコンポーネントおよび動作を含み、図１、図２、図３、図４および図５に示される方法およびシステムを参照して本明細書で使用される。

一例において、話者のグループは、共に話し得る。話者のグループからのオーディオ出力は、コンピュータまたはデバイスを使用して、例えば、デバイスのマイクロフォンを使用するか、または、デバイスもしくはコンピュータと通信して、オーディオ入力として受信され得る。

一例において、スペクトログラムが生成され、信号の周波数のスペクトルの視覚的表現として使用され得、オーディオ信号のように、時間と共に変動する。スペクトログラムは、ソノグラフ、声紋、またはボイスグラムとも称され得る。

スペクトログラムが作成され得、ＤＦＴ（離散フーリエ変換）が、潜在的な固有の話者を決定するために適用され得る。ＤＦＴは、関数の等しく隔てられたサンプルの有限系列を、周波数の複素数値関数である、離散時間フーリエ変換（ＤＴＦＴ）の等しく隔てられたサンプルの同一の長さの系列に変換し得る。初期ダイレーション変数は、各ＤＦＴの推定に初期化され得る。

一例において、グループにおいて誰が話している、または歌っているかが認識されているとき、ダイレーションパラメータは、情報に基づいて調整または指定され得る。そのような識別情報は、例えば、ソーシャルメディアの入力、観察から収集され得る。

複数の可聴音は、例えば、話していて可聴音６２を生成している、近隣５０の複数の人間の話者５２またはユーザとして、１または複数の人間の話者１４またはユーザを含み得る。可聴音は例えば、会話、一人の音声、歌、話者のグループの歌などにおいて話す人間を含み得る。そして、可聴音６２はこのようにして、音声内容６４を生成し、含む。

可聴音は、モバイルデバイスなどのコンピュータ２２またはデバイス２０におけるマイクロフォンを介して、オーディオ入力６０としてコンピュータで受信され得、コンピュータは、単独で、または、制御システム７０の制御デバイスと組み合わせて、（本開示の技法に従って処理するために、通信ネットワーク４５、例えば、インターネットを介して）オーディオファイルを別のコンピュータ７２またはサーバ、例えばリモートコンピュータまたはサーバへ送信し得る。別の例において、オーディオファイルにおける可聴音は、コンピュータ上でローカルに、もしくは、リモートコンピュータもしくはサーバと組み合わせて、またはその組み合わせで、本開示の技法に従って処理され得る。

学習モデル３２０は、パラメータを使用する機械学習を含み得る。例えば、ダイレーションパラメータは、機械学習を使用して、複数の話者またはユーザの各々を割り当てられ得る。

音声認識のための音のダイレーションは、音または音サンプルの間の空間の増加として定義され得る。本開示において、ダイレーションは、音から単語を認識することを試みる前に実行される。

ダイレーションパラメータは、音サンプル間の指定された量の空間を含み得るか、または、音サンプル間の空間の範囲を指定する。ダイレーション変数は、各潜在的話者に割り当てられ、学習モデルにおいて使用され得る。

一例において、図３を参照すると、テーブル１５４、１５８、１６２の代表的イメージ１５０は、イメージ１６６のダイレーションを描写する。これは例えば、断片または音サンプル１６８に階層化された音イメージであり得る。イメージ１５０は、ダイレーションパラメータＤの変化を描写する。テーブル１５４において、ダイレーションパラメータ１７２は１に等しく、イメージ１６６は空間を有しない。第２テーブル１５８において、ダイレーションパラメータ１７４は２に等しく、イメージは、サンプル間の空間１８０を有する音サンプル１６８を有する。第３テーブル１６２において、ダイレーションパラメータ１７６は３に等しく、イメージは、サンプル間により多くの空間１８０を有する音サンプル１６８を有する。

方法は、ブロック１０８のように、学習モデルの一部として、オーディオ刺激に応じて複数の独立の音の各々の変化を決定する段階であって、独立の音は、オーディオ入力から導出される、段階を備える。例えば、オーディオ刺激は環境刺激を含み得る。音の変更、または、独立の音の変更３２２は、環境刺激に応じて決定され得る。

一実施形態において、オーディオ入力は、ダイアライゼーションを使用して、複数の話者の各々について精緻化され得る。例えば、ダイアライゼーションは、入力オーディオストリームを、話者識別に対応するセグメントにパーティショニングするプロセスを含み得、一例においてセグメントは同質であり得る。ダイアライズされた信号は、オーディオ入力を独立の音に階層化するために使用され得る。

ダイアライゼーションは、各話者に帰属可能な複数の話者の各々からのオーディオ入力を精緻化するために深層学習に使用され得る。一例において、話者識別のＤＦＴもしくは深層学習またはその組み合わせのアプローチからのエラーがある場合、ダイアライゼーションパラメータは共に平均化され得る。

一例において、声紋が構築され得る。一例において、環境刺激を再生でき、階層化されたデータがどのように変化するかについて決定され得る。ダイレーションパラメータは、オーディオ入力データ（例えば音声データ）の変化に基づいて修正され得る。例えば、音声が引き延ばされる場合、ダイレーションパラメータは増加し得る。加えて、各話者に関するダイレーションパラメータは、独立信号の相関係数に基づき得る。相関の係数（Ｒ値）は、回帰出力におけるサマリテーブルにおいて与えられる値である。Ｒ二乗は決定係数と呼ばれ、すなわち、Ｒ×ＲでＲ二乗の値が取得される。決定係数は、相関の係数の二乗である。

一例において、Ｒ二乗相関メトリックは、どのようにペアワイズのもっとも相関する話者を共に組み合せるかを決定する。例えば、Ｒのランクは０と０．５との間でシフトされ得、その結果、最大で、ペアの話者は調整されたダイレーションの５０％に寄与する。

方法は、ブロック１１２のように、独立の音の各々の変化に基づいて、ダイレーションパラメータをそれぞれ適用する段階を備える。

方法は、ブロック１１６のように、独立の音およびダイレーションパラメータのそれぞれに基づいて話者の各々についての声紋を構築する段階を備える。

方法は、ブロック１２０のように、それぞれの声紋および独立の音に少なくとも部分的に基づいて、複数の話者の各々に音声内容を帰属させる段階を備える。

方法は、ブロック１２４のように、帰属させられた音声内容からテキストを生成する段階を備え得る。

ブロック１２６において決定されるように、生成されたテキストがローカルに、例えばローカルコンピュータ上に表示される場合、方法はブロック１３０に継続する。ブロック１２６において決定されるように、生成されたテキストがローカルに表示されない場合、デバイスまたはコンピュータディスプレイまたはモニタ上に表示されるために、方法はブロック１２８に継続する。

方法は、ブロック１２６において決定されるようにテキスト位置を表示することに応じて、ブロック１３０のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示する段階を備える。

方法は、ブロック１２８のように、ブロック１２６において決定されるようにテキストをローカルに表示しないことに応じて、電子通信システムを介して、テキストをコンピュータもしくはデバイスまたはその組み合わせに送信して、コンピュータもしくはデバイスまたはその組み合わせと通信する画面またはモニタ上に表示する段階を備え得る。方法は、ブロック１３０のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示することを継続し得る。

方法は、独立の音を受信し、ダイアライゼーションを使用してオーディオ刺激に応じて独立の音の各々の変更を決定するためのＣＮＮ３２６（畳み込みニューラルネットワーク）を含む学習モデル３２０を含み得る。

ＣＮＮ（畳み込みニューラルネットワーク）は、深層学習の少なくとも一部であり得、ＣＮＮはディープニューラルネットワークのクラスである。ＣＮＮは、第３関数を生成し、畳み込みと呼ばれる２つの機能として一般的に定義される数学的演算を含む。畳み込みは、特殊化した種類の線型操作である。したがって、畳み込みネットワークは、複数の層の少なくとも１つにおける汎用行列乗算の代わりに畳み込みを使用するニューラルネットワークである。

方法は、複数の可聴音を含み得るオーディオ入力を含み得、オーディオ入力はコンピュータで受信され得る。さらに、可聴音は複数の話者からの音声内容を含み得る。

方法はさらに、コンピュータを使用してオーディオ入力をダイレーションする段階を備え得る。ダイレーションは、オーディオ入力における音を分離することを含み得る。

方法はさらに、音３０８のダイアライゼーションを使用して複数の話者の各々について、ダイレーションさせられたオーディオ入力３０２を精緻化する段階を備え得る。

方法はさらに、オーディオ入力のダイアライゼーションを使用して、精緻化されたオーディオ入力３０４における音３０６を独立の音３１０に階層化する段階を備え得る。

方法は、オーディオ入力における音の分離を含み得、複数の話者のうちの話者からの音声から環境音またはバックグラウンド音を区別する段階を備え得る。

方法は、オーディオ入力を話者識別に関する均質なセグメントにパーティショニングすることを含み得る、ダイアライゼーションを使用して複数の話者の各々についてのオーディオ入力を精緻化する段階を備え得る。

本開示による別の実施形態において、図４を参照すると、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンピュータ実装方法２００は、ブロック２０４のように、複数の可聴音を含むオーディオ入力をコンピュータで受信する段階であって、可聴音は、複数の話者からの音声内容を含む、段階を備える。図４および図５に示される方法２００の動作ブロックは、図２に示される動作ブロックと同様であり得る。図４および図５に示されている方法は、本開示において既に示され論じられた態様／動作を含むことがあり得る別の例示的な実施形態として意図されている。

方法２００は、ブロック２０８のように、コンピュータを使用してオーディオ入力をダイレーションさせる段階であって、ダイレーションは、オーディオ入力における音を分離することを含む、段階を備える。

方法２００は、ブロック２１２のように、ダイアライゼーションを使用して、複数の話者の各々についてのオーディオ入力を精緻化する段階を備える。方法は、ブロック２１６のように、オーディオ入力のダイアライゼーションを使用して、オーディオ入力における音を独立の音に階層化する段階を備える。

方法２００は、ブロック２２０のように、学習モデルを開始して、可聴音の各々についてのダイレーションパラメータを決定する段階を備える。

方法２００は、ブロック２２２のように、独立の音を受信し、ダイアライゼーションを使用してオーディオ刺激に応じて独立の音の各々の変更を決定するためのＣＮＮ（畳み込みニューラルネットワーク）を含む学習モデルを備える。

方法２００は、ブロック２２４のように、オーディオ刺激に応じて、複数の独立の音の各々の変更を学習モデルの一部として決定する段階を備える。

方法２００は、ブロック２２８のように、独立の音の各々の変化に基づいて、ダイレーションパラメータをそれぞれ適用する段階を備える。

方法２００は、ブロック２３２のように、独立の音３１０およびダイレーションパラメータ３２４のそれぞれに基づいて、話者５２の各々についての声紋３３０を構築する段階を備える。

方法２００は、ブロック２３６のように、それぞれの声紋および独立の音に少なくとも部分的に基づいて、複数の話者の各々に音声内容を帰属する段階を備える。帰属させられた音声内容３３２は、テキストを生成するために使用され得る。

図５を参照すると、方法２００は、ブロック２４０のように、帰属させられた音声内容３３２からテキスト３３４を生成する段階を備える。

方法２００はさらに、ブロック２４４のように、電子通信システムを介して、コンピュータもしくはデバイスまたはその組み合わせへテキストを送信して、コンピュータもしくはデバイスまたはその組み合わせと通信する画面またはモニタ上に表示する段階を備える。別の例において、通信は、ＳＭＳ、電子メール、インスタントメッセージ、ナビゲーションソフトウェアから成るグループから実装され得る。そのような例は、例示かつ非網羅的であることが意図される。

方法２００はさらに、ブロック２４８のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示する段階を備え得る。

図７を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートする機能システム４００は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。システム４００は、オーディオ出力を出力する人間の話者402のグループを含む。オーディオ出力は、ブロック４０４のように、ダイレーションを使用して、別個の各信号を学習するために受信される。システムは、ブロック４０６のように、ダイアライゼーションに基づいて、オーディオ入力信号のダイレーションを学習し得る。

システムは、ブロック４１０のように、ダイアライゼーションを使用してオーディオ入力信号を階層化することを含む。システムは、ブロック４１２のように、音、例えば環境刺激を再生して、ダイアライズされたオーディオ入力信号をグループ化することを含む。システムは、ブロック４１４のように、環境刺激に基づいて個別およびグループのダイレーションを設定することを含む。システムは、ブロック４１６のように、オーディオ出力を生成することを含む。システムは、ダイレーションおよび環境刺激に基づいて、オーディオ出力４１６を使用して、ブロック４１８のようにテキスト出力を生成することを含む。

一例において、システムは、ブロック４５０のように、一例において、外部ノイズに基づいて、話者の信号がどのように変化するかを予測することによって、予想話者信号技法または方法／システムを使用して話者の信号を予想し、その後の話者の信号を予測し得る。そのような予想は、本開示の焦点ではない。

図１および２に示された本開示の実施形態では、コンピュータは、リモートコンピュータまたは例えばリモートサーバ１１００（図８）のようなリモートサーバの一部であり得る。別の例では、コンピュータ７２は、制御システム７０の一部であり、本開示の機能の実行を提供することができる。別の実施形態では、コンピュータ２２が、モバイルデバイス２０の一部であり、本開示の機能の実行を提供することが可能である。さらに別の実施形態では、本開示の機能の実行の一部が、制御システムのコンピュータとモバイルデバイスコンピュータとの間で共有される場合もあって、例えば、制御システムは、本開示を具現化する１または複数のプログラムのバックエンドとして機能し、モバイルデバイスコンピュータは、その１または複数のプログラムのフロントエンドとして機能する。

コンピュータは、モバイルデバイス、またはモバイルデバイスと通信するリモートコンピュータの一部であり得る。別の例では、モバイルデバイスとリモートコンピュータとが、協働して機能することにより、本明細書に記載された方法の特徴を実行するための記憶されたプログラムコードまたは命令を用いて、本開示の方法を実装することができる。一例において、モバイルデバイス２０は、プロセッサ１５、および、アプリケーション４０を記憶する記憶媒体３４を有するコンピュータ２２を備え得る。アプリケーションは、プロセッサ１５を用いて本開示の特徴を実行するためのプログラム命令を組み入れることができる。別の例では、モバイルデバイス２０アプリケーション４０は、本開示の方法の特徴をプログラム命令に組み入れるソフトウェアアプリケーションのフロントエンドのために実行可能なプログラム命令を有することがあり、他方で、制御システム７０のコンピュータ７２上に記憶されたソフトウェアアプリケーションの１または複数のバックエンドプログラム７４は、モバイルデバイスコンピュータと通信して、方法の他の特徴を実行する。制御システム７０とモバイルデバイス２０とは、通信ネットワーク４５、例えばインターネットを用いて通信できる。

それにより、本開示の一実施形態による方法１００は、電子記憶媒体３４上に記憶されており、モバイルデバイス２０上のコンピュータの一部としてプロセッサ１５によって実行可能な１または複数のコンピュータプログラムまたはアプリケーション４０に組み入れられることがあり得る。例えば、人間の話者またはユーザ１４はデバイス２０を有し、デバイスは制御システム７０と通信し得る。他のユーザ（図示せず）は、同様のデバイスを有し、制御システムと同様に通信し得る。アプリケーションは、全体または一部が、コンピュータまたはモバイルデバイスにおけるコンピュータ上に、そして、例えばインターネットなどの通信ネットワーク４５を用いてデバイスと通信する制御システムにおいて、記憶され得る。本開示の方法を実装するために、アプリケーションがプログラム命令の全部または一部にアクセスできるということが想定されている。プログラムまたはアプリケーションは、通信ネットワーク４５（例えば、インターネット）を介してリモートコンピュータシステムと通信し、データにアクセスして、そのリモートコンピュータシステム上に記憶されているプログラムと協働することができる。そのような相互作用および機構は、本明細書においてさらに詳細に説明されており、コンピュータ可読記憶媒体などのコンピュータシステムのコンポーネントに関して参照され、これらは、図８における一実施形態に示されており、これに関しては、１または複数のコンピュータシステム１０１０を参照してより詳細に説明される。

したがって、一例において、制御システム７０は、デバイス２０と通信し、デバイス２０はアプリケーション４０を含み得る。デバイス２０は通信ネットワーク４５を使用して制御システム７０と通信する。

別の例では、制御システム７０は、デバイス２０など、１または複数のユーザに属するフロントエンドコンピュータと、制御システムとして具現化されたバックエンドコンピュータとを有し得る。

また、図１を参照すると、デバイス２０は、コンピュータ２２、コンピュータ可読記憶媒体３４、オペレーティングシステム、もしくはプログラム、またはその組み合わせ、もしくはソフトウェアアプリケーション４０またはその組み合わせを含み得、ソフトウェアアプリケーション４０は、プロセッサ１５を用いて実行可能なプログラム命令を含み得る。これらの特徴は、本明細書の図１において示されており、１または複数の一般的なコンピュータコンポーネントを含み得る１または複数のコンピュータシステム１０１０を参照して、図８に示されたコンピュータシステムの一実施形態にも示されている。

本開示による方法は、制御システムの一部として本開示による方法の特徴を実装するためのコンピュータを含み得る。別の例では、制御システムの一部としてのコンピュータが、本開示による方法の特徴を実装するためにモバイルデバイスコンピュータと共に機能することができる。別の例では、この方法の特徴を実装するためのコンピュータは、モバイルデバイスの一部であり得ることにより、この方法をローカルに実装することができる。

図６および図７に示される特徴は、本開示の特徴の機能表現であると理解されたい。それらの特徴は、本開示の特徴の機能性を明確にするために、例示的な目的で、本開示のシステムおよび方法の実施形態において示されている。

具体的には、制御システム７０に関して、１または複数のユーザ１４のデバイス２０は、通信ネットワーク５０を介して制御システム７０と通信し得る。図１に示された制御システムの実施形態では、制御システム７０は、データベース７６とコンピュータ可読記憶媒体７３に記憶された１または複数のプログラム７４とを有するコンピュータ７２を含む。図１に示された本開示の実施形態では、デバイス２０は、制御システム７０、およびコンピュータ可読記憶媒体７３上に記憶された１または複数のプログラム７４と通信する。制御システムは、プロセッサ７５を有するコンピュータ７２を含んでおり、プロセッサ７５は、またデータベース７６へのアクセスも有する。

制御システム７０は、オーディオ入力の解析のために、ユーザの登録８２と、ユーザのデバイスとを維持するための記憶媒体８０を含み得る。そのような登録は、ユーザプロファイル８３を含み得、このユーザプロファイル８３は、アカウントの登録および設定に関してユーザによって供給されたユーザデータを含み得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション４０であり得る方法およびシステムのフロントエンドとの組合せおよび協働での制御システム（一般的に、バックエンドと称される）を含む。一例では、アプリケーション４０は、デバイス、例えばデバイス２０上に記憶されており、アプリケーションのバックエンド、例えば制御システム７０にあるデータおよび追加的プログラムにアクセスすることができる。

制御システムは、また、ソフトウェアアプリケーションの実装の一部であり得るか、もしくは機能を提供するフロントエンドユーザ部分およびバックエンド部分を有するソフトウェアアプリケーションを表し得るか、またはその両方であり得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション４０を有するデバイス２０の図１に示されている例におけるように、デバイスにおいて本願の方法およびシステムの別の一部を組み入れたソフトウェアアプリケーションのフロントエンドとの組合せおよび協働で、（本願の一実施形態の方法およびシステムの一部を組み入れたソフトウェアアプリケーションのバックエンドとして一般的に称され得る）制御システムを含む。アプリケーション４０は、デバイス２０上に記憶されており、このアプリケーションのバックエンドにある、例えば制御システム７０に記憶されているプログラム７４におけるデータおよび追加的プログラムにアクセスすることができる。

プログラム７４は、全部または一部が、本開示の方法を実装するための一連の実行可能なステップを含み得る。本開示による方法を組み入れたプログラムは、全部もしくは一部が、制御システム上のコンピュータ可読記憶媒体に、または、全部もしくは一部が、デバイス２０上に記憶され得る。制御システム７０は、ユーザのプロファイルを記憶できるだけでなく、一実施形態では、デバイスのディスプレイ上で見るためのウェブサイト、または別の例ではインターネットとインタラクトし、本開示の方法およびシステムに関係するユーザ入力を受け取ることができることが想定されている。図１は１または複数のプロファイル８３を示しているが、この方法は複数のプロファイル、ユーザ、登録などを含み得ることが理解される。複数のユーザまたはユーザのグループが、本開示の方法およびシステムによる使用のために、制御システムを用いて、プロファイルを登録し提供できることが想定されている。

本開示に関するデータの収集については、プロファイルのそのようなアップロードまたは生成は、１または複数のユーザによる自発的なものであり、したがって、ユーザの承認によっておよびユーザの承認を伴って開始される。それにより、ユーザは、本開示に従って、プロファイルを有するアカウントを確立することに同意することができる。同様に、システムによって受け取られた、または入力されたもしくは入力として受け取られたデータは、１または複数のユーザによる自発的なものであり、したがって、ユーザの承認によりおよびユーザの承認を伴って開始される。それにより、ユーザは、本開示に従い、データを入力することにオプトインすることができる。そのようなユーザの承認は、また、そのようなプロファイルもしくはアカウント、またはデータの入力、あるいはその両方をキャンセルする、よって、ユーザの裁量で通信およびデータの捕捉をオプトアウトするユーザのオプションを含む。さらに、記憶されているまたは収集されたどのデータも、安全に記憶され、ユーザによる承認がなければ利用不可能であって、公衆もしくは承認されていないユーザまたはその両方に対して利用可能ではないことが意図されていると理解される。そのような記憶されているデータは、ユーザのリクエストに応じて削除される、かつ安全な態様で削除されるものと理解される。また、そのような記憶されているデータのいかなる利用も、本開示によると、ユーザの承認および同意を伴う場合のみであると理解される。

本発明の１または複数の実施形態では、ユーザは、制御システムを用いてオプトインまたは登録することができ、プロセスにおいてデータもしくは情報またはその両方を、ユーザの同意および承認を伴って自発的に提供するのであり、データは、本開示の１または複数の方法で、記憶され用いられる。また、ユーザは、本開示による１または複数の方法およびシステムと共に用いるために、１または複数のユーザ電子デバイスを登録することができる。登録の一部として、ユーザは、１もしくは複数の活動または他のシステム（例えば、オーディオもしくはビデオまたはその両方のシステム）へのアクセスを識別して承認することもできる。登録のそのようなオプトインと、データの収集もしくは記憶またはその両方の承認とは、自発的であり、ユーザは、（プロファイルもしくはプロファイルデータまたはその両方を含む）データの削除、登録解除、もしくは任意の登録のオプトアウト、またはそれらの組合せを、リクエストすることができる。そのようなオプトアウトは、安全な態様でのすべてのデータの廃棄を含むものと理解される。

一例では、ダイレーションパラメータを決定するための学習モデルのために、全部または部分的に、人工知能（ＡＩ）が使用され得る。

別の例では、制御システム７０が、全部または一部において、人工知能（ＡＩ）システムであり得る。例えば、制御システムは、ＡＩシステムの１または複数のコンポーネントであり得る。

また、本開示の一実施形態による方法１００を、それぞれのＡＩシステムおよびそれぞれのＡＩシステムプラットフォームと通信することができるＡＩ（人工知能）デバイスの中に組み入れることが可能である、ということも理解される。これにより、本開示の方法を組み入れたそのようなプログラムまたはアプリケーションは、既に論じられたように、ＡＩシステムの一部であり得る。本発明による一実施形態では、制御システムがＡＩシステムと通信できること、または別の例では、ＡＩシステムの一部であり得ることが想定されている。制御システムは、また、機能を提供するフロントエンドユーザ部分とバックエンド部分とを有するソフトウェアアプリケーションを表すことも可能であり、これが、１または複数の例では、ＡＩシステムなどのより大きなシステムとインタラクトし、それを包含し、またはその一部であることが可能である。一例では、ＡＩデバイスが、全部または一部が制御システムもしくはコンテンツデリバリシステムまたはその両方であり、ＡＩデバイスとはリモートの関係であり得るＡＩシステムと関連し得る。そのようなＡＩシステムは、１または複数のＡＩデバイスと通信できるコンピュータ可読媒体上にプログラムを記憶している１または複数のサーバによって表されることが可能である。ＡＩシステムは、制御システムと通信することができ、１または複数の実施形態では、制御システムは、ＡＩシステムの全部もしくは一部であるか、またはその逆であり得る。

本明細書で論じられているように、ダウンロードまたはダウンロード可能なデータは、音声コマンドを用いて、またはマウスやタッチスクリーンなどを用いて開始され得ると理解される。そのような例では、モバイルデバイスはユーザによる開始が可能であり、または、ＡＩデバイスはユーザの同意および許可と共に使用が可能になる。ＡＩデバイスの他の例は、マイクロフォン、スピーカを含むデバイスを含み、セルラネットワークもしくはモバイルネットワーク、通信ネットワーク、またはインターネットへのアクセスが可能であり、例えば、コンピュータを有しセルラもしくは衛星通信を有する車両であり、または別の例では、セルラネットワークもしくはインターネットアクセスを有する家電製品などのＩｏＴ（モノのインターネット）デバイスである。

図１および図８を参照すると、本開示の実施形態によるシステム１０（図１）に関する方法５００（図８）が、分離されたオーディオ出力（またはシンギュラーとも称される）からの音声内容のダイレーションを使用する音声認識のために提供される。図８を参照すると、方法は、本開示による一実施形態を実装するための一連の動作ブロックを含む。図８を参照すると、方法１００は、ブロック５０４のように、ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力を受信して、オーディオ入力についての予測される変更を受信する段階であって、オーディオ入力は、人物、すなわち、人間の話者からの音声内容を有する、段階を備える。

一例において、オーディオ入力は、人間の話者から音声内容、例えば、デバイスのマイクロフォンまたはデバイスもしくはコンピュータと通信するマイクロフォンを使用して、例えば、コンピュータまたはデバイスを使用するオーディオ入力を含み得る。一例において、話者オーディオ入力は、図１２に示されるシステム８００におけるブロック８０２として表され得る。別の例において、話者オーディオ入力は、図１および図１１に示されるように、ブロック５２として表され得、少なくとも部分的にオーディオ入力７０４として使用され得る。

別の例において、オーディオ入力は、音声を認識するためのシステムまたは方法からの出力を含み得る。例えば、システムおよび方法は、図２に示される方法１００などの音声を認識するためにダイレーションおよびダイアライゼーションを使用し得る。追加的に、この例において、ブロック１２０における方法１００の出力は、方法５００において、話者についてのオーディオ入力として使用され得る。システムからのそのようなオーディオ出力はまた、図１２に示されるシステム８００におけるブロック４１６として表され得、少なくとも部分的に話者の信号８０４においてオーディオ入力として使用され得る。別の例において、ダイレーションを使用するシステムからの話者のオーディオ出力は、図１１に示されるシステム７００のブロック７０２によって表され、オーディオ入力７０４の少なくとも一部として使用され得る。

各場合において、オーディオ入力は、人間の話者からの音声内容を含み、音声内容７０８（図１１）は複数の可聴音７０６（図１１）を有する。

図８および１１を参照すると、一例において、外部ノイズ７１４に基づくオーディオ入力についての受信された予測される変更７１２は、例えば学習モデルから導出される予測される変更のセットを含み得る。学習モデルは例えば、外部ノイズに基づいて、オーディオ入力における１または複数の外部ノイズおよびモデル変更を使用し得る。外部ノイズは、例えば、環境音、追加の話のノイズを含む、バックグラウンドノイズを含み得るが、これに限定されない。

ＣＮＮ（畳み込みニューラルネットワーク）７１８は、深層学習の少なくとも一部であり得、ＣＮＮはディープニューラルネットワークのクラスである。ＣＮＮは、第３関数を生成し、畳み込みと呼ばれる２つの機能として一般的に定義される数学的演算を含む。畳み込みは、特殊化した種類の線型操作である。したがって、畳み込みネットワークは、複数の層の少なくとも１つにおける汎用行列乗算の代わりに畳み込みを使用するニューラルネットワークである。

図８を参照すると、方法５００は、ブロック５０８のように、ＣＮＮにおいて、ダイアライゼーション７２０をオーディオ入力に適用して、話者からの音声内容のダイレーションがどのようにオーディオ入力を変更してＣＮＮ出力７２４を生成するかを予測する段階を備える。例えば、学習モデルは、音声内容のダイレーション、および、ダイレーションがどのように音声内容を変更するかを予測するための解析を含み得る。

方法５００は、ブロック５１２のように、ＣＮＮ出力から結果のダイレーション７２６を決定する段階であって、ＣＮＮ出力の結果のダイレーションは、オーディオ入力の音７３２を分離することを含む、段階を備える。例えば、学習モデル７３０は、ダイレーション７３４、および、ダイレーションが音声内容をどのように変更するかの予測を決定し得る。

方法５００は、ブロック５１６のように、ダイレーションされたＣＮＮ出力についての単語誤り率７３６を決定して、音声－テキスト出力の精度を決定する段階を備える。例えば、方法は、音声－テキストの変換のための精度７４０パーセンテージを決定し得る。別の例において、方法は、音声－テキストの変換についての精度数、例えば、異なるダイレーションおよび予測モデルについての精度の異なるパーセンテージを決定し得る。

方法５００は、ブロック５２０のように、単語誤り率７３６に基づいて、ダイレーションの範囲を変更するための調整パラメータを設定する段階を備える。例えば、１または複数の調整パラメータが、音声内容についてのダイレーションまたはダイレーションの範囲を設定するために使用され得る。調整パラメータ７４２は、単語誤り率７３６に基づき得、例えば、単語誤り率と協働してダイレーション７４４を調整する。

方法５００は、ブロック５２４のように、調整パラメータに基づいてＣＮＮ出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。一例において、単語誤り率がより高いとき、ダイレーションは増加され得る。別の例において、単語誤り率閾値は、単語誤り率閾値が満たされるとき（例えば、不満足に高い単語誤り率）、ダイレーションを変更、例えば増加させることをトリガするために使用され得る。別の例において、単語誤り率閾値が満たされないことがあり得、単語誤り率が許容可能であることを示す。

図８を参照すると、方法５００は、ブロック５２６において許容可能な単語誤り率を有し得、方法が終了する。方法が許容可能な単語誤り率を有しないとき、方法はブロック５２４に戻り、ＣＮＮのダイレーションを調整し得る。

一実施形態において、図１１のブロック７４６、および、図１２のブロック８２４を参照すると、調整された結果のダイレーション５２４は、音声認識のためにダイレーションを使用するシステムによる使用のための出力であり得る。出力は、図１１のブロック７４８、および、図１２のブロック８２８のように、音声認識のためにダイレーションを使用するシステムについての入力として使用され得る。別の例において、ブロック５２４における方法５００およびブロック６４８における方法６００においても参照される、ブロック７４６および８２４における出力は、少なくとも部分的に、以前に説明された実施形態において入力として、例えば、図２におけるブロック１０４、図４におけるブロック２０４、図６におけるブロック６０、および図７におけるブロック４０４において使用され得る。

方法はさらに、話者のために調整された結果のダイレーションを適用する学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階を備え得る。

別の例において、方法は、識別された音声内容からテキストを生成する段階を備え得る。

別の例において、方法におけるオーディオ入力および予測される変更は、音声内容のダイレーションなしで受信される。

別の例において、方法はさらに、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して、単語誤り率を低減する段階を備える。例えば、グリッド検索は、例えば、学習アルゴリズムまたはコンピュータ学習モデルなど、モデルの最適なハイパーパラメータを発見するために使用され得、これにより、より正確な予測がもたらされ得る。

方法はさらに、話者についての予想オーディオ入力をコンピュータにおいて受信する段階であって、予想オーディオ入力は、話者についての音声内容を含み得る、段階を備え得る。環境刺激オーディオ入力が予想オーディオ入力について生成される。そして、方法は、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階を備える。

一例において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備え得る。学習修正は、予想オーディオ入力の調整された結果のダイレーションの共有から生成され得る。学習修正は、話者についての調整された結果のダイレーションに適用され得る。方法は、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。そして、方法は、識別された音声内容からテキストを生成する段階を備える。

方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備え得る。方法は、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成し、話者についての調整された結果のダイレーションに学習修正を適用する段階を備え得る。

加えて、方法は、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備え得る。

方法は、識別された音声内容からテキストを生成する段階を備え得る。

方法は、複数の話者の１人の音声内容についてのダイレーションパラメータをＣＮＮにおいて受信する段階であって、ダイレーションパラメータは、複数の話者からのオーディオ入力から導出される、段階を備え得る。

一例において、方法における複数の話者からのオーディオ入力はインターレースされたオーディオ入力である。

図１１を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートする機能システム７００は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。例えば、システム７００は、本開示の実施形態に含まれる機能の代表であり、そこで使用される動作を含む。

図１２を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートするシステム８００は、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。システム８００は、オーディオ出力を出力する人間の話者８０２のグループを含む。オーディオ出力は、ブロック８０４のように、話者の信号を予想するために受信される。代替的に、システム８００は、技法を使用して、予想話者信号を提供するためにオーディオ出力、例えば、図７に示されるシステム４００のオーディオ出力４１６を受信し得る。システム８００は、ブロック８０４のように、話者の信号を予想するためのオーディオ入力を受信する。

一例において、オーディオ入力が話者から受信される。別の例において、オーディオ入力は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識システムの出力、例えば、図６のブロック３３２におけるダイレーションされた音声内容、または、別の例において、図７に示されるオーディオ出力４１６であり得る。別の例において、ダイレーションされたオーディオ入力は、図２のブロック１２０におけるダイレーションされた音声内容、または、別の例において、図４のブロック２３６における帰属させられた音声内容、または、図７に示されるオーディオ出力４１６であり得る。

システム８００は、ブロック８０６のように、環境ノイズから学習すること、および、ブロック８０８のように、環境刺激を用いて話者の信号を予想することを含む。

ブロック８１０のように、ＣＮＮを用いてダイアライゼーションに適用するために、環境刺激８０８を有する予想話者信号および予想話者信号８０４の両方が受信される。

ブロック８１４のように、単語誤り率８１２が決定され、ダイアライゼーションは、グリッド検索を用いて調整され得る。ブロック８１６のように、環境ノイズを有するダイアライゼーションは、ソーシャルネットワークと共有される。ブロック８１８のように、能動的な学習調整がソーシャルネットワークにプッシュされる。ブロック８２０のように、ダイアライゼーションの知識は、話者に転送される。

例において、図１２を参照すると、音声内容のより良いダイアライゼーションのための出力８２４が、インターレースされたオーディオ入力のダイレーションを使用する音声認識のためのシステムに対する入力８２８として使用され得る。例えば、出力は、システム４００について、ブロック４１４における入力として図７のブロック４１４で受信され、より良くダイレーションを設定する。

別の例において、出力８２４は、ＣＮＮによる使用のためにブロック３２６においてシステム３００についての入力として図６のブロック３２０において受信され得、より良い結果の声紋をもたらすためにダイレーションと共に使用される。

図９および図１０を参照すると、分離された（またはシンギュラー）オーディオ入力からの音声内容のダイレーションを使用する音声認識のための、本開示の別の実施形態による方法６００は、ブロック６０４において、話者についての予想オーディオ入力をコンピュータで受信する段階であって、予想オーディオ入力は話者についての音声内容を含む、段階を備える。

方法は、ブロック６０８のように、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階を備える。

方法は、ブロック６１２のように、環境刺激オーディオ入力に基づいて、話者についてのオーディオ入力の変更を予測する段階を備える。

方法は、ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力、および、オーディオ入力についての予測される変更を受信する段階であって、オーディオ入力は話者からの音声内容を有する、段階を備える。

方法は、ブロック６２０のように、ＣＮＮにおいて、ダイアライゼーションをオーディオ入力に適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、ＣＮＮ出力を生成する段階を備える。

方法は、ブロック６２２のように、ＣＮＮ出力から結果のダイレーションを決定する段階であって、ＣＮＮ出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、段階を備える。

方法は、ブロック６２４のように、ダイレーションされたＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力についての精度数を決定する段階を備える。

方法は、ブロック６２８のように、単語誤り率に基づいて、ダイレーションの潜在的な範囲を変更するために調整パラメータを設定する段階を備える。

方法は、ブロック６３２のように、調整パラメータに基づいてＣＮＮ出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。

方法は、ブロック６３６のように、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備える。

方法は、ブロック６４０のように、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階を備える。

方法は、ブロック６４４のように、話者についての調整された結果のダイレーションに学習修正を適用する段階を備える。

方法は、ブロック６４８のように、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。

方法は、ブロック６５２のように、識別された音声内容からテキストを生成する段階を備える。

コンピュータは、モバイルデバイス、またはモバイルデバイスと通信するリモートコンピュータの一部であり得る。別の例では、モバイルデバイスとリモートコンピュータとが、協働して機能することにより、本明細書に記載された方法の特徴を実行するための記憶されたプログラムコードまたは命令を用いて、本開示の方法を実装することができる。一例では、モバイルデバイス２０は、プロセッサ１５と、アプリケーション４０を記憶する記憶媒体３４とを有するコンピュータ２２を備え得る。アプリケーションは、プロセッサ１５を用いて本開示の特徴を実行するためのプログラム命令を組み入れることができる。別の例では、モバイルデバイス２０アプリケーション４０は、本開示の方法の特徴をプログラム命令に組み入れるソフトウェアアプリケーションのフロントエンドのために実行可能なプログラム命令を有することがあり、他方で、制御システム７０のコンピュータ７２上に記憶されたソフトウェアアプリケーションの１または複数のバックエンドプログラム７４は、モバイルデバイスコンピュータと通信して、方法の他の特徴を実行する。制御システム７０およびモバイルデバイス２０は、通信ネットワーク４５、例えばインターネットを使用して通信し得る。

それにより、本開示の一実施形態による方法１００は、電子記憶媒体３４上に記憶されており、モバイルデバイス２０上のコンピュータの一部としてプロセッサ１５によって実行可能な１または複数のコンピュータプログラムまたはアプリケーション４０に組み入れられることがあり得る。例えば、人間の話者またはユーザ１４はデバイス２０を有し、デバイスは制御システム７０と通信し得る。他のユーザ（図示せず）が同様のデバイスを有し、同様に制御システムと通信し得る。アプリケーションは、全体または一部が、コンピュータまたはモバイルデバイスにおけるコンピュータ上に、そして、例えばインターネットなどの通信ネットワーク４５を用いてデバイスと通信する制御システムにおいて、記憶され得る。本開示の方法を実装するために、アプリケーションがプログラム命令の全部または一部にアクセスできるということが想定されている。プログラムまたはアプリケーションは、通信ネットワーク４５（例えば、インターネット）を介してリモートコンピュータシステムと通信し、データにアクセスして、そのリモートコンピュータシステム上に記憶されているプログラムと協働することができる。そのような相互作用および機構は、本明細書においてさらに詳細に説明されており、コンピュータ可読記憶媒体などのコンピュータシステムのコンポーネントに関して参照され、これらは、図１３における一実施形態に示されており、これに関しては、１または複数のコンピュータシステム１０１０を参照してより詳細に説明される。

一例において、制御システム７０はデバイス２０と通信し、デバイス２０はアプリケーション４０を含み得る。デバイス２０は通信ネットワーク４５を使用して制御システム７０と通信する。

また、図１を参照すると、デバイス２０は、コンピュータ２２、コンピュータ可読記憶媒体３４、オペレーティングシステム、もしくはプログラムまたはその組み合わせ、もしくはソフトウェアアプリケーション４０またはその組み合わせを含み得、ソフトウェアアプリケーション４０は、プロセッサ１５を用いて実行可能なプログラム命令を含み得る。これらの特徴は、本明細書の図１において示されており、１または複数の一般的なコンピュータコンポーネントを含み得る１または複数のコンピュータシステム１０１０を参照して、図１３に示されたコンピュータシステムの一実施形態にも示されている。

図１１および図１２に示される特徴は、本開示の特徴の機能表現であることを理解されたい。それらの特徴は、本開示の特徴の機能性を明確にするために、例示的な目的で、本開示のシステムおよび方法の実施形態において示されている。

制御システムは、また、ソフトウェアアプリケーションの実装の一部であり得るか、もしくは機能を提供するフロントエンドユーザ部分とバックエンド部分とを有するソフトウェアアプリケーションを表し得るか、またはその両方であり得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション４０を有するデバイス２０の図１に示されている例におけるように、デバイスにおいて本願の方法およびシステムの別の一部を組み入れたソフトウェアアプリケーションのフロントエンドとの組合せおよび協働で、（本願の一実施形態の方法およびシステムの一部を組み入れたソフトウェアアプリケーションのバックエンドとして一般的に称され得る）制御システムを含む。アプリケーション４０は、デバイス２０上に記憶されており、このアプリケーションのバックエンドにある、例えば制御システム７０に記憶されているプログラム７４におけるデータおよび追加的プログラムにアクセスすることができる。

プログラム７４は、全部または一部が、本開示の方法を実装するための一連の実行可能なステップを含み得る。本開示による方法を組み入れたプログラムは、全部もしくは一部が、制御システム上のコンピュータ可読記憶媒体に、または、全部もしくは一部が、デバイス２０上に記憶され得る。制御システム７０は、ユーザのプロファイルを記憶できるだけでなく、一実施形態では、デバイスのディスプレイ上で見るためのウェブサイト、または別の例ではインターネットとインタラクトし、本開示の方法およびシステムに関係するユーザ入力を受け取ることができることが想定されている。図１は１または複数のプロファイル８３を示しているが、この方法は複数のプロファイル、ユーザ、登録などを含み得ることが理解される。複数のユーザまたはユーザのグループが、本開示の方法およびシステムに従った使用のために、制御システムを用いて、プロファイルを登録し提供できることが想定されている。

組とは別個の対象物または要素の集まりであると理解される。組を構成する対象物または要素は、何であってもよく、例えば、数、アルファベットの文字、他の組などである。組は、１つの要素、例えば１つのものまたは数、換言すれば、１つの要素の組であり得ることがさらに理解される。

図１３を参照すると、本開示によるシステムまたはコンピュータ環境１０００の一実施形態は、一般的なコンピューティングデバイスという形態で示されたコンピュータシステム１０１０を含む。方法１００は、例えば、コンピュータ可読ストレージデバイスまたはコンピュータ可読記憶媒体上に具現化されたプログラム命令を含むプログラム１０６０において具現化され得、このコンピュータ可読記憶媒体は、例えば、一般的にコンピュータメモリ１０３０と称され、より具体的にはコンピュータ可読記憶媒体１０５０と称される。そのようなメモリもしくはコンピュータ可読記憶媒体またはその両方は、非一時的なコンピュータ可読記憶媒体または非一過性のコンピュータ可読記憶媒体とも知られ、称される、不揮発性メモリまたは不揮発性ストレージを含む。例えば、そのような不揮発性メモリは、また、１または複数のハードドライブを含むディスクストレージデバイスでもあり得る。例えば、メモリ１０３０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）またはＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶媒体１０３４と、キャッシュメモリ１０３８とを含むことができる。プログラム１０６０は、（プログラムステップ、コード、またはプログラムコードを実行するために）コンピュータシステム１０１０のプロセッサ１０２０で実行可能である。追加的なデータストレージは、データ１１１４を含むデータベース１１１０としても具現化され得る。コンピュータシステム１０１０およびプログラム１０６０は、ユーザにとってローカルであっても、リモートサービスとして（例えば、クラウドベースのサービスとして）提供されてもよい、コンピュータおよびプログラムの一般的な表現であり、通信ネットワーク１２００を使用して（例えば、ネットワーク、インターネット、またはクラウドサービスと相互作用して）アクセス可能なウェブサイトを使用して、更なる例で提供されてよい。本明細書において、コンピュータシステム１０１０はまた、ラップトップコンピュータまたはデスクトップコンピュータなどといった、コンピュータデバイスもしくはデバイスに含まれるコンピュータ、または、１または複数のサーバを、単独でまたはデータセンタの一部として一般的に表すことが解る。コンピュータシステムは、ネットワークアダプタ／インタフェース１０２６および入出力（Ｉ／Ｏ）インタフェース１０２２を含むことができる。Ｉ／Ｏインタフェース１０２２は、コンピュータシステムに接続され得る外部デバイス１０７４とのデータの入出力を可能にする。ネットワークアダプタ／インタフェース１０２６は、コンピュータシステムと通信ネットワーク１２００として一般的に示されているネットワークとの間での通信を提供することができる。

コンピュータ１０１０は、コンピュータシステムにより実行されている、プログラムモジュールなどのコンピュータシステム実行可能命令の一般的なコンテキストで説明されてよい。一般には、プログラムモジュールは、特定のタスクを実行する、または、特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、および、データ構造などを含み得る。方法のステップと、システムコンポーネントおよび技法とは、方法のステップおよびシステムの各々のタスクを実行するためのプログラム１０６０のモジュールに具現化されてよい。モジュールは一般的に、プログラムモジュール１０６４として図に表される。プログラム１０６０およびプログラムモジュール１０６４は、プログラムの特定のステップ、ルーチン、サブルーチン、命令、またはコードを実行することができる。

本開示の方法は、モバイルデバイスなどのデバイス上でローカルに実行されることができるか、または、例えばリモートにあり得、通信ネットワーク１２００を用いてアクセスされることが可能なサーバ１１００上でのサービスとして実行されることができる。プログラムまたは実行可能命令は、プロバイダによりサービスとして提供されてもよい。コンピュータ１０１０は、通信ネットワーク１２００を介してリンクされるリモート処理デバイスによりタスクが実行される分散クラウドコンピューティング環境で実施されてよい。分散クラウドコンピューティング環境では、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体およびリモートコンピュータシステム記憶媒体の両方にプログラムモジュールが配置されてよい。

より具体的には、システムまたはコンピュータ環境１０００は、例示的な周辺デバイスを伴う汎用コンピューティングデバイスの形態で示されたコンピュータシステム１０１０を含む。コンピュータシステム１０１０のコンポーネントは、１もしくは複数のプロセッサまたは処理ユニット１０２０と、システムメモリ１０３０と、システムメモリ１０３０を含む様々なシステムコンポーネントをプロセッサ１０２０に結合するバス１０１４とを含み得るが、これらに限定されない。

バス１０１４は、メモリバスまたはメモリコントローラと、ペリフェラルバスと、アクセラレーテッドグラフィックスポートと、様々なバスアーキテクチャのいずれかを用いるプロセッサまたはローカルバスとを含む、複数のタイプのバス構造のいずれかのうちの１または複数を表す。例として、そのようなアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バスと、マイクロチャネルアーキテクチャ（ＭＣＡ）バスと、エンハンスドＩＳＡ（ＥＩＳＡ）バスと、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバスと、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスとを含むが、これらに限定されない。

コンピュータ１０１０は、様々なコンピュータ可読媒体を含むことができる。そのような媒体は、コンピュータ１０１０（例えば、コンピュータシステムまたはサーバ）によりアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体および不揮発性媒体の両方、並びに、取り外し可能な媒体および取り外し不可能な媒体を含むことができる。コンピュータメモリ１０３０は、ランダムアクセスメモリ（ＲＡＭ）１０３４もしくはキャッシュメモリ１０３８またはその両方などの、揮発性メモリの形の更なるコンピュータ可読媒体を含むことができる。コンピュータ１０１０は、他の取り外し可能／取り外し不可能な揮発性／不揮発性のコンピュータ記憶媒体、一例では、ポータブルコンピュータ可読記憶媒体１０７２をさらに含んでよい。一実施形態では、コンピュータ可読記憶媒体１０５０は、取り外し不可能な不揮発性の磁気媒体に対する読み取りおよび書き込みを行うために提供され得る。コンピュータ可読記憶媒体１０５０は、例えば、ハードドライブとして具現化され得る。例えば、データ１１１４を記憶し、かつ、処理ユニット１０２０と通信するための、記憶システム１１１０（例えば、データベース）として、更なるメモリおよびデータ記憶装置が提供され得る。データベースは、サーバ１１００上に記憶されてもよいし、サーバ１１００の一部であってもよい。図示されていないが、取り外し可能不揮発性磁気ディスク（例えば、「フロッピディスク」）からの読み出し、及びこれへの書き込みを行うための磁気ディスクドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光媒体等の取り外し可能不揮発性光ディスクからの読み出し、及びこれへの書き込みを行うための光ディスクドライブとを提供することができる。そのような場合は、各々が１または複数のデータ媒体インタフェースによりバス１０１４へ接続され得る。以下でさらに描写および説明するように、メモリ１０３０は、本発明の実施形態の機能を実行するように構成される１または複数のプログラムモジュールを含み得る少なくとも１つのプログラム製品を含んでよい。

本開示で説明する方法は、例えば、プログラム１０６０と一般的に呼ばれる１または複数のコンピュータプログラムに具現化されてよく、コンピュータ可読記憶媒体１０５０内のメモリ１０３０に記憶され得る。プログラム１０６０は、プログラムモジュール１０６４を含むことができる。プログラムモジュール１０６４は概して、本明細書で説明するような本発明の実施形態の機能もしくは方法論またはその両方を実行することができる。１または複数のプログラム１０６０は、メモリ１０３０に記憶され、処理ユニット１０２０で実行可能である。例として、メモリ１０３０は、コンピュータ可読記憶媒体１０５０上にオペレーティングシステム１０５２、１または複数のアプリケーションプログラム１０５４、他のプログラムモジュール、およびプログラムデータを記憶してよい。プログラム１０６０と、コンピュータ可読記憶媒体１０５０上に記憶されるオペレーティングシステム１０５２およびアプリケーションプログラム１０５４とは、処理ユニット１０２０で同様に実行可能であることが解る。また、アプリケーション１０５４およびプログラム１０６０が、一般的に示されるものであり、本開示で説明する１または複数のアプリケーションおよびプログラムの全てを含んでもよいし、その一部であってもよいこと、または、その逆であってもよいこと、すなわち、アプリケーション１０５４およびプログラム１０６０が、本開示で説明する１または複数のアプリケーションまたはプログラムの全てであってもよいし、その一部であってもよいことが解る。本開示に説明された制御システムの機能を達成するために、コンピュータシステムと通信する制御システム７０は、コンピュータシステム１０１０およびそのコンポーネントの全部もしくは一部を含み得るか、または制御システムは、リモートコンピュータシステムとしてのコンピュータシステム１０１０およびそのコンポーネントの全部もしくは一部と通信することができるか、あるいはその両方であるということも理解される。制御システムの機能は、例えば、本開示の機能を実行するために、ソフトウェア命令を記憶し、処理し、実行することを含み得る。本開示で説明されているコンピュータ機能を達成するために、図１に示されている１もしくは複数のコンピュータまたはコンピュータシステムが同様にコンピュータシステム１０１０およびそのコンポーネントの全部または一部を含み得るか、または１もしくは複数のコンピュータがリモートコンピュータシステムとしてのコンピュータシステム１０１０およびそのコンポーネントの全部もしくは一部と通信することができるか、あるいはその両方であるということも理解される。

本開示による一実施形態では、１または複数のプログラムが、コンピュータ可読記憶媒体においてプログラムが具現化もしくはエンコードまたはその両方がなされるように、１または複数のコンピュータ可読記憶媒体に記憶され得る。一例では、記憶されているプログラムは、方法を実行するように、またはコンピュータシステムに１もしくは複数の機能を実行させるように、プロセッサ、またはプロセッサを有するコンピュータシステムによって実行されるためのプログラム命令を含み得る。例えば、本開示による一実施形態では、方法を具現化するプログラムが、コンピュータ可読記憶媒体において具現化またはエンコードされているが、このコンピュータ可読記憶媒体は、非一時的または非一過性のコンピュータ可読記憶媒体を含み、非一時的または非一過性のコンピュータ可読記憶媒体として定義される。よって、コンピュータ可読記憶媒体の本開示による実施形態または例は、信号を含まず、実施形態は、１もしくは複数の非一時的または非一過性のコンピュータ可読記憶媒体を含み得る。それにより、一例では、プログラムは、コンピュータ可読記憶媒体上に記録されることが可能であり、媒体と構造的かつ機能的に相互関係している。

コンピュータ１０１０は、キーボード、ポインティングデバイス、ディスプレイ１０８０などといった１または複数の外部デバイス１０７４、ユーザがコンピュータ１０１０と相互作用することを可能にする１または複数のデバイス、もしくは、コンピュータ１０１０が１または複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）、またはその組み合わせと通信してもよい。そのような通信は、入出力（Ｉ／Ｏ）インタフェース１０２２を介して行われ得る。なおもさらに、コンピュータ１０１０は、ネットワークアダプタ／インタフェース１０２６を介して、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、もしくはパブリックネットワーク（例えば、インターネット）、またはその組み合わせなどの１または複数のネットワーク１２００と通信することができる。示されているように、ネットワークアダプタ１０２６は、バス１０１４を介してコンピュータ１０１０の他のコンポーネントと通信する。示されてはいないが、他のハードウェアもしくはソフトウェアコンポーネントまたはその両方がコンピュータ１０１０と併せて使用され得ることを理解されたい。例には、マイクロコード、デバイスドライバ１０２４、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、およびデータアーカイブ記憶システムなどが含まれるが、これらに限定されない。

コンピュータ、またはコンピュータ１０１０上で実行されているプログラムは、通信ネットワーク１２００として具現化される１または複数の通信ネットワークを介して、サーバ１１００として具現化されるサーバと通信してよいことが解る。通信ネットワーク１２００は、例えば、無線、有線、または光ファイバを含む、伝送媒体およびネットワークリンク、並びに、ルータ、ファイアウォール、スイッチ、およびゲートウェイコンピュータを含んでよい。通信ネットワークは、有線、無線通信リンク、または光ファイバケーブルなどの接続を含んでよい。通信ネットワークは、ライトウェイトディレクトリアクセスプロトコル（ＬＤＡＰ）、トランスポートコントロールプロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、ワイヤレスアプリケーションプロトコル（ＷＡＰ）などといった様々なプロトコルを使用して互いに通信する、インターネットなどのネットワークおよびゲートウェイの世界的な集合を表す場合がある。ネットワークは、例えば、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、またはワイドエリアネットワーク（ＷＡＮ）などのいくつかの異なるタイプのネットワークを含んでもよい。

一例では、コンピュータは、インターネットを使用してウェブ（ワールドワイドウェブ）上のウェブサイトにアクセスし得るネットワークを使用することができる。一実施形態では、モバイルデバイスを含むコンピュータ１０１０は、インターネットを含み得る通信システムもしくはネットワーク１２００、または、公衆交換電話網（ＰＳＴＮ）、例えば、セルラネットワークを使用することができる。ＰＳＴＮは、電話回線、光ファイバケーブル、マイクロ波伝送リンク、セルラネットワーク、および通信衛星を含み得る。インターネットは、例えば携帯電話またはラップトップコンピュータを使用して、テキストメッセージ（ＳＭＳ）、（ＳＭＳに関連する）マルチメディアメッセージングサービス（ＭＭＳ）、電子メール、またはウェブブラウザを介して検索エンジンにクエリを送信するなど、多数の検索技法およびテキスティング技法を容易にする場合がある。検索エンジンは、検索結果、すなわち、クエリに対応するウェブサイト、ドキュメント、または他のダウンロード可能なデータへのリンクを取得し、同様に、例えば、検索結果のウェブページとして、デバイスを介してユーザに検索結果を提供することができる。

図１４を参照すると、本開示の実施形態と共に用いるための例示的なシステム１５００が、図示されている。システム１５００は、システムバス１５０４（バスとも称される）を介して接続された複数のコンポーネントおよび要素を含む。少なくとも１つのプロセッサ（ＣＰＵ）１５１０が、システムバス１５０４を介して、他のコンポーネントに接続されている。キャッシュ１５７０、リードオンリメモリ（ＲＯＭ）１５１２、ランダムアクセスメモリ（ＲＡＭ）１５１４、入出力（Ｉ／Ｏ）アダプタ１５２０、音声アダプタ１５３０、ネットワークアダプタ１５４０、ユーザインタフェースアダプタ１５５２、ディスプレイアダプタ１５６０および表示デバイス１５６２が、また、システム１５００のシステムバス１５０４に動作的に結合されている。

１または複数のストレージデバイス１５２２が、Ｉ／Ｏアダプタ１５２０によって、システムバス１５０４に動作的に結合されている。ストレージデバイス１５２２は、例えば、ディスクストレージデバイス（例えば、磁気または光ディスクストレージデバイス）、ソリッドステート磁気デバイスなどのうちのいずれかであり得る。ストレージデバイス１５２２は、同じタイプのストレージデバイスまたは異なるタイプのストレージデバイスであり得る。ストレージデバイスは、例えば、ハードドライブまたはフラッシュメモリを含み得るが、これらに限定されず、１または複数のプログラム１５２４またはアプリケーション１５２６を記憶するのに用いられ得る。プログラムおよびアプリケーションは、一般的なコンポーネントとして示されており、プロセッサ１５１０を用いて実行可能である。プログラム１５２４もしくはアプリケーション１５２６またはその両方は、本開示で論じられるプログラムまたはアプリケーションの全部または一部を含み得るが、同様に、その逆の場合、すなわち、プログラム１５２４およびアプリケーション１５２６が、本開示で論じられる他のアプリケーションまたはプログラムの一部である場合もあり得る。ストレージデバイスは、本開示において説明される様々な機能を有する制御システム７０と通信することができる。

スピーカ１５３２は、音声アダプタ１５３０によって、システムバス１５０４に動作的に結合されている。トランシーバ１５４２は、ネットワークアダプタ１５４０によって、システムバス１５０４に動作的に結合されている。ディスプレイ１５６２は、ディスプレイアダプタ１５６０によって、システムバス１５０４に動作的に結合されている。

１または複数のユーザ入力デバイス１５５０は、ユーザインタフェースアダプタ１５５２によって、システムバス１５０４に動作的に結合されている。ユーザ入力デバイス１５５０は、例えば、キーボード、マウス、キーパッド、画像キャプチャデバイス、運動感知デバイス、マイクロフォン、前述のデバイスのうちの少なくとも２つの機能を組み入れているデバイスなどのうちのいずれかであり得る。本発明の趣旨を維持しながら、他のタイプの入力デバイスを用いることもできる。ユーザ入力デバイス１５５０は、同じタイプのユーザ入力デバイス、または異なるタイプのユーザ入力デバイスであり得る。ユーザ入力デバイス１５５０は、システム１５００との間で、情報を入力および出力するのに用いられる。

本発明は、任意の可能な技術詳細レベルで統合化されたシステム、方法、もしくはコンピュータプログラム製品、またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上述のものの任意の好適な組合せであり得るが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、以下、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、命令が記録されているパンチカードまたは溝の中の隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波路または他の伝送媒体を通って伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号等、それ自体が一時的な信号であると解釈されるべきではない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされてもよく、あるいは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくは無線ネットワーク、またはその組み合わせを介して、外部コンピュータまたは外部ストレージデバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、またはその組み合わせを備え得る。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データであってもよく、Ｓｍａｌｌｔａｌｋ（登録商標）またはＣ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語または同様のプログラミング言語のような手続き型プログラミング言語を含む１または複数のプログラミング言語の任意の組み合わせで記述したソースコードまたはオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で全体を実行すること、ユーザのコンピュータ上で一部分を実行することができ、ユーザのコンピュータ上で一部分を、リモートコンピュータ上で一部分を実行すること、または、リモートコンピュータもしくはサーバ上で全体を実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）もしくはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはその接続は、外部コンピュータに対して（例えば、インターネットサービスプロバイダを使用してインターネットを介して）行われてもよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、説明されている。フローチャート図もしくはブロック図またはその組み合わせの各々のブロックと、フローチャート図もしくはブロック図またはその組み合わせにおけるブロックの組合せとが、コンピュータ可読プログラム命令によって実装できることが理解されよう。

これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図、またはその両方の１または複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブルデータ処理装置、もしくは、他のデバイス、またはその組み合わせに特定の様式で機能するように指示することが可能なコンピュータ可読記憶媒体にも記憶することができ、これにより、命令を記憶したコンピュータ可読記憶媒体が、フローチャートもしくはブロック図の、またはその両方の１または複数のブロックで指定される機能／動作の態様を実装する命令を含む製品を含むようになる。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または、他のデバイスにロードして、コンピュータ、他のプログラマブル装置、または、他のデバイス上で一連の動作段階を実行させることでコンピュータ実装プロセスを作ることもでき、これにより、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行される命令が、フローチャートもしくはブロック図の、またはその両方の１または複数のブロックで指定される機能／動作を実装するようになる。

本開示の図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を図解している。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装する１または複数の実行可能命令を含む命令のモジュール、セグメント、または一部を表し得る。いくつかの代替的な実装形態において、ブロックに記されている機能は、図面に記されている順序とは異なる順序で行われ得る。例えば、連続して示されている２つのブロックが、実際には、１つの段階として実現されてもよく、同時に、実質的に同時に、部分的にもしくは全体的に時間重複する方式で実行されてもよく、または、ブロックは、場合によっては、関与する機能に依存して逆の順序で実行されてもよい。ブロック図もしくはフローチャート、またはその両方の各ブロック、および、ブロック図もしくはフローチャート、またはその両方のブロックの組合せを、指定された機能もしくは動作を行う、または、特殊目的のハードウェア命令およびコンピュータ命令の組合せを実行する特殊目的のハードウェアベースのシステムにより実装することが可能であることも留意されるであろう。

本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載されている教示の実装は、クラウドコンピューティング環境に限定されないことが理解されるべきである。むしろ、本発明の実施形態は、現在知られている、または、今後開発される他の任意のタイプのコンピューティング環境と併せて実装することが可能である。

クラウドコンピューティングは、管理の労力またはサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニングおよびリリースできる構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールに対する便利なオンデマンドネットワークアクセスを可能にするための、サービス提供モデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

以下が特性である。
オンデマンドセルフサービス：クラウドコンシューマは、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス：この能力は、ネットワークを介して利用可能であり、異種のシンまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ）による使用を促す標準メカニズムを介してアクセスされる。
リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御または知識を有していないが、より高いレベルの抽象化（例えば、国、州、またはデータセンタ）においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。
迅速な弾力性：この能力は、迅速かつ弾力的に、場合によっては自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。
測定されるサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント）に適切な或るレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。

以下がサービスモデルである。
サービスとしてのソフトウェア（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ（例えば、ウェブベースの電子メール）等のシンクライアントインタフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージまたはさらには個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム（ＰａａＳ：ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成または取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む、基礎をなすクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ（ＩａａＳ：ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

展開モデルは以下の通りである。
プライベートクラウド：このクラウドインフラストラクチャは、或る組織のためにのみ動作する。プライベートクラウドは、その組織またはサードパーティによって管理されてよく、オンプレミスまたはオフプレミスで存在してよい。
コミュニティクラウド：このクラウドインフラストラクチャは、いくつかの組織によって共有され、共有される関心事項（例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項）を有する特定のコミュニティをサポートする。これは、組織またはサードパーティにより管理することができ、オンプレミスまたはオフプレミスに存在することができる。
パブリッククラウド：このクラウドインフラストラクチャは、一般大衆または大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。ハイブリッドクラウド：クラウドインフラストラクチャは、一意的なエンティティを保つが、データおよびアプリケーションポータビリティ（例えば、クラウド間のロードバランシングのためのクラウドバースティング）を可能とする、標準化されたかまたは自己所有の技術によって共に結び付けられている、２またはそれ以上のクラウド（プライベート、コミュニティ、または公衆）の複合である。

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、およびセマンティック相互運用性を重視したサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

ここで図１５を参照すると、例示的なクラウドコンピューティング環境２０５０が示される。示すように、クラウドコンピューティング環境２０５０は、例えば、パーソナルデジタルアシスタント（ＰＤＡ）または携帯電話２０５４Ａ、デスクトップコンピュータ２０５４Ｂ、ラップトップコンピュータ２０５４Ｃ、もしくは自動車コンピュータシステム２０５４Ｎ、またはその組み合わせ等の、クラウドコンシューマによって使用されるローカルコンピューティングデバイスと通信し得る、１または複数のクラウドコンピューティングノード２０１０を備える。ノード２０１０は、相互に通信し得る。ノード２０１０は、本明細書の上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、もしくはハイブリッドクラウド、またはその組み合わせ等の、１または複数のネットワーク内で物理的にまたは仮想的にグループ化されてよい（図示せず）。これにより、クラウドコンピューティング環境２０５０が、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはそれらの組合せを、クラウドコンシューマがローカルコンピューティングデバイスにおいてリソースを保持する必要のないサービスとして提供することが可能になる。図１５に示されるコンピューティングデバイス２０５４Ａ－Ｎのタイプは、例示のみを意図し、コンピューティングノード２０１０およびクラウドコンピューティング環境２０５０は、任意のタイプのネットワークもしくはネットワークアドレス指定可能な接続（例えば、ウェブブラウザを使用して）またはその組み合わせを通して、任意のタイプのコンピュータ化デバイスと通信可能であることを理解されたい。

ここで図１６を参照すると、クラウドコンピューティング環境２０５０（図１５）により提供される機能抽象化層のセットが示される。図１６に示されているコンポーネント、層、および機能が例示のみを意図したものであり、本発明の実施形態がそれらに限定されないことを事前に理解されたい。図示されているように、以下の層および対応する機能が設けられている。

ハードウェアおよびソフトウェア層２０６０は、ハードウェアコンポーネントと、ソフトウェアコンポーネントとを含む。ハードウェアコンポーネントの例は、メインフレーム２０６１、ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースのサーバ２０６２、サーバ２０６３、ブレードサーバ２０６４、ストレージデバイス２０６５、ならびにネットワークおよびネットワーキングコンポーネント２０６６を含む。いくつかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア２０６７と、データベースソフトウェア２０６８とを含む。

仮想化層２０７０は、抽象化層を提供する。抽象化層から、以下の仮想エンティティの例が提供され得る：仮想サーバ２０７１、仮想ストレージ２０７２、仮想プライベートネットワークを含む仮想ネットワーク２０７３、仮想アプリケーションおよびオペレーティングシステム２０７４、ならびに、仮想クライアント２０７５。

一例では、管理層２０８０が下記の機能を提供してよい。リソースプロビジョニング２０８１は、クラウドコンピューティング環境内でタスクを実行するのに利用される、コンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定２０８２では、クラウドコンピューティング環境内でリソースが利用されると費用の追跡を行い、これらのリソースの消費に対して請求書作成または請求書送付を行う。１つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウドコンシューマ及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル２０８３では、コンシューマおよびシステムアドミニストレータにクラウドコンピューティング環境へのアクセスが与えられる。サービスレベル管理２０８４では、必要なサービスレベルが満たされるように、クラウドコンピューティングリソース割り当ておよび管理を行う。サービスレベルアグリーメント（ＳＬＡ）計画および履行２０８５は、ＳＬＡに従って将来の要件が予測されるクラウドコンピューティングリソースの事前準備および調達を提供する。

ワークロード層２０９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション２０９１；ソフトウェア開発およびライフサイクル管理２０９２；仮想クラスルーム教育配信２０９３；データ分析処理２０９４；トランザクション処理２０９５；および音声認識２０９６、例えば、より具体的には、分離されたオーディオ入力からのオーディオ入力についての音声認識の音声内容のダイレーションを使用することを含む。

本発明の様々な実施形態の説明は、例示目的で提示されてきたが、包括的になること、または開示された実施形態に限定されることが意図されるものではない。同様に、本明細書で説明する本開示の実施形態の特徴または機能の例は、特定の実施形態の説明に使用されるか、例として列挙されるかに関わらず、本明細書で説明する本開示の実施形態を限定することを意図するものでも、本明細書で説明する例に本開示を限定することを意図するものでもない。そのような例は、例であるまたは例示的であり、非網羅的であることが意図されている。多くの修正および変更が、説明されている実施形態の範囲から逸脱することなく、当業者には明らかだろう。本明細書において使用される用語は、実施形態の原理、実際的な用途、または、市場において見られる技術に対する技術的改善をもっとも良く説明するために、または、当技術分野における他の当業者が、本明細書において開示される実施形態を理解することを可能にするために選択された。

Claims

分離された（シンギュラー）オーディオ入力からの音声内容のダイレーションを使用する音声認識のためのコンピュータ実装方法であって、
ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信する段階であって、前記オーディオ入力は話者からの音声内容を有する、段階と、
前記ＣＮＮにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションが前記オーディオ入力をどのように変更するかを予測してＣＮＮ出力を生成する段階と、
前記ＣＮＮ出力から結果のダイレーションを決定する段階であって、前記ＣＮＮ出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、段階と、
ダイレーションされた前記ＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力の精度を決定する段階と、
調整パラメータを設定して、前記単語誤り率に基づいて、前記ダイレーションの範囲を変更する段階と、
前記調整パラメータに基づいて前記ＣＮＮ出力の前記結果のダイレーションを調整して前記単語誤り率を低減する段階と
を備える方法。
前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階をさらに備える、請求項１に記載の方法。
識別された前記音声内容からテキストを生成する段階をさらに備える、請求項２に記載の方法。
前記オーディオ入力および前記予測される変更は、前記音声内容のダイレーションなしで受信される、請求項１に記載の方法。
グリッド検索を使用して、前記単語誤り率に基づいて前記オーディオ入力の前記結果のダイレーションを調整し、前記単語誤り率を低減する段階をさらに備える、請求項１に記載の方法。
話者についての予想オーディオ入力をコンピュータで受信する段階であって、前記予想オーディオ入力は前記話者についての音声内容を含む、段階と、
前記予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、
環境刺激オーディオ入力に基づいて、前記話者についての前記オーディオ入力の変更を予測する段階と
をさらに備える、請求項１に記載の方法。
前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有する段階と、
前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成する段階と、
前記学習修正を前記話者についての調整された前記結果のダイレーションに適用する段階と、
前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階と、
識別された前記音声内容からテキストを生成する段階と
をさらに備える、請求項６に記載の方法。
前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有する段階と、
前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成する段階と、
前記話者についての調整された前記結果のダイレーションに前記学習修正を適用する段階と
をさらに備える、請求項６に記載の方法。
前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階をさらに備える、請求項８に記載の方法。
識別された前記音声内容からテキストを生成する段階をさらに備える、請求項９に記載の方法。
前記ＣＮＮにおいて、複数の話者の１人の音声内容についてのダイレーションパラメータを受信する段階であって、前記ダイレーションパラメータは、複数の話者からのオーディオ入力から導出されることをさらに含む、請求項１に記載の方法。
前記複数の話者からの前記オーディオ入力は、インターレースされたオーディオ入力である、請求項１１に記載の方法。
コンピュータシステムを備える、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識のためのシステムであって、前記コンピュータシステムは、
コンピュータプロセッサ、コンピュータ可読記憶媒体、および、前記コンピュータ可読記憶媒体に記憶され前記コンピュータプロセッサにより実行可能なプログラム命令を含み、前記プログラム命令は、前記コンピュータシステムに、以下の機能、すなわち、
ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力を受信し、外部ノイズに基づいて前記オーディオ入力についての予測される変更を受信する機能であって、前記オーディオ入力は、話者からの音声内容を有する、機能、
前記ＣＮＮにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションがどのように前記オーディオ入力を変更するかを予測してＣＮＮ出力を生成する機能、
前記ＣＮＮ出力から結果のダイレーションを決定する機能でって、前記ＣＮＮ出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、機能、
ダイレーションされた前記ＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力の精度を決定する機能、
調整パラメータを設定して、前記単語誤り率に基づいて前記ダイレーションの範囲を変更する機能、および、
前記調整パラメータに基づいて前記ＣＮＮ出力の前記結果のダイレーションを調整して前記単語誤り率を低減する機能
を実行させる、システム。
前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項１３に記載のシステム。
識別された前記音声内容からテキストを生成することをさらに含む、請求項１４に記載のシステム。
前記オーディオ入力および前記予測される変更は、前記音声内容のダイレーションなしで受信される、請求項１３に記載のシステム。
グリッド検索を使用して前記単語誤り率に基づいて前記オーディオ入力の前記結果のダイレーションを調整して前記単語誤り率を低減することをさらに含む、請求項１３に記載のシステム。
話者についての予想オーディオ入力をコンピュータにおいて受信することであって、前記予想オーディオ入力は前記話者についての音声内容を含む、こと、
前記予想オーディオ入力についての環境刺激オーディオ入力を生成すること、および、
環境刺激オーディオ入力に基づいて、前記話者についての前記オーディオ入力の変更を予測すること
をさらに含む、請求項１３に記載のシステム。
前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有すること、
前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成すること、
前記話者についての調整された前記結果のダイレーションに前記学習修正を適用すること、
前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別すること、および、
識別された前記音声内容からテキストを生成すること
をさらに含む、請求項１８に記載のシステム。
前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有すること、
前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成すること、
前記話者についての調整された前記結果のダイレーションに前記学習修正を適用すること
をさらに含む、請求項１８に記載のシステム。
前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項２０に記載のシステム。
識別された前記音声内容からテキストを生成することをさらに含む、請求項２１に記載のシステム。
分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令は、コンピュータにより実行可能であり、前記コンピュータに、前記コンピュータによる機能を実行させ、前記機能は、
ＣＮＮ（畳み込みニューラルネットワーク）において、オーディオ入力を受信し、外部ノイズに基づいて、前記オーディオ入力についての予測される変更を受信する機能であって、前記オーディオ入力は、話者からの音声内容を有する、機能と、
前記ＣＮＮにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションがどのように前記オーディオ入力を変更するかを予測してＣＮＮ出力を生成する機能と、
前記ＣＮＮ出力から結果のダイレーションを決定する機能であって、前記ＣＮＮ出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、機能と、
ダイレーションされた前記ＣＮＮ出力についての単語誤り率を決定して、音声－テキスト出力の精度を決定する機能と、
調整パラメータを設定して、前記単語誤り率に基づいて、前記ダイレーションの範囲を変更する機能と、
前記調整パラメータに基づいて、前記ＣＮＮ出力の前記結果のダイレーションを調整して、前記単語誤り率を低減する機能と
を含む、コンピュータプログラム製品。
前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項２３に記載のコンピュータプログラム製品。
識別された前記音声内容からテキストを生成することをさらに含む、請求項２４に記載のコンピュータプログラム製品。