JP2024519263A

JP2024519263A - テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用

Info

Publication number: JP2024519263A
Application number: JP2023560053A
Authority: JP
Inventors: フリード、アンドリュー; クリシュナトーテンプディ、ヴァムシ; ペレパ、スジャータ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-04-30
Filing date: 2022-04-04
Publication date: 2024-05-10
Also published as: CN117043742A; US20220351715A1; US11699430B2; WO2022229743A1

Abstract

ユーザ・オーディオ・データを受け取ることと、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、ユーザへのテキスト・ツー・スピーチ出力における単語のための、ユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用することとによって、テキスト・ツー・スピーチ出力を提供するためのシステムおよび方法。

Description

本開示は一般に、テキスト・ツー・スピーチ（ＴＴＳ：text to speech）モデルの訓練におけるスピーチ・ツー・テキスト（ＳＴＴ：speech to text）データの使用に関する。本開示は詳細には、テキスト・ツー・スピーチ出力における使用のためのカスタマイズされたスピーチ・ツー・テキスト音素配列（phoneme sequence）の選択に関する。

アクセント分類モデルは、最小量のオーディオ・データからの話者のアクセントの認識および分類を可能にする。このようなモデルは、キーワードの、話者によって使用される音素を評価し、異なるアクセント分類に応じてカテゴライズされたキーワードの音素配列のデータベースと、使用されるキーワードの音素とをマッチングさせることによって、ユーザのアクセントを識別する。

スピーチ・ツー・テキスト・システムは、オーディオ・データを受け取り、データにおけるオーディオ音素配列の識別情報、および識別された音素配列を特定の単語として分類するための１つまたは複数の分類モデルの使用に応じて、テキスト出力を生成する。

テキスト・ツー・スピーチ・システムは、テキスト・データの文字列をスキャンし、テキスト・データのそれぞれの部分を、識別されたテキスト部分のデフォルト音素配列を含むデータベース・エントリとマッチングさせることによって、オーディオ出力を生成する。このようなシステムは、次いで、単語間の、および元のテキスト配列に存在する句読点に関連付けられた、適切な沈黙の追加を含む、テキスト配列に関連付けられた全音素配列の合成音声出力を生成する。

以下は、本開示の１つまたは複数の実施形態の基礎的な理解を提供するための概要を提示する。本概要は、主要もしくは重大な要素を識別すること、または、特定の実施形態の任意の範囲もしくは特許請求の範囲の任意の範囲を正確に描写することを意図するものではない。その唯一の目的は、後で提示される、より詳細な説明の前置きとして、簡単な形で概念を提示することである。本明細書で説明される１つまたは複数の実施形態では、デバイス、システム、コンピュータ実装方法、装置、もしくはコンピュータ・プログラム製品、またはそれらの組合せが、ユーザの地方特有の発音相違に応じたテキスト・ツー・スピーチ応答の自動生成を可能にする。

本発明の態様は、ユーザ・オーディオ・データを受け取ることと、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用することとによって、テキスト・ツー・スピーチ出力を提供することに関連付けられた方法、システム、およびコンピュータ可読媒体を開示する。

本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ実装方法が提供され、方法は、ユーザ・オーディオ・データを受け取ることと、１つまたは複数のコンピュータ・プロセッサによって、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、１つまたは複数のコンピュータ・プロセッサによって、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、１つまたは複数のコンピュータ・プロセッサによって、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、１つまたは複数のコンピュータ・プロセッサによって、ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用することとを含む。

任意選択として、方法は、
１つまたは複数のコンピュータ・プロセッサによって、地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用すること
をさらに含む。

任意選択として、方法は、
１つまたは複数のコンピュータ・プロセッサによって、複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
１つまたは複数のコンピュータ・プロセッサによって、地域固有の発音に応じてオーディオ・データを分類することと、
１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分－地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築することをさらに含む。任意選択として、方法は、１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分を定義することをさらに含む。任意選択として、方法は、１つまたは複数のコンピュータ・プロセッサによって、オーディオ・データをテキスト・データに変換することと、１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分のテキスト・データをスキャンすることとをさらに含む。

任意選択として、方法の一部分は、単語、ｎグラム、および句のうちの少なくとも１つをさらに含む。

任意選択として、方法は、
１つまたは複数のコンピュータ・プロセッサによって、オーディオ・データからユーザ・テキストを判定することと、
１つまたは複数のコンピュータ・プロセッサによって、ユーザ・テキストに応じた応答を判定することと、
１つまたは複数のコンピュータ・プロセッサによって、ドメイン部分のための応答をスキャンすることと、
１つまたは複数のコンピュータ・プロセッサによって、ドメイン部分を地域固有の発音辞書エントリとマッチングさせることと
をさらに含む。

本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ・プログラム製品が提供され、コンピュータ・プログラム製品は、１つまたは複数のコンピュータ可読ストレージ・デバイスと、１つまたは複数のコンピュータ可読ストレージ・デバイス上にまとめて格納済みのプログラム命令とを備え、格納済みのプログラム命令は、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む。

任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。

任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分－地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。

任意選択として、コンピュータ・プログラム製品の一部分は、単語、ｎグラム、および句のうちの少なくとも１つを含む。

任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
オーディオ・データからユーザ・テキストを判定するためのプログラム命令と、
ユーザ・テキストに応じた応答を判定するためのプログラム命令と、
ドメイン部分のための応答をスキャンするためのプログラム命令と、
ドメイン部分を地域固有の発音辞書エントリとマッチングさせるためのプログラム命令と
をさらに含む。

本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ・システムが提供され、コンピュータ・システムは、
１つまたは複数のコンピュータ・プロセッサと、
１つまたは複数のコンピュータ可読ストレージ・デバイスと、
１つまたは複数のコンピュータ・プロセッサによる実行のための、１つまたは複数のコンピュータ可読ストレージ・デバイス上の格納済みのプログラム命令であって、格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、格納済みのプログラム命令と
を備える。

任意選択として、コンピュータ・システムの格納済みのプログラム命令は、
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。

任意選択として、コンピュータ・システムの格納済みのプログラム命令は、
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分－地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。

任意選択として、コンピュータ・システムの一部分は、単語、ｎグラム、および句のうちの少なくとも１つを含む。

追加の特徴および利点が、本発明の技法を通じて実現される。本発明の他の実施形態および態様は、本明細書で詳細に説明され、特許請求される発明の一部であると考えられる。

添付の図面における本開示のいくつかの実施形態のより詳細な説明を通じて、上記および他の目的、本開示の特徴および利点がより明らかになり、同じ参照番号は一般に、本開示の実施形態における同じ構成要素を指す。

本発明の実施形態によるコンピューティング環境の概略図である。本発明の実施形態による動作順序を描写するフローチャートである。本発明の実施形態によるクラウド・コンピューティング環境の図である。本発明の実施形態による抽象化モデル層の図である。

いくつかの実施形態が、本開示の実施形態を図解した添付の図面を参照しながら、より詳細に説明される。それでも、本開示は、様々な様式で実行可能であり、したがって、本明細書で開示された実施形態に限定されるものと解釈されるべきではない。

現在、スピーチ・ツー・テキスト（ＳＴＴ）およびテキスト・ツー・スピーチ（ＴＴＳ）システムは、特にドメイン適合中に、別個の長い訓練プロセスを必要とする。ＳＴＴモデルを訓練しつつ、ドメイン専門用語のユーザ発音をキャプチャするために、多くの注意を払わなければならない。ＴＴＳシステムの訓練は、ＴＴＳ読取りにおけるドメイン専門用語の音素配列の画一的な「最善の」合成を見つけようとすることを別々に必要とする。開示の実施形態は、以前に評価されたＳＴＴデータからのドメイン専門用語の地域固有の音素配列の判定を可能にする。開示の実施形態は、システムが対話するユーザのアクセントに、ドメイン固有の専門用語を適合させることが可能な、テキスト・ツー・スピーチ・システムを提供する。これは、様々な方言およびアクセントを有する様々なバックグラウンドのユーザにとってのＴＴＳシステムの精通および有用性を増加させる。開示の実施形態は、なじみの薄い単語のその発音パターンをユーザに適合させる快適なシステムを提供する。

本明細書で使用されるように、ドメインという用語は、医療用語、エンジニアリングまたは他の技術用語、業界用語、スラング、口語表現、地方特有の慣用語句など、固有のエリアに関する特定の言葉からの単語または技術用語および句のサブセットを指す。ドメインの任意の要素について、個人ユーザの地域方言およびアクセントに応じて、発音および実際の単語の両方の観点から、複数の地方特有の差違があり得る。例として、英語の発音は、ユーザの出身国、ならびに、国内の異なる地域、および英語がユーザの第１の言語であるか否かに応じて、変化し得る。一実施形態では、システムは、アドミニストレータまたは他の個人から、定義済みのドメイン単語を受け取る。本実施形態では、システムおよび方法は、ドメインおよびドメイン固有の単語を識別するために、履歴のユーザ入力および利用可能な辞書を使用して、ドメイン固有の単語を定義する。

本発明の態様は一般に、質問回答システムに関し、より詳細には、ユーザ質問に回答するための、ユーザの地方特有の発音アクセントまたは方言にマッチする、ドメイン固有の単語または句の音素配列を提供することに関する。実施形態では、質問回答（ＱＡ：question answering）システムは、ユーザの地方特有の発音相違、またはユーザの地方特有のアクセントもしくは方言を含む、ユーザからの質問を含むオーディオ・データを受け取る。システムは、訓練済み機械学習モデルを使用してユーザのアクセントを識別および分類する。システムは、ユーザの識別された地方特有の発音を考慮して、スピーチ・ツー・テキスト変換器を使用して、ユーザ・オーディオ・データをテキストに変換する。システムは、判定木または類似のモデルを使用してユーザの質問を評価し、ユーザの質問への応答を判定する。システムは、応答の１つまたは複数の部分を識別するために、判定された応答をスキャンする。それぞれの識別部分について、方法は、この部分の単語または句にマッチしかつユーザの識別されたアクセントに対応するエントリを求めて、地域固有の発音辞書をサーチする。方法は、識別部分の対応する地方特有の変形物を使用して応答を組み立てる。方法は、ユーザの識別されたアクセントに対応する部分の地方特有の発音の音素配列を抽出する。方法は、テキスト・ツー・スピーチ生成器および地方特有の発音の音素配列を使用して、地方特有のテキスト応答に対応するオーディオ・データを生成する。方法は、ユーザへのオーディオ出力として、ユーザのアクセントにおける識別部分の発音を含む生成されたテキスト・ツー・スピーチ出力を提供する。

一実施形態では、システムおよび方法は、システム・ユーザからのオーディオ・データを受け取る。方法は、スピーチ・ツー・テキスト・モデルを使用してオーディオ・データを転写し、次いで、それぞれのオーディオ・データ部分を、スピーチ・ツー・テキスト出力の各ｎグラム、単語、および句に関連付ける。方法は、次いで、テキストの単語に関連付けられたオーディオ・データの音素文字列を識別し、標的言語の多種多様な広く使用される単語のラベル付きの地方特有の発音を使用して訓練されたモデルに応じて、ユーザのアクセントを識別する。例えば、英語話者との使用のためにシステムを訓練することは、チャットボット、ボイスボット、または他の自動会話システムと対話するときに広く使用される英単語の地方特有の発音を含むラベル付きオーディオ・データを使用して、モデルを訓練することを含む。本実施形態では、方法は、ラベル付き訓練データを受け取り、スピーチ・データをテキストに変換し、識別された音素をスピーチ・ツー・テキスト出力に関連付ける。モデルは、オーディオ・データを受け取り、ユーザのアクセントに応じてデータを識別するように適合された、分類モデルのネットワーク・ノードの重みを確立する際に、データのアクセント・ラベルを利用する。

本発明の態様は、ＱＡシステムの技術分野に改善をもたらす。従来のＱＡシステムは、ユーザが入力したオーディオのエンティティおよび意図を判定した後、テキスト・ツー・スピーチ生成器を使用してオーディオ・データ出力を生成する際に、静的な判定木および音素のデフォルト・セットを利用する。開示の実施形態は、ｎグラム、単語、および句についてのエントリを有する辞書を使用して、ユーザのアクセントを識別すること、および、このユーザのためのオーディオ・テキスト・ツー・スピーチ応答をカスタマイズすることによって、このようなシステムを基に構築する。各エントリは、１つまたは複数のユーザ・アクセントに応じて定義された音素配列を有する。例えば、任意の定義されたアクセントについて、辞書は、このアクセントに関連付けられた、ドメインおよびアクセント固有のエントリのセットを有する。追加として、辞書は、単一の辞書エントリの米国、インド、イングランド、スコットランド、アイルランド、およびオーストラリア・バージョンの音素発音配列を提供する、少なくともいくつかのエントリの複数の異なるアクセント音素配列を有するものとみなされることが可能である。

本発明の態様は、コンピュータ機能への改善も提供する。特に、本発明の実装形態は、様々なドメインおよび異なるアクセントのそれぞれの用語に関連付けられた絶えず調節された音素配列で具体化された、ＱＡシステムが動作する方式への固有の改善を対象とする。開示の方法は、異なる用語－アクセントの組合せについての音素配列の地域固有の辞書でスタートする。経時的に、任意の特定の用語－アクセントの組合せにとっての最も一般的な音素配列は、システムおよび方法によって使用される辞書の進行中の訓練において入力データとして適用された、システム・ユーザからの入力オーディオ・データとして受け取られた特定のアクセントにおける用語にとって最も一般的な発音への変更に基づいて、この辞書エントリ用に変更され得る。

概観として、ＱＡシステムは、自然言語で提示された所与の主題ドメインに関する質問に回答するデータ処理ハードウェア上で実行される人工知能アプリケーションである。ＱＡシステムは、ネットワークを介した入力、電子文書または他のデータのコーパス、コンテンツ製作者からのデータ、１つまたは複数のコンテンツ・ユーザからの情報、および他の可能な入力源からの他のこのような入力を含む、様々なソースからの入力を受け取る。データ・ストレージ・デバイスは、データのコーパスを格納する。コンテンツ製作者は、ＱＡシステムでデータのコーパスの一部として使用するための文書内のコンテンツを作り出す。文書は、ＱＡシステムで使用するためのデータの任意のファイル、テキスト、記事、またはソースを含んでもよい。例えば、ＱＡシステムは、ドメインについての知識の本体、または主題領域（例えば、金融ドメイン、医療ドメイン、法律ドメイン等）にアクセスし、知識の本体（知識ベース）は、存在論などのドメイン固有情報の構造化リポジトリ、またはドメインに関する非構造化データ、またはドメインについての自然言語文書のコレクションなどであるがこれらに限定されない、様々な構成で編成可能である。

一実施形態では、ＱＡシステムはさらに、ユーザから受け取られたオーディオ・データからユーザのアクセントを識別する。システムは、ユーザ入力への応答を決定し、次いで、応答部分と、ユーザのアクセントを使用してカスタマイズされたオーディオ・テキスト・ツー・スピーチ出力を提供するために開示の実施形態によって開発された地域固有の発音辞書のエントリとの間のマッチに応じて、この応答を修正する。本実施形態では、方法は、ユーザの入力に応答してオーディオ出力を生成し、オーディオ出力は、ユーザの識別されたアクセントを使用してＱＡ応答生成器によって生成された単語および句を表現する、１つまたは複数の音素配列を含む。

一実施形態では、システムの１つまたは複数の構成要素は、非常に技術的な問題を本質的に解決するためのハードウェアもしくはソフトウェアまたはその両方を採用することができる（例えば、ユーザ・オーディオ・データを受け取ること、スピーチ・ツー・テキスト分析、音素検出、および訓練済みのアクセント分類機械学習分類アーキテクチャを使用して、オーディオ・データに応じたユーザの地域固有の発音分類を判定すること、オーディオ・データならびに例えばスピーチ・ツー・テキスト・データから抽出された意図およびエンティティに適した判定木、に応じたユーザへの応答のためのテキストを決定すること、開発された地域固有の発音辞書内のマッチするテキストからの一部分を識別すること、ユーザへの生成されたテキスト・ツー・スピーチ出力の一部分のためにユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用すること等）。これらの解決策は抽象的ではなく、例えば、システム・ユーザのアクセントに応じてカスタマイズされた生成されたテキスト・ツー・スピーチ出力の生成を容易にするのに必要な処理能力により、人間による精神行為のセットとしての実施は不可能である。さらに、実施されるプロセスのうちのいくつかは、ユーザ・アクセントのカスタマイズされたテキスト・ツー・スピーチ音素文字列を生成することに関する定義済みタスクを実行するための専用のコンピュータによって実施されてもよい。例えば、質問回答システムまたは同様のものためのカスタマイズされたテキスト・ツー・スピーチ出力を生成することに関するタスクを実行するために、専用のコンピュータが採用されることが可能である。

一実施形態では、方法は、ユーザ固有のカスタマイズされたテキスト・ツー・スピーチ出力を自動会話システムに提供する際に使用するための、地域固有の発音辞書を構築する。辞書を構築する際に、方法は、複数の個人からの音声サンプルを含むオーディオ・データを受け取る。各オーディオ・データ・サンプルは、提供する個人のアクセントを指示するラベルを含む。本実施形態では、方法は、オーディオ・データ・サンプルに対するスピーチ・ツー・テキスト、および、データから音素配列の文字列を生ずるオーディオ・データの音素分析を実施する。方法は、次いで、音素配列とオーディオからのテキストとを相関させ、テキストの各単語、ｎグラム、もしくは句、またはそれらの組合せに対するテキスト－音素配列ペアリングを作り出す。実施形態では、ドメイン固有の単語に対して、方法は、オーディオ・データを作り出すときに個人が従うべきスクリプトまたは他のプロンプトを提供する。本実施形態では、方法は、関心のあるドメイン単語および句が、個人からのオーディオ・サンプルに含まれることを保証する。

一実施形態では、方法は、各ラベル付きアクセントに応じて音素－テキスト・ペアリングをソートする。各アクセントに対して、方法は、含んでいるテキストの各単語、および特にドメイン固有の単語にとって、最も一般的な音素配列を識別する。本実施形態では、ラベル付きアクセントに応じてソートされた音素配列は、すべてのユーザ・オーディオ・データ入力音素配列を、アクセントに応じてラベルを付けられた音素配列のセットと比較することによって、ユーザのアクセントを識別するための基礎を提供する。

一実施形態では、方法は、キーワード入力の小さいセットからのユーザのアクセントの分類を可能にすることに向けたステップとして、複数のアクセントにわたって使用される単語の音素配列を比較して、単一のアクセントまたはアクセントのサブセットに一意の音素配列を識別する。

アクセントのラベル付きデータ内に複数の異なる発音を有するドメイン固有またはアクセント固有の単語について、方法は、ラベル付きアクセントを表す発音として、最も一般的な発音を選択する。方法は、単語または句についてのアクセント固有辞書エントリにおける単語または句についての複数の発音のそれぞれの相対的なランク付けを指示する。一度使用すると、辞書は、アクセント固有発音を評価して、任意の特定の単語または句にとっての最も一般的な発音の変化を判定するために、継続的な検査を受ける。方法は、各アクセント固有の単語の様々な発音の発生の累積的なカウントを維持し、単語または句を含むユーザ入力によるこの単語の変化の異なる発音の相対的なランク付けの後、単語の辞書エントリを修正する。単語のアクセント固有の音素配列を含む地域固有の発音辞書を構築した後、方法は、下記で説明されるような、テキスト・ツー・スピーチ・オーディオ出力を生成する際に、辞書エントリを利用する。

例として、方法は、インド系英国人または米国系英国人アクセントのそれぞれが僅かにある個人を含む、数人の個人からのオーディオ・データ入力を受け取る。各個人について、方法は、「歯周の（periodontal）」という単語の個人の発音を含むオーディオ・データを再び声に出す。２つのアクセントのそれぞれの単語の例示的な発音が、表１に示されている。

表１から、方法は、ＵＳアクセントにとっての最も一般的な音素配列が、［．０ｐｘ．２ｒＹ．０ｘ．１ｄａｎ．０ｔｘｌ］であると判定する。インドのアクセントにとっての最も一般的な発音は、［．２ｐｉ．０ｘ．２ｒＹ．０ｘ．１ｄａｎ．０ｔｘｌ］である。「歯周の（periodontal）」に関する辞書エントリについて、方法は、各アクセントの複数の音素配列、および、どの音素配列が各アクセントにとって最も一般的であるかを指示することに言及する。

一実施形態では、方法は、質問回答システムなどの自動会話システムに関連付けられたユーザ・オーディオ・データを受け取る。オーディオ・データは、システムに接続されたマイクロフォンを通じて、ユーザから直接的に受け取られてもよく、または、ユーザのマイクロフォン、ユーザのコンピューティング・システム、通信ネットワーク、ＱＡシステムに関連付けられた受け取るコンピューティング・システム、ならびに、エッジ・クラウドおよびクラウド・コンピューティング・リソースを場合によっては含む１つもしくは複数の中間コンピューティング・システムを介して、間接的に受け取られてもよい。本実施形態では、オーディオ・データは、ユーザが話した入力のデジタル・バージョンを含む、ａ．ｗａｖまたは類似のデータ・ファイルなどの、デジタル・オーディオ・ファイルを含む。ある意味では、オーディオ・データ・ファイルは、ユーザからの話した単語文字列に対応するデジタル音素配列の文字列を含む。

一実施形態では、方法は、オーディオ・データに対してスピーチ・ツー・テキスト変換を行い、ユーザが話した入力に対応するテキストの文字列を生ずる。方法は、さらに、オーディオ・データを分析して、オーディオ・データに対応する識別された音素の文字列を生じる。方法は、音素の文字列をテキストの文字列に相関させて、特定の音素配列を、テキストの文字列の各単語、部分的な単語、または単語の組合せに関連付ける。本実施形態では、方法は、相関させた音素配列－単語の組合せをマッチさせて、ユーザのアクセントまたは他の地方特有の発音を識別する。実施形態では、方法は、畳み込みニューラル・ネットワーク、回帰型ニューラル・ネットワーク、深層学習ニューラル・ネットワークなどの、訓練済み機械学習分類モデル、または、敵対的生成ネットワークもしくは変分オートエンコーダなどの、生成分類器を使用して、ユーザが入力したオーディオ・データの音素配列－単語相関関係に応じて、ユーザのアクセントを分類する。実施形態では、方法は、開示の発明の範囲外の以前に訓練済みの機械学習分類モデルを受け取る。訓練済みモデルは、ユーザのアクセント分類を出力として提供する。

方法は、自然言語理解、または自然言語処理アルゴリズムを使用してテキストの文字列を分析して、テキストの文字列からエンティティおよび意図を抽出する。一実施形態では、方法は、様々なエンティティおよび意図に関連付けられた親ノード、およびユーザの入力への可能なシステム応答に関連付けられた各親に対する子ノードを含む判定木を使用して、抽出されたエンティティおよび意図を処理する。判定木の出力は、ユーザの入力に応答して木によって選択されたテキスト文字列を含む。

一実施形態では、方法は、応答テキストをスキャンし、ｎグラム、単語、または句などの部分に、テキストをパースする。方法は、次いで、スキャンされたテキストの識別部分を、地域固有の発音辞書のエントリに相関させる。方法は、現在のシステム・ユーザの識別されたアクセントの、対応する単語－音素配列を有する辞書エントリに部分を相関させる。

本実施形態では、方法は、最も一般的なアクセント固有の音素配列を識別し、識別部分は、識別されたアクセントのマッチしたエントリを有する。方法は、テキスト応答のための全音素配列を生成する。全音素配列は、関連する地域固有の発音辞書エントリから抽出された音素配列を含む。地域固有の発音辞書におけるマッチがなく欠如しているテキスト部分について、方法は、これらのテキスト部分に関連付けられたデフォルトの音素配列を使用する。方法は、ユーザへのテキスト・ツー・スピーチ出力として、応答テキストの最終的な全音素配列を提供する。

一実施形態では、方法は、木の親ノードのうちの少なくともいくつかに対するアクセント固有の子ノードを含む判定木を利用する。本実施形態では、方法は、ユーザ入力に関する親判定ノードを識別する。方法は、入力の意図およびエンティティに応じて、入力に関する子ノードの判定および対応するセットを識別し、次いで、ユーザの識別されたアクセントに応じて、子ノードを選択する。本実施形態では、特定の親ノードに対して複数の子ノードがあってもよく、子ノードのセットは、アクセントに応じて異なるが、親ノードによる判定と同等の他の概念的な応答である。実際には、方法は、判定木を通じて親ノードに進み、ユーザ入力の詳細に応じて親の判定を評価し、他の同等の子ノードのセットを応答として選択し、次いで、ユーザの識別されたアクセントにマッチするこの子ノードを、ユーザへの出力応答として選択する。本実施形態では、方法は、次いで、ユーザへのテキスト・ツー・スピーチ出力の生成のために、ユーザの識別されたアクセントにマッチする音素配列を生成する際に、上記で説明されたように進む。

例として、２人のユーザが自動質問回答システムをコールし、１人のユーザが、米国英語アクセントを有し、１人のユーザがインド英語アクセントを有する。米国ユーザは、「念入りなクリーニングにはいくらかかりますか」と尋ねる。システムは、「通常のクリーニングの自己負担は＄２５です。［．０ｐｘ．２ｒＹ．０ｘ．１ｄａｎ．０ｔｘｌ］の自己負担は＄５０です」と応答する。対照的に、インド人のユーザは、「クリーニング訪問のための自己負担はいくらですか」と尋ね、システムは、「通常のクリーニングの自己負担は＄２５です。［．２ｐｉ．０ｘ．２ｒＹ．０ｘ．１ｄａｎ．０ｔｘｌ］の自己負担は＄５０です」と応答する。

図１は、開示の発明の実践に関連付けられた例示的なネットワーク・リソースの概略図を提供する。本発明は、命令ストリームを処理する開示の要素のいずれかのプロセッサで実践されてもよい。図に示されているように、ネットワーク化されたクライアント・デバイス１１０は、サーバ・サブ・システム１０２にワイヤレス接続する。クライアント・デバイス１０４は、ネットワーク１１４を介してサーバ・サブ・システム１０２にワイヤレス接続する。クライアント・デバイス１０４および１１０は、プログラムを実行するのに十分なコンピューティング・リソース（プロセッサ、メモリ、ネットワーク通信ハードウェア）と一緒に自動質問回答プログラム（図示せず）を備える。クライアント・デバイス１０４および１１０は、ユーザが入力を提供し、システムから出力を受け取ることを可能にする、ＱＡシステムのためのユーザ・アクセス・ポイントとして機能してもよい。全体のシステム機能は、コンピューティング・デバイスのセットにわたって、ならびに、エッジ・クラウドおよびクラウド・リソースなどのさらなる環境リソースにわたって、発生してもよい。図１に示されているように、サーバ・サブ・システム１０２は、サーバ・コンピュータ１５０を備える。図１は、本発明の実施形態による、ネットワーク化コンピュータ・システム１０００内のサーバ・コンピュータ１５０の構成要素のブロック図を描写している。図１は、一実装形態の例証を提供しているにすぎず、異なる実施形態を実装可能な環境に対するいかなる限定も示唆しないことを理解されたい。描写された環境に対して多くの修正を行うことができる。

サーバ・コンピュータ１５０は、プロセッサ１５４、メモリ１５８、永続ストレージ１７０、通信ユニット１５２、入出力（Ｉ／Ｏ）インターフェース１５６、および通信ファブリック１４０を含むことができる。通信ファブリック１４０は、キャッシュ１６２、メモリ１５８、永続ストレージ１７０、通信ユニット１５２、および入出力（Ｉ／Ｏ）インターフェース１５６の間の通信を提供する。通信ファブリック１４０は、プロセッサ（マイクロプロセッサ、通信およびネットワーク・プロセッサ等など）、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア構成要素の間でデータもしくは制御情報またはその両方を伝えるようにデザインされた任意のアーキテクチャで実装可能である。例えば、通信ファブリック１４０は、１つまたは複数のバスで実装可能である。

メモリ１５８および永続ストレージ１７０は、コンピュータ可読ストレージ媒体である。本実施形態では、メモリ１５８は、ランダム・アクセス・メモリ（ＲＡＭ）１６０を含む。一般に、メモリ１５８は、任意の適切な揮発性または不揮発性コンピュータ可読ストレージ媒体を含むことができる。キャッシュ１６２は、メモリ１５８からの、最近アクセスされたデータ、およびほぼ最近アクセスしたデータを保持することによって、プロセッサ１５４の性能を強化する高速メモリである。

例えば、自動会話プログラム１７５といった、本発明の実施形態を実践するために使用されるプログラム命令およびデータは、キャッシュ１６２を介してサーバ・コンピュータ１５０のそれぞれのプロセッサ１５４のうちの１つまたは複数による実行もしくはアクセスまたはその両方のために、永続ストレージ１７０に格納される。本実施形態では、永続ストレージ１７０は、磁気ハードディスク・ドライブを含む。代替として、または磁気ハードディスク・ドライブに加えて、永続ストレージ１７０は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納する能力がある任意の他のコンピュータ可読ストレージ媒体を含むことができる。

永続ストレージ１７０によって使用される媒体はまた、取外し可能でもよい。例えば、取外し可能ハード・ドライブが、永続ストレージ１７０のために使用されてもよい。他の例は、光および磁気ディスク、サム・ドライブ、ならびに同様に永続ストレージ１７０の一部である別のコンピュータ可読ストレージ媒体に移送するためにドライブに挿入されるスマート・カードを含む。

これらの例における通信ユニット１５２は、クライアント・コンピューティング・デバイス１０４、および１１０のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット１５２は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット１５２は、物理通信リンクおよびワイヤレス通信リンクのどちらかまたは両方の使用を通じて通信を提供してもよい。ソフトウェア分散プログラム、および本発明の実行のために使用される他のプログラムおよびデータは、通信ユニット１５２を通じてサーバ・コンピュータ１５０の永続ストレージ１７０にダウンロードされてもよい。

Ｉ／Ｏインターフェース１５６は、サーバ・コンピュータ１５０に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース１５６は、キーボード、キーパッド、タッチ・スクリーン、ユーザ・オーディオ・データを直接的に受け取るためのマイクロフォン、デジタル・カメラ、もしくは他のいくつかの適切な入力デバイス、またはそれらの組合せなど、外部デバイス１９０への接続を提供してもよい。外部デバイス１９０はまた、例えば、サム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読ストレージ媒体を含むことができる。例えば、サーバ・コンピュータ１５０上の自動会話プログラム１７５といった、本発明の実施形態を実践するために使用されるソフトウェアおよびデータは、このようなポータブル・コンピュータ可読ストレージ媒体に格納可能であり、Ｉ／Ｏインターフェース１５６を介して永続ストレージ１７０にロード可能である。Ｉ／Ｏインターフェース１５６は、ディスプレイ１８０にも接続する。

ディスプレイ１８０は、データをユーザに表示するためのメカニズムを提供し、例えば、コンピュータ・モニタでもよい。ディスプレイ１８０はまた、タブレット・コンピュータのディスプレイなど、タッチ・スクリーンとして機能してもよい。

図２は、本開示の実践に関連付けられた例示的な活動を示すフローチャート２００を提供する。プログラムがスタートした後、ブロック２１０において、ユーザと自動質問回答システムとの間で会話が開始される。会話の一部として、方法は、ユーザからのオーディオ入力を受け取り、スピーチ・ツー・テキスト技術を使用して、このオーディオをテキストに変換し、分析のためにテキスト・データを伝える。一実施形態では、方法は、ユーザ・オーディオ・データを分析し、オーディオから音素配列を抽出する。方法は、オーディオからの音素配列のシーケンスを、スピーチ・ツー・テキストからのテキスト・データにマッチさせる。

ブロック２２０において、方法は、自動質問回答システム判定木、または他の自動応答生成器を使用して、会話のためのユーザの入力に関連付けられたテキスト・データへのテキスト応答を決定する。

判定ポイント２３０において、方法は、システムによって受け取られたユーザのオーディオ入力データから抽出された音素配列－テキスト・ペアリングを使用して、ユーザのアクセントを識別しようとする。一実施形態では、方法は、機械学習分類モデルを利用して、ユーザのアクセントを識別する。一実施形態では、方法は、音素配列－テキスト・ペアリングを、データベース内の音素配列テキスト・ペアリングのコーパスとマッチさせる。

ユーザがアクセントを成功裏に識別したことに対して、方法は、ブロック２４０において、システムで使用するために構築された地域固有の発音辞書内にマッチを有するテキスト応答の部分を識別することに進む。

ユーザがアクセントを成功裏に識別しなかったことに対して、方法は、ブロック２６０に進み、ブロック２２０の判定された応答に対して音素テキスト・ツー・スピーチ配列を生成する。このようなユーザのために、方法は、判定された応答の部分のためにデフォルト音素配列を利用する。

ブロック２５０において、方法は、ブロック２４０において識別された応答部分のために地方特有の発音音素配列を使用して、ブロック２２０の判定された応答のための全音素配列を生成する。ブロック２４０において識別された部分の地方特有の発音音素配列は、ブロック２２０からの判定された応答の他のすべての部分のデフォルト音素配列と、ブロック２６０において組み合わされる。地域固有の発音辞書からの地方特有の発音は、現在のユーザのアクセントと同じアクセントを有する複数の個人から収集されたオーディオ・データから導出された応答用語の最も一般的な発音に対応する。

ブロック２７０において、方法は、ブロック２２０の判定された応答に対応する最終的な全音素配列をテキスト・ツー・スピーチ・オーディオ出力としてユーザに提供する。出力は、ローカル・システム・スピーカを使用して、ユーザに直接的に提供されてもよく、または、ＱＡシステムとインターフェースする、ローカル・コンピュータ、タブレット・コンピュータ、固定電話、もしくは携帯電話のようなデバイスを含むユーザ・デバイスに、通信ネットワークを介して提供されてもよい。

本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で列挙される教示の実装形態は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか、後で開発される、他の任意のタイプのコンピューティング環境と併用して実装される能力がある。

クラウド・コンピューティングは、最低限の管理努力またはサービスの提供者との対話で素早く提供および解放可能な、構成可能なコンピューティング・リソースの共用プール（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）への便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含んでもよい。

特性は以下の通りである。

オンデマンド・セルフ・サービス：クラウド利用者は、サービスの提供者との人間対話を必要とせず、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的に提供することができる。

ブロード・ネットワーク・アクセス：能力は、ネットワークを介して利用可能であり、ヘテロジニアスなシンまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を推進する標準メカニズムを通じてアクセスされる。

リソース・プーリング：提供者のコンピューティング・リソースは、種々の物理および仮想リソースが、要求に応じて動的に割当ておよび再割当てされる、マルチ・テナント・モデルを使用して複数の利用者をサーブするためにプールされる。利用者には一般に、提供されるリソースの正確な位置についての制御権も知識もなく、抽象化のより高いレベル（例えば、国、州、またはデータセンタ）で位置を指定でき得るという点で位置独立の意味がある。

迅速な弾力性：能力は、素早くスケール・アウトするために迅速かつ伸縮自在に、場合によっては自動的に提供され、素早くスケール・インするために迅速に解放されることが可能である。利用者にとって、提供のために利用可能な能力は無制限のように見えることが多く、いつでも任意の量で購入可能である。

測定されるサービス：クラウド・システムは、サービスのタイプに適した抽象化のいくつかのレベル（例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）で計量能力を活用することによって、リソース使用を自動的に制御し、最適化する。利用されるサービスの提供者と利用者双方に透明性をもたらすリソース使用率が、監視、制御、レポートされることが可能である。

サービス・モデルは以下の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：利用者に提供される能力は、クラウド・インフラストラクチャ上で動く提供者のアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などの、シン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。利用者は、限定的なユーザ固有アプリケーション構成設定を例外とする可能性もあるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、ことによると個々のアプリケーション能力を含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わない。

サービスとしてのプラットフォーム（ＰａａＳ）：利用者に提供される能力は、提供者によってサポートされるプログラミング言語およびツールを使用して制作された、利用者制作または獲得アプリケーションを、クラウド・インフラストラクチャ上に配置することである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、配置されたアプリケーション、および場合によっては、アプリケーション・ホスティング環境構成に対する制御を行う。

サービスとしてのインフラストラクチャ（ＩａａＳ）：利用者に提供される能力は、処理、ストレージ、ネットワーク、ならびに、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを利用者が展開して動かすことができる他の基本的なコンピューティング・リソースを提供することである。利用者は、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御、および場合によっては、選択されたネットワーキング構成要素（例えば、ホスト・ファイアウォール）の限定的な制御を行う。

展開モデルは以下の通りである。

プライベート・クラウド：クラウド・インフラストラクチャは、組織のためにだけ運用される。クラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、敷地内または敷地外にあってもよい。

コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有の懸念（例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス考慮）を有する固有のコミュニティをサポートする。クラウド・インフラストラクチャは、組織またはサード・パーティによって管理されてもよく、敷地内または敷地外にあってもよい。

パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大規模業界団体に対して利用可能にされ、クラウド・サービスを売る組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植を可能にする標準または独自の技術（例えば、クラウド間の負荷分散のためのクラウド・バースティング）と共に結びつけられた、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成物である。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に焦点を置いたサービス指向のものである。クラウド・コンピューティングの中心には、相互接続ノードのネットワークを含むインフラストラクチャがある。

図３をここで参照すると、例証的なクラウド・コンピューティング環境５０が描写されている。図示のように、クラウド・コンピューティング環境５０は、例えば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくはセルラー電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、またはそれらの組合せなど、クラウド利用者によって使用されるローカル・コンピューティング・デバイスが通信し得る、１つまたは複数のクラウド・コンピューティング・ノード１０を含む。ノード１０は、互いに通信してもよい。ノード１０は、以下で説明されるようなプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組合せなどの、１つまたは複数のネットワーク内で、物理的または仮想的にグループ化されてもよい（図示せず）。これにより、クラウド・コンピューティング環境５０は、クラウド利用者がローカル・コンピューティング・デバイス上にリソースを維持する必要がないインフラストラクチャ、プラットフォーム、もしくはソフトウェアとしてのサービス、またはそれらの組合せを提供することができる。図３に示されたコンピューティング・デバイス５４Ａ～Ｎのタイプは例証にすぎないことが意図され、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、（例えば、ウェブ・ブラウザを使用して）任意のタイプのネットワークもしくはネットワーク・アドレス可能接続またはその両方を介して、任意のタイプのコンピュータ化デバイスと通信可能であることが理解される。

図４をここで参照すると、クラウド・コンピューティング環境５０（図３）によって提供される機能抽象化層のセットが示されている。図４に示された構成要素、層、および機能は、例証にすぎないことが意図され、本発明の実施形態は、これらに限定されないことを予め理解されたい。描写されたように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６０は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング構成要素６６を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化層７０は、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５という、仮想エンティティの例が提供され得る抽象化層を提供する。

一例では、管理層８０は、下記で説明される機能を提供してもよい。リソース提供８１は、クラウド・コンピューティング環境内でタスクを実施するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を行う。計量および価格設定８２は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの利用量に対する請求またはインボイスを行う。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド利用者およびタスクの検証、ならびに、データおよび他のリソースの保護を行う。ユーザ・ポータル８３は、利用者およびシステム・アドミニストレータに、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されるサービス・レベルを満たすように、クラウド・コンピューティング・リソースの配分および管理を行う。サービス・レベル・アグリーメント（ＳＬＡ）計画およびフルフィルメント８５は、ＳＬＡに応じて、将来の要件が予想されるクラウド・コンピューティング・リソースの事前配置および調達を行う。

ワークロード層９０は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想クラスルーム教育配信９３、データ分析処理９４、トランザクション処理９５、ならびに自動会話プログラム１７５を含む。

本発明は、統合の任意の可能な技術詳細レベルにおける、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せでもよい。本発明は、命令ストリームを処理する単一または平行の任意のシステムにおいて有益に実践され得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体（または複数の媒体）を含んでもよい。

コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持および格納可能な有形デバイスであることが可能である。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せでもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（登録商標）・ディスク、命令を記録したパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書で使用されるような、コンピュータ可読ストレージ媒体、またはコンピュータ可読ストレージ・デバイスは、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号など、本質的に一時的な信号であると解釈されるべきではない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、または、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロード可能である。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを備えてもよい。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路機器用の構成データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む１つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードでもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータ上で、もしくは、部分的にユーザのコンピュータ上で、スタンド・アロンのソフトウェア・パッケージとして、または、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路機器、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化することによって、コンピュータ可読プログラム命令を実行してもよい。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら本明細書で説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、ならびにフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行可能であることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作を実行するための手段を作り出すべく、機械を生み出すために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、命令をまとめて格納したコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実行する命令を含む製品を備えるべく、コンピュータ可読ストレージ媒体に格納されてもよく、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス、またはそれらの組合せに特定の様式で機能するように指図することができる。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作を実行するべく、コンピュータ実装処理を生み出すために、コンピュータ、他のプログラム可能装置、または他のデバイスで一連の動作ステップを実施するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてもよい。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図の中の各ブロックは、指定の論理機能を実施するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表してもよい。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序とは無関係に行われてもよい。例えば、連続して示された２つのブロックは、実際には、実質的に同時に実行されてもよいし、またはブロックは、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、および、ブロック図もしくはフローチャート図またはその両方におけるブロックの組合せは、指定の機能または動作を行うか、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実行可能であることも指摘されることになる。

「１つの実施形態」、「一実施形態」、「実例の実施形態」等への本明細書における言及は、説明される実施形態が、特定の特徴、構造、または特性を含み得るが、あらゆる実施形態が、特定の特徴、構造、または特性を必ずしも含む必要がなくてもよいことを指示する。その上、このような句は、必ずしも同じ実施形態に言及しているわけではない。さらに、特定の特徴、構造、または特性が実施形態と共に説明されるとき、明示的に説明されてもされなくても、他の実施形態と共にこのような特徴、構造、または特性に影響を及ぼすことが当業者の知識内にあることが提起される。

本明細書で使用される専門用語は、特定の実施形態を説明するためのものにすぎず、本発明の限定を意図するものではない。本明細書で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別途明確に指示しない限り、複数形も同様に含むことが意図される。「備える（comprises）」もしくは「備える（comprising）」という用語、またはその両方は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、もしくは構成要素、またはそれらの組合せの存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、もしくはそのグループ、またはそれらの組合せの存在または追加を排除しないことがさらに理解されよう。

本発明の様々な実施形態の説明は、例証のために提示されてきたが、網羅的であること、または開示の実施形態に限定されることを意図するものではない。本発明の範囲から逸脱することなく、多くの変更形態および変形形態が当業者には明らかであろう。本明細書で使用される専門用語は、実施形態の原理、実践的応用、もしくは市場で見つかる技術に対する技術的改善を最も良く説明するように、または、本明細書で開示された実施形態を当業者が理解できるように、選ばれた。

Claims

テキスト・ツー・スピーチ出力を提供するためのコンピュータ実装方法であって、前記方法が、
ユーザ・オーディオ・データを受け取ることと、
１つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、
前記１つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定することと、
前記１つまたは複数のコンピュータ・プロセッサによって、前記テキストから一部分を識別することであって、地域固有の発音辞書が前記一部分を含む、前記識別することと、
前記１つまたは複数のコンピュータ・プロセッサによって、前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用することと
を含む、コンピュータ実装方法。
前記１つまたは複数のコンピュータ・プロセッサによって、前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用すること
をさらに含む、請求項１に記載のコンピュータ実装方法。
前記１つまたは複数のコンピュータ・プロセッサによって、複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
前記１つまたは複数のコンピュータ・プロセッサによって、地域固有の発音に応じて前記オーディオ・データを分類することと、
前記１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記１つまたは複数のコンピュータ・プロセッサによって、前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分－地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築することをさらに含む、請求項１に記載のコンピュータ実装方法。
前記１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分を定義すること
をさらに含む、請求項３に記載のコンピュータ実装方法。
前記１つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データをテキスト・データに変換することと、
前記１つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分の前記テキスト・データをスキャンすることと
をさらに含む、請求項３に記載のコンピュータ実装方法。
前記一部分が、単語、ｎグラム、および句のうちの少なくとも１つを含む、請求項１に記載のコンピュータ実装方法。
前記１つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データからユーザ・テキストを判定することと、
前記１つまたは複数のコンピュータ・プロセッサによって、前記ユーザ・テキストに応じた応答を判定することと、
前記１つまたは複数のコンピュータ・プロセッサによって、ドメイン部分のための前記応答をスキャンすることと、
前記１つまたは複数のコンピュータ・プロセッサによって、ドメイン部分を地域固有の発音辞書エントリとマッチングさせることと
をさらに含む、請求項１に記載のコンピュータ実装方法。
テキスト・ツー・スピーチ出力を提供するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、１つまたは複数のコンピュータ可読ストレージ・デバイスと、前記１つまたは複数のコンピュータ可読ストレージ・デバイス上にまとめて格納済みのプログラム命令とを備え、前記格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
前記オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定するためのプログラム命令、
前記テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が前記一部分を含む、前記プログラム命令、および
前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、コンピュータ・プログラム製品。
前記格納済みのプログラム命令が、
前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む、請求項８に記載のコンピュータ・プログラム製品。
前記格納済みのプログラム命令が、
複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
地域固有の発音に応じて前記オーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分－地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築するためのプログラム命令をさらに含む、請求項８に記載のコンピュータ・プログラム製品。
前記格納済みのプログラム命令が、
ドメイン固有部分を定義するためのプログラム命令
をさらに含む、請求項１０に記載のコンピュータ・プログラム製品。
前記格納済みのプログラム命令が、
前記オーディオ・データをテキスト・データに変換するためのプログラム命令と、
ドメイン固有部分の前記テキスト・データをスキャンするためのプログラム命令と
をさらに含む、請求項１０に記載のコンピュータ・プログラム製品。
前記一部分が、単語、ｎグラム、および句のうちの少なくとも１つを含む、請求項８に記載のコンピュータ・プログラム製品。
前記格納済みのプログラム命令が、
前記オーディオ・データからユーザ・テキストを判定するためのプログラム命令と、
前記ユーザ・テキストに応じた応答を判定するためのプログラム命令と、
ドメイン部分のための前記応答をスキャンするためのプログラム命令と、
ドメイン部分を地域固有の発音辞書エントリとマッチングさせるためのプログラム命令と
をさらに含む、請求項８に記載のコンピュータ・プログラム製品。
テキスト・ツー・スピーチ出力を提供するためのコンピュータ・システムであって、前記コンピュータ・システムが、
１つまたは複数のコンピュータ・プロセッサと、
１つまたは複数のコンピュータ可読ストレージ・デバイスと、
前記１つまたは複数のコンピュータ・プロセッサによる実行のための、前記１つまたは複数のコンピュータ可読ストレージ・デバイス上の格納済みのプログラム命令であって、前記格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
前記オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定するためのプログラム命令、
前記テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が前記一部分を含む、前記プログラム命令、および
前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、前記格納済みのプログラム命令と
を備える、コンピュータ・システム。
前記格納済みのプログラム命令が、
前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む、請求項１５に記載のコンピュータ・システム。
前記格納済みのプログラム命令が、
複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
地域固有の発音に応じて前記オーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分－地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築するためのプログラム命令をさらに含む、請求項１５に記載のコンピュータ・システム。
前記格納済みのプログラム命令が、
ドメイン固有部分を定義するためのプログラム命令
をさらに含む、請求項１７に記載のコンピュータ・システム。
前記格納済みのプログラム命令が、
前記オーディオ・データをテキスト・データに変換するためのプログラム命令と、
ドメイン固有部分の前記テキスト・データをスキャンするためのプログラム命令と
をさらに含む、請求項１７に記載のコンピュータ・システム。
前記一部分が、単語、ｎグラム、および句のうちの少なくとも１つを含む、請求項１５に記載のコンピュータ・システム。