JP2024519263A - テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用 - Google Patents
テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用 Download PDFInfo
- Publication number
- JP2024519263A JP2024519263A JP2023560053A JP2023560053A JP2024519263A JP 2024519263 A JP2024519263 A JP 2024519263A JP 2023560053 A JP2023560053 A JP 2023560053A JP 2023560053 A JP2023560053 A JP 2023560053A JP 2024519263 A JP2024519263 A JP 2024519263A
- Authority
- JP
- Japan
- Prior art keywords
- specific
- text
- program instructions
- user
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title description 9
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000004044 response Effects 0.000 claims abstract description 56
- 238000003860 storage Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000002085 persistent effect Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003239 periodontal effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
ユーザ・オーディオ・データを受け取ることと、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、ユーザへのテキスト・ツー・スピーチ出力における単語のための、ユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用することとによって、テキスト・ツー・スピーチ出力を提供するためのシステムおよび方法。
Description
本開示は一般に、テキスト・ツー・スピーチ(TTS:text to speech)モデルの訓練におけるスピーチ・ツー・テキスト(STT:speech to text)データの使用に関する。本開示は詳細には、テキスト・ツー・スピーチ出力における使用のためのカスタマイズされたスピーチ・ツー・テキスト音素配列(phoneme sequence)の選択に関する。
アクセント分類モデルは、最小量のオーディオ・データからの話者のアクセントの認識および分類を可能にする。このようなモデルは、キーワードの、話者によって使用される音素を評価し、異なるアクセント分類に応じてカテゴライズされたキーワードの音素配列のデータベースと、使用されるキーワードの音素とをマッチングさせることによって、ユーザのアクセントを識別する。
スピーチ・ツー・テキスト・システムは、オーディオ・データを受け取り、データにおけるオーディオ音素配列の識別情報、および識別された音素配列を特定の単語として分類するための1つまたは複数の分類モデルの使用に応じて、テキスト出力を生成する。
テキスト・ツー・スピーチ・システムは、テキスト・データの文字列をスキャンし、テキスト・データのそれぞれの部分を、識別されたテキスト部分のデフォルト音素配列を含むデータベース・エントリとマッチングさせることによって、オーディオ出力を生成する。このようなシステムは、次いで、単語間の、および元のテキスト配列に存在する句読点に関連付けられた、適切な沈黙の追加を含む、テキスト配列に関連付けられた全音素配列の合成音声出力を生成する。
以下は、本開示の1つまたは複数の実施形態の基礎的な理解を提供するための概要を提示する。本概要は、主要もしくは重大な要素を識別すること、または、特定の実施形態の任意の範囲もしくは特許請求の範囲の任意の範囲を正確に描写することを意図するものではない。その唯一の目的は、後で提示される、より詳細な説明の前置きとして、簡単な形で概念を提示することである。本明細書で説明される1つまたは複数の実施形態では、デバイス、システム、コンピュータ実装方法、装置、もしくはコンピュータ・プログラム製品、またはそれらの組合せが、ユーザの地方特有の発音相違に応じたテキスト・ツー・スピーチ応答の自動生成を可能にする。
本発明の態様は、ユーザ・オーディオ・データを受け取ることと、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用することとによって、テキスト・ツー・スピーチ出力を提供することに関連付けられた方法、システム、およびコンピュータ可読媒体を開示する。
本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ実装方法が提供され、方法は、ユーザ・オーディオ・データを受け取ることと、1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データに応じたユーザへの応答のためのテキストを決定することと、1つまたは複数のコンピュータ・プロセッサによって、テキストから一部分を識別することであって、地域固有の発音辞書が一部分を含む、識別することと、1つまたは複数のコンピュータ・プロセッサによって、ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用することとを含む。
任意選択として、方法は、
1つまたは複数のコンピュータ・プロセッサによって、地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用すること
をさらに含む。
1つまたは複数のコンピュータ・プロセッサによって、地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用すること
をさらに含む。
任意選択として、方法は、
1つまたは複数のコンピュータ・プロセッサによって、複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
1つまたは複数のコンピュータ・プロセッサによって、地域固有の発音に応じてオーディオ・データを分類することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築することをさらに含む。任意選択として、方法は、1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分を定義することをさらに含む。任意選択として、方法は、1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データをテキスト・データに変換することと、1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分のテキスト・データをスキャンすることとをさらに含む。
1つまたは複数のコンピュータ・プロセッサによって、複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
1つまたは複数のコンピュータ・プロセッサによって、地域固有の発音に応じてオーディオ・データを分類することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築することをさらに含む。任意選択として、方法は、1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分を定義することをさらに含む。任意選択として、方法は、1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データをテキスト・データに変換することと、1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分のテキスト・データをスキャンすることとをさらに含む。
任意選択として、方法の一部分は、単語、nグラム、および句のうちの少なくとも1つをさらに含む。
任意選択として、方法は、
1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データからユーザ・テキストを判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ユーザ・テキストに応じた応答を判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分のための応答をスキャンすることと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分を地域固有の発音辞書エントリとマッチングさせることと
をさらに含む。
1つまたは複数のコンピュータ・プロセッサによって、オーディオ・データからユーザ・テキストを判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ユーザ・テキストに応じた応答を判定することと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分のための応答をスキャンすることと、
1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分を地域固有の発音辞書エントリとマッチングさせることと
をさらに含む。
本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ・プログラム製品が提供され、コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読ストレージ・デバイスと、1つまたは複数のコンピュータ可読ストレージ・デバイス上にまとめて格納済みのプログラム命令とを備え、格納済みのプログラム命令は、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む。
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む。
任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。
任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。
任意選択として、コンピュータ・プログラム製品の一部分は、単語、nグラム、および句のうちの少なくとも1つを含む。
任意選択として、コンピュータ・プログラム製品の格納済みのプログラム命令は、
オーディオ・データからユーザ・テキストを判定するためのプログラム命令と、
ユーザ・テキストに応じた応答を判定するためのプログラム命令と、
ドメイン部分のための応答をスキャンするためのプログラム命令と、
ドメイン部分を地域固有の発音辞書エントリとマッチングさせるためのプログラム命令と
をさらに含む。
オーディオ・データからユーザ・テキストを判定するためのプログラム命令と、
ユーザ・テキストに応じた応答を判定するためのプログラム命令と、
ドメイン部分のための応答をスキャンするためのプログラム命令と、
ドメイン部分を地域固有の発音辞書エントリとマッチングさせるためのプログラム命令と
をさらに含む。
本開示の主題のいくつかの実施形態の一態様によれば、テキスト・ツー・スピーチ出力を提供するためのコンピュータ・システムが提供され、コンピュータ・システムは、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ・デバイスと、
1つまたは複数のコンピュータ・プロセッサによる実行のための、1つまたは複数のコンピュータ可読ストレージ・デバイス上の格納済みのプログラム命令であって、格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、格納済みのプログラム命令と
を備える。
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ・デバイスと、
1つまたは複数のコンピュータ・プロセッサによる実行のための、1つまたは複数のコンピュータ可読ストレージ・デバイス上の格納済みのプログラム命令であって、格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
オーディオ・データに応じたユーザへの応答のためのテキストを決定するためのプログラム命令、
テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が一部分を含む、プログラム命令、および
ユーザへのテキスト・ツー・スピーチ出力における一部分のために、ユーザの地域固有の発音分類に応じて選択された地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、格納済みのプログラム命令と
を備える。
任意選択として、コンピュータ・システムの格納済みのプログラム命令は、
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。
地域固有の発音辞書にないテキストからの単語の、ユーザへのテキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む。
任意選択として、コンピュータ・システムの格納済みのプログラム命令は、
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。
複数の話者からのオーディオ・データを受け取ることであって、オーディオ・データが、ドメイン固有部分およびドメイン固有部分の地域固有の発音を含む、受け取ることと、
地域固有の発音に応じてオーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を、ドメイン固有部分-地域固有の発音の組合せのための音素文字列として格納することと
によって地域固有の発音辞書を構築するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、ドメイン固有部分を定義するためのプログラム命令をさらに含む。任意選択として、コンピュータ・システムの格納済みのプログラム命令は、オーディオ・データをテキスト・データに変換するためのプログラム命令と、ドメイン固有部分のテキスト・データをスキャンするためのプログラム命令とをさらに含む。
任意選択として、コンピュータ・システムの一部分は、単語、nグラム、および句のうちの少なくとも1つを含む。
追加の特徴および利点が、本発明の技法を通じて実現される。本発明の他の実施形態および態様は、本明細書で詳細に説明され、特許請求される発明の一部であると考えられる。
添付の図面における本開示のいくつかの実施形態のより詳細な説明を通じて、上記および他の目的、本開示の特徴および利点がより明らかになり、同じ参照番号は一般に、本開示の実施形態における同じ構成要素を指す。
いくつかの実施形態が、本開示の実施形態を図解した添付の図面を参照しながら、より詳細に説明される。それでも、本開示は、様々な様式で実行可能であり、したがって、本明細書で開示された実施形態に限定されるものと解釈されるべきではない。
現在、スピーチ・ツー・テキスト(STT)およびテキスト・ツー・スピーチ(TTS)システムは、特にドメイン適合中に、別個の長い訓練プロセスを必要とする。STTモデルを訓練しつつ、ドメイン専門用語のユーザ発音をキャプチャするために、多くの注意を払わなければならない。TTSシステムの訓練は、TTS読取りにおけるドメイン専門用語の音素配列の画一的な「最善の」合成を見つけようとすることを別々に必要とする。開示の実施形態は、以前に評価されたSTTデータからのドメイン専門用語の地域固有の音素配列の判定を可能にする。開示の実施形態は、システムが対話するユーザのアクセントに、ドメイン固有の専門用語を適合させることが可能な、テキスト・ツー・スピーチ・システムを提供する。これは、様々な方言およびアクセントを有する様々なバックグラウンドのユーザにとってのTTSシステムの精通および有用性を増加させる。開示の実施形態は、なじみの薄い単語のその発音パターンをユーザに適合させる快適なシステムを提供する。
本明細書で使用されるように、ドメインという用語は、医療用語、エンジニアリングまたは他の技術用語、業界用語、スラング、口語表現、地方特有の慣用語句など、固有のエリアに関する特定の言葉からの単語または技術用語および句のサブセットを指す。ドメインの任意の要素について、個人ユーザの地域方言およびアクセントに応じて、発音および実際の単語の両方の観点から、複数の地方特有の差違があり得る。例として、英語の発音は、ユーザの出身国、ならびに、国内の異なる地域、および英語がユーザの第1の言語であるか否かに応じて、変化し得る。一実施形態では、システムは、アドミニストレータまたは他の個人から、定義済みのドメイン単語を受け取る。本実施形態では、システムおよび方法は、ドメインおよびドメイン固有の単語を識別するために、履歴のユーザ入力および利用可能な辞書を使用して、ドメイン固有の単語を定義する。
本発明の態様は一般に、質問回答システムに関し、より詳細には、ユーザ質問に回答するための、ユーザの地方特有の発音アクセントまたは方言にマッチする、ドメイン固有の単語または句の音素配列を提供することに関する。実施形態では、質問回答(QA:question answering)システムは、ユーザの地方特有の発音相違、またはユーザの地方特有のアクセントもしくは方言を含む、ユーザからの質問を含むオーディオ・データを受け取る。システムは、訓練済み機械学習モデルを使用してユーザのアクセントを識別および分類する。システムは、ユーザの識別された地方特有の発音を考慮して、スピーチ・ツー・テキスト変換器を使用して、ユーザ・オーディオ・データをテキストに変換する。システムは、判定木または類似のモデルを使用してユーザの質問を評価し、ユーザの質問への応答を判定する。システムは、応答の1つまたは複数の部分を識別するために、判定された応答をスキャンする。それぞれの識別部分について、方法は、この部分の単語または句にマッチしかつユーザの識別されたアクセントに対応するエントリを求めて、地域固有の発音辞書をサーチする。方法は、識別部分の対応する地方特有の変形物を使用して応答を組み立てる。方法は、ユーザの識別されたアクセントに対応する部分の地方特有の発音の音素配列を抽出する。方法は、テキスト・ツー・スピーチ生成器および地方特有の発音の音素配列を使用して、地方特有のテキスト応答に対応するオーディオ・データを生成する。方法は、ユーザへのオーディオ出力として、ユーザのアクセントにおける識別部分の発音を含む生成されたテキスト・ツー・スピーチ出力を提供する。
一実施形態では、システムおよび方法は、システム・ユーザからのオーディオ・データを受け取る。方法は、スピーチ・ツー・テキスト・モデルを使用してオーディオ・データを転写し、次いで、それぞれのオーディオ・データ部分を、スピーチ・ツー・テキスト出力の各nグラム、単語、および句に関連付ける。方法は、次いで、テキストの単語に関連付けられたオーディオ・データの音素文字列を識別し、標的言語の多種多様な広く使用される単語のラベル付きの地方特有の発音を使用して訓練されたモデルに応じて、ユーザのアクセントを識別する。例えば、英語話者との使用のためにシステムを訓練することは、チャットボット、ボイスボット、または他の自動会話システムと対話するときに広く使用される英単語の地方特有の発音を含むラベル付きオーディオ・データを使用して、モデルを訓練することを含む。本実施形態では、方法は、ラベル付き訓練データを受け取り、スピーチ・データをテキストに変換し、識別された音素をスピーチ・ツー・テキスト出力に関連付ける。モデルは、オーディオ・データを受け取り、ユーザのアクセントに応じてデータを識別するように適合された、分類モデルのネットワーク・ノードの重みを確立する際に、データのアクセント・ラベルを利用する。
本発明の態様は、QAシステムの技術分野に改善をもたらす。従来のQAシステムは、ユーザが入力したオーディオのエンティティおよび意図を判定した後、テキスト・ツー・スピーチ生成器を使用してオーディオ・データ出力を生成する際に、静的な判定木および音素のデフォルト・セットを利用する。開示の実施形態は、nグラム、単語、および句についてのエントリを有する辞書を使用して、ユーザのアクセントを識別すること、および、このユーザのためのオーディオ・テキスト・ツー・スピーチ応答をカスタマイズすることによって、このようなシステムを基に構築する。各エントリは、1つまたは複数のユーザ・アクセントに応じて定義された音素配列を有する。例えば、任意の定義されたアクセントについて、辞書は、このアクセントに関連付けられた、ドメインおよびアクセント固有のエントリのセットを有する。追加として、辞書は、単一の辞書エントリの米国、インド、イングランド、スコットランド、アイルランド、およびオーストラリア・バージョンの音素発音配列を提供する、少なくともいくつかのエントリの複数の異なるアクセント音素配列を有するものとみなされることが可能である。
本発明の態様は、コンピュータ機能への改善も提供する。特に、本発明の実装形態は、様々なドメインおよび異なるアクセントのそれぞれの用語に関連付けられた絶えず調節された音素配列で具体化された、QAシステムが動作する方式への固有の改善を対象とする。開示の方法は、異なる用語-アクセントの組合せについての音素配列の地域固有の辞書でスタートする。経時的に、任意の特定の用語-アクセントの組合せにとっての最も一般的な音素配列は、システムおよび方法によって使用される辞書の進行中の訓練において入力データとして適用された、システム・ユーザからの入力オーディオ・データとして受け取られた特定のアクセントにおける用語にとって最も一般的な発音への変更に基づいて、この辞書エントリ用に変更され得る。
概観として、QAシステムは、自然言語で提示された所与の主題ドメインに関する質問に回答するデータ処理ハードウェア上で実行される人工知能アプリケーションである。QAシステムは、ネットワークを介した入力、電子文書または他のデータのコーパス、コンテンツ製作者からのデータ、1つまたは複数のコンテンツ・ユーザからの情報、および他の可能な入力源からの他のこのような入力を含む、様々なソースからの入力を受け取る。データ・ストレージ・デバイスは、データのコーパスを格納する。コンテンツ製作者は、QAシステムでデータのコーパスの一部として使用するための文書内のコンテンツを作り出す。文書は、QAシステムで使用するためのデータの任意のファイル、テキスト、記事、またはソースを含んでもよい。例えば、QAシステムは、ドメインについての知識の本体、または主題領域(例えば、金融ドメイン、医療ドメイン、法律ドメイン等)にアクセスし、知識の本体(知識ベース)は、存在論などのドメイン固有情報の構造化リポジトリ、またはドメインに関する非構造化データ、またはドメインについての自然言語文書のコレクションなどであるがこれらに限定されない、様々な構成で編成可能である。
一実施形態では、QAシステムはさらに、ユーザから受け取られたオーディオ・データからユーザのアクセントを識別する。システムは、ユーザ入力への応答を決定し、次いで、応答部分と、ユーザのアクセントを使用してカスタマイズされたオーディオ・テキスト・ツー・スピーチ出力を提供するために開示の実施形態によって開発された地域固有の発音辞書のエントリとの間のマッチに応じて、この応答を修正する。本実施形態では、方法は、ユーザの入力に応答してオーディオ出力を生成し、オーディオ出力は、ユーザの識別されたアクセントを使用してQA応答生成器によって生成された単語および句を表現する、1つまたは複数の音素配列を含む。
一実施形態では、システムの1つまたは複数の構成要素は、非常に技術的な問題を本質的に解決するためのハードウェアもしくはソフトウェアまたはその両方を採用することができる(例えば、ユーザ・オーディオ・データを受け取ること、スピーチ・ツー・テキスト分析、音素検出、および訓練済みのアクセント分類機械学習分類アーキテクチャを使用して、オーディオ・データに応じたユーザの地域固有の発音分類を判定すること、オーディオ・データならびに例えばスピーチ・ツー・テキスト・データから抽出された意図およびエンティティに適した判定木、に応じたユーザへの応答のためのテキストを決定すること、開発された地域固有の発音辞書内のマッチするテキストからの一部分を識別すること、ユーザへの生成されたテキスト・ツー・スピーチ出力の一部分のためにユーザの地域固有の発音分類に応じて選択された辞書からの音素文字列を使用すること等)。これらの解決策は抽象的ではなく、例えば、システム・ユーザのアクセントに応じてカスタマイズされた生成されたテキスト・ツー・スピーチ出力の生成を容易にするのに必要な処理能力により、人間による精神行為のセットとしての実施は不可能である。さらに、実施されるプロセスのうちのいくつかは、ユーザ・アクセントのカスタマイズされたテキスト・ツー・スピーチ音素文字列を生成することに関する定義済みタスクを実行するための専用のコンピュータによって実施されてもよい。例えば、質問回答システムまたは同様のものためのカスタマイズされたテキスト・ツー・スピーチ出力を生成することに関するタスクを実行するために、専用のコンピュータが採用されることが可能である。
一実施形態では、方法は、ユーザ固有のカスタマイズされたテキスト・ツー・スピーチ出力を自動会話システムに提供する際に使用するための、地域固有の発音辞書を構築する。辞書を構築する際に、方法は、複数の個人からの音声サンプルを含むオーディオ・データを受け取る。各オーディオ・データ・サンプルは、提供する個人のアクセントを指示するラベルを含む。本実施形態では、方法は、オーディオ・データ・サンプルに対するスピーチ・ツー・テキスト、および、データから音素配列の文字列を生ずるオーディオ・データの音素分析を実施する。方法は、次いで、音素配列とオーディオからのテキストとを相関させ、テキストの各単語、nグラム、もしくは句、またはそれらの組合せに対するテキスト-音素配列ペアリングを作り出す。実施形態では、ドメイン固有の単語に対して、方法は、オーディオ・データを作り出すときに個人が従うべきスクリプトまたは他のプロンプトを提供する。本実施形態では、方法は、関心のあるドメイン単語および句が、個人からのオーディオ・サンプルに含まれることを保証する。
一実施形態では、方法は、各ラベル付きアクセントに応じて音素-テキスト・ペアリングをソートする。各アクセントに対して、方法は、含んでいるテキストの各単語、および特にドメイン固有の単語にとって、最も一般的な音素配列を識別する。本実施形態では、ラベル付きアクセントに応じてソートされた音素配列は、すべてのユーザ・オーディオ・データ入力音素配列を、アクセントに応じてラベルを付けられた音素配列のセットと比較することによって、ユーザのアクセントを識別するための基礎を提供する。
一実施形態では、方法は、キーワード入力の小さいセットからのユーザのアクセントの分類を可能にすることに向けたステップとして、複数のアクセントにわたって使用される単語の音素配列を比較して、単一のアクセントまたはアクセントのサブセットに一意の音素配列を識別する。
アクセントのラベル付きデータ内に複数の異なる発音を有するドメイン固有またはアクセント固有の単語について、方法は、ラベル付きアクセントを表す発音として、最も一般的な発音を選択する。方法は、単語または句についてのアクセント固有辞書エントリにおける単語または句についての複数の発音のそれぞれの相対的なランク付けを指示する。一度使用すると、辞書は、アクセント固有発音を評価して、任意の特定の単語または句にとっての最も一般的な発音の変化を判定するために、継続的な検査を受ける。方法は、各アクセント固有の単語の様々な発音の発生の累積的なカウントを維持し、単語または句を含むユーザ入力によるこの単語の変化の異なる発音の相対的なランク付けの後、単語の辞書エントリを修正する。単語のアクセント固有の音素配列を含む地域固有の発音辞書を構築した後、方法は、下記で説明されるような、テキスト・ツー・スピーチ・オーディオ出力を生成する際に、辞書エントリを利用する。
例として、方法は、インド系英国人または米国系英国人アクセントのそれぞれが僅かにある個人を含む、数人の個人からのオーディオ・データ入力を受け取る。各個人について、方法は、「歯周の(periodontal)」という単語の個人の発音を含むオーディオ・データを再び声に出す。2つのアクセントのそれぞれの単語の例示的な発音が、表1に示されている。
表1から、方法は、USアクセントにとっての最も一般的な音素配列が、[.0px.2rY.0x.1dan.0txl]であると判定する。インドのアクセントにとっての最も一般的な発音は、[.2pi.0x.2rY.0x.1dan.0txl]である。「歯周の(periodontal)」に関する辞書エントリについて、方法は、各アクセントの複数の音素配列、および、どの音素配列が各アクセントにとって最も一般的であるかを指示することに言及する。
一実施形態では、方法は、質問回答システムなどの自動会話システムに関連付けられたユーザ・オーディオ・データを受け取る。オーディオ・データは、システムに接続されたマイクロフォンを通じて、ユーザから直接的に受け取られてもよく、または、ユーザのマイクロフォン、ユーザのコンピューティング・システム、通信ネットワーク、QAシステムに関連付けられた受け取るコンピューティング・システム、ならびに、エッジ・クラウドおよびクラウド・コンピューティング・リソースを場合によっては含む1つもしくは複数の中間コンピューティング・システムを介して、間接的に受け取られてもよい。本実施形態では、オーディオ・データは、ユーザが話した入力のデジタル・バージョンを含む、a.wavまたは類似のデータ・ファイルなどの、デジタル・オーディオ・ファイルを含む。ある意味では、オーディオ・データ・ファイルは、ユーザからの話した単語文字列に対応するデジタル音素配列の文字列を含む。
一実施形態では、方法は、オーディオ・データに対してスピーチ・ツー・テキスト変換を行い、ユーザが話した入力に対応するテキストの文字列を生ずる。方法は、さらに、オーディオ・データを分析して、オーディオ・データに対応する識別された音素の文字列を生じる。方法は、音素の文字列をテキストの文字列に相関させて、特定の音素配列を、テキストの文字列の各単語、部分的な単語、または単語の組合せに関連付ける。本実施形態では、方法は、相関させた音素配列-単語の組合せをマッチさせて、ユーザのアクセントまたは他の地方特有の発音を識別する。実施形態では、方法は、畳み込みニューラル・ネットワーク、回帰型ニューラル・ネットワーク、深層学習ニューラル・ネットワークなどの、訓練済み機械学習分類モデル、または、敵対的生成ネットワークもしくは変分オートエンコーダなどの、生成分類器を使用して、ユーザが入力したオーディオ・データの音素配列-単語相関関係に応じて、ユーザのアクセントを分類する。実施形態では、方法は、開示の発明の範囲外の以前に訓練済みの機械学習分類モデルを受け取る。訓練済みモデルは、ユーザのアクセント分類を出力として提供する。
方法は、自然言語理解、または自然言語処理アルゴリズムを使用してテキストの文字列を分析して、テキストの文字列からエンティティおよび意図を抽出する。一実施形態では、方法は、様々なエンティティおよび意図に関連付けられた親ノード、およびユーザの入力への可能なシステム応答に関連付けられた各親に対する子ノードを含む判定木を使用して、抽出されたエンティティおよび意図を処理する。判定木の出力は、ユーザの入力に応答して木によって選択されたテキスト文字列を含む。
一実施形態では、方法は、応答テキストをスキャンし、nグラム、単語、または句などの部分に、テキストをパースする。方法は、次いで、スキャンされたテキストの識別部分を、地域固有の発音辞書のエントリに相関させる。方法は、現在のシステム・ユーザの識別されたアクセントの、対応する単語-音素配列を有する辞書エントリに部分を相関させる。
本実施形態では、方法は、最も一般的なアクセント固有の音素配列を識別し、識別部分は、識別されたアクセントのマッチしたエントリを有する。方法は、テキスト応答のための全音素配列を生成する。全音素配列は、関連する地域固有の発音辞書エントリから抽出された音素配列を含む。地域固有の発音辞書におけるマッチがなく欠如しているテキスト部分について、方法は、これらのテキスト部分に関連付けられたデフォルトの音素配列を使用する。方法は、ユーザへのテキスト・ツー・スピーチ出力として、応答テキストの最終的な全音素配列を提供する。
一実施形態では、方法は、木の親ノードのうちの少なくともいくつかに対するアクセント固有の子ノードを含む判定木を利用する。本実施形態では、方法は、ユーザ入力に関する親判定ノードを識別する。方法は、入力の意図およびエンティティに応じて、入力に関する子ノードの判定および対応するセットを識別し、次いで、ユーザの識別されたアクセントに応じて、子ノードを選択する。本実施形態では、特定の親ノードに対して複数の子ノードがあってもよく、子ノードのセットは、アクセントに応じて異なるが、親ノードによる判定と同等の他の概念的な応答である。実際には、方法は、判定木を通じて親ノードに進み、ユーザ入力の詳細に応じて親の判定を評価し、他の同等の子ノードのセットを応答として選択し、次いで、ユーザの識別されたアクセントにマッチするこの子ノードを、ユーザへの出力応答として選択する。本実施形態では、方法は、次いで、ユーザへのテキスト・ツー・スピーチ出力の生成のために、ユーザの識別されたアクセントにマッチする音素配列を生成する際に、上記で説明されたように進む。
例として、2人のユーザが自動質問回答システムをコールし、1人のユーザが、米国英語アクセントを有し、1人のユーザがインド英語アクセントを有する。米国ユーザは、「念入りなクリーニングにはいくらかかりますか」と尋ねる。システムは、「通常のクリーニングの自己負担は$25です。[.0px.2rY.0x.1dan.0txl]の自己負担は$50です」と応答する。対照的に、インド人のユーザは、「クリーニング訪問のための自己負担はいくらですか」と尋ね、システムは、「通常のクリーニングの自己負担は$25です。[.2pi.0x.2rY.0x.1dan.0txl]の自己負担は$50です」と応答する。
図1は、開示の発明の実践に関連付けられた例示的なネットワーク・リソースの概略図を提供する。本発明は、命令ストリームを処理する開示の要素のいずれかのプロセッサで実践されてもよい。図に示されているように、ネットワーク化されたクライアント・デバイス110は、サーバ・サブ・システム102にワイヤレス接続する。クライアント・デバイス104は、ネットワーク114を介してサーバ・サブ・システム102にワイヤレス接続する。クライアント・デバイス104および110は、プログラムを実行するのに十分なコンピューティング・リソース(プロセッサ、メモリ、ネットワーク通信ハードウェア)と一緒に自動質問回答プログラム(図示せず)を備える。クライアント・デバイス104および110は、ユーザが入力を提供し、システムから出力を受け取ることを可能にする、QAシステムのためのユーザ・アクセス・ポイントとして機能してもよい。全体のシステム機能は、コンピューティング・デバイスのセットにわたって、ならびに、エッジ・クラウドおよびクラウド・リソースなどのさらなる環境リソースにわたって、発生してもよい。図1に示されているように、サーバ・サブ・システム102は、サーバ・コンピュータ150を備える。図1は、本発明の実施形態による、ネットワーク化コンピュータ・システム1000内のサーバ・コンピュータ150の構成要素のブロック図を描写している。図1は、一実装形態の例証を提供しているにすぎず、異なる実施形態を実装可能な環境に対するいかなる限定も示唆しないことを理解されたい。描写された環境に対して多くの修正を行うことができる。
サーバ・コンピュータ150は、プロセッサ154、メモリ158、永続ストレージ170、通信ユニット152、入出力(I/O)インターフェース156、および通信ファブリック140を含むことができる。通信ファブリック140は、キャッシュ162、メモリ158、永続ストレージ170、通信ユニット152、および入出力(I/O)インターフェース156の間の通信を提供する。通信ファブリック140は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサ等など)、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア構成要素の間でデータもしくは制御情報またはその両方を伝えるようにデザインされた任意のアーキテクチャで実装可能である。例えば、通信ファブリック140は、1つまたは複数のバスで実装可能である。
メモリ158および永続ストレージ170は、コンピュータ可読ストレージ媒体である。本実施形態では、メモリ158は、ランダム・アクセス・メモリ(RAM)160を含む。一般に、メモリ158は、任意の適切な揮発性または不揮発性コンピュータ可読ストレージ媒体を含むことができる。キャッシュ162は、メモリ158からの、最近アクセスされたデータ、およびほぼ最近アクセスしたデータを保持することによって、プロセッサ154の性能を強化する高速メモリである。
例えば、自動会話プログラム175といった、本発明の実施形態を実践するために使用されるプログラム命令およびデータは、キャッシュ162を介してサーバ・コンピュータ150のそれぞれのプロセッサ154のうちの1つまたは複数による実行もしくはアクセスまたはその両方のために、永続ストレージ170に格納される。本実施形態では、永続ストレージ170は、磁気ハードディスク・ドライブを含む。代替として、または磁気ハードディスク・ドライブに加えて、永続ストレージ170は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROM)、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納する能力がある任意の他のコンピュータ可読ストレージ媒体を含むことができる。
永続ストレージ170によって使用される媒体はまた、取外し可能でもよい。例えば、取外し可能ハード・ドライブが、永続ストレージ170のために使用されてもよい。他の例は、光および磁気ディスク、サム・ドライブ、ならびに同様に永続ストレージ170の一部である別のコンピュータ可読ストレージ媒体に移送するためにドライブに挿入されるスマート・カードを含む。
これらの例における通信ユニット152は、クライアント・コンピューティング・デバイス104、および110のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット152は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット152は、物理通信リンクおよびワイヤレス通信リンクのどちらかまたは両方の使用を通じて通信を提供してもよい。ソフトウェア分散プログラム、および本発明の実行のために使用される他のプログラムおよびデータは、通信ユニット152を通じてサーバ・コンピュータ150の永続ストレージ170にダウンロードされてもよい。
I/Oインターフェース156は、サーバ・コンピュータ150に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース156は、キーボード、キーパッド、タッチ・スクリーン、ユーザ・オーディオ・データを直接的に受け取るためのマイクロフォン、デジタル・カメラ、もしくは他のいくつかの適切な入力デバイス、またはそれらの組合せなど、外部デバイス190への接続を提供してもよい。外部デバイス190はまた、例えば、サム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読ストレージ媒体を含むことができる。例えば、サーバ・コンピュータ150上の自動会話プログラム175といった、本発明の実施形態を実践するために使用されるソフトウェアおよびデータは、このようなポータブル・コンピュータ可読ストレージ媒体に格納可能であり、I/Oインターフェース156を介して永続ストレージ170にロード可能である。I/Oインターフェース156は、ディスプレイ180にも接続する。
ディスプレイ180は、データをユーザに表示するためのメカニズムを提供し、例えば、コンピュータ・モニタでもよい。ディスプレイ180はまた、タブレット・コンピュータのディスプレイなど、タッチ・スクリーンとして機能してもよい。
図2は、本開示の実践に関連付けられた例示的な活動を示すフローチャート200を提供する。プログラムがスタートした後、ブロック210において、ユーザと自動質問回答システムとの間で会話が開始される。会話の一部として、方法は、ユーザからのオーディオ入力を受け取り、スピーチ・ツー・テキスト技術を使用して、このオーディオをテキストに変換し、分析のためにテキスト・データを伝える。一実施形態では、方法は、ユーザ・オーディオ・データを分析し、オーディオから音素配列を抽出する。方法は、オーディオからの音素配列のシーケンスを、スピーチ・ツー・テキストからのテキスト・データにマッチさせる。
ブロック220において、方法は、自動質問回答システム判定木、または他の自動応答生成器を使用して、会話のためのユーザの入力に関連付けられたテキスト・データへのテキスト応答を決定する。
判定ポイント230において、方法は、システムによって受け取られたユーザのオーディオ入力データから抽出された音素配列-テキスト・ペアリングを使用して、ユーザのアクセントを識別しようとする。一実施形態では、方法は、機械学習分類モデルを利用して、ユーザのアクセントを識別する。一実施形態では、方法は、音素配列-テキスト・ペアリングを、データベース内の音素配列テキスト・ペアリングのコーパスとマッチさせる。
ユーザがアクセントを成功裏に識別したことに対して、方法は、ブロック240において、システムで使用するために構築された地域固有の発音辞書内にマッチを有するテキスト応答の部分を識別することに進む。
ユーザがアクセントを成功裏に識別しなかったことに対して、方法は、ブロック260に進み、ブロック220の判定された応答に対して音素テキスト・ツー・スピーチ配列を生成する。このようなユーザのために、方法は、判定された応答の部分のためにデフォルト音素配列を利用する。
ブロック250において、方法は、ブロック240において識別された応答部分のために地方特有の発音音素配列を使用して、ブロック220の判定された応答のための全音素配列を生成する。ブロック240において識別された部分の地方特有の発音音素配列は、ブロック220からの判定された応答の他のすべての部分のデフォルト音素配列と、ブロック260において組み合わされる。地域固有の発音辞書からの地方特有の発音は、現在のユーザのアクセントと同じアクセントを有する複数の個人から収集されたオーディオ・データから導出された応答用語の最も一般的な発音に対応する。
ブロック270において、方法は、ブロック220の判定された応答に対応する最終的な全音素配列をテキスト・ツー・スピーチ・オーディオ出力としてユーザに提供する。出力は、ローカル・システム・スピーカを使用して、ユーザに直接的に提供されてもよく、または、QAシステムとインターフェースする、ローカル・コンピュータ、タブレット・コンピュータ、固定電話、もしくは携帯電話のようなデバイスを含むユーザ・デバイスに、通信ネットワークを介して提供されてもよい。
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で列挙される教示の実装形態は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか、後で開発される、他の任意のタイプのコンピューティング環境と併用して実装される能力がある。
クラウド・コンピューティングは、最低限の管理努力またはサービスの提供者との対話で素早く提供および解放可能な、構成可能なコンピューティング・リソースの共用プール(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)への便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含んでもよい。
特性は以下の通りである。
オンデマンド・セルフ・サービス:クラウド利用者は、サービスの提供者との人間対話を必要とせず、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的に提供することができる。
ブロード・ネットワーク・アクセス:能力は、ネットワークを介して利用可能であり、ヘテロジニアスなシンまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を推進する標準メカニズムを通じてアクセスされる。
リソース・プーリング:提供者のコンピューティング・リソースは、種々の物理および仮想リソースが、要求に応じて動的に割当ておよび再割当てされる、マルチ・テナント・モデルを使用して複数の利用者をサーブするためにプールされる。利用者には一般に、提供されるリソースの正確な位置についての制御権も知識もなく、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)で位置を指定でき得るという点で位置独立の意味がある。
迅速な弾力性:能力は、素早くスケール・アウトするために迅速かつ伸縮自在に、場合によっては自動的に提供され、素早くスケール・インするために迅速に解放されることが可能である。利用者にとって、提供のために利用可能な能力は無制限のように見えることが多く、いつでも任意の量で購入可能である。
測定されるサービス:クラウド・システムは、サービスのタイプに適した抽象化のいくつかのレベル(例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)で計量能力を活用することによって、リソース使用を自動的に制御し、最適化する。利用されるサービスの提供者と利用者双方に透明性をもたらすリソース使用率が、監視、制御、レポートされることが可能である。
サービス・モデルは以下の通りである。
サービスとしてのソフトウェア(SaaS):利用者に提供される能力は、クラウド・インフラストラクチャ上で動く提供者のアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などの、シン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。利用者は、限定的なユーザ固有アプリケーション構成設定を例外とする可能性もあるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、ことによると個々のアプリケーション能力を含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わない。
サービスとしてのプラットフォーム(PaaS):利用者に提供される能力は、提供者によってサポートされるプログラミング言語およびツールを使用して制作された、利用者制作または獲得アプリケーションを、クラウド・インフラストラクチャ上に配置することである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、配置されたアプリケーション、および場合によっては、アプリケーション・ホスティング環境構成に対する制御を行う。
サービスとしてのインフラストラクチャ(IaaS):利用者に提供される能力は、処理、ストレージ、ネットワーク、ならびに、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを利用者が展開して動かすことができる他の基本的なコンピューティング・リソースを提供することである。利用者は、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御、および場合によっては、選択されたネットワーキング構成要素(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
展開モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、組織のためにだけ運用される。クラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、敷地内または敷地外にあってもよい。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有の懸念(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス考慮)を有する固有のコミュニティをサポートする。クラウド・インフラストラクチャは、組織またはサード・パーティによって管理されてもよく、敷地内または敷地外にあってもよい。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模業界団体に対して利用可能にされ、クラウド・サービスを売る組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植を可能にする標準または独自の技術(例えば、クラウド間の負荷分散のためのクラウド・バースティング)と共に結びつけられた、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に焦点を置いたサービス指向のものである。クラウド・コンピューティングの中心には、相互接続ノードのネットワークを含むインフラストラクチャがある。
図3をここで参照すると、例証的なクラウド・コンピューティング環境50が描写されている。図示のように、クラウド・コンピューティング環境50は、例えば、パーソナル・デジタル・アシスタント(PDA)もしくはセルラー電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、またはそれらの組合せなど、クラウド利用者によって使用されるローカル・コンピューティング・デバイスが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信してもよい。ノード10は、以下で説明されるようなプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組合せなどの、1つまたは複数のネットワーク内で、物理的または仮想的にグループ化されてもよい(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド利用者がローカル・コンピューティング・デバイス上にリソースを維持する必要がないインフラストラクチャ、プラットフォーム、もしくはソフトウェアとしてのサービス、またはそれらの組合せを提供することができる。図3に示されたコンピューティング・デバイス54A~Nのタイプは例証にすぎないことが意図され、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、(例えば、ウェブ・ブラウザを使用して)任意のタイプのネットワークもしくはネットワーク・アドレス可能接続またはその両方を介して、任意のタイプのコンピュータ化デバイスと通信可能であることが理解される。
図4をここで参照すると、クラウド・コンピューティング環境50(図3)によって提供される機能抽象化層のセットが示されている。図4に示された構成要素、層、および機能は、例証にすぎないことが意図され、本発明の実施形態は、これらに限定されないことを予め理解されたい。描写されたように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化層70は、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75という、仮想エンティティの例が提供され得る抽象化層を提供する。
一例では、管理層80は、下記で説明される機能を提供してもよい。リソース提供81は、クラウド・コンピューティング環境内でタスクを実施するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を行う。計量および価格設定82は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの利用量に対する請求またはインボイスを行う。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド利用者およびタスクの検証、ならびに、データおよび他のリソースの保護を行う。ユーザ・ポータル83は、利用者およびシステム・アドミニストレータに、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルを満たすように、クラウド・コンピューティング・リソースの配分および管理を行う。サービス・レベル・アグリーメント(SLA)計画およびフルフィルメント85は、SLAに応じて、将来の要件が予想されるクラウド・コンピューティング・リソースの事前配置および調達を行う。
ワークロード層90は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ分析処理94、トランザクション処理95、ならびに自動会話プログラム175を含む。
本発明は、統合の任意の可能な技術詳細レベルにおける、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せでもよい。本発明は、命令ストリームを処理する単一または平行の任意のシステムにおいて有益に実践され得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持および格納可能な有形デバイスであることが可能である。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せでもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(登録商標)・ディスク、命令を記録したパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書で使用されるような、コンピュータ可読ストレージ媒体、またはコンピュータ可読ストレージ・デバイスは、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、本質的に一時的な信号であると解釈されるべきではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、または、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロード可能である。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを備えてもよい。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路機器用の構成データ、または、Smalltalk(登録商標)、C++、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードでもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータ上で、もしくは、部分的にユーザのコンピュータ上で、スタンド・アロンのソフトウェア・パッケージとして、または、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路機器、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化することによって、コンピュータ可読プログラム命令を実行してもよい。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら本明細書で説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、ならびにフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行可能であることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実行するための手段を作り出すべく、機械を生み出すために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、命令をまとめて格納したコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作の態様を実行する命令を含む製品を備えるべく、コンピュータ可読ストレージ媒体に格納されてもよく、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス、またはそれらの組合せに特定の様式で機能するように指図することができる。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実行するべく、コンピュータ実装処理を生み出すために、コンピュータ、他のプログラム可能装置、または他のデバイスで一連の動作ステップを実施するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてもよい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図の中の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表してもよい。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序とは無関係に行われてもよい。例えば、連続して示された2つのブロックは、実際には、実質的に同時に実行されてもよいし、またはブロックは、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、および、ブロック図もしくはフローチャート図またはその両方におけるブロックの組合せは、指定の機能または動作を行うか、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実行可能であることも指摘されることになる。
「1つの実施形態」、「一実施形態」、「実例の実施形態」等への本明細書における言及は、説明される実施形態が、特定の特徴、構造、または特性を含み得るが、あらゆる実施形態が、特定の特徴、構造、または特性を必ずしも含む必要がなくてもよいことを指示する。その上、このような句は、必ずしも同じ実施形態に言及しているわけではない。さらに、特定の特徴、構造、または特性が実施形態と共に説明されるとき、明示的に説明されてもされなくても、他の実施形態と共にこのような特徴、構造、または特性に影響を及ぼすことが当業者の知識内にあることが提起される。
本明細書で使用される専門用語は、特定の実施形態を説明するためのものにすぎず、本発明の限定を意図するものではない。本明細書で使用されるように、単数形「a」、「an」、および「the」は、文脈が別途明確に指示しない限り、複数形も同様に含むことが意図される。「備える(comprises)」もしくは「備える(comprising)」という用語、またはその両方は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、もしくは構成要素、またはそれらの組合せの存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、もしくはそのグループ、またはそれらの組合せの存在または追加を排除しないことがさらに理解されよう。
本発明の様々な実施形態の説明は、例証のために提示されてきたが、網羅的であること、または開示の実施形態に限定されることを意図するものではない。本発明の範囲から逸脱することなく、多くの変更形態および変形形態が当業者には明らかであろう。本明細書で使用される専門用語は、実施形態の原理、実践的応用、もしくは市場で見つかる技術に対する技術的改善を最も良く説明するように、または、本明細書で開示された実施形態を当業者が理解できるように、選ばれた。
Claims (20)
- テキスト・ツー・スピーチ出力を提供するためのコンピュータ実装方法であって、前記方法が、
ユーザ・オーディオ・データを受け取ることと、
1つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データに応じたユーザの地域固有の発音分類を判定することと、
前記1つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定することと、
前記1つまたは複数のコンピュータ・プロセッサによって、前記テキストから一部分を識別することであって、地域固有の発音辞書が前記一部分を含む、前記識別することと、
前記1つまたは複数のコンピュータ・プロセッサによって、前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用することと
を含む、コンピュータ実装方法。 - 前記1つまたは複数のコンピュータ・プロセッサによって、前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用すること
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 前記1つまたは複数のコンピュータ・プロセッサによって、複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
前記1つまたは複数のコンピュータ・プロセッサによって、地域固有の発音に応じて前記オーディオ・データを分類することと、
前記1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記1つまたは複数のコンピュータ・プロセッサによって、前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分-地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築することをさらに含む、請求項1に記載のコンピュータ実装方法。 - 前記1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分を定義すること
をさらに含む、請求項3に記載のコンピュータ実装方法。 - 前記1つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データをテキスト・データに変換することと、
前記1つまたは複数のコンピュータ・プロセッサによって、ドメイン固有部分の前記テキスト・データをスキャンすることと
をさらに含む、請求項3に記載のコンピュータ実装方法。 - 前記一部分が、単語、nグラム、および句のうちの少なくとも1つを含む、請求項1に記載のコンピュータ実装方法。
- 前記1つまたは複数のコンピュータ・プロセッサによって、前記オーディオ・データからユーザ・テキストを判定することと、
前記1つまたは複数のコンピュータ・プロセッサによって、前記ユーザ・テキストに応じた応答を判定することと、
前記1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分のための前記応答をスキャンすることと、
前記1つまたは複数のコンピュータ・プロセッサによって、ドメイン部分を地域固有の発音辞書エントリとマッチングさせることと
をさらに含む、請求項1に記載のコンピュータ実装方法。 - テキスト・ツー・スピーチ出力を提供するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、1つまたは複数のコンピュータ可読ストレージ・デバイスと、前記1つまたは複数のコンピュータ可読ストレージ・デバイス上にまとめて格納済みのプログラム命令とを備え、前記格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
前記オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定するためのプログラム命令、
前記テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が前記一部分を含む、前記プログラム命令、および
前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、コンピュータ・プログラム製品。 - 前記格納済みのプログラム命令が、
前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。 - 前記格納済みのプログラム命令が、
複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
地域固有の発音に応じて前記オーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分-地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築するためのプログラム命令をさらに含む、請求項8に記載のコンピュータ・プログラム製品。 - 前記格納済みのプログラム命令が、
ドメイン固有部分を定義するためのプログラム命令
をさらに含む、請求項10に記載のコンピュータ・プログラム製品。 - 前記格納済みのプログラム命令が、
前記オーディオ・データをテキスト・データに変換するためのプログラム命令と、
ドメイン固有部分の前記テキスト・データをスキャンするためのプログラム命令と
をさらに含む、請求項10に記載のコンピュータ・プログラム製品。 - 前記一部分が、単語、nグラム、および句のうちの少なくとも1つを含む、請求項8に記載のコンピュータ・プログラム製品。
- 前記格納済みのプログラム命令が、
前記オーディオ・データからユーザ・テキストを判定するためのプログラム命令と、
前記ユーザ・テキストに応じた応答を判定するためのプログラム命令と、
ドメイン部分のための前記応答をスキャンするためのプログラム命令と、
ドメイン部分を地域固有の発音辞書エントリとマッチングさせるためのプログラム命令と
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。 - テキスト・ツー・スピーチ出力を提供するためのコンピュータ・システムであって、前記コンピュータ・システムが、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ・デバイスと、
前記1つまたは複数のコンピュータ・プロセッサによる実行のための、前記1つまたは複数のコンピュータ可読ストレージ・デバイス上の格納済みのプログラム命令であって、前記格納済みのプログラム命令が、
ユーザ・オーディオ・データを受け取るためのプログラム命令、
前記オーディオ・データに応じたユーザの地域固有の発音分類を判定するためのプログラム命令、
前記オーディオ・データに応じた前記ユーザへの応答のためのテキストを決定するためのプログラム命令、
前記テキストから一部分を識別するためのプログラム命令であって、地域固有の発音辞書が前記一部分を含む、前記プログラム命令、および
前記ユーザへのテキスト・ツー・スピーチ出力における前記一部分のために、前記ユーザの地域固有の発音分類に応じて選択された前記地域固有の発音辞書からの音素文字列を使用するためのプログラム命令
を含む、前記格納済みのプログラム命令と
を備える、コンピュータ・システム。 - 前記格納済みのプログラム命令が、
前記地域固有の発音辞書にない前記テキストからの単語の、前記ユーザへの前記テキスト・ツー・スピーチ出力におけるデフォルト音素配列を使用するためのプログラム命令
をさらに含む、請求項15に記載のコンピュータ・システム。 - 前記格納済みのプログラム命令が、
複数の話者からのオーディオ・データを受け取ることであって、前記オーディオ・データが、ドメイン固有部分および前記ドメイン固有部分の地域固有の発音を含む、前記受け取ることと、
地域固有の発音に応じて前記オーディオ・データを分類することと、
ドメイン固有部分にとっての最も一般的な地域固有の発音を判定することと、
前記ドメイン固有部分にとっての前記最も一般的な地域固有の発音を、前記ドメイン固有部分-地域固有の発音の組合せのための前記音素文字列として格納することと
によって前記地域固有の発音辞書を構築するためのプログラム命令をさらに含む、請求項15に記載のコンピュータ・システム。 - 前記格納済みのプログラム命令が、
ドメイン固有部分を定義するためのプログラム命令
をさらに含む、請求項17に記載のコンピュータ・システム。 - 前記格納済みのプログラム命令が、
前記オーディオ・データをテキスト・データに変換するためのプログラム命令と、
ドメイン固有部分の前記テキスト・データをスキャンするためのプログラム命令と
をさらに含む、請求項17に記載のコンピュータ・システム。 - 前記一部分が、単語、nグラム、および句のうちの少なくとも1つを含む、請求項15に記載のコンピュータ・システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/245,048 | 2021-04-30 | ||
US17/245,048 US11699430B2 (en) | 2021-04-30 | 2021-04-30 | Using speech to text data in training text to speech models |
PCT/IB2022/053095 WO2022229743A1 (en) | 2021-04-30 | 2022-04-04 | Using speech to text data in training text to speech models |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024519263A true JP2024519263A (ja) | 2024-05-10 |
Family
ID=83808657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023560053A Pending JP2024519263A (ja) | 2021-04-30 | 2022-04-04 | テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11699430B2 (ja) |
JP (1) | JP2024519263A (ja) |
CN (1) | CN117043742A (ja) |
WO (1) | WO2022229743A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11875785B2 (en) * | 2021-08-27 | 2024-01-16 | Accenture Global Solutions Limited | Establishing user persona in a conversational system |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
TW413105U (en) | 1999-12-15 | 2000-11-21 | Chen Sen Kuen | Movable jaw structure of vise for clamping workpiece |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
ATE404967T1 (de) * | 2003-12-16 | 2008-08-15 | Loquendo Spa | Text-zu-sprache-system und verfahren, computerprogramm dafür |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
WO2006040908A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置及び音声合成方法 |
US7742919B1 (en) * | 2005-09-27 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | System and method for repairing a TTS voice database |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8290775B2 (en) * | 2007-06-29 | 2012-10-16 | Microsoft Corporation | Pronunciation correction of text-to-speech systems between different spoken languages |
US11290400B2 (en) * | 2009-12-22 | 2022-03-29 | Cyara Solutions Pty Ltd | System and method for testing of automated contact center customer response systems |
TWI413105B (zh) | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
US20130110511A1 (en) * | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US9275633B2 (en) * | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
US8849666B2 (en) * | 2012-02-23 | 2014-09-30 | International Business Machines Corporation | Conference call service with speech processing for heavily accented speakers |
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
US20140379334A1 (en) * | 2013-06-20 | 2014-12-25 | Qnx Software Systems Limited | Natural language understanding automatic speech recognition post processing |
KR20150027465A (ko) | 2013-09-04 | 2015-03-12 | 한국전자통신연구원 | 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 |
US11295730B1 (en) * | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10339920B2 (en) * | 2014-03-04 | 2019-07-02 | Amazon Technologies, Inc. | Predicting pronunciation in speech recognition |
CN104391673A (zh) * | 2014-11-20 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
US10152965B2 (en) * | 2016-02-03 | 2018-12-11 | Google Llc | Learning personalized entity pronunciations |
US20180032884A1 (en) * | 2016-07-27 | 2018-02-01 | Wipro Limited | Method and system for dynamically generating adaptive response to user interactions |
US10319250B2 (en) * | 2016-12-29 | 2019-06-11 | Soundhound, Inc. | Pronunciation guided by automatic speech recognition |
US10467335B2 (en) * | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
CN112334974A (zh) * | 2018-10-11 | 2021-02-05 | 谷歌有限责任公司 | 使用跨语言音素映射的语音生成 |
US10930274B2 (en) * | 2018-11-30 | 2021-02-23 | International Business Machines Corporation | Personalized pronunciation hints based on user speech |
US11450311B2 (en) * | 2018-12-13 | 2022-09-20 | i2x GmbH | System and methods for accent and dialect modification |
US20200372110A1 (en) * | 2019-05-22 | 2020-11-26 | Himanshu Kaul | Method of creating a demographic based personalized pronunciation dictionary |
CN110827803A (zh) | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
-
2021
- 2021-04-30 US US17/245,048 patent/US11699430B2/en active Active
-
2022
- 2022-04-04 WO PCT/IB2022/053095 patent/WO2022229743A1/en active Application Filing
- 2022-04-04 JP JP2023560053A patent/JP2024519263A/ja active Pending
- 2022-04-04 CN CN202280023555.0A patent/CN117043742A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN117043742A (zh) | 2023-11-10 |
US20220351715A1 (en) | 2022-11-03 |
US11699430B2 (en) | 2023-07-11 |
WO2022229743A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7412060B2 (ja) | 自然言語分類のための訓練データの拡張 | |
WO2022062595A1 (en) | Improving speech recognition transcriptions | |
US10565314B2 (en) | Disambiguating concepts in natural language | |
US11011161B2 (en) | RNNLM-based generation of templates for class-based text generation | |
US11711469B2 (en) | Contextualized speech to text conversion | |
US11586816B2 (en) | Content tailoring for diverse audiences | |
CN114450747B (zh) | 用于基于音频文件更新文档的方法、系统和计算机可读介质 | |
WO2022121684A1 (en) | Alternative soft label generation | |
GB2604675A (en) | Improving speech recognition transcriptions | |
US20220188525A1 (en) | Dynamic, real-time collaboration enhancement | |
JP2024519263A (ja) | テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用 | |
US10991370B2 (en) | Speech to text conversion engine for non-standard speech | |
US20230419950A1 (en) | Artificial intelligence factsheet generation for speech recognition | |
WO2023139015A1 (en) | Data sorting for generating speech recognition models | |
JP2023100253A (ja) | コンピュータ実装方法、コンピュータプログラム、システム(音声入力から構造化されたリソースへの自動化されたドメイン固有の制約デコード) | |
US20230335123A1 (en) | Speech-to-text voice visualization | |
US20230136842A1 (en) | Training data sequence for rnn-t based global english model | |
US20230316943A1 (en) | Cognitive framework for identification of questions and answers | |
US20220004711A1 (en) | Hypernym-hyponym pair induction | |
JP2022055347A (ja) | コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231106 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20231010 |