JP2019536091A - 動的テキスト音声プロビジョニング - Google Patents

動的テキスト音声プロビジョニング Download PDF

Info

Publication number
JP2019536091A
JP2019536091A JP2019523006A JP2019523006A JP2019536091A JP 2019536091 A JP2019536091 A JP 2019536091A JP 2019523006 A JP2019523006 A JP 2019523006A JP 2019523006 A JP2019523006 A JP 2019523006A JP 2019536091 A JP2019536091 A JP 2019536091A
Authority
JP
Japan
Prior art keywords
user
data
audio
output
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019523006A
Other languages
English (en)
Other versions
JP6767581B2 (ja
Inventor
フアン・ホセ・シルベイラ・オカンポ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019536091A publication Critical patent/JP2019536091A/ja
Application granted granted Critical
Publication of JP6767581B2 publication Critical patent/JP6767581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

動的テキスト音声(TTS)プロセスおよびシステムが説明される。情報をユーザに提供するためのコマンドの受信に応答して、デバイスは、情報を取り出し、(i)ユーザが問合せを発したときのデバイスとユーザとの間の距離および(ii)ユーザの音声特徴を含む、ユーザ属性および環境属性を決定する。ユーザ属性および環境属性に基づいて、デバイスは、ユーザの可能性が高いムード、ならびにユーザおよびユーザデバイスが位置する可能性が高い環境を決定する。ユーザの可能性が高いムードおよび音声特徴に一致するオーディオ出力テンプレートが選択される。オーディオ出力テンプレートはまた、ユーザおよびデバイスが位置する環境との互換性がある。取り出された情報は、選択されたオーディオ出力テンプレートを使用してオーディオ信号に変換され、デバイスによって出力される。

Description

本開示は、一般に、音声合成に関する。
テキスト音声(TTS:text-to-speech)機能は、オーディオ出力を提供するためのデバイスによって、ますます使用されている。しかしながら、TTS出力は、概して、ユーザ環境に自動的に適応可能ではなく、TTS出力を制御するために、デバイスのボリュームを制御することなどの少数の限られた方法しか利用可能でない。
いくつかの実装形態によれば、ユーザデバイス上で実行されるTTS動作は、ユーザの音声、ユーザの可能性が高い(likely)ムード、およびユーザデバイスが位置する環境を含む複数の要因に基づいて、オーディオ出力を自動的に制御および修正し得る。たとえば、いくつかの実装形態では、ユーザデバイスは、情報をユーザに提供するためのコマンドを受信し得る。コマンドの受信に応答して、ユーザデバイスは、コマンドに関係する情報を取り出し、(i)ユーザデバイスとユーザとの間の距離を示す近接度インジケータ、(ii)トーンまたはピッチなどの、ユーザの音声特徴、および(iii)環境雑音を含む、ユーザ属性および環境属性を決定し得る。ユーザデバイスはまた、取り出された情報がそれを通じて出力されるべきアプリケーションを決定し得る。ユーザデバイスは、ユーザ属性および環境属性に一致するとともに、ユーザおよびユーザデバイスが位置する環境との互換性がある、オーディオ出力テンプレートを選択する。取り出された情報は、選択されたオーディオ出力テンプレートに適合するオーディオ信号に変換され、ユーザデバイスによって出力される。ユーザデバイスがユーザプライバシーを維持することができ、情報を第三者に出力することまたは第三者のコマンドに応答することができないような、プライバシーポリシーおよびセキュリティポリシーが実施され得る。
いくつかの実装形態によれば、ユーザデバイスによって出力されるオーディオ信号は、たとえば、ユーザが話すトーンまたはピッチを一致させることによって、すなわち、ユーザの音声またはムードに一致すべきいくつかの単語または音節を発音することによって、ユーザの音声またはムードの特徴を模倣するように動的に生成され得る。いくつかの実装形態では、ユーザデバイスは、ユーザがユーザデバイスからどのくらい遠くにいるのかを決定し得、それに従ってオーディオ出力信号のボリュームすなわち強度を調整し得る。いくつかの実装形態では、ユーザデバイスは、ユーザがいる環境のタイプを決定し得、決定された環境タイプに従ってオーディオ出力信号を調整し得る。たとえば、ユーザデバイスは、ユーザが混雑した環境の中にいることを決定してよく、混雑した環境の中にいるのにもかかわらずユーザがオーディオ出力信号を聞き得るように、オーディオ出力信号のボリュームを大きくしてよい。別の例では、ユーザデバイスは、ユーザが混雑した環境の中にいることを決定してよく、ユーザが第三者に開示したくないことがある情報を秘密のままにするようにオーディオ信号を出力するために、ユーザに許可を要求してよい。
本明細書で説明する主題の発明的態様は、いくつかの実装形態では、動作を実行するためのコンピュータ実装方法を含む。動作は、(i)ユーザデバイスに関連するユーザの音声特徴および(ii)ユーザとユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を1つまたは複数のコンピューティングデバイスによって決定することを含む。動作はまた、出力されるべきデータを1つまたは複数のコンピューティングデバイスによって取得することを含む。動作はまた、1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを1つまたは複数のコンピューティングデバイスによって選択することを含む。動作はまた、選択されたオーディオ出力テンプレートを使用して、データを含むオーディオ信号を1つまたは複数のコンピューティングデバイスによって生成することを含む。動作はまた、オーディオ信号を出力用に1つまたは複数のコンピューティングデバイスによって提供することを含む。
実装形態は各々、以下の特徴のうちの1つまたは複数を随意に含み得る。たとえば、いくつかの実装形態では、ユーザデバイスに関連するユーザの音声特徴は、ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む。
いくつかの実装形態では、動作は、環境属性を決定することと、決定された環境属性に基づいて環境のタイプを決定することとを含む。オーディオ出力テンプレートは、環境の決定されたタイプに基づいて選択される。
いくつかの実装形態では、選択されたオーディオ出力テンプレートは、オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含む。選択されたオーディオ出力テンプレートは、決定された1つまたは複数のユーザ属性に一致する属性を含む。
いくつかの実装形態では、オーディオ出力テンプレートを選択する動作は、(I)出力されるべきデータのタイプおよび(II)出力されるべきデータを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいてオーディオ出力テンプレートを選択することを含む。
いくつかの実装形態では、動作は、データを出力するためのコマンドを受信することを含む。コマンドは、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む。
いくつかの実装形態では、ユーザとユーザデバイスとの間の距離を示す近接度インジケータに基づいて1つまたは複数のユーザ属性を決定する動作は、第1のマイクロフォンからオーディオ信号データを取得することと、第2のマイクロフォンからオーディオ信号データを取得することと、1つまたは複数のセンサからセンサデータを取得することと、センサデータ、第1のマイクロフォンからのオーディオ信号データ、および第2のマイクロフォンからのオーディオ信号データに基づいて、ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを含む。
いくつかの実装形態では、動作は、ユーザからオーディオ音声信号を受信することを含む。出力用に提供されるオーディオ信号は、受信されたオーディオ音声信号に一致するピッチ、トーン、または振幅を有する。
これらの態様の他の実装形態は、上述の方法のアクションを実施するように構成された、対応するシステム、装置、コンピュータ可読記憶媒体、およびコンピュータプログラムを含む。
実装形態は、ある範囲の技術的利点に関連し得る。概して、情報が容易に理解され得ることを確実にする方法で受信者に通信され得るように、選択されたオーディオテンプレートに基づいてオーディオ信号を生成することによって、最適化された通信方法が達成される。このことにより、場合によってはオーディオ信号の出力が繰り返されることを要求するようにユーザを促して、さらなる処理ステップを追加するとともにリソースを浪費することがある、通信される情報の解釈が誤りである可能性が最小限に抑えられる。したがって、オーディオ信号の生成に関連するコンピューティングデバイス上の負荷が低減され得る。
実装形態は、オーディオ信号の生成の際に使用されるリソースが浪費される必要がないという利点にさらに関連し得る。たとえば、静かなオーディオ信号が適切であるかまたは必要とされる環境の中では、対応するオーディオ出力テンプレートの選択は、出力されるオーディオ信号における不必要な振幅の必要を回避し、電力を節約する。同様に、特定のピッチ、トーン、または周波数を有するオーディオ信号を生成する際に消費されることがあるリソースの使用は、もっと小さい電力消費または処理計算量などの、低減されたリソース消費に関連するピッチ、トーン、または周波数が代わりに使用され得る場合に回避され得る。
実装形態は、環境がセキュアでないと決定される場合にオーディオ信号の出力を防止することを通じた、改善されたセキュリティにさらに関連し得る。このことは、オーディオ出力信号の不必要な生成を回避することを通じてリソースを節約するためのさらなる機会を与える。
1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。説明、図面、および特許請求の範囲から、他の特徴および利点が明らかになる。
TTS出力を提供する例示的なシナリオを示す図である。 TTS出力を提供する例示的なシナリオを示す図である。 TTS出力を提供する例示的なシナリオを示す図である。 TTS出力を提供する例示的なシナリオを示す図である。 TTS出力を提供する例示的なシナリオを示す図である。 TTS出力を提供するための方法を示すフローチャートである。 TTS出力を提供するための例示的なシステムを示す図である。
様々な図面における同様の参照符号および名称は、同様の要素を示す。
例示的な実装形態が、図を参照しながら説明される。
図1Aに示す例示的なシナリオでは、ユーザデバイスは、ユーザから離れた短い距離に位置し得る。ショートメッセージサービス(SMS:short message service)メッセージまたはマルチメディアメッセージングサービス(MMS:multimedia messaging service)メッセージなどのメッセージがユーザデバイスによって受信されると(A)、ユーザデバイスは、メッセージコンテンツを出力するためにメッセージングアプリケーションが使用されること、およびそのメッセージングアプリケーションがTTS出力用に構成されていることを決定し得る。
ユーザデバイスは、次いで、センサおよびマイクロフォンによって取得されたデータを利用して、ユーザ属性および環境属性を決定し得る。たとえば、以下でより詳細に説明するように、ユーザデバイスは、マイクロフォンおよびセンサを作動させて、ユーザの音声を監視するとともに環境条件を検出し得、ユーザデバイスからのユーザの距離を示す近接度インジケータを決定し得る。センサおよびマイクロフォンから受信されたデータに基づいて、ユーザデバイスによって決定される近接度インジケータは、たとえば、ユーザデバイスの12インチ内にユーザがいるらしいことを示し得る。ユーザデバイスはまた、ユーザおよびユーザデバイスが位置する環境が雑音の多い環境でないことを決定し得る。
ユーザデバイスは、次いで、受信メッセージの中のコンテンツをオーディオ信号に変換し得、決定された近接度インジケータに比例するボリュームとなるようにオーディオ信号の出力を制御し得る。図1Aに示すように、ユーザがユーザデバイスからほぼ12インチにいるらしいことを近接度インジケータが示すので、またユーザデバイスの周辺の環境が雑音の多い環境ではなさそうなので、ユーザデバイスは比較的小さいボリュームでオーディオ信号を出力してよい。たとえば、ユーザデバイスは、ユーザデバイスの最大ボリュームレベルの4分の1であるボリュームでオーディオ信号を使用して、受信メッセージ「食品雑貨類を自宅に持って帰るのを忘れないでください」というコンテンツを出力する(B)。
図1Bに示す例示的なシナリオでは、ユーザデバイスは、図1Aに示すシナリオと比較して、ユーザから離れてもっと遠くに位置し得る。ユーザおよびユーザデバイスは、たとえば、8フィートだけ引き離され得る。ショートメッセージサービス(SMS)メッセージまたはマルチメディアメッセージングサービス(MMS)メッセージなどのメッセージがユーザデバイスによって受信されると(A)、ユーザデバイスは、メッセージコンテンツを出力するためにメッセージングアプリケーションが使用されること、およびそのメッセージングアプリケーションがTTS出力用に構成されていることを決定し得る。
ユーザデバイスは、次いで、マイクロフォンおよびセンサを作動させてユーザ属性および環境属性を決定し得る。センサおよびマイクロフォンから受信されたデータに基づいて、ユーザデバイスによって決定される近接度インジケータは、たとえば、ユーザデバイスの8フィート内にユーザがいるらしいことを示し得る。ユーザデバイスは、次いで、受信メッセージの中のコンテンツをオーディオ信号に変換し得、近接度インジケータに比例するボリュームとなるようにオーディオ信号の出力を制御し得る。
図1Bを参照すると、ユーザがユーザデバイスからほぼ8フィートにいるらしいことを近接度インジケータが示すので、ユーザデバイスは、比較的大きいボリュームでオーディオ信号を出力してよい。たとえば、ユーザデバイスは、ユーザデバイスの最大ボリュームレベルの4分の3であるボリュームでオーディオ信号を使用して、受信メッセージ「食品雑貨類を自宅に持って帰るのを忘れないでください」を出力する(B)。
TTS出力を制御する上記で説明した自動的かつ動的な方法は、いくつかの理由で有利である。たとえば、ユーザがユーザデバイスの近くにいるときと、およびユーザがユーザデバイスから離れてもっと遠くにいるときとで、同じボリュームでオーディオ信号を出力することは望ましくないはずである。環境属性に加えてユーザの距離のファクタリングによって、ユーザは、メッセージを聞くかまたはユーザデバイスのボリュームを調整するだけのために、ユーザデバイスに対するユーザの位置が変化する度にユーザデバイスに向かって移動しなければならないという不自由を回避することができる。
図2Aを参照すると、ユーザデバイスは、ユーザから問合せを受け取る。問合せは、ユーザによってささやかれる。図示した問合せは「私のやることリストに何があるのかを私にリマインドしてくれますか」であるが、一般に、いかなる問合せが提起されてもよい。
問合せを受け取ると、ユーザデバイスは、ユーザ問合せに応答するために使用されるアプリケーションが、TTS出力用に構成されていることを決定し得る。ユーザデバイスは、次いで、マイクロフォンおよびセンサを作動させてユーザ属性および環境属性を決定し得る。
作動させられているマイクロフォンから、ユーザデバイスは、ユーザの音声のサンプルを取得し得る。音声サンプルは、ユーザの問合せのうちの様々なサイズの部分であってよい。音声サンプルは、1つまたは複数の音声特徴を決定するために処理され、そうした音声特徴は、限定はしないが、ユーザの音声に対応するオーディオ信号のピッチ、トーン、周波数、および振幅を含んでよい。
音声サンプルはまた、ユーザの可能性が高いムードまたは修辞的文体スタイルなどの、ユーザ特性を決定するために分類され得る。たとえば、音声サンプルは、ユーザが幸福であるらしいこと、興奮しているらしいこと、悲しいらしいこと、または不安であるらしいことを示すものとして、分類されてよい。音声サンプル分類はまた、たとえば、「私に」または「リマインド」などのいくつかの単語のユーザ発音などの、ユーザに固有の音声シグネチャを示し得る。音声特徴および分類を示すデータは、ユーザデータベースの中に記憶されたユーザプロファイルにユーザ属性として追加されてよく、場合によっては、音声認識目的のために使用されてよい。
ユーザデバイスは、次いで、複数のオーディオ出力テンプレートのデータベースにアクセスし、決定されたユーザ属性に対する類似度の程度が最も大きいオーディオ出力テンプレートを複数のテンプレートの中から選択する。場合によっては、好適なオーディオ出力テンプレートが選択できない場合、ユーザデバイスは、決定されたユーザ属性に基づく新たなテンプレートを作成してよく、または作成するためにサーバと通信してよい。
オーディオ出力テンプレートは、オーディオ信号を生成および出力するために使用されるテンプレートである。テンプレートは、ピッチ、トーン、周波数帯域、振幅、ユーザスタイル、およびユーザムードなどの、様々なパラメータを含み得る。これらのパラメータに対する値は、決定されたユーザ属性から提供されてよく、ユーザの音声と類似の特性を有するオーディオ出力テンプレートが、それによって生成され得る。
図2Aでは、音声特徴および分類に基づいて、ユーザデバイスは、ユーザがささやいていたらしいと決定し、ささやくオーディオ信号に対応する音声出力テンプレートを選択する。ささやくオーディオ信号に対応する音声出力テンプレートは、たとえば、低デシベル出力、低ボリューム、ならびにささやきに対応するピッチ、トーン、および周波数などの、オーディオ信号特徴を含み得る。
ユーザデバイスは、ユーザ問合せに応答するために、任意の好適なソースからデータを取得し得る。図示したシナリオでは、ユーザデバイスは、ユーザ問合せに応答するために、ユーザのやることリストまたはリマインダリストを検索してよい。この情報は、ネットワークの中でサーバと通信すること、または記憶デバイスの中に記憶されているデータを取り出すことによって、取得され得る。記憶デバイスは、ユーザデバイスの中に統合されてよく、またはユーザデバイスに取り付けられてもよい。
問合せに応答するためのデータを取得した後、ユーザデバイスは、オーディオ信号が、ユーザの属性に一致または類似する特性を有し得るように、取得されたデータを含み選択されたオーディオ出力テンプレートに適合するオーディオ信号を生成する。図2Aに示すように、ユーザデバイスは、食品雑貨類を自宅に持って帰ることがユーザのやることリストにあったことをユーザに通知するために、オーディオ信号を出力する(B)。ユーザデバイスは、ユーザデバイスがユーザの問合せに応答してユーザにささやき返しているかのように、オーディオ信号を出力する。ユーザデバイスのボリュームは、ささやきボリュームに一致すべき比較的低いレベル、たとえば、最大ボリュームレベルの4分の1に設定される。
図2Bの図示したシナリオでは、ユーザは、興奮を伴って絶叫することがあり、ユーザの好きなチームと競ってだれが試合に勝ったのかをユーザデバイスに尋ねることがある。図2Aを参照しながら上記で説明したプロセスを使用してユーザ属性を決定することによって、ユーザデバイスは、ユーザの問合せに応答するためのデータを取得し得、ユーザの属性を模倣する方法で、ユーザに応答するオーディオ信号を出力し得る。たとえば、ユーザデバイスによって出力されるオーディオ信号は、比較的大きいボリューム出力、たとえば、最大ボリュームレベルの4分の3を有してよく、興奮している人物に類似するトーンおよびピッチを有してよい。オーディオ信号は、ユーザのチームが2対1で勝ったことをユーザに通知するための情報を含む。
ユーザの入力問合せを模倣することは、いくつかの利点を与える。たとえば、ユーザは、大声で話すことができず、ささやかなければならない環境の中にいることがある。そのような環境では、可能性のある困惑、すなわち、ユーザを取り囲んでいる他の人々に迷惑をかけることを避けるために、ユーザは、ボリュームが大きい応答を避けたいものと思われることがある。したがって、動的TTSプロビジョニング方法を使用する結果として、ユーザは、ボリュームが小さい応答を受け取ることによって、そのような困惑させる可能性があるシナリオを回避することができ、ユーザは、ユーザのデバイスのオーディオ設定を修正しなくてよい。加えて、ユーザが、ユーザのムードを反映するユーザデバイスと対話する場合、ユーザエクスペリエンスが高められ得る。たとえば、興奮しているユーザは、問合せへの単調なまたは鈍い応答を受け取らないはずである。
図3は、TTSプロビジョニング方法のセキュリティ機能およびプライバシー機能が実施されるシナリオを示す。図3において、ユーザは車両の運転者であり、複数の同乗者がユーザと一緒に車両の中で着席している。車両は、車両センサから複数の信号を受信し、車両製造業者構成および運転者構成に従って動作を実行する車両制御モジュールを含む。たとえば、車両制御モジュールは、本明細書で説明する動的TTSプロビジョニング方法を実行し得る。運転者と通信するために、車両は、スピーカを通じてオーディオ信号を出力してよく、またはディスプレイデバイスを通じてメッセージを表示してもよい。
TTSプロビジョニング方法の中に統合されたセキュリティ機能およびプライバシー機能のなかには、音声認識機能および環境検出機能がある。車両制御モジュールは、ユーザの音声のサンプルを受信し、音声サンプルを処理し、音声認識目的のためにデータを記憶する。たとえば、車両制御モジュールは、ユーザの音声サンプルを処理して、ユーザのピッチ、トーン、周波数、および発音を検出してよく、ユーザプロファイルの中にユーザ属性としてこれらの音声特徴を記憶してよい。後続のオーディオ命令がユーザデバイスによって受信されると、ユーザデバイスは、オーディオ命令の音声特徴をユーザに関連する記憶されている音声特徴と比較することによって、受信されたオーディオ命令がユーザによって発行されたかどうかを決定してよい。
後続のオーディオ命令の音声特徴とユーザに関連する記憶されている音声特徴とが一致する場合、車両制御モジュールは、後続のオーディオ命令がユーザの命令であるらしいと決定してよい。車両制御モジュールは、次いで、オーディオ命令を処理してよく、対応する動作を実行してよい。たとえば、オーディオ命令が、ボリュームを大きくするためのものである場合、車両制御モジュールは、ボリュームを大きくするように制御信号をスピーカに送ってよい。
後続のオーディオ命令の音声特徴が、ユーザに関連する記憶されている音声特徴に一致しない場合、車両制御モジュールは、後続のオーディオ命令がユーザの命令であり得ないと決定する。たとえば、図3に示すように、車両の中の同乗者が、「最後のメッセージを私に読んでください」と車両制御モジュールに指令することによって、運転者の個人用メッセージを読み出すように車両制御モジュールに求めようと試みることがある(A)。車両制御モジュールは、受信されたコマンドを処理し、コマンドの音声特徴とユーザに関連する記憶されている音声特徴とが一致しないことを決定する。
いくつかの実装形態では、受信されたコマンドの音声特徴とユーザに関連する記憶されている音声特徴とが一致しない場合、車両制御モジュールは、コマンドにおける音声がユーザの音声に一致しなかったことを示すオーディオ信号を生成してよく、受信されたコマンドにおける命令が実行されるべきか否かを確認するためにユーザに尋ねてよい。たとえば、図示したように、車両制御モジュールは、メッセージ「違う人のように聞こえます。あなたの最後のメッセージを私が読んでもよろしいですか。」を生成してよく、車両の中のディスプレイデバイスまたは車両の中のスピーカを通じてメッセージを出力してよい。ユーザは、次いで、確認または拒否を伴って応答し得る。
いくつかの実装形態では、後続のオーディオ命令の音声特徴が、ユーザに関連する記憶されている音声特徴に一致しない場合、車両制御モジュールは、それ以上の行動を取らなくてよく、受信されたコマンドを無視してよい。
TTSプロビジョニング方法は、追加のセキュリティ機能を含んでよい。たとえば、いくつかの実装形態では、受信された音声コマンドがユーザのコマンドとして認識されない場合、TTSプロビジョニング方法は、受信された音声コマンドのトーンおよびピッチを模倣することなどの、いくつかの機能を実行しなくてよい。この機能は、様々な望ましくないシナリオ、たとえば、単にユーザデバイスに騒々しいボリュームでオーディオ信号を出力させるために他のユーザがユーザデバイスの方に絶叫することを回避することになる。
図4は、動的TTS出力を提供するための方法を示すフローチャートを示す。方法は、図5に示すシステムによって実行され得る。システムは、ユーザデバイスの中に、またはユーザデバイスを含む1つもしくは複数のネットワークにわたる分散的な方法で実装されてよい。システムは、トランシーバ502、1つまたは複数のセンサ504、1つまたは複数のマイクロフォン506、プロセッサ510、音声合成器520、およびスピーカ530を含む。プロセッサ510は、アプリケーション決定器512、ならびに近接度分類器514、音声分類器516、および環境分類器518を含む複数の分類器を含む。音声合成器520は、ムード分類器522、オーディオ信号生成器526、およびオーディオテンプレート選択器528を含むプロセッサであってよい。
ユーザデバイスは、限定はしないが、コンピュータ、ラップトップ、携帯情報端末、電子パッド、電子ノートブック、電話、スマートフォン、テレビジョン、スマートテレビジョン、腕時計、ナビゲーションデバイス、または概して、ネットワークに接続することができスピーカを有する任意の電子デバイスを含む、任意の好適な電子デバイスであってよい。ユーザデバイスは、ハードウェアおよびソフトウェアの任意の組合せであってよく、Android(登録商標)オペレーティングシステムなどの任意の好適なオペレーティングシステムを実行し得る。
ユーザは、本明細書で説明する動的TTSプロビジョニング方法を使用して、特定のアプリケーション用のデータをオーディオフォーマットで出力するようにユーザデバイスを構成し得る。たとえば、ユーザデバイスは、TTS機能を利用するとともに、あるアプリケーション用であるが別のアプリケーション用ではないオーディオ信号を出力するように、構成され得る。ユーザデバイスによって出力されるオーディオ信号は、ネットワークからアプリケーションによって取得されたデータ、またはユーザデバイスによって生成されるかまたは記憶されているデータを含み得る。出力され得るデータの例は、限定はしないが、テキストメッセージの中で受信されたコンテンツ、アプリケーションプッシュメッセージ、アラームアプリケーションまたはスケジューリングアプリケーションによる出力に対してスケジュールされたデータ、ウェブブラウジングアプリケーションによって取得されたコンテンツ、ユーザデバイスの中に記憶されているテキストベースコンテンツ、および概して、オーディオフォーマットで出力できる任意のデータを含む。
動的TTS出力を提供するための方法は、データを出力するためのコマンドが受信されると開始してよい(401)。コマンドは、様々な好適な方法で受信され得る。場合によっては、コマンドは、マイクロフォン506を通じて受信されるユーザコマンドであってよい。場合によっては、コマンドは、アプリケーション、サーバ、またはプロセッサによるコードの実行に応答して生成されてよい。たとえば、スケジューリングアプリケーションが、特定の時間においてTTSを使用してリマインダメッセージを出力するように構成され得る。別の例として、テキストメッセージが受信されてよく、受信されたテキストメッセージを出力するためのコマンドをトリガしてよい。
コマンドを受信した後、アプリケーション決定器512は、コマンドを処理するかまたはコマンドに応答するためにどのアプリケーションを使用すべきであるのかを決定してよく、決定されたアプリケーションがTTS出力用に構成されているかどうかを決定してよい(402)。概して、コマンドは分類されてよく、特定のアプリケーションにマッピングされ得る。アプリケーション決定器512は、コマンドを処理するかまたはコマンドに応答するためにどのアプリケーションを使用すべきであるのかを決定するために、マッピング情報にアクセスする。たとえば、電子メッセージまたはテキストメッセージを出力するためのコマンドが受信される場合、コマンドは、テキストメッセージング出力コマンドとして分類され、受信されたメッセージを出力するために使用され得るメッセージングアプリケーションにマッピングされる。別の例では、ユーザ問合せに対応するコマンドは、知識問合せとして分類されてよく、ブラウザアプリケーションにマッピングされてよい。ブラウザアプリケーションは、インターネットなどのネットワークから取り出されたデータを用いて問合せに応答するために使用され得る。
アプリケーションへのコマンドのマッピングは、ユーザデバイスの製造業者、プログラム作成者、またはユーザによって仕上げられてよい。場合によっては、ユーザは、特定のコマンドに応答するために特定のアプリケーションを使用することを指定してよい。たとえば、ユーザは、いくつかのブラウザのうちの1つを知識問合せに応答するためのデフォルトとして選択してよい。
コマンドのマッピングにアクセスし、コマンドを処理するかまたはコマンドに応答するためのアプリケーションを選択した後、アプリケーション決定器512は、選択されたアプリケーションがTTS出力用に構成されているかどうかを決定する。たとえば、アプリケーション決定器512は、選択されたアプリケーションがTTS出力用に構成されているかどうかを検証してよい。場合によっては、アプリケーション決定器512は、選択されたアプリケーションをトリガしてTTS出力を提供するために、1つまたは複数の条件が満たされているかどうかを決定してよい。たとえば、ジャイロスコープ、マイクロ波センサ、超音波センサなどの1つまたは複数のセンサ504によって提供されたデータに基づいて、ランニング移動または車での移動に対応する速度でユーザデバイスが移動中であることをシステムが決定する場合、システムは、ユーザ安全性を高めるために、動的TTSプロビジョニングを使用してデータがオーディオフォーマットでユーザに出力されるべきであると決定してよい。システムは、次いで、ユーザデバイスによって使用されるアプリケーションを、移動状態が持続する限りTTSを実行してオーディオフォーマットでデータを提供するように構成してよい。
選択されたアプリケーションが、TTS機能を使用してデータを出力するように構成されていない場合、システムは、図4に示さない他の方法を通じてコマンドに応答してよい(403)。たとえば、場合によっては、コマンドへの応答は、TTS出力を使用することなく生成されてよい。
いくつかの実装形態では、システムは、選択されたアプリケーションに対してTTS機能を有効にすることになるデータを取得してよく、TTS機能を有効にすることになるデータをユーザがダウンロードしたがっているかどうかをユーザに尋ねてよい。ユーザが、データをダウンロードすることに同意する場合、システムは、次いで、データをダウンロードおよび実行して、選択されたアプリケーションに対してTTS機能をインストールしてよく、以下で説明する動作404を実行してよい。ユーザが、データをダウンロードすることに同意しない場合、システムは、選択されたアプリケーションをTTS出力用に利用することができず、図4に示さない他の方法を通じてコマンドに応答してよい(403)。
選択されたアプリケーションが、TTS機能を使用してデータを出力するように構成されている場合、システムは、コマンドを処理するかまたはコマンドに応答するために、データを取り出そうと試みる(404)。データは、たとえば、インターネットなどのネットワークと通信してデータを取り出すこと、またはサーバ、データベース、もしくは記憶デバイスと通信してデータを取り出すことを含む、様々な好適な方法で取り出され得る。データがそこから取得されるソースは、アプリケーションのタイプおよびコマンドのタイプを含む、様々な要因によって決まる。たとえば、場合によっては、いくつかのコマンドを処理するために、アプリケーションは、アプリケーションデータベースまたはアプリケーションサーバからデータを取り出すように事前構成されてよい。対照的に、別のアプリケーションは、もっと大きいフレキシビリティを有してよく、同じコマンドに応答して様々な好適なデータソースからデータを取り出してよい。システムは、トランシーバ502を使用して、図5のシステムの中に含まれない任意のモジュールまたはデバイスと通信し得る。
システムが、コマンドを処理するかまたはコマンドに応答するためのデータを取り出すことができない場合、システムは、システムがコマンドに応答できないことを示す障害メッセージを出力する(406)。システムがデータを首尾よく取り出す場合、システムは、ユーザ属性(408)および環境属性(410)を決定する。
ユーザ属性を決定するために、システムは、1つまたは複数のセンサ504および1つまたは複数のマイクロフォン506を利用し得る。センサ504は、限定はしないが、タッチセンサ、静電容量式センサ、光センサ、および動きセンサを含む、様々な好適なセンサを含み得る。センサ504から受信されるデータは、様々なタイプの情報を提供するために使用され得る。たとえば、タッチセンサ、光センサ、または静電容量式センサは、ユーザがユーザデバイスにタッチしているのかそれともユーザデバイスの極近傍にいるのかを決定するために使用され得る。動きセンサは、ユーザデバイスの移動の方向、変位、または速度を決定するために使用され得る。光センサは、ユーザデバイスの周辺の照明条件を決定するために使用され得る。
1つまたは複数のマイクロフォン506は、ユーザデバイスにコマンドを発しているユーザまたは任意の人物からオーディオ信号を受信するために使用され得る。場合によっては、複数のマイクロフォン506がユーザデバイスと統合されてよい。複数のマイクロフォン506は各々、オーディオ信号を受信し得る。各マイクロフォンからのオーディオ信号は、ユーザデバイスからのユーザの距離を示す近接度インジケータを決定するために処理され得る。
たとえば、システムは、2つのマイクロフォンを有してよい。一方のマイクロフォンは、ユーザデバイスの1つの側部、たとえば、左側に配置され、他方のマイクロフォンは、ユーザデバイスの別の側部、たとえば、右側に配置される。ユーザが話すと、両方のマイクロフォンは、それぞれ、オーディオ信号を受信し得る。ユーザデバイスの片側、たとえば、左側におけるマイクロフォンを通じて受信されたオーディオ信号が、ユーザデバイスの反対側、たとえば、右側におけるマイクロフォンを通じて受信されたオーディオ信号よりも振幅が大きい場合、近接度分類器514は、ユーザまたはユーザの口がユーザデバイスの左側により近くにあるらしいと決定してよい。ユーザデバイスの右側におけるマイクロフォンを通じて受信されたオーディオ信号が、ユーザデバイスの左側におけるマイクロフォンを通じて受信されたオーディオ信号よりも振幅が大きい場合、近接度分類器514は、ユーザの口がユーザデバイスの右側により近くにあるらしいと決定してよい。
場合によっては、ユーザデバイスの片側、たとえば、左側におけるマイクロフォンにおいて検出されたオーディオ信号が、ユーザデバイスの反対側、たとえば、右側におけるマイクロフォンにおいて検出されたオーディオ信号よりも先に受信される場合、近接度分類器514は、ユーザまたはユーザの口がユーザデバイスの左側により近くにあるらしいと決定してよい。ユーザデバイスの右側におけるマイクロフォンにおいて検出されたオーディオ信号が、ユーザデバイスの左側におけるマイクロフォンにおいて検出されたオーディオ信号よりも先に受信される場合、近接度分類器514は、ユーザデバイスの右側により近くに位置するらしいと決定されてよい。両方のマイクロフォンにおいて受信された信号の時間差が大きい場合、ユーザは、時間的に遅くオーディオ信号を受信した方のマイクロフォンから離れてより遠くに、かつ時間的に早くオーディオ信号を受信した方のマイクロフォンにより近くに位置するらしいものと決定されてよい。
いくつかの実装形態では、複数のマイクロフォンによって受信されたオーディオ信号が、類似の特性、たとえば、類似の振幅および周波数を有する場合、近接度分類器514は、デバイスから特定のしきい値距離よりも長い距離にユーザが位置するらしいと決定してよい。複数のマイクロフォンによって受信されたオーディオ信号が異なる特性を有する場合、近接度分類器514は、デバイスから特定のしきい値距離よりも短い距離にユーザが位置するらしいと決定してよい。
いくつかの実装形態では、近接度インジケータを計算するために、1つまたは複数のマイクロフォン506によって受信された信号とともにスライディングスケールが使用されてよい。たとえば、複数のマイクロフォンによって受信されたオーディオ信号が同じ特性を有する場合、近接度分類器514は、特定の距離しきい値以上の距離にユーザが位置することを示す近接度インジケータを計算してよい。特定の距離しきい値は、ユーザデバイスおよびマイクロフォンのタイプに基づいて決定されてよく、ユーザデバイスの製造業者によって設定されてよい。マイクロフォンによって受信されたオーディオ信号の間の差分がもっと大きくなるとき、近接度分類器514は、スライディングスケールを適用してよく、特定の距離しきい値よりも短い距離にユーザが位置することを示す近接度インジケータを計算してよい。ユーザデバイスからの計算される距離は、オーディオ信号の差分に反比例し得、ユーザデバイスからのユーザの可能性が高い距離を計算するためにスライディングスケールが適用されてよい。
近接度インジケータに加えて、音声特徴および可能性が高いユーザムードなどの他のユーザ属性が決定されてよい。オーディオ信号がマイクロフォン506によって受信されると、オーディオ信号は、音声特徴を決定し可能性が高いユーザムードを予測するために使用されるデータを抽出するために、音声分類器516によって処理されてよい。音声特徴は、ユーザの音声のピッチ、周波数、振幅、およびトーン、ならびにユーザ発音パターンを含み得る。可能性が高いユーザムードは、幸福なムード、悲しいムード、または興奮したムードなどの、任意のタイプの人間のムードを含み得る。
音声特徴を決定するために、マイクロフォン506から受信されたオーディオ信号は、周囲雑音および環境雑音を除去するようにフィルタ処理されてよい。たとえば、人間の音声周波数の可能性が高い範囲、たとえば、80〜260Hzに相当するパスバンド帯域幅を有するフィルタが使用されてよい。フィルタ処理されたオーディオ信号は、オーディオ信号の振幅および周波数を抽出するために処理されてよい。音声分類器516は、抽出された振幅データおよび周波数データを受信して、ユーザの音声のピッチおよびトーンを決定してよい。ムード分類器522は、次いで、オーディオ信号のピッチデータ、トーンデータ、振幅データ、および周波数データに基づいて、ユーザの可能性が高いムードを予測してよい。分類器を使用して、ユーザから受信されたオーディオ信号を分類しユーザ属性を決定することによって、ユーザがささやいているのか、叫んでいるのか、幸福であるのか、悲しいのか、それとも興奮しているのかなどの、可能性が高いユーザ気質が決定され得る。
いくつかの実装形態では、音声分類器516は、受信オーディオ信号の中で使用される単語のイントネーションおよび発音を決定するために使用され得る言語学的分類器を含む。たとえば、言語学的分類器は、受信オーディオ信号の中の単語を識別し得、受信オーディオ信号の中でいくつかの単語が他の単語よりも多く発音されるかどうかを決定し得る。
音声特徴および可能性が高いユーザムードを含むユーザ属性は、ユーザ音声プロファイルの一部としてデータベースの中に記憶されてよい。ユーザ音声プロファイルは、いかなる識別情報も伴わずに匿名化されてよいが、ユーザデバイスのデフォルトユーザの音声プロファイルを示すユーザ属性データを含んでよい。いくつかの実装形態では、ユーザは、システムがユーザプロファイルを作成するかまたはユーザ属性を記憶することを許可するためのオプションを選択することによって、システムがユーザプロファイルを作成できるかどうかまたはユーザ属性を記憶できるかどうかを制御してよい。概して、ユーザプロファイルおよびユーザ属性データは、個人として確認できる情報がユーザに対して決定できないように匿名化され、またはユーザの地理的ロケーションは、ユーザの特定のロケーションが決定できないように、ロケーション情報が取得される場所に(都市レベル、郵便番号レベル、または州レベルなどに)一般化され得る。
いくつかの実装形態では、マイクロフォン506によって受信された音声信号から抽出されるデータは、精度目的および検証目的のために使用され得る。たとえば、あるマイクロフォンから受信されたオーディオ信号に基づいて決定されるユーザ属性情報は、別のマイクロフォンから受信されたオーディオ信号に基づいて決定されるユーザ属性情報と比較され得る。2つのマイクロフォンからの情報が同じである場合、システムは、ユーザ属性のその決定の際により大きい信頼度を有し得る。2つのマイクロフォンからの情報が異なる場合、ユーザデバイスは、ユーザ属性のその決定の際に小さい信頼度しか有し得ない。システムは、次いで、ユーザ属性を決定するために第3のマイクロフォンからデータを取得してよく、または2つのマイクロフォンによって受信された追加の音声信号を抽出および分類してよい。いくつかの実装形態では、複数のマイクロフォンによって受信された音声信号から抽出されるデータは平均化されてよく、平均データが処理されてユーザ属性を決定し得る。
環境属性を決定するために(410)、環境分類器518は、オーディオ信号を処理してユーザデバイスの周辺の可能性が高い環境特徴を分類し得る。たとえば、いくつかの実装形態では、振幅データおよび周波数データが受信オーディオ信号から抽出されてよく、ユーザの音声に対応する音声信号がフィルタで除去されてよい。振幅データおよび周波数データは、群衆、ビーチ、レストラン、自動車、またはテレビジョンセットが存在する環境などの、特定の環境に対応する音を含むらしいものとして受信信号を分類するために、環境分類器518によって使用され得る。
いくつかの実装形態では、センサ504からのデータは、独立して使用されてよく、または環境属性を決定するためのオーディオ信号分類とともに使用されてよい。たとえば、ユーザデバイスが特定の範囲の中の速度、たとえば、20マイル毎時以上で移動中であることを動きセンサが決定する場合、環境分類器518は、ユーザデバイス環境が移動中の車両を含む環境に相当するらしいと決定してよい。いくつかの実装形態では、センサデータに基づいて決定された環境属性情報が、オーディオデータに基づいて決定された環境属性情報と比較されてよい。センサデータに基づく環境属性情報がオーディオデータに基づく環境属性情報に一致する場合、環境分類器518は、環境属性のその決定の際に大きい信頼度を有し得る。センサデータに基づく環境属性情報がオーディオデータに基づく環境属性情報に一致しない場合、環境分類器518は、環境属性のその決定の際に小さい信頼度しか有し得ない。
いくつかの実装形態では、ユーザプライバシーを維持し、情報を第三者に出力しないように、または第三者のコマンドに応答しないように、プライバシーポリシーおよびセキュリティポリシーが実施されてよい。たとえば、ユーザ属性を決定した後、システムは、決定されたユーザ属性がユーザ音声プロファイルの中に記憶されているユーザ属性に一致するかどうかを検証してよい。決定されたユーザ属性が、記憶されているユーザ属性に一致する場合、システムは、オーディオ信号がユーザデバイスのユーザの音声に相当すると決定してよい。決定されたユーザ属性が、記憶されているユーザ属性に一致しない場合、システムは、オーディオ信号がユーザデバイスのユーザの音声に相当しないと決定してよい。システムは、次いで、動的TTSプロビジョニング方法を終了してよく、またはコマンドに応答するための許可をユーザに求めてよい。
いくつかの実装形態では、決定された環境属性は、システムが、決定された環境属性に対応する環境の中でオーディオデータを出力すべきかどうかを決定するために検証される。詳細には、オーディオ出力が制約または限定される環境が、環境の制約付きリストの中で列挙されてよい。決定された環境属性に対応する環境が、環境の制約付きリストの中で列挙されている場合、システムは、動的TTSプロビジョニング方法を終了してよく、またはコマンドに応答するための許可をユーザに求めてよい。たとえば、多くの異なる音声を伴う混雑した環境が、制約付き環境として列挙されており、かつ決定された環境属性が、ユーザデバイスが混雑した環境の中にあることを示す場合、システムは、動的TTSプロビジョニング方法を終了してよく、またはコマンドに応答するための許可をユーザに求めてよい。
再び図4を参照すると、決定されたユーザ属性および環境属性は、オーディオ出力信号用のオーディオテンプレートを選択するためにオーディオテンプレート選択器528によって使用され得る(412)。決定されたユーザ属性および環境属性に一致する特徴を有するオーディオ出力テンプレートが、オーディオテンプレートのデータベースから選択される。場合によっては、選択されるオーディオ出力テンプレートは、それぞれ、決定されたユーザ属性および環境属性における振幅、周波数、トーン、ピッチ、および発音に一致する、振幅、周波数、トーン、ピッチ、および発音を有する。場合によっては、選択されるオーディオ出力テンプレートの振幅、周波数、トーン、ピッチ、および発音のうちの1つまたは複数は、それぞれ、決定されたユーザ属性および環境属性における振幅、周波数、トーン、ピッチ、および発音のうちの1つまたは複数に一致し得る。
オーディオテンプレート選択器528は、オーディオ出力テンプレートのデータベースにアクセスして、複数のオーディオ出力テンプレートの中からオーディオ出力テンプレートを選択し得る。場合によっては、好適なオーディオ出力テンプレートが選択できない場合、システムは、決定されたユーザ属性に基づいて新たなテンプレートを生成し、オーディオ出力テンプレートのデータベースの中に新たなテンプレートを保存する。
図2Aに示すシナリオなどの例示的なシナリオでは、ユーザがユーザデバイスの近くに位置すること、およびささやくトーンでユーザがコマンドを発したことをユーザ属性が示し、かつユーザが静かな空間または部屋の中にいるらしいことを環境属性が示す場合、ユーザデバイスの中のオーディオテンプレート選択器528は、小さい出力ボリュームおよびささやくトーンを有するオーディオ出力テンプレートを選択してよい。
いくつかの実装形態では、オーディオ出力テンプレートは、コマンドに応答して出力されるべきコンテンツのタイプ、およびデータがそれを通じて出力されるべきアプリケーションのタイプのうちの、1つまたは複数に基づいて選択されてよい。たとえば、出力されるべきコンテンツが冗談である場合、陽気なトーンまたは冗談を言うトーンを使用するオーディオ出力テンプレートが選択されてよい。別の例として、コマンドに応答するためにオーディオブックアプリケーションが使用されるべきである場合、オーディオブックアプリケーションに対して構成されているオーディオ出力テンプレートが選択されてよい。コマンドに応答してデータを出力するために使用されるべきアプリケーションが、上記で説明したように動作402において決定される。概して、オーディオ出力テンプレートは、ユーザ属性、環境属性、出力されるべきコンテンツのタイプ、およびデータがそれを通じて出力されるべきアプリケーションのタイプの任意の組合せに基づいて、オーディオテンプレート選択器528によって選択され得る。
次に、動作404において取り出されたデータは、選択されたオーディオ出力テンプレートを使用してオーディオ信号生成器526によってオーディオ信号に変換される(414)。たとえば、図2Aに示すように、ユーザコマンドに応答して取得されたデータが「食品雑貨類を自宅に持って帰ることをリマインドしてください」である場合、このデータは、ユーザがささやくトーンを有することを示すユーザ属性に基づいて選択されるオーディオ出力テンプレートを使用して、オーディオ信号に変換される。オーディオ信号生成器526は、連結合成、ホルマント合成、調音合成、および隠れマルコフモデル(HMM:hidden Markov model)ベース合成などの、任意の好適なオーディオ合成器技法を使用して、取り出されたデータをオーディオ信号に変換し得る。
次に、オーディオフォーマットでの取得されたデータを含むオーディオ信号が、1つまたは複数のスピーカ530を使用して出力される(416)。
図5に示すシステムは、ユーザデバイスの中に、またはユーザデバイスを含む1つもしくは複数のネットワークにわたる分散的な方法で実装されてよい。
システムの中のトランシーバ502は、送信機および受信機を含み、1つまたは複数のネットワークサーバおよび1つまたは複数のデータベースと通信するために利用され得る。トランシーバは、増幅器、変調器、復調器、アンテナ、および様々な他の構成要素を含み得る。トランシーバは、他のネットワーク構成要素から受信されたデータを、プロセッサ510や音声合成器520などの他のシステム構成要素に導いてよい。トランシーバ527はまた、システム構成要素から受信されたデータを、1つまたは複数のネットワークの中の他のデバイスに導いてよい。
1つまたは複数のネットワークは、ネットワークアクセス、データトランスポート、および他のサービスを、システム、1つまたは複数のネットワークサーバ、および1つまたは複数のデータベースに提供し得る。概して、1つまたは複数のネットワークは、モバイル通信用グローバルシステム(GSM(登録商標))アソシエーション、インターネットエンジニアリングタスクフォース(IETF)、およびワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)フォーラムなどの標準化団体によって定義されるものを含む、一般に定義される任意のネットワークアーキテクチャを含んでよく、それを実装してよい。たとえば、1つまたは複数のネットワークは、GSM(登録商標)アーキテクチャ、汎用パケット無線サービス(GPRS)アーキテクチャ、ユニバーサル移動電気通信システム(UMTS)アーキテクチャ、およびロングタームエボリューション(LTE)と呼ばれるUMTSの発展のうちの1つまたは複数を実装し得る。1つまたは複数のネットワークは、WiMAXフォーラムによって定義されたWiMAXアーキテクチャ、またはワイヤレスフィデリティ(WiFi)アーキテクチャを実装し得る。1つまたは複数のネットワークは、たとえば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、仮想LAN(VLAN)、エンタープライズLAN、レイヤ3仮想プライベートネットワーク(VPN)、エンタープライズIPネットワーク、企業ネットワーク、またはそれらの任意の組合せを含み得る。
いくつかの実装形態では、1つまたは複数のネットワークは、クラウドシステム、1つまたは複数の記憶システム、1つまたは複数のサーバ、1つまたは複数のデータベース、アクセスポイント、およびモジュールを含み得る。クラウドシステムを含む1つまたは複数のネットワークは、インターネット接続性、およびネットワークに関係する他の機能を提供し得る。
1つまたは複数のサーバは、本明細書で説明する動的TTSプロビジョニング方法の1つまたは複数の動作を実施するためにシステムと通信し得る。1つまたは複数のサーバは、限定はしないが、パーソナルコンピュータ、サーバコンピュータ、一連のサーバコンピュータ、ミニコンピュータ、およびメインフレームコンピュータ、またはそれらの組合せを含む、1つまたは複数のネットワークに結合された任意の好適なコンピューティングデバイスを含み得る。たとえば、1つまたは複数のサーバは、ネットワークオペレーティングシステムを実行するウェブサーバ(または、一連のサーバ)を含み得る。
1つまたは複数のサーバはまた、セキュアソケットレイヤ(SSL:Secure Sockets Layer)保護ファイル転送プロトコル、セキュアシェルファイル転送プロトコル(SFTP:Secure Shell File Transfer Protocol)ベースの鍵管理、およびNaCl暗号化ライブラリなどの、共通かつ標準のプロトコルおよびライブラリを実装し得る。1つまたは複数のサーバは、クラウドコンピューティングおよび/またはネットワークコンピューティングのために使用され得、かつ/またはそれらを提供し得る。図に示さないが、1つまたは複数のサーバは、電子メール、SMSメッセージング、テキストメッセージングなどのメッセージング機能、および暗号化/解読サービス、サイバーアラートなどの他の機能を提供する外部システムへの接続を有してよい。
1つまたは複数のサーバは、1つまたは複数のデータベースに接続されてよく、またはそれと統合されてもよい。1つまたは複数のデータベースは、クラウドデータベース、またはデータベース管理システム(DBMS:database management system)によって管理されるデータベースを含み得る。概して、クラウドデータベースは、Pythonなどのプラットフォーム上で動作し得る。DBMSは、データベースの中のデータの編成、記憶、管理、および取出しを制御するエンジンとして実装され得る。DBMSは、しばしば、問合せ、バックアップ、および複製を行うための能力を提供し、規則を実施し、セキュリティを提供し、計算を行い、ロギングの変更およびアクセスを実行し、かつ最適化を自動化する。DBMSは、一般に、モデリング言語、データ構造、データベース問合せ言語、およびトランザクションメカニズムを含む。モデリング言語は、DBMSにおける各データベースのスキーマをデータベースモデルに従って定義するために使用され得、データベースモデルは、階層モデル、ネットワークモデル、リレーショナルモデル、オブジェクトモデル、またはいくつかの他の適用可能な知られているかもしくは便利な編成を含み得る。データ構造は、データを記憶するために、フィールド、レコード、ファイル、オブジェクト、および任意の他の適用可能な知られているかまたは便利な構造を含むことができる。DBMSはまた、記憶されているデータについてのメタデータを含んでよい。
1つまたは複数のデータベースは記憶データベースを含んでよく、記憶データベースは、たとえば、磁気ディスク、光磁気ディスク、光ディスク、EPROM、EEPROM、フラッシュメモリデバイスなどの、1つまたは複数の大容量記憶デバイスを含み得、データを記憶するために、内部ハードディスク、リムーバルディスク、光磁気ディスク、CD ROMディスク、またはDVD-ROMディスクとして実装され得る。いくつかの実装形態では、記憶データベースは、ユーザプロファイル、受信オーディオ信号を分類するための規則、オーディオテンプレートを選択するための規則、およびシステムの中の分類器をトレーニングするためのトレーニングデータのうちの1つまたは複数を記憶し得る。
概して、様々な機械学習アルゴリズム、ニューラルネットワーク、または規則が、システムの中の分類器をトレーニングおよび動作させるためにトレーニングデータと一緒に利用され得る。たとえば、音声分類器516は、ピッチやトーンなどの音声特徴を識別するためのトレーニングデータを用いてトレーニングされ得る。トレーニングデータは、ある範囲の周波数値および振幅値ならびに特定のピッチおよびトーンのモデルに対応する音声サンプルのうちの1つまたは複数を含み得る。ムード分類器522は、ユーザムードを識別するためのトレーニングデータを用いてトレーニングされ得る。ムード分類器522のためのトレーニングデータは、ユーザピッチ、ユーザトーン、周波数値および振幅値の範囲、ならびに特定のユーザムードに対応するサンプルを示す値を含み得る。
近接度分類器514は、1つまたは複数のマイクロフォンからのオーディオ信号データおよびパターン、ならびにセンサからのデータを解釈して、ユーザデバイスに対するユーザの可能性が高いロケーションおよび位置を決定するために、トレーニングされ得る。近接度分類器514のための規則は、距離しきい値およびスライディングスケールを定義する規則を含み得る。
環境分類器518は、環境属性を識別するためのトレーニングデータを用いてトレーニングされ得る。トレーニングデータは、フィルタ値、ある範囲の周波数値および振幅値のうちの1つまたは複数、ならびに特定の環境のモデルに対応するサンプルを含み得る。
本明細書で説明する実施形態ならびに機能動作および/またはアクションのすべては、デジタル電子回路構成で、または本明細書で開示する構造を含むコンピュータソフトウェア、ファームウェア、もしくはハードウェア、およびそれらの構造的均等物で、あるいはそれらのうちの1つまたは複数の組合せで実施され得る。実施形態は、1つまたは複数のコンピュータプログラム製品、たとえば、データ処理装置による実行のための、またはデータ処理装置の動作を制御するための、コンピュータ可読媒体上で符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。コンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読伝搬信号を生じさせる組成物、またはそれらのうちの1つもしくは複数の組合せであってよい。「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、当該のコンピュータプログラム用の実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つまたは複数の組合せを構成するコードを含み得る。伝搬信号は、人工的に生成された信号、たとえば、好適な受信機装置への送信用の情報を符号化するために生成される、機械で生成された電気信号、光信号、または電磁信号である。
プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも呼ばれるコンピュータプログラムは、コンパイル型言語またはインタープリタ型言語を含む任意の形式のプログラミング言語で書かれてよく、スタンドアロンプログラムとして、またはモジュール、構成要素、サブルーチン、もしくはコンピューティング環境における使用に適した他の単位として含む、任意の形式で展開され得る。コンピュータプログラムは、必ずしもファイルシステムの中のファイルに相当するとは限らない。プログラムは、当該のプログラムに専用の単一ファイルの中で他のプログラムもしくはデータを保持するファイルの一部分の中に、または協調された複数のファイルの中に記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するか、もしくは複数のサイトにわたって分散され通信ネットワークによって相互接続された、複数のコンピュータ上で実行されるように展開され得る。
本明細書で説明するプロセスおよび論理フローは、1つまたは複数のプログラマブルプロセッサが、1つまたは複数のコンピュータプログラムを実行して、入力データに対して動作し出力を生成することによってアクションを実行することによって、実行され得る。プロセスおよび論理フローはまた、専用論理回路構成、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてよく、それらとして装置が実装されてもよい。
コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの1つまたは複数の任意のプロセッサを含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。プロセッサは、ハードウェアとソフトウェアとの任意の好適な組合せを含み得る。
コンピュータの要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスを含み得る。概して、コンピュータはまた、データを記憶するための1つもしくは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、またはそれらからデータを受信するかもしくはそれらにデータを転送するために動作可能に結合されるか、あるいはその両方である。その上、コンピュータは、別のデバイス、たとえば、ユーザデバイスの中に組み込まれてよい。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内部ハードディスクまたはリムーバルディスク、光磁気ディスク、ならびにCD-ROMディスクおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路構成によって増補されてよく、またはその中に組み込まれてもよい。
本明細書は多くの細目を含むが、これらは本開示の範囲における限定または特許請求され得るものの限定として解釈されるべきでなく、むしろ特定の実施形態に特有の特徴の説明として解釈されるべきである。本明細書で別個の実施形態の文脈で説明するいくつかの特徴はまた、単一の実施形態における組合せで実施され得る。反対に、単一の実施形態の文脈で説明する様々な特徴はまた、複数の実施形態において別個に、または任意の好適な部分組合せで実施され得る。その上、特徴はいくつかの組合せで作用するものとして上記で説明されることがあり、そのように特許請求されることさえあるが、特許請求される組合せからの1つまたは複数の特徴は、場合によっては組合せから削除されてよく、特許請求される組合せは、部分組合せまたは部分組合せの変形形態を対象とすることがある。
同様に、アクションは図面において特定の順序で示されるが、このことは、そのようなアクションが、図示した特定の順序でもしくは順次に実行されること、または望ましい結果を達成するためにすべての図示したアクションが実行されることを必要とするものとして理解されるべきでない。その上、上記で説明した実施形態における様々なシステム構成要素の分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきでなく、説明するプログラム構成要素およびシステムが、概して、単一のソフトウェア製品の中で一緒に統合されてよく、または複数のソフトウェア製品の中にパッケージングされてよいことを理解されたい。
「のうちの1つまたは複数」という句および「のうちの少なくとも1つ」という句が要素の任意の組合せを含むことを理解されたい。たとえば、「AおよびBのうちの1つまたは複数」という句は、A、B、またはAとBの両方を含む。同様に、「AおよびBのうちの少なくとも1つ」という句は、A、B、またはAとBの両方を含む。
したがって、特定の実装形態が説明されている。他の実装形態が以下の特許請求の範囲内に入る。たとえば、特許請求の範囲に記載するアクションは、異なる順序で実行されてよく、やはり望ましい結果を達成する。
502 トランシーバ
504 センサ
506 マイクロフォン
510 プロセッサ
512 アプリケーション決定器
514 近接度分類器
516 音声分類器
518 環境分類器
520 音声合成器
522 ムード分類器
526 オーディオ信号生成器
528 オーディオテンプレート選択器
530 スピーカ

Claims (21)

  1. コンピュータ実装方法であって、
    (i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を1つまたは複数のコンピューティングデバイスによって決定するステップと、
    出力されるべきデータを前記1つまたは複数のコンピューティングデバイスによって取得するステップと、
    前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを前記1つまたは複数のコンピューティングデバイスによって選択するステップと、
    前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を前記1つまたは複数のコンピューティングデバイスによって生成するステップと、
    前記オーディオ信号を出力用に前記1つまたは複数のコンピューティングデバイスによって提供するステップと
    を備えるコンピュータ実装方法。
  2. 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項1に記載のコンピュータ実装方法。
  3. 環境属性を決定するステップと、
    前記決定された環境属性に基づいて環境のタイプを決定するステップとをさらに備え、
    前記オーディオ出力テンプレートが、環境の前記決定されたタイプに基づいて選択される、
    請求項1または2に記載のコンピュータ実装方法。
  4. 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
    前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
    請求項1または2に記載のコンピュータ実装方法。
  5. 前記オーディオ出力テンプレートを選択するステップが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択するステップを備える、請求項1または2に記載のコンピュータ実装方法。
  6. データを出力するためのコマンドを前記1つまたは複数のコンピューティングデバイスによって受信するステップをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
    請求項1から5のいずれか一項に記載のコンピュータ実装方法。
  7. 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定するステップが、
    第1のマイクロフォンからオーディオ信号データを取得するステップと、
    第2のマイクロフォンからオーディオ信号データを取得するステップと、
    1つまたは複数のセンサからセンサデータを取得するステップと、
    前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定するステップとを備える、
    請求項1から6のいずれか一項に記載のコンピュータ実装方法。
  8. 前記ユーザからオーディオ音声信号を受信するステップをさらに備え、
    出力用に提供される前記オーディオ信号が、前記受信されたオーディオ音声信号に一致するピッチ、トーン、または振幅を有する、
    請求項1または請求項2に記載のコンピュータ実装方法。
  9. 1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を備える1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記動作が、
    (i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を決定することと、
    出力されるべきデータを取得することと、
    前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
    前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
    前記オーディオ信号を出力用に提供することとを備える、
    1つまたは複数の非一時的コンピュータ可読記憶媒体。
  10. 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項9に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
  11. 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
    前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
    請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
  12. 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択することを備える、請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
  13. 前記動作が、
    データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
    請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
  14. 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
    第1のマイクロフォンからオーディオ信号データを取得することと、
    第2のマイクロフォンからオーディオ信号データを取得することと、
    1つまたは複数のセンサからセンサデータを取得することと、
    前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを備える、
    請求項9から13のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
  15. システムであって、
    1つまたは複数のコンピューティングデバイスと、前記1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備え、前記動作が、
    (i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を決定することと、
    出力されるべきデータを取得することと、
    前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
    前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
    前記オーディオ信号を出力用に提供することとを備える、
    システム。
  16. 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項15に記載のシステム。
  17. 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
    前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
    請求項15または16に記載のシステム。
  18. 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択することを備える、請求項15または16に記載のシステム。
  19. 前記動作が、
    データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
    請求項15または16に記載のシステム。
  20. 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
    第1のマイクロフォンからオーディオ信号データを取得することと、
    第2のマイクロフォンからオーディオ信号データを取得することと、
    1つまたは複数のセンサからセンサデータを取得することと、
    前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを備える、
    請求項15から19のいずれか一項に記載のシステム。
  21. プロセッサによって実行されたとき、請求項1から7のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2019523006A 2016-11-01 2017-07-13 動的テキスト音声プロビジョニング Active JP6767581B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/340,319 US10074359B2 (en) 2016-11-01 2016-11-01 Dynamic text-to-speech provisioning
US15/340,319 2016-11-01
PCT/US2017/041960 WO2018084904A1 (en) 2016-11-01 2017-07-13 Dynamic text-to-speech provisioning

Publications (2)

Publication Number Publication Date
JP2019536091A true JP2019536091A (ja) 2019-12-12
JP6767581B2 JP6767581B2 (ja) 2020-10-14

Family

ID=59388211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019523006A Active JP6767581B2 (ja) 2016-11-01 2017-07-13 動的テキスト音声プロビジョニング

Country Status (7)

Country Link
US (1) US10074359B2 (ja)
EP (1) EP3510591B1 (ja)
JP (1) JP6767581B2 (ja)
KR (1) KR102245246B1 (ja)
CN (1) CN109891497B (ja)
DE (1) DE202017105485U1 (ja)
WO (1) WO2018084904A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
US11233756B2 (en) * 2017-04-07 2022-01-25 Microsoft Technology Licensing, Llc Voice forwarding in automated chatting
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10922490B2 (en) * 2017-06-22 2021-02-16 Microsoft Technology Licensing, Llc System and method for authoring electronic messages
US10943583B1 (en) * 2017-07-20 2021-03-09 Amazon Technologies, Inc. Creation of language models for speech recognition
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10529355B2 (en) * 2017-12-19 2020-01-07 International Business Machines Corporation Production of speech based on whispered speech and silent speech
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
JP2020042074A (ja) * 2018-09-06 2020-03-19 トヨタ自動車株式会社 音声対話装置、音声対話方法および音声対話プログラム
CN109308892B (zh) * 2018-10-25 2020-09-01 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
WO2020153717A1 (en) 2019-01-22 2020-07-30 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device
JP2020121375A (ja) * 2019-01-30 2020-08-13 株式会社Preferred Networks 制御装置、制御対象装置、制御方法及びプログラム
US11531736B1 (en) 2019-03-18 2022-12-20 Amazon Technologies, Inc. User authentication as a service
US11227578B2 (en) * 2019-05-15 2022-01-18 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
JP7263957B2 (ja) * 2019-07-19 2023-04-25 株式会社Jvcケンウッド 情報装置、自動設定方法及び自動設定プログラム
US11501758B2 (en) * 2019-09-27 2022-11-15 Apple Inc. Environment aware voice-assistant devices, and related systems and methods
CN112581935A (zh) * 2019-09-27 2021-03-30 苹果公司 环境感知语音辅助设备以及相关系统和方法
US20230035515A1 (en) * 2019-10-15 2023-02-02 Google Llc Privacy enhanced personalization on public connections
US11393471B1 (en) * 2020-03-30 2022-07-19 Amazon Technologies, Inc. Multi-device output management based on speech characteristics
CN111916065A (zh) * 2020-08-05 2020-11-10 北京百度网讯科技有限公司 用于处理语音的方法和装置
US11705108B1 (en) 2021-12-10 2023-07-18 Amazon Technologies, Inc. Visual responses to user inputs

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060158A1 (en) * 2003-09-12 2005-03-17 Norikazu Endo Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP2006038929A (ja) * 2004-07-22 2006-02-09 Denso Corp 音声案内装置、音声案内方法およびナビゲーション装置
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
JP2014066579A (ja) * 2012-09-25 2014-04-17 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
US20150287421A1 (en) * 2014-04-02 2015-10-08 Plantronics, Inc. Noise Level Measurement with Mobile Devices, Location Services, and Environmental Response
US20160253149A1 (en) * 2015-02-26 2016-09-01 Motorola Mobility Llc Method and Apparatus for Voice Control User Interface with Discreet Operating Mode
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002232928A1 (en) * 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
US20050144002A1 (en) 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
WO2005074588A2 (en) * 2004-01-30 2005-08-18 Yahoo! Inc. Method and apparatus for providing dynamic moods for avatars
US7089099B2 (en) * 2004-07-30 2006-08-08 Automotive Technologies International, Inc. Sensor assemblies
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8880205B2 (en) * 2004-12-30 2014-11-04 Mondo Systems, Inc. Integrated multimedia signal processing system using centralized processing of signals
BRPI0809759A2 (pt) * 2007-04-26 2014-10-07 Ford Global Tech Llc "sistema informativo emotivo, sistemas de informações emotivas, métodos de condução emotiva de informações, sistemas informativos emotivos para um veículo de passageiro e método implementado por computador"
US8316393B2 (en) * 2008-10-01 2012-11-20 At&T Intellectual Property I, L.P. System and method for a communication exchange with an avatar in a media communication system
US20100250231A1 (en) * 2009-03-07 2010-09-30 Voice Muffler Corporation Mouthpiece with sound reducer to enhance language translation
US8428063B2 (en) * 2009-03-31 2013-04-23 Comcast Cable Communications, Llc Access network architecture having dissimilar access sub-networks
US8400332B2 (en) * 2010-02-09 2013-03-19 Ford Global Technologies, Llc Emotive advisory system including time agent
CN102385858B (zh) 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
US8620850B2 (en) * 2010-09-07 2013-12-31 Blackberry Limited Dynamically manipulating an emoticon or avatar
WO2013134929A1 (en) * 2012-03-13 2013-09-19 Motorola Solutions, Inc. Method and apparatus for multi-stage adaptive volume control
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
PL401371A1 (pl) 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
EP2736276A1 (en) * 2012-11-27 2014-05-28 GN Store Nord A/S Personal communications unit for observing from a point of view and team communications system comprising multiple personal communications units for observing from a point of view
US20150046164A1 (en) * 2013-08-07 2015-02-12 Samsung Electronics Co., Ltd. Method, apparatus, and recording medium for text-to-speech conversion
US9711135B2 (en) 2013-12-17 2017-07-18 Sony Corporation Electronic devices and methods for compensating for environmental noise in text-to-speech applications
US9329833B2 (en) * 2013-12-20 2016-05-03 Dell Products, L.P. Visual audio quality cues and context awareness in a virtual collaboration session
US20160118036A1 (en) * 2014-10-23 2016-04-28 Elwha Llc Systems and methods for positioning a user of a hands-free intercommunication system
US20150242391A1 (en) * 2014-02-25 2015-08-27 Adobe Systems Incorporated Contextualization and enhancement of textual content
CN105895112A (zh) * 2014-10-17 2016-08-24 杜比实验室特许公司 面向用户体验的音频信号处理
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
CN105957528A (zh) * 2016-06-13 2016-09-21 北京云知声信息技术有限公司 音频处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060158A1 (en) * 2003-09-12 2005-03-17 Norikazu Endo Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP2006038929A (ja) * 2004-07-22 2006-02-09 Denso Corp 音声案内装置、音声案内方法およびナビゲーション装置
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
JP2014066579A (ja) * 2012-09-25 2014-04-17 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
US20150287421A1 (en) * 2014-04-02 2015-10-08 Plantronics, Inc. Noise Level Measurement with Mobile Devices, Location Services, and Environmental Response
US20160253149A1 (en) * 2015-02-26 2016-09-01 Motorola Mobility Llc Method and Apparatus for Voice Control User Interface with Discreet Operating Mode
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
JP6767581B2 (ja) 2020-10-14
KR102245246B1 (ko) 2021-04-27
CN109891497B (zh) 2023-08-01
EP3510591A1 (en) 2019-07-17
EP3510591B1 (en) 2020-03-04
DE202017105485U1 (de) 2018-02-02
US20180122361A1 (en) 2018-05-03
CN109891497A (zh) 2019-06-14
US10074359B2 (en) 2018-09-11
KR20190064626A (ko) 2019-06-10
WO2018084904A1 (en) 2018-05-11

Similar Documents

Publication Publication Date Title
JP6767581B2 (ja) 動的テキスト音声プロビジョニング
JP7379752B2 (ja) デジタルアシスタントのためのボイストリガ
US11430442B2 (en) Contextual hotwords
US11227626B1 (en) Audio response messages
US20180293989A1 (en) Speech with context authenticator
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
KR20220123747A (ko) 공동 오디오-비디오 얼굴 애니메이션 시스템
CN111727474A (zh) 语音处理系统中的用户输入处理限制
CN111292733A (zh) 一种语音交互方法和装置
US11115409B2 (en) User authentication by emotional response
US20230419957A1 (en) User profile linking
US20240013784A1 (en) Speaker recognition adaptation
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
US11748713B1 (en) Data ingestion and understanding for natural language processing systems
US10924571B1 (en) Sending information to users
US10950231B1 (en) Skill enablement
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
US11227591B1 (en) Controlled access to data
US11893996B1 (en) Supplemental content output
US11763831B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
US20240212687A1 (en) Supplemental content output
KR20230122394A (ko) 기동어 기반 사용자 감성 분류를 통한 맞춤형 피드백 조명 시스템
CN117292705A (zh) 音频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20190605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200917

R150 Certificate of patent or registration of utility model

Ref document number: 6767581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250