JP6767581B2 - 動的テキスト音声プロビジョニング - Google Patents
動的テキスト音声プロビジョニング Download PDFInfo
- Publication number
- JP6767581B2 JP6767581B2 JP2019523006A JP2019523006A JP6767581B2 JP 6767581 B2 JP6767581 B2 JP 6767581B2 JP 2019523006 A JP2019523006 A JP 2019523006A JP 2019523006 A JP2019523006 A JP 2019523006A JP 6767581 B2 JP6767581 B2 JP 6767581B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- data
- audio signal
- output
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 144
- 238000000034 method Methods 0.000 claims description 48
- 230000007613 environmental effect Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000036651 mood Effects 0.000 description 22
- 239000011295 pitch Substances 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Description
504 センサ
506 マイクロフォン
510 プロセッサ
512 アプリケーション決定器
514 近接度分類器
516 音声分類器
518 環境分類器
520 音声合成器
522 ムード分類器
526 オーディオ信号生成器
528 オーディオテンプレート選択器
530 スピーカ
Claims (24)
- コンピュータ実装方法であって、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータに基づいて、1つまたは複数のユーザ属性を1つまたは複数のコンピューティングデバイスによって決定するステップと、
出力されるべきデータを前記1つまたは複数のコンピューティングデバイスによって取得するステップと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを前記1つまたは複数のコンピューティングデバイスによって選択するステップと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を前記1つまたは複数のコンピューティングデバイスによって生成するステップと、
前記オーディオ信号を出力用に前記1つまたは複数のコンピューティングデバイスによって提供するステップとを備え、
前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータを決定するステップが、
第1のマイクロフォンからオーディオ信号データを取得するステップと、
第2のマイクロフォンからオーディオ信号データを取得するステップと、
前記第1のマイクロフォンからの前記オーディオ信号データの特性および前記第2のマイクロフォンからの前記オーディオ信号データの特性に基づいて、前記近接度インジケータを決定するステップとを備え、該決定するステップが、
前記第1のマイクロフォンからの前記オーディオ信号データの特性を、前記第2のマイクロフォンからの前記オーディオ信号データの特性と比較するステップであって、前記ユーザと前記ユーザデバイスとの間の前記距離が、前記オーディオ信号の前記特性の間の差分に反比例する、ステップと、
前記比較の結果に応じて、前記ユーザが前記ユーザデバイスから既定のしきい値距離よりも長い距離に位置することを示す近接度インジケータを決定するか、または既定のしきい値距離のスケールを使用して、前記ユーザが前記ユーザデバイスから既定のしきい値距離の前記スケールのうちの1つよりも短い距離に位置することを示す近接度インジケータを決定するステップとを備える、
コンピュータ実装方法。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項1に記載のコンピュータ実装方法。
- 環境属性を決定するステップと、
前記決定された環境属性に基づいて環境のタイプを決定するステップとをさらに備え、
前記オーディオ出力テンプレートが、環境の前記決定されたタイプにさらに基づいて選択される、
請求項1または2に記載のコンピュータ実装方法。 - 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項1または2に記載のコンピュータ実装方法。 - 前記オーディオ出力テンプレートを選択するステップが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数にさらに基づいて前記オーディオ出力テンプレートを選択するステップを備える、請求項1または2に記載のコンピュータ実装方法。
- データを出力するためのコマンドを前記1つまたは複数のコンピューティングデバイスによって受信するステップをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項1から5のいずれか一項に記載のコンピュータ実装方法。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定するステップが、
1つまたは複数のセンサからセンサデータを取得するステップと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定するステップとをさらに備える、
請求項1から6のいずれか一項に記載のコンピュータ実装方法。 - 前記ユーザからオーディオ音声信号を受信するステップをさらに備え、
出力用に提供される前記オーディオ信号が、前記受信されたオーディオ音声信号に一致するピッチ、トーン、または振幅を有する、
請求項1または請求項2に記載のコンピュータ実装方法。 - 第1および第2のオーディオ信号データの前記特性が振幅および周波数である、請求項1から8のいずれか一項に記載のコンピュータ実装方法。
- 1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を備える1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記動作が、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータに基づいて、1つまたは複数のユーザ属性を決定することと、
出力されるべきデータを取得することと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
前記オーディオ信号を出力用に提供することとを備え、
前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータを決定することが、
第1のマイクロフォンからオーディオ信号データを取得することと、
第2のマイクロフォンからオーディオ信号データを取得することと、
前記第1のマイクロフォンからの前記オーディオ信号データの特性および前記第2のマイクロフォンからの前記オーディオ信号データの特性に基づいて、前記近接度インジケータを決定することとを備え、該決定することが、
前記第1のマイクロフォンからの前記オーディオ信号データの特性を、前記第2のマイクロフォンからの前記オーディオ信号データの特性と比較することであって、前記ユーザと前記ユーザデバイスとの間の前記距離が、前記オーディオ信号の前記特性の間の差分に反比例する、ことと、
前記比較の結果に応じて、前記ユーザが前記ユーザデバイスから既定のしきい値距離よりも長い距離に位置することを示す近接度インジケータを決定するか、または既定のしきい値距離のスケールを使用して、前記ユーザが前記ユーザデバイスから既定のしきい値距離の前記スケールのうちの1つよりも短い距離に位置することを示す近接度インジケータを決定することとを備える、
1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
- 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項10または11に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数にさらに基づいて前記オーディオ出力テンプレートを選択することを備える、請求項10または11に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
- 前記動作が、
データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項10または11に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
1つまたは複数のセンサからセンサデータを取得することと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとをさらに備える、
請求項10から14のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 第1および第2のオーディオ信号データの前記特性が振幅および周波数である、請求項10から15のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
- システムであって、
1つまたは複数のコンピューティングデバイスと、前記1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備え、前記動作が、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータに基づいて、1つまたは複数のユーザ属性を決定することと、
出力されるべきデータを取得することと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
前記オーディオ信号を出力用に提供することとを備え、
前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータを決定することが、
第1のマイクロフォンからオーディオ信号データを取得することと、
第2のマイクロフォンからオーディオ信号データを取得することと、
前記第1のマイクロフォンからの前記オーディオ信号データの特性および前記第2のマイクロフォンからの前記オーディオ信号データの特性に基づいて、前記近接度インジケータを決定することとを備え、該決定することが、
前記第1のマイクロフォンからの前記オーディオ信号データの特性を、前記第2のマイクロフォンからの前記オーディオ信号データの特性と比較することであって、前記ユーザと前記ユーザデバイスとの間の前記距離が、前記オーディオ信号の前記特性の間の差分に反比例する、ことと、
前記比較の結果に応じて、前記ユーザが前記ユーザデバイスから既定のしきい値距離よりも長い距離に位置することを示す近接度インジケータを決定するか、または既定のしきい値距離のスケールを使用して、前記ユーザが前記ユーザデバイスから既定のしきい値距離の前記スケールのうちの1つよりも短い距離に位置することを示す近接度インジケータを決定することとを備える、
システム。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項17に記載のシステム。
- 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項17または18に記載のシステム。 - 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数にさらに基づいて前記オーディオ出力テンプレートを選択することを備える、請求項17または18に記載のシステム。
- 前記動作が、
データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項17または18に記載のシステム。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
1つまたは複数のセンサからセンサデータを取得することと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを備える、
請求項17から21のいずれか一項に記載のシステム。 - 第1および第2のオーディオ信号データの前記特性が振幅および周波数である、請求項17から22のいずれか一項に記載のシステム。
- プロセッサによって実行されたとき、請求項1から8のいずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/340,319 | 2016-11-01 | ||
US15/340,319 US10074359B2 (en) | 2016-11-01 | 2016-11-01 | Dynamic text-to-speech provisioning |
PCT/US2017/041960 WO2018084904A1 (en) | 2016-11-01 | 2017-07-13 | Dynamic text-to-speech provisioning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019536091A JP2019536091A (ja) | 2019-12-12 |
JP6767581B2 true JP6767581B2 (ja) | 2020-10-14 |
Family
ID=59388211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523006A Active JP6767581B2 (ja) | 2016-11-01 | 2017-07-13 | 動的テキスト音声プロビジョニング |
Country Status (7)
Country | Link |
---|---|
US (1) | US10074359B2 (ja) |
EP (1) | EP3510591B1 (ja) |
JP (1) | JP6767581B2 (ja) |
KR (1) | KR102245246B1 (ja) |
CN (1) | CN109891497B (ja) |
DE (1) | DE202017105485U1 (ja) |
WO (1) | WO2018084904A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3565577A4 (en) | 2017-01-06 | 2020-10-07 | Avidity Biosciences, Inc. | NUCLEIC ACID-POLYPEPTIDE COMPOSITIONS AND METHODS OF INDUCTION OF EXON SKIP |
KR101893768B1 (ko) * | 2017-02-27 | 2018-09-04 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
CN116319631A (zh) * | 2017-04-07 | 2023-06-23 | 微软技术许可有限责任公司 | 自动聊天中的语音转发 |
US10418033B1 (en) * | 2017-06-01 | 2019-09-17 | Amazon Technologies, Inc. | Configurable output data formats |
US10922490B2 (en) * | 2017-06-22 | 2021-02-16 | Microsoft Technology Licensing, Llc | System and method for authoring electronic messages |
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109686378B (zh) * | 2017-10-13 | 2021-06-08 | 华为技术有限公司 | 语音处理方法和终端 |
US10529355B2 (en) * | 2017-12-19 | 2020-01-07 | International Business Machines Corporation | Production of speech based on whispered speech and silent speech |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US10621983B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US10622007B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
CN109147800A (zh) * | 2018-08-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 应答方法和装置 |
JP2020042074A (ja) * | 2018-09-06 | 2020-03-19 | トヨタ自動車株式会社 | 音声対話装置、音声対話方法および音声対話プログラム |
CN109308892B (zh) * | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
WO2020153717A1 (en) | 2019-01-22 | 2020-07-30 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
JP2020121375A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社Preferred Networks | 制御装置、制御対象装置、制御方法及びプログラム |
JP7339124B2 (ja) | 2019-02-26 | 2023-09-05 | 株式会社Preferred Networks | 制御装置、システム及び制御方法 |
US11531736B1 (en) | 2019-03-18 | 2022-12-20 | Amazon Technologies, Inc. | User authentication as a service |
US11227578B2 (en) * | 2019-05-15 | 2022-01-18 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
JP7263957B2 (ja) * | 2019-07-19 | 2023-04-25 | 株式会社Jvcケンウッド | 情報装置、自動設定方法及び自動設定プログラム |
US11501758B2 (en) * | 2019-09-27 | 2022-11-15 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
CN112581935A (zh) * | 2019-09-27 | 2021-03-30 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
US20230035515A1 (en) * | 2019-10-15 | 2023-02-02 | Google Llc | Privacy enhanced personalization on public connections |
US11393471B1 (en) * | 2020-03-30 | 2022-07-19 | Amazon Technologies, Inc. | Multi-device output management based on speech characteristics |
CN111916065B (zh) * | 2020-08-05 | 2024-07-02 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
US11705108B1 (en) | 2021-12-10 | 2023-07-18 | Amazon Technologies, Inc. | Visual responses to user inputs |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7478047B2 (en) * | 2000-11-03 | 2009-01-13 | Zoesis, Inc. | Interactive character system |
US7881934B2 (en) | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
US20050144002A1 (en) | 2003-12-09 | 2005-06-30 | Hewlett-Packard Development Company, L.P. | Text-to-speech conversion with associated mood tag |
WO2005074588A2 (en) * | 2004-01-30 | 2005-08-18 | Yahoo! Inc. | Method and apparatus for providing dynamic moods for avatars |
JP4483450B2 (ja) * | 2004-07-22 | 2010-06-16 | 株式会社デンソー | 音声案内装置、音声案内方法およびナビゲーション装置 |
US7089099B2 (en) * | 2004-07-30 | 2006-08-08 | Automotive Technologies International, Inc. | Sensor assemblies |
US20060085183A1 (en) | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8880205B2 (en) * | 2004-12-30 | 2014-11-04 | Mondo Systems, Inc. | Integrated multimedia signal processing system using centralized processing of signals |
EP2140341B1 (en) * | 2007-04-26 | 2012-04-25 | Ford Global Technologies, LLC | Emotive advisory system and method |
US8316393B2 (en) * | 2008-10-01 | 2012-11-20 | At&T Intellectual Property I, L.P. | System and method for a communication exchange with an avatar in a media communication system |
US20100250231A1 (en) * | 2009-03-07 | 2010-09-30 | Voice Muffler Corporation | Mouthpiece with sound reducer to enhance language translation |
US8428063B2 (en) * | 2009-03-31 | 2013-04-23 | Comcast Cable Communications, Llc | Access network architecture having dissimilar access sub-networks |
US8400332B2 (en) * | 2010-02-09 | 2013-03-19 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
CN102385858B (zh) | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
US8620850B2 (en) * | 2010-09-07 | 2013-12-31 | Blackberry Limited | Dynamically manipulating an emoticon or avatar |
US9099972B2 (en) * | 2012-03-13 | 2015-08-04 | Motorola Solutions, Inc. | Method and apparatus for multi-stage adaptive volume control |
JP6003472B2 (ja) * | 2012-09-25 | 2016-10-05 | 富士ゼロックス株式会社 | 音声解析装置、音声解析システムおよびプログラム |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
PL401371A1 (pl) | 2012-10-26 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę |
EP2736276A1 (en) * | 2012-11-27 | 2014-05-28 | GN Store Nord A/S | Personal communications unit for observing from a point of view and team communications system comprising multiple personal communications units for observing from a point of view |
US20150046164A1 (en) * | 2013-08-07 | 2015-02-12 | Samsung Electronics Co., Ltd. | Method, apparatus, and recording medium for text-to-speech conversion |
US9711135B2 (en) | 2013-12-17 | 2017-07-18 | Sony Corporation | Electronic devices and methods for compensating for environmental noise in text-to-speech applications |
US9329833B2 (en) * | 2013-12-20 | 2016-05-03 | Dell Products, L.P. | Visual audio quality cues and context awareness in a virtual collaboration session |
US20160118036A1 (en) * | 2014-10-23 | 2016-04-28 | Elwha Llc | Systems and methods for positioning a user of a hands-free intercommunication system |
US20150242391A1 (en) * | 2014-02-25 | 2015-08-27 | Adobe Systems Incorporated | Contextualization and enhancement of textual content |
US10446168B2 (en) * | 2014-04-02 | 2019-10-15 | Plantronics, Inc. | Noise level measurement with mobile devices, location services, and environmental response |
CN105895112A (zh) * | 2014-10-17 | 2016-08-24 | 杜比实验室特许公司 | 面向用户体验的音频信号处理 |
US9489172B2 (en) | 2015-02-26 | 2016-11-08 | Motorola Mobility Llc | Method and apparatus for voice control user interface with discreet operating mode |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
CN105957528A (zh) * | 2016-06-13 | 2016-09-21 | 北京云知声信息技术有限公司 | 音频处理方法及装置 |
-
2016
- 2016-11-01 US US15/340,319 patent/US10074359B2/en active Active
-
2017
- 2017-07-13 JP JP2019523006A patent/JP6767581B2/ja active Active
- 2017-07-13 WO PCT/US2017/041960 patent/WO2018084904A1/en unknown
- 2017-07-13 CN CN201780067743.2A patent/CN109891497B/zh active Active
- 2017-07-13 EP EP17743186.3A patent/EP3510591B1/en active Active
- 2017-07-13 KR KR1020197013230A patent/KR102245246B1/ko active IP Right Grant
- 2017-09-11 DE DE202017105485.3U patent/DE202017105485U1/de active Active
Also Published As
Publication number | Publication date |
---|---|
KR102245246B1 (ko) | 2021-04-27 |
KR20190064626A (ko) | 2019-06-10 |
JP2019536091A (ja) | 2019-12-12 |
EP3510591A1 (en) | 2019-07-17 |
EP3510591B1 (en) | 2020-03-04 |
US20180122361A1 (en) | 2018-05-03 |
WO2018084904A1 (en) | 2018-05-11 |
DE202017105485U1 (de) | 2018-02-02 |
CN109891497A (zh) | 2019-06-14 |
CN109891497B (zh) | 2023-08-01 |
US10074359B2 (en) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6767581B2 (ja) | 動的テキスト音声プロビジョニング | |
US10733983B2 (en) | Parameter collection and automatic dialog generation in dialog systems | |
JP7379752B2 (ja) | デジタルアシスタントのためのボイストリガ | |
KR102312218B1 (ko) | 문맥상의 핫워드들 | |
KR101749009B1 (ko) | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 | |
KR102599607B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
JP2021508848A (ja) | ホームアシスタント装置を制御するための方法及びシステム | |
KR20190060015A (ko) | 제3자 서비스를 디지털 어시스턴트와 통합하기 위한 시스템 및 방법 | |
KR102392717B1 (ko) | 네트워크 시스템의 분산 식별 | |
US11810555B2 (en) | User profile linking | |
KR102396147B1 (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
US11756550B1 (en) | Integration of speech processing functionality with organization systems | |
JP2021149664A (ja) | 出力装置、出力方法及び出力プログラム | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
US11893996B1 (en) | Supplemental content output | |
KR102698417B1 (ko) | 디지털 어시스턴트를 위한 음성 트리거 | |
KR20230122394A (ko) | 기동어 기반 사용자 감성 분류를 통한 맞춤형 피드백 조명 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20190605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6767581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |