JP2019536091A - 動的テキスト音声プロビジョニング - Google Patents
動的テキスト音声プロビジョニング Download PDFInfo
- Publication number
- JP2019536091A JP2019536091A JP2019523006A JP2019523006A JP2019536091A JP 2019536091 A JP2019536091 A JP 2019536091A JP 2019523006 A JP2019523006 A JP 2019523006A JP 2019523006 A JP2019523006 A JP 2019523006A JP 2019536091 A JP2019536091 A JP 2019536091A
- Authority
- JP
- Japan
- Prior art keywords
- user
- data
- audio
- output
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000007613 environmental effect Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000036651 mood Effects 0.000 abstract description 24
- 230000008569 process Effects 0.000 abstract description 15
- 230000004044 response Effects 0.000 abstract description 12
- 239000011295 pitch Substances 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
Description
504 センサ
506 マイクロフォン
510 プロセッサ
512 アプリケーション決定器
514 近接度分類器
516 音声分類器
518 環境分類器
520 音声合成器
522 ムード分類器
526 オーディオ信号生成器
528 オーディオテンプレート選択器
530 スピーカ
Claims (21)
- コンピュータ実装方法であって、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を1つまたは複数のコンピューティングデバイスによって決定するステップと、
出力されるべきデータを前記1つまたは複数のコンピューティングデバイスによって取得するステップと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを前記1つまたは複数のコンピューティングデバイスによって選択するステップと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を前記1つまたは複数のコンピューティングデバイスによって生成するステップと、
前記オーディオ信号を出力用に前記1つまたは複数のコンピューティングデバイスによって提供するステップと
を備えるコンピュータ実装方法。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項1に記載のコンピュータ実装方法。
- 環境属性を決定するステップと、
前記決定された環境属性に基づいて環境のタイプを決定するステップとをさらに備え、
前記オーディオ出力テンプレートが、環境の前記決定されたタイプに基づいて選択される、
請求項1または2に記載のコンピュータ実装方法。 - 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項1または2に記載のコンピュータ実装方法。 - 前記オーディオ出力テンプレートを選択するステップが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択するステップを備える、請求項1または2に記載のコンピュータ実装方法。
- データを出力するためのコマンドを前記1つまたは複数のコンピューティングデバイスによって受信するステップをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項1から5のいずれか一項に記載のコンピュータ実装方法。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定するステップが、
第1のマイクロフォンからオーディオ信号データを取得するステップと、
第2のマイクロフォンからオーディオ信号データを取得するステップと、
1つまたは複数のセンサからセンサデータを取得するステップと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定するステップとを備える、
請求項1から6のいずれか一項に記載のコンピュータ実装方法。 - 前記ユーザからオーディオ音声信号を受信するステップをさらに備え、
出力用に提供される前記オーディオ信号が、前記受信されたオーディオ音声信号に一致するピッチ、トーン、または振幅を有する、
請求項1または請求項2に記載のコンピュータ実装方法。 - 1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を備える1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記動作が、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を決定することと、
出力されるべきデータを取得することと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
前記オーディオ信号を出力用に提供することとを備える、
1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項9に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
- 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択することを備える、請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
- 前記動作が、
データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項9または10に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
第1のマイクロフォンからオーディオ信号データを取得することと、
第2のマイクロフォンからオーディオ信号データを取得することと、
1つまたは複数のセンサからセンサデータを取得することと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを備える、
請求項9から13のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。 - システムであって、
1つまたは複数のコンピューティングデバイスと、前記1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備え、前記動作が、
(i)ユーザデバイスに関連するユーザの音声特徴および(ii)前記ユーザと前記ユーザデバイスとの間の距離を示す近接度インジケータのうちの1つまたは複数に基づいて、1つまたは複数のユーザ属性を決定することと、
出力されるべきデータを取得することと、
前記1つまたは複数のユーザ属性に基づいて、オーディオ出力テンプレートを選択することと、
前記選択されたオーディオ出力テンプレートを使用して、前記データを含むオーディオ信号を生成することと、
前記オーディオ信号を出力用に提供することとを備える、
システム。 - 前記ユーザデバイスに関連する前記ユーザの前記音声特徴が、前記ユーザに関連するオーディオ音声信号におけるピッチ、トーン、周波数、および振幅のうちの1つまたは複数を含む、請求項15に記載のシステム。
- 前記選択されたオーディオ出力テンプレートが、前記オーディオ信号を出力用に構成するための振幅データ、周波数データ、単語発音データ、およびトーンデータを含み、
前記選択されたオーディオ出力テンプレートが、前記決定された1つまたは複数のユーザ属性に一致する属性を含む、
請求項15または16に記載のシステム。 - 前記オーディオ出力テンプレートを選択することが、(I)出力されるべき前記データのタイプおよび(II)出力されるべき前記データを提供するために使用されるアプリケーションのタイプのうちの1つまたは複数に基づいて前記オーディオ出力テンプレートを選択することを備える、請求項15または16に記載のシステム。
- 前記動作が、
データを出力するためのコマンドを受信することをさらに備え、前記コマンドが、データを取得するためのユーザ要求、または特定の時間においてデータを出力するようにプログラムされたアプリケーションからの命令を含む、
請求項15または16に記載のシステム。 - 前記ユーザと前記ユーザデバイスとの間の前記距離を示す前記近接度インジケータに基づいて前記1つまたは複数のユーザ属性を決定することが、
第1のマイクロフォンからオーディオ信号データを取得することと、
第2のマイクロフォンからオーディオ信号データを取得することと、
1つまたは複数のセンサからセンサデータを取得することと、
前記センサデータ、前記第1のマイクロフォンからのオーディオ信号データ、および前記第2のマイクロフォンからの前記オーディオ信号データに基づいて、前記ユーザの可能性が高いロケーションおよび可能性が高い距離を決定することとを備える、
請求項15から19のいずれか一項に記載のシステム。 - プロセッサによって実行されたとき、請求項1から7のいずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/340,319 US10074359B2 (en) | 2016-11-01 | 2016-11-01 | Dynamic text-to-speech provisioning |
US15/340,319 | 2016-11-01 | ||
PCT/US2017/041960 WO2018084904A1 (en) | 2016-11-01 | 2017-07-13 | Dynamic text-to-speech provisioning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019536091A true JP2019536091A (ja) | 2019-12-12 |
JP6767581B2 JP6767581B2 (ja) | 2020-10-14 |
Family
ID=59388211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523006A Active JP6767581B2 (ja) | 2016-11-01 | 2017-07-13 | 動的テキスト音声プロビジョニング |
Country Status (7)
Country | Link |
---|---|
US (1) | US10074359B2 (ja) |
EP (1) | EP3510591B1 (ja) |
JP (1) | JP6767581B2 (ja) |
KR (1) | KR102245246B1 (ja) |
CN (1) | CN109891497B (ja) |
DE (1) | DE202017105485U1 (ja) |
WO (1) | WO2018084904A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101893768B1 (ko) * | 2017-02-27 | 2018-09-04 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
US11233756B2 (en) * | 2017-04-07 | 2022-01-25 | Microsoft Technology Licensing, Llc | Voice forwarding in automated chatting |
US10418033B1 (en) * | 2017-06-01 | 2019-09-17 | Amazon Technologies, Inc. | Configurable output data formats |
US10922490B2 (en) * | 2017-06-22 | 2021-02-16 | Microsoft Technology Licensing, Llc | System and method for authoring electronic messages |
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109686378B (zh) * | 2017-10-13 | 2021-06-08 | 华为技术有限公司 | 语音处理方法和终端 |
US10529355B2 (en) * | 2017-12-19 | 2020-01-07 | International Business Machines Corporation | Production of speech based on whispered speech and silent speech |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US10621983B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US10622007B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
CN109147800A (zh) * | 2018-08-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 应答方法和装置 |
JP2020042074A (ja) * | 2018-09-06 | 2020-03-19 | トヨタ自動車株式会社 | 音声対話装置、音声対話方法および音声対話プログラム |
CN109308892B (zh) * | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
WO2020153717A1 (en) | 2019-01-22 | 2020-07-30 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
JP2020121375A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社Preferred Networks | 制御装置、制御対象装置、制御方法及びプログラム |
US11531736B1 (en) | 2019-03-18 | 2022-12-20 | Amazon Technologies, Inc. | User authentication as a service |
US11227578B2 (en) * | 2019-05-15 | 2022-01-18 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
JP7263957B2 (ja) * | 2019-07-19 | 2023-04-25 | 株式会社Jvcケンウッド | 情報装置、自動設定方法及び自動設定プログラム |
US11501758B2 (en) * | 2019-09-27 | 2022-11-15 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
CN112581935A (zh) * | 2019-09-27 | 2021-03-30 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
US20230035515A1 (en) * | 2019-10-15 | 2023-02-02 | Google Llc | Privacy enhanced personalization on public connections |
US11393471B1 (en) * | 2020-03-30 | 2022-07-19 | Amazon Technologies, Inc. | Multi-device output management based on speech characteristics |
CN111916065A (zh) * | 2020-08-05 | 2020-11-10 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
US11705108B1 (en) | 2021-12-10 | 2023-07-18 | Amazon Technologies, Inc. | Visual responses to user inputs |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060158A1 (en) * | 2003-09-12 | 2005-03-17 | Norikazu Endo | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
JP2006038929A (ja) * | 2004-07-22 | 2006-02-09 | Denso Corp | 音声案内装置、音声案内方法およびナビゲーション装置 |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
JP2014066579A (ja) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
US20150287421A1 (en) * | 2014-04-02 | 2015-10-08 | Plantronics, Inc. | Noise Level Measurement with Mobile Devices, Location Services, and Environmental Response |
US20160253149A1 (en) * | 2015-02-26 | 2016-09-01 | Motorola Mobility Llc | Method and Apparatus for Voice Control User Interface with Discreet Operating Mode |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002232928A1 (en) * | 2000-11-03 | 2002-05-15 | Zoesis, Inc. | Interactive character system |
US20050144002A1 (en) | 2003-12-09 | 2005-06-30 | Hewlett-Packard Development Company, L.P. | Text-to-speech conversion with associated mood tag |
WO2005074588A2 (en) * | 2004-01-30 | 2005-08-18 | Yahoo! Inc. | Method and apparatus for providing dynamic moods for avatars |
US7089099B2 (en) * | 2004-07-30 | 2006-08-08 | Automotive Technologies International, Inc. | Sensor assemblies |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8880205B2 (en) * | 2004-12-30 | 2014-11-04 | Mondo Systems, Inc. | Integrated multimedia signal processing system using centralized processing of signals |
BRPI0809759A2 (pt) * | 2007-04-26 | 2014-10-07 | Ford Global Tech Llc | "sistema informativo emotivo, sistemas de informações emotivas, métodos de condução emotiva de informações, sistemas informativos emotivos para um veículo de passageiro e método implementado por computador" |
US8316393B2 (en) * | 2008-10-01 | 2012-11-20 | At&T Intellectual Property I, L.P. | System and method for a communication exchange with an avatar in a media communication system |
US20100250231A1 (en) * | 2009-03-07 | 2010-09-30 | Voice Muffler Corporation | Mouthpiece with sound reducer to enhance language translation |
US8428063B2 (en) * | 2009-03-31 | 2013-04-23 | Comcast Cable Communications, Llc | Access network architecture having dissimilar access sub-networks |
US8400332B2 (en) * | 2010-02-09 | 2013-03-19 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
CN102385858B (zh) | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
US8620850B2 (en) * | 2010-09-07 | 2013-12-31 | Blackberry Limited | Dynamically manipulating an emoticon or avatar |
WO2013134929A1 (en) * | 2012-03-13 | 2013-09-19 | Motorola Solutions, Inc. | Method and apparatus for multi-stage adaptive volume control |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
PL401371A1 (pl) | 2012-10-26 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę |
EP2736276A1 (en) * | 2012-11-27 | 2014-05-28 | GN Store Nord A/S | Personal communications unit for observing from a point of view and team communications system comprising multiple personal communications units for observing from a point of view |
US20150046164A1 (en) * | 2013-08-07 | 2015-02-12 | Samsung Electronics Co., Ltd. | Method, apparatus, and recording medium for text-to-speech conversion |
US9711135B2 (en) | 2013-12-17 | 2017-07-18 | Sony Corporation | Electronic devices and methods for compensating for environmental noise in text-to-speech applications |
US9329833B2 (en) * | 2013-12-20 | 2016-05-03 | Dell Products, L.P. | Visual audio quality cues and context awareness in a virtual collaboration session |
US20160118036A1 (en) * | 2014-10-23 | 2016-04-28 | Elwha Llc | Systems and methods for positioning a user of a hands-free intercommunication system |
US20150242391A1 (en) * | 2014-02-25 | 2015-08-27 | Adobe Systems Incorporated | Contextualization and enhancement of textual content |
CN105895112A (zh) * | 2014-10-17 | 2016-08-24 | 杜比实验室特许公司 | 面向用户体验的音频信号处理 |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
CN105957528A (zh) * | 2016-06-13 | 2016-09-21 | 北京云知声信息技术有限公司 | 音频处理方法及装置 |
-
2016
- 2016-11-01 US US15/340,319 patent/US10074359B2/en active Active
-
2017
- 2017-07-13 EP EP17743186.3A patent/EP3510591B1/en active Active
- 2017-07-13 WO PCT/US2017/041960 patent/WO2018084904A1/en unknown
- 2017-07-13 CN CN201780067743.2A patent/CN109891497B/zh active Active
- 2017-07-13 KR KR1020197013230A patent/KR102245246B1/ko active IP Right Grant
- 2017-07-13 JP JP2019523006A patent/JP6767581B2/ja active Active
- 2017-09-11 DE DE202017105485.3U patent/DE202017105485U1/de active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060158A1 (en) * | 2003-09-12 | 2005-03-17 | Norikazu Endo | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
JP2006038929A (ja) * | 2004-07-22 | 2006-02-09 | Denso Corp | 音声案内装置、音声案内方法およびナビゲーション装置 |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
JP2014066579A (ja) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
US20150287421A1 (en) * | 2014-04-02 | 2015-10-08 | Plantronics, Inc. | Noise Level Measurement with Mobile Devices, Location Services, and Environmental Response |
US20160253149A1 (en) * | 2015-02-26 | 2016-09-01 | Motorola Mobility Llc | Method and Apparatus for Voice Control User Interface with Discreet Operating Mode |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6767581B2 (ja) | 2020-10-14 |
KR102245246B1 (ko) | 2021-04-27 |
CN109891497B (zh) | 2023-08-01 |
EP3510591A1 (en) | 2019-07-17 |
EP3510591B1 (en) | 2020-03-04 |
DE202017105485U1 (de) | 2018-02-02 |
US20180122361A1 (en) | 2018-05-03 |
CN109891497A (zh) | 2019-06-14 |
US10074359B2 (en) | 2018-09-11 |
KR20190064626A (ko) | 2019-06-10 |
WO2018084904A1 (en) | 2018-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6767581B2 (ja) | 動的テキスト音声プロビジョニング | |
JP7379752B2 (ja) | デジタルアシスタントのためのボイストリガ | |
US11430442B2 (en) | Contextual hotwords | |
US11227626B1 (en) | Audio response messages | |
US20180293989A1 (en) | Speech with context authenticator | |
KR102599607B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
KR20220123747A (ko) | 공동 오디오-비디오 얼굴 애니메이션 시스템 | |
CN111727474A (zh) | 语音处理系统中的用户输入处理限制 | |
CN111292733A (zh) | 一种语音交互方法和装置 | |
US11115409B2 (en) | User authentication by emotional response | |
US20230419957A1 (en) | User profile linking | |
US20240013784A1 (en) | Speaker recognition adaptation | |
KR102396147B1 (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
US11748713B1 (en) | Data ingestion and understanding for natural language processing systems | |
US10924571B1 (en) | Sending information to users | |
US10950231B1 (en) | Skill enablement | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
US11227591B1 (en) | Controlled access to data | |
US11893996B1 (en) | Supplemental content output | |
US11763831B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
US20240212687A1 (en) | Supplemental content output | |
KR20230122394A (ko) | 기동어 기반 사용자 감성 분류를 통한 맞춤형 피드백 조명 시스템 | |
CN117292705A (zh) | 音频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20190605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6767581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |