JP2022521289A - エンドツーエンドの音声変換 - Google Patents
エンドツーエンドの音声変換 Download PDFInfo
- Publication number
- JP2022521289A JP2022521289A JP2021549246A JP2021549246A JP2022521289A JP 2022521289 A JP2022521289 A JP 2022521289A JP 2021549246 A JP2021549246 A JP 2021549246A JP 2021549246 A JP2021549246 A JP 2021549246A JP 2022521289 A JP2022521289 A JP 2022521289A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- audio data
- voice
- computing device
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000013518 transcription Methods 0.000 claims description 37
- 230000035897 transcription Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 230000009471 action Effects 0.000 abstract description 10
- 238000004590 computer program Methods 0.000 abstract description 6
- 239000003795 chemical substances by application Substances 0.000 description 54
- 230000015654 memory Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 26
- 238000004891 communication Methods 0.000 description 24
- 238000012216 screening Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 230000009118 appropriate response Effects 0.000 description 9
- 238000010606 normalization Methods 0.000 description 8
- 239000000872 buffer Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 208000011293 voice disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
Abstract
Description
図1は、音声認識を実行せずに、ユーザ104から受信した音声オーディオ102を合成音声オーディオ106に変換する例示的なシステム100を示している。以下で簡潔に、および、より詳細に説明するように、英国訛りで話すユーザ104は、コンピューティングデバイス110の近くで発話108を行う。コンピューティングデバイス110は、発話108のオーディオデータ102を音声間変換サーバ(音声から音声への変換サーバ)112に送信する。音声間変換サーバ112は、発話108のオーディオデータ102を、合成発話114のオーディオデータ106に変換する。音声間変換サーバ112は、合成発話114のオーディオデータ106をコンピューティングデバイス116に送信し、コンピューティングデバイス116は、合成発話114を出力する。一部の実装形態では、エンドツーエンド音声変換サーバ112の機能は、コンピューティングデバイス110またはコンピューティングデバイス116、あるいはその両方に組み込まれている。
システムは、自己回帰RNNで構成されるデコーダネットワークを使用して、エンコードされた入力シーケンスから一度に1フレームずつ出力スペクトログラムを予測する。前のデコーダのタイムステップからの予測は、最初に256ReLUユニットの2つの完全に接続されたレイヤーを含む小さなプリネットを通過し、これは、アテンションの学習に役立つ場合がある。プレネット出力とアテンションコンテキストベクトルは連結され、1024ユニットの2つの単方向LSTMレイヤーのスタックを通過する場合がある。次に、LSTM出力とアテンションコンテキストベクトルの連結が線形変換によって投影され、ターゲットスペクトログラムフレームの予測が生成される。最後に、これらの予測は、最初の予測に追加する残余を予測する5層の畳み込みポストネットを通過する。各ポストネットレイヤーには、5x1の形状の512個のフィルターがあり、その後にバッチ正規化とtanh活性化が続く。
Claims (10)
- コンピューティングデバイスが、ユーザによって話された1つまたは複数の第1の語からなる第1の発話の第1のオーディオデータを受信することと、
前記コンピューティングデバイスが、第1のボイスで話された1つまたは複数の所与の第1の語からなる所与の第1の発話の所与の第1のオーディオデータを受信し、所与の前記第1のオーディオデータに対して音声認識を実行せずに、合成ボイスで話される前記1つまたは複数の所与の第1の語からなる所与の第2の発話の所与の第2のオーディオデータを出力するように構成されるモデルへの入力として前記第1のオーディオデータを提供することと、
前記モデルへの入力として前記第1のオーディオデータを提供することに応じて、前記コンピューティングデバイスが、前記合成ボイスで話される前記1つまたは複数の第1の語からなる第2の発話の第2のオーディオデータを受信することと、
前記コンピューティングデバイスによる出力のために、前記合成ボイスで話される前記1つまたは複数の第1の語からなる前記第2の発話の前記第2のオーディオデータを提供することと、
を含む、コンピュータにより実装される方法。 - 前記コンピューティングデバイスが、所与の人間と会話を行うように構成されたボットが人間から受信した第3の発話に対する応答を生成するように構成されていないことを示すデータを受信することと、
前記ボットが前記人間から受信した前記第3の発話に対して前記応答を生成するように構成されていないことを示す前記データを受信することに基づいて、前記コンピューティングデバイスが、前記人間から受信した前記第3の発話に応じるよう要求を人間のオペレータに送信することと、を含み、
前記ユーザによって話された前記1つまたは複数の第1の語からなる前記第1の発話の前記第1のオーディオデータを受信することは、前記第3の発話に応じて前記人間のオペレータによって話された前記1つまたは複数の第1の語からなる前記第1の発話の前記第1のオーディオデータを受信することを含む、
請求項1に記載の方法。 - 前記ユーザによって話された前記1つまたは複数の第1の語からなる前記第1の発話の前記第1のオーディオデータを受信することは、電話に応えている間に前記ユーザによって話された前記1つまたは複数の第1の語からなる前記第1の発話の前記第1のオーディオデータを受信することを含む、
請求項1または2に記載の方法。 - 複数の発話からなるコレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションにおける各発話の転写を取得することと、
テキストを音声にするモデルへの入力として、各発話の前記転写を提供することと、
各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションの前記オーディオデータと、合成ボイスでの複数の発話からなる追加コレクションの前記オーディオデータを使用して、前記モデルを訓練することと、を含む、
請求項1から3のいずれか一項に記載の方法。 - 前記コンピューティングデバイスが、追加のユーザによって話された1つまたは複数の第3の語からなる第3の発話の第3のオーディオデータを受信することと、
前記コンピューティングデバイスが、前記モデルへの入力として前記第3のオーディオデータを提供することと、
前記モデルへの入力として前記第3のオーディオデータを提供することに応じて、前記コンピューティングデバイスが、前記合成ボイスで話される前記1つまたは複数の第3の語からなる第4の発話の第4のオーディオデータを受信することと、
前記コンピューティングデバイスによる出力のために、前記合成ボイスで話される前記1つまたは複数の第3の語からなる前記第4の発話の前記第4のオーディオデータを提供することと、を含む、
請求項1から4のいずれか一項に記載の方法。 - 前記コンピューティングデバイスが、前記第1の発話の転写を取得することを省略することを含む、
請求項1から5のいずれか一項に記載の方法。 - 前記モデルは、前記1つまたは複数の所与の第1の語のそれぞれの間の期間を調整するように構成されている、
請求項1から6のいずれか一項に記載の方法。 - 前記モデルは、前記1つまたは複数の所与の第1の語のそれぞれの発言時間を調整するように構成されている、
請求項1から7のいずれか一項に記載の方法。 - 1つまたは複数のコンピュータと、
動作可能な命令を記憶する1つまたは複数の記憶装置であって、前記命令は、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から8のいずれか一項に記載の動作を実行させる、前記1つまたは複数の記憶装置と、
を備える、システム。 - 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体であって、前記命令は、実行時に、前記1つまたは複数のコンピュータに、請求項1から8のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023036090A JP2023065681A (ja) | 2019-02-21 | 2023-03-09 | エンドツーエンドの音声変換 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962808627P | 2019-02-21 | 2019-02-21 | |
US62/808,627 | 2019-02-21 | ||
PCT/US2019/063334 WO2020171868A1 (en) | 2019-02-21 | 2019-11-26 | End-to-end speech conversion |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023036090A Division JP2023065681A (ja) | 2019-02-21 | 2023-03-09 | エンドツーエンドの音声変換 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022521289A true JP2022521289A (ja) | 2022-04-06 |
JP7244665B2 JP7244665B2 (ja) | 2023-03-22 |
Family
ID=68966028
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021549246A Active JP7244665B2 (ja) | 2019-02-21 | 2019-11-26 | エンドツーエンドの音声変換 |
JP2023036090A Pending JP2023065681A (ja) | 2019-02-21 | 2023-03-09 | エンドツーエンドの音声変換 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023036090A Pending JP2023065681A (ja) | 2019-02-21 | 2023-03-09 | エンドツーエンドの音声変換 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20220122579A1 (ja) |
EP (1) | EP3928316A1 (ja) |
JP (2) | JP7244665B2 (ja) |
KR (2) | KR20230165395A (ja) |
CN (1) | CN113678200A (ja) |
WO (1) | WO2020171868A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023209762A1 (ja) * | 2022-04-25 | 2023-11-02 | 日本電信電話株式会社 | 学習装置、変換装置、方法及びプログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021154544A1 (en) * | 2020-01-28 | 2021-08-05 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
US11335324B2 (en) * | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
US11776528B2 (en) * | 2020-11-26 | 2023-10-03 | Xinapse Co., Ltd. | Method for changing speed and pitch of speech and speech synthesis system |
US11645465B2 (en) * | 2020-12-10 | 2023-05-09 | International Business Machines Corporation | Anaphora resolution for enhanced context switching |
JP2024511625A (ja) * | 2021-03-26 | 2024-03-14 | グーグル エルエルシー | コンフォーマベースの音声変換モデル |
US11948550B2 (en) * | 2021-05-06 | 2024-04-02 | Sanas.ai Inc. | Real-time accent conversion model |
CN113362812B (zh) * | 2021-06-30 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
EP4145444A1 (en) * | 2021-09-07 | 2023-03-08 | Avaya Management L.P. | Optimizing interaction results using ai-guided manipulated speech |
CN114023300A (zh) * | 2021-11-03 | 2022-02-08 | 四川大学 | 一种基于扩散概率模型的中文语音合成方法 |
CN114360557B (zh) * | 2021-12-22 | 2022-11-01 | 北京百度网讯科技有限公司 | 语音音色转换方法、模型训练方法、装置、设备和介质 |
US11361780B2 (en) * | 2021-12-24 | 2022-06-14 | Sandeep Dhawan | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore |
US11848005B2 (en) * | 2022-04-28 | 2023-12-19 | Meaning.Team, Inc | Voice attribute conversion using speech to speech |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
JP2019008120A (ja) * | 2017-06-23 | 2019-01-17 | 株式会社日立製作所 | 声質変換システム、声質変換方法、及び声質変換プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
US8775156B2 (en) * | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
US9704103B2 (en) * | 2014-12-16 | 2017-07-11 | The Affinity Project, Inc. | Digital companions for human users |
CN106205623B (zh) * | 2016-06-17 | 2019-05-21 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
EP3553773B1 (en) * | 2018-04-12 | 2020-06-03 | Spotify AB | Training and testing utterance-based frameworks |
-
2019
- 2019-11-26 KR KR1020237041230A patent/KR20230165395A/ko active Application Filing
- 2019-11-26 JP JP2021549246A patent/JP7244665B2/ja active Active
- 2019-11-26 US US17/310,732 patent/US20220122579A1/en active Pending
- 2019-11-26 WO PCT/US2019/063334 patent/WO2020171868A1/en unknown
- 2019-11-26 EP EP19824092.1A patent/EP3928316A1/en active Pending
- 2019-11-26 CN CN201980094770.8A patent/CN113678200A/zh active Pending
- 2019-11-26 KR KR1020217026403A patent/KR20210114518A/ko active Application Filing
-
2023
- 2023-03-09 JP JP2023036090A patent/JP2023065681A/ja active Pending
- 2023-03-23 US US18/188,524 patent/US20230230572A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
JP2019008120A (ja) * | 2017-06-23 | 2019-01-17 | 株式会社日立製作所 | 声質変換システム、声質変換方法、及び声質変換プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023209762A1 (ja) * | 2022-04-25 | 2023-11-02 | 日本電信電話株式会社 | 学習装置、変換装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20230165395A (ko) | 2023-12-05 |
JP7244665B2 (ja) | 2023-03-22 |
KR20210114518A (ko) | 2021-09-23 |
US20230230572A1 (en) | 2023-07-20 |
US20220122579A1 (en) | 2022-04-21 |
CN113678200A (zh) | 2021-11-19 |
WO2020171868A1 (en) | 2020-08-27 |
JP2023065681A (ja) | 2023-05-12 |
EP3928316A1 (en) | 2021-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7244665B2 (ja) | エンドツーエンドの音声変換 | |
JP6945695B2 (ja) | 発話分類器 | |
US20210209315A1 (en) | Direct Speech-to-Speech Translation via Machine Learning | |
US8566098B2 (en) | System and method for improving synthesized speech interactions of a spoken dialog system | |
KR20210008510A (ko) | 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성 | |
US7490042B2 (en) | Methods and apparatus for adapting output speech in accordance with context of communication | |
US10325599B1 (en) | Message response routing | |
WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
JPH10507536A (ja) | 言語認識 | |
JP2023539888A (ja) | 声変換および音声認識モデルを使用した合成データ拡大 | |
US11605387B1 (en) | Assistant determination in a skill | |
US10143027B1 (en) | Device selection for routing of communications | |
CN112581963A (zh) | 一种语音意图识别方法及系统 | |
KR20230158603A (ko) | 신경 텍스트-투-스피치 변환을 위한 음소 및 자소 | |
CN109616116B (zh) | 通话系统及其通话方法 | |
US11948550B2 (en) | Real-time accent conversion model | |
Tsiakoulis et al. | Statistical methods for building robust spoken dialogue systems in an automobile | |
Woollacott et al. | Benchmarking speech technologies | |
US11172527B2 (en) | Routing of communications to a device | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
US11848005B2 (en) | Voice attribute conversion using speech to speech | |
JP7146038B2 (ja) | 音声認識システム及び方法 | |
CN117256029A (zh) | 一种流式、轻量级和高质量的设备神经tts系统 | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 | |
Venkatagiri | Digital speech technology: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7244665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |