JP6373924B2 - 音声合成システムの最適化方法及び装置 - Google Patents
音声合成システムの最適化方法及び装置 Download PDFInfo
- Publication number
- JP6373924B2 JP6373924B2 JP2016201900A JP2016201900A JP6373924B2 JP 6373924 B2 JP6373924 B2 JP 6373924B2 JP 2016201900 A JP2016201900 A JP 2016201900A JP 2016201900 A JP2016201900 A JP 2016201900A JP 6373924 B2 JP6373924 B2 JP 6373924B2
- Authority
- JP
- Japan
- Prior art keywords
- speech synthesis
- level
- load level
- speech
- synthesis system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 307
- 238000003786 synthesis reaction Methods 0.000 title claims description 307
- 238000000034 method Methods 0.000 title claims description 33
- 230000004044 response Effects 0.000 claims description 50
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims 2
- 230000037361 pathway Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000001934 delay Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/38—Flow based routing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
具体的に、音声合成要求を受信した時、現時点で音声合成システムが受信した音声合成要求の数量と、これらの音声合成要求に対応する応答時間を取得し、そして音声合成要求の数量と平均応答時間に基づいて、負荷レベルを決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より短い場合、負荷レベルが第一レベルであると決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より長い場合、負荷レベルが第二レベルであると決定する。音声合成要求の数量が要求応答能力より多い場合、負荷レベルが第三レベルであると決定する。
Claims (12)
- テキスト情報を含む音声合成要求を受信するステップと、
前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップと、
前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップと、を含み、
前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップは、
現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間と、を取得するステップと、
前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップと、を含む、
ことを特徴とする音声合成システムの最適化方法。 - 前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップは、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定するステップと、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定するステップと、
前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定するステップと、を含む、
ことを特徴とする請求項1に記載の音声合成システムの最適化方法。 - 前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップは、
前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成するステップと、
前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成するステップと、
前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成するステップと、を含む、
ことを特徴とする請求項2に記載の音声合成システムの最適化方法。 - 前記第一経路は、長期短期記憶LSTMモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第一パラメーターで設定する、
ことを特徴とする請求項3に記載の音声合成システムの最適化方法。 - 前記第二経路は、隠れマルコフモデルによる音声合成システムHTSモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第二パラメーターで設定する、
ことを特徴とする請求項3に記載の音声合成システムの最適化方法。 - 前記第三経路は、HTSモデルと、ボコーダモデルと、を含む、
ことを特徴とする請求項3に記載の音声合成システムの最適化方法。 - テキスト情報を含む音声合成要求を受信するための受信モジュールと、
前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するための決定モジュールと、
前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するための合成モジュールと、を含み、
前記決定モジュールは、
現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間とを取得するための取得ユニットと、
前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するための決定ユニットと、を含む、
ことを特徴とする音声合成システムの最適化装置。 - 前記決定ユニットは、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定し、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定し、
前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定する、
ことを特徴とする請求項7に記載の音声合成システムの最適化装置。 - 前記合成モジュールは、
前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成し、
前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成し、
前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成する、
ことを特徴とする請求項8に記載の音声合成システムの最適化装置。 - 前記第一経路は、長期短期記憶LSTMモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第一パラメーターで設定する、
ことを特徴とする請求項9に記載の音声合成システムの最適化装置。 - 前記第二経路は、隠れマルコフモデルによる音声合成システムHTSモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第二パラメーターで設定する、
ことを特徴とする請求項9に記載の音声合成システムの最適化装置。 - 前記第三経路は、HTSモデルと、ボコーダモデルと、を含む、
ことを特徴とする請求項9に記載の音声合成システムの最適化装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610034930.8A CN105489216B (zh) | 2016-01-19 | 2016-01-19 | 语音合成系统的优化方法和装置 |
CN201610034930.8 | 2016-01-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017129840A JP2017129840A (ja) | 2017-07-27 |
JP6373924B2 true JP6373924B2 (ja) | 2018-08-15 |
Family
ID=55676163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016201900A Active JP6373924B2 (ja) | 2016-01-19 | 2016-10-13 | 音声合成システムの最適化方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10242660B2 (ja) |
JP (1) | JP6373924B2 (ja) |
KR (1) | KR101882103B1 (ja) |
CN (1) | CN105489216B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107749931A (zh) * | 2017-09-29 | 2018-03-02 | 携程旅游信息技术(上海)有限公司 | 互动式语音应答的方法、系统、设备及存储介质 |
CN112837669B (zh) * | 2020-05-21 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置及服务器 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3446764B2 (ja) * | 1991-11-12 | 2003-09-16 | 富士通株式会社 | 音声合成システム及び音声合成サーバ |
JP3083640B2 (ja) * | 1992-05-28 | 2000-09-04 | 株式会社東芝 | 音声合成方法および装置 |
KR0140131B1 (ko) * | 1995-04-26 | 1998-07-01 | 김주용 | 이동통신 시스템에서 셀렉터와 다수개의 보코더 인터페이스 장치 및 방법 |
US6052666A (en) * | 1995-11-06 | 2000-04-18 | Thomson Multimedia S.A. | Vocal identification of devices in a home environment |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
JP2004020613A (ja) * | 2002-06-12 | 2004-01-22 | Canon Inc | サーバ、受信端末 |
CN1261846C (zh) * | 2004-08-03 | 2006-06-28 | 威盛电子股份有限公司 | 一种计算机系统的实时电源管理方法及其系统 |
CN1787072B (zh) * | 2004-12-07 | 2010-06-16 | 北京捷通华声语音技术有限公司 | 基于韵律模型和参数选音的语音合成方法 |
US8023574B2 (en) * | 2006-05-05 | 2011-09-20 | Intel Corporation | Method and apparatus to support scalability in a multicarrier network |
US20080154605A1 (en) * | 2006-12-21 | 2008-06-26 | International Business Machines Corporation | Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load |
CN101849384A (zh) * | 2007-11-06 | 2010-09-29 | 朗讯科技公司 | 用于控制网络系统负载均衡的方法、客户机、服务器以及网络系统 |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
JP2013057734A (ja) * | 2011-09-07 | 2013-03-28 | Toshiba Corp | 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 |
WO2013189063A1 (zh) * | 2012-06-21 | 2013-12-27 | 华为技术有限公司 | 键值数据库的数据合并方法和装置 |
CN103841042B (zh) * | 2014-02-19 | 2017-09-19 | 华为技术有限公司 | 在高运行效率下传输数据的方法和装置 |
CN104850612B (zh) * | 2015-05-13 | 2020-08-04 | 中国电力科学研究院 | 一种基于增强凝聚层次聚类的配网用户负荷特征分类方法 |
-
2016
- 2016-01-19 CN CN201610034930.8A patent/CN105489216B/zh active Active
- 2016-10-13 JP JP2016201900A patent/JP6373924B2/ja active Active
- 2016-10-27 US US15/336,153 patent/US10242660B2/en active Active
- 2016-12-14 KR KR1020160170531A patent/KR101882103B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
JP2017129840A (ja) | 2017-07-27 |
US10242660B2 (en) | 2019-03-26 |
CN105489216B (zh) | 2020-03-03 |
US20170206886A1 (en) | 2017-07-20 |
KR101882103B1 (ko) | 2018-07-25 |
CN105489216A (zh) | 2016-04-13 |
KR20170087016A (ko) | 2017-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111431941B (zh) | 一种基于移动边缘计算的实时视频码率自适应方法 | |
WO2020011154A1 (zh) | 区块链透明分片方法、装置及系统 | |
WO2022020092A1 (en) | Content adaptive data center routing and forwarding in cloud computing environments | |
Liang et al. | Enhancing video rate adaptation with mobile edge computing and caching in software-defined mobile networks | |
Chamola et al. | Latency aware mobile task assignment and load balancing for edge cloudlets | |
CN1957640A (zh) | 用于生成对低位速率应用的参数表示的方案 | |
CN104219229B (zh) | 虚拟桌面数据的传输方法和装置 | |
JP6373924B2 (ja) | 音声合成システムの最適化方法及び装置 | |
US20180322879A1 (en) | Multimodal transmission of packetized data | |
WO2017043309A1 (ja) | 音声処理装置および方法、符号化装置、並びにプログラム | |
CN111211984B (zh) | 优化cdn网络的方法、装置及电子设备 | |
JP2006517698A (ja) | マルチメディア・コンテンツを適合性変換する装置および方法 | |
Abkenar et al. | Energy optimization in association-free fog-IoT networks | |
CN113611296A (zh) | 语音识别装置和拾音设备 | |
CN101860538A (zh) | 网络编码数据分段方法、视频传输方法及装置 | |
CN110224904B (zh) | 语音处理方法、装置、计算机可读存储介质和计算机设备 | |
WO2021014933A1 (ja) | 信号処理装置および方法、並びにプログラム | |
US11830476B1 (en) | Learned condition text-to-speech synthesis | |
CN113672372A (zh) | 一种基于强化学习的多边缘协同负载均衡任务调度方法 | |
CN111951821B (zh) | 通话方法和装置 | |
US20230007423A1 (en) | Signal processing device, method, and program | |
JP5257373B2 (ja) | パケット送信装置、パケット送信方法及びパケット送信プログラム | |
JP2022122466A (ja) | 通信システム、通信装置、及びプログラム | |
CN110933693B (zh) | 一种信道确定以及数据处理方法、装置及电子设备 | |
CN117789734B (zh) | 音频处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6373924 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |