JP6400129B2 - 音声合成方法と装置 - Google Patents
音声合成方法と装置 Download PDFInfo
- Publication number
- JP6400129B2 JP6400129B2 JP2016572810A JP2016572810A JP6400129B2 JP 6400129 B2 JP6400129 B2 JP 6400129B2 JP 2016572810 A JP2016572810 A JP 2016572810A JP 2016572810 A JP2016572810 A JP 2016572810A JP 6400129 B2 JP6400129 B2 JP 6400129B2
- Authority
- JP
- Japan
- Prior art keywords
- speech synthesis
- text
- synthesis system
- speech
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 388
- 238000003786 synthesis reaction Methods 0.000 claims description 388
- 238000000034 method Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 24
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 230000008901 benefit Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
Claims (16)
- コンピュータがテキストを処理し、合成されるべきテキストを取得するステップと、
コンピュータがネットワークに接続されている場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、
前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む、
ことを特徴とする音声合成方法。 - 前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップの後に、
前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成するステップ、を更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記テキストを処理し、合成されるべきテキストを取得した後、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップの前に、
コンピュータがネットワークに接続されていない場合、前記合成されるべきテキストをオフライン音声合成システムに送信し、音声合成するステップと、
前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成するステップと、を更に含む、
ことを特徴とする請求項1に記載の方法。 - 音声合成が完成された後、コンピュータが前記オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するステップを更に含む、
ことを特徴とする請求項1ないし3のいずれかに記載の方法。 - コンピュータが前記テキストを処理することは、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律のポーズの予測処理と、を含む、
ことを特徴とする請求項1乃至3のいずれかに記載の方法。 - 前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップの後に、
コンピュータが前記オンライン音声合成システムにより送信された、音声合成がすでに完成されたセンテンスに対応する音声データを、受信して保存するステップ、を更に含み、
前記音声合成がすでに完成されたセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより、取得されたものである、
ことを特徴とする請求項1又は2に記載の方法。 - コンピュータが前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップは、
前記オンライン音声合成システムに故障が発生したり又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定するステップと、
前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得するステップと、を含む、
ことを特徴とする請求項6に記載の方法。 - テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、
音声合成装置がネットワークに接続されている場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信して、音声合成し、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、
を含む、
ことを特徴とする音声合成装置。 - 前記送信モジュールは、
更に、前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、
引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成する、
ことを特徴とする請求項8に記載の装置。 - 前記送信モジュールは、
更に、前記音声合成装置がネットワークに接続されていない場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オフライン音声合成システムに 送信し、音声合成し、
前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する、
ことを特徴とする請求項8に記載の装置。 - 音声合成が完成された後、前記オンライン音声合成システムの音声データと前記オフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するための接合モジュール、を更に含む、
ことを特徴とする請求項8ないし10のいずれかに記載の装置。 - 前記テキスト処理モジュールは、具体的に、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる、
ことを特徴とする請求項8ないし10のいずれかに記載の装置。 - 前記送信モジュールが前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成した後、前記オンライン音声合成システムが送信した音声合成がすでに完成されたセンテンスに対応する音声データを受信し、前記音声合成がすでに完成されたセンテンスに対応する音声データは、前記オンライン音声合成システムが前記合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより取得されたものである、受信モジュールと、
前記受信モジュールが受信した音声合成がすでに完成されたセンテンスに対応する音声データを保存するための保存モジュールと、を更に含む、
ことを特徴とする請求項8又は9に記載の装置。 - 決定モジュールを更に含み、
前記決定モジュールは、前記オンライン音声合成システムに故障が発生したり、又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定し、
前記送信モジュールは、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する、
ことを特徴とする請求項13に記載の装置。 - 一つ又は複数のプロセッサと、
メモリーと、
一つ又は複数のプログラムと、を含み、
前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、請求項1〜7のいずれかに記載の方法を実行する、
ことを特徴とする電子機器。 - 一つ又は複数のモジュールを保存し、
前記一つ又は複数のモジュールが実行される場合、請求項1〜7のいずれかに記載の方法を実行する、
ことを特徴とする不揮発性コンピューター記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510417099.XA CN104992704B (zh) | 2015-07-15 | 2015-07-15 | 语音合成方法和装置 |
CN201510417099.X | 2015-07-15 | ||
PCT/CN2015/095460 WO2017008426A1 (zh) | 2015-07-15 | 2015-11-24 | 语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017527837A JP2017527837A (ja) | 2017-09-21 |
JP6400129B2 true JP6400129B2 (ja) | 2018-10-03 |
Family
ID=54304507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016572810A Active JP6400129B2 (ja) | 2015-07-15 | 2015-11-24 | 音声合成方法と装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10115389B2 (ja) |
JP (1) | JP6400129B2 (ja) |
KR (1) | KR101880378B1 (ja) |
CN (1) | CN104992704B (ja) |
WO (1) | WO2017008426A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992704B (zh) * | 2015-07-15 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN107039032A (zh) * | 2017-04-19 | 2017-08-11 | 上海木爷机器人技术有限公司 | 一种语音合成处理方法及装置 |
KR20190046305A (ko) | 2017-10-26 | 2019-05-07 | 휴먼플러스(주) | 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법 |
CN107909993A (zh) * | 2017-11-27 | 2018-04-13 | 安徽经邦软件技术有限公司 | 一种智能语音报告生成系统 |
CN110505432B (zh) * | 2018-05-18 | 2022-02-18 | 视联动力信息技术股份有限公司 | 一种视频会议操作结果的展示方法和装置 |
CN108775900A (zh) * | 2018-07-31 | 2018-11-09 | 上海哔哩哔哩科技有限公司 | 基于web的语音导航方法、系统和存储介质 |
CN109300467B (zh) * | 2018-11-30 | 2021-07-06 | 四川长虹电器股份有限公司 | 语音合成方法及装置 |
CN109448694A (zh) * | 2018-12-27 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 一种快速合成tts语音的方法及装置 |
CN109712605B (zh) * | 2018-12-29 | 2021-02-19 | 深圳市同行者科技有限公司 | 一种应用于车联网的语音播报的方法及装置 |
CN110751940B (zh) * | 2019-09-16 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 一种生成语音包的方法、装置、设备和计算机存储介质 |
CN110767213A (zh) * | 2019-11-08 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种韵律预测方法及装置 |
CN110808028B (zh) * | 2019-11-22 | 2022-05-17 | 芋头科技(杭州)有限公司 | 嵌入式语音合成方法、装置以及控制器和介质 |
CN113129861A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 一种文本转语音的处理方法、终端及服务器 |
CN111354334B (zh) * | 2020-03-17 | 2023-09-15 | 阿波罗智联(北京)科技有限公司 | 语音输出方法、装置、设备和介质 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN112735376A (zh) * | 2020-12-29 | 2021-04-30 | 竹间智能科技(上海)有限公司 | 自学习平台 |
CN112307280B (zh) * | 2020-12-31 | 2021-03-16 | 飞天诚信科技股份有限公司 | 基于云服务器实现字符串转音频的方法及系统 |
CN113270085A (zh) * | 2021-06-22 | 2021-08-17 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互系统和车辆 |
CN115729509A (zh) * | 2021-08-30 | 2023-03-03 | 博泰车联网(南京)有限公司 | 语音播报方法、装置和存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
JP2002312282A (ja) * | 2001-04-16 | 2002-10-25 | Canon Inc | 音声合成システムとその方法 |
US6681208B2 (en) * | 2001-09-25 | 2004-01-20 | Motorola, Inc. | Text-to-speech native coding in a communication system |
CN1217311C (zh) * | 2002-04-22 | 2005-08-31 | 安徽中科大讯飞信息科技有限公司 | 分布式语音合成系统 |
CN1217312C (zh) * | 2002-11-19 | 2005-08-31 | 安徽中科大讯飞信息科技有限公司 | 语音合成系统中的数据交换方法 |
JP2005055607A (ja) * | 2003-08-01 | 2005-03-03 | Toyota Motor Corp | サーバ、情報処理端末、音声合成システム |
US7653542B2 (en) * | 2004-05-26 | 2010-01-26 | Verizon Business Global Llc | Method and system for providing synthesized speech |
US7672832B2 (en) * | 2006-02-01 | 2010-03-02 | Microsoft Corporation | Standardized natural language chunking utility |
CN101409072B (zh) * | 2007-10-10 | 2012-05-09 | 松下电器产业株式会社 | 嵌入式设备、双模态语音合成系统和方法 |
JP5500100B2 (ja) * | 2011-02-24 | 2014-05-21 | 株式会社デンソー | 音声案内システム |
CN102568471A (zh) * | 2011-12-16 | 2012-07-11 | 安徽科大讯飞信息科技股份有限公司 | 语音合成方法、装置和系统 |
WO2014020835A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | エージェント制御システム、方法およびプログラム |
CN103077705B (zh) * | 2012-12-30 | 2015-03-04 | 安徽科大讯飞信息科技股份有限公司 | 一种基于分布式自然韵律优化本地合成方法 |
US9031829B2 (en) * | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9430465B2 (en) * | 2013-05-13 | 2016-08-30 | Facebook, Inc. | Hybrid, offline/online speech translation system |
CN104992704B (zh) * | 2015-07-15 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
-
2015
- 2015-07-15 CN CN201510417099.XA patent/CN104992704B/zh active Active
- 2015-11-24 JP JP2016572810A patent/JP6400129B2/ja active Active
- 2015-11-24 KR KR1020167028544A patent/KR101880378B1/ko active IP Right Grant
- 2015-11-24 US US15/325,477 patent/US10115389B2/en active Active
- 2015-11-24 WO PCT/CN2015/095460 patent/WO2017008426A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US10115389B2 (en) | 2018-10-30 |
CN104992704A (zh) | 2015-10-21 |
CN104992704B (zh) | 2017-06-20 |
WO2017008426A1 (zh) | 2017-01-19 |
KR101880378B1 (ko) | 2018-07-19 |
KR20170021226A (ko) | 2017-02-27 |
US20170200445A1 (en) | 2017-07-13 |
JP2017527837A (ja) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6400129B2 (ja) | 音声合成方法と装置 | |
KR102660922B1 (ko) | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 | |
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
US10832677B2 (en) | Coordinating the execution of a voice command across multiple connected devices | |
JP6553736B2 (ja) | 音声対応電子デバイスにおける選択的オフライン対応の音声アクションのためのデータのローカル維持 | |
US20190196779A1 (en) | Intelligent personal assistant interface system | |
CN108630204A (zh) | 在多装置系统中执行语音命令 | |
JP6336680B2 (ja) | ネイティブ音声データとリモートで生成された音声データとを組み合わせる音声プロンプト生成 | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
US20230139106A1 (en) | Conversion method and apparatus for deep learning model, server, and storage medium | |
CN110501918A (zh) | 智能家电控制方法、装置、电子设备和存储介质 | |
WO2019213021A1 (en) | Audio packet loss concealment | |
CN113498536A (zh) | 电子装置及其控制方法 | |
JP6778811B2 (ja) | 音声認識方法及び装置 | |
US11056103B2 (en) | Real-time utterance verification system and method thereof | |
CN110750295B (zh) | 一种信息处理方法,装置,电子设备和存储介质 | |
JP6621593B2 (ja) | 対話装置、対話システム、及び対話装置の制御方法 | |
JP2022088586A (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
CN113810814A (zh) | 耳机模式切换的控制方法及装置、电子设备和存储介质 | |
JP6265670B2 (ja) | 情報処理装置、サーバ、および、制御プログラム | |
US11501090B2 (en) | Method and system for remote communication based on real-time translation service | |
EP3502868A1 (en) | Intelligent personal assistant interface system | |
CN113889102A (zh) | 指令接收方法、系统、电子设备、云端服务器和存储介质 | |
CN114822492A (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 | |
CN117830478A (zh) | 数字人视频生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6400129 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |