CN101872614A - 混合型语音合成系统 - Google Patents

混合型语音合成系统 Download PDF

Info

Publication number
CN101872614A
CN101872614A CN200910030596A CN200910030596A CN101872614A CN 101872614 A CN101872614 A CN 101872614A CN 200910030596 A CN200910030596 A CN 200910030596A CN 200910030596 A CN200910030596 A CN 200910030596A CN 101872614 A CN101872614 A CN 101872614A
Authority
CN
China
Prior art keywords
voice
pronunciation
speech
sentence
sound bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910030596A
Other languages
English (en)
Inventor
韩松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200910030596A priority Critical patent/CN101872614A/zh
Publication of CN101872614A publication Critical patent/CN101872614A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

针对现有计算机语音合成系统,计算机发音语音不连续,输出的语音不流畅、不自然的问题,本发明提出一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。语音合成引擎通过对文本中字、词、句的判断,检索调用语音库中已经录制好的真人发音和计算机处理的非真人发音,与传统的文字到语音的自动合成技术对比,本发明合成语音质量高,语音连续,输出的语音流畅、自然,特别适合无线平台的语音合成,如智能手机,手持电子设备平台,导航系统,以及公共场合的广播系统等。

Description

混合型语音合成系统
技术领域
本发明涉及一种语音合成系统,尤其是一种混合型语音合成系统。
背景技术
语音合成是计算机技术领域中的一个分支,主要功能是把一个给定的输入文本,通过计算机程序,自动转化为语音数据,随后可由输出设备如扬声器或耳机等输出。不同的自然语音的语音合成方法一般各不相同。混合型语音合成系统是语音合成系统的一类,它包括一个合成引擎和一个预先录入的语音数据库,合成引擎通过计算机软件查找语音数据库中匹配的读音把文本转化为语音。但是,通过这种系统计算机所发出的语音不连续,输出的语音不流畅、不自然。
发明内容
为解决上述技术问题,本发明提出一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。
所述混合型语音库制作过程包括以下步骤:
A.对语音数据进行统计,分析单个字、词或句子可能出现的所有发音,这一步骤必须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;
B.对字、词、句子的可能发音进行录音,根据适用的目标应用程序的要求,进行有损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或句子查找到语音的二进制文件;
C.搜集语言的材料库,分析字词句发音的例外情况,对于例外情况,建立规则集,所述规则集对于给定的字词以及所处的上下文信息,准确地给出最佳的发音;
D.把语音库,规则集压缩创建索引,生成混合型语音库。所述语音合成引擎核心功能是把输入的文本转换为语音,转换过程包括以下步骤:
A.对输入的自然语音文本进行分析,该分析过程包括:语句的切分,寻找切分最理想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发音的情况,要把待发音的字、词句以及上下文的情况进行编码,生成一个可以被上下文中提及的规则集识别的输入情况;
B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息;
C.合成,优化处理并输出。
由于本发明所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,语音库中词语与句子为真人发音,真人发音具有语言流畅、清楚、连续的优点,因此非常适用以下领域(不限于所列):
1、无线平台的语音合成。比如智能手机,手持电子设备平台。这些平台通常只有有限的存储空间。在这些平台上的带有语音的应用程序可以使用本语音合成系统,达到节省存储空间,提高合成质量的目的。
2、导航系统。GPS和车载导航系统需要高质量的语音导航,在需要的时候对驾驶员做出提示。这是本系统一个非常理想的应用场合。此外,任何需要对操作人员进行语音提示或指令,而需要尽量少分散操作元注意力的应用场合,均可使用本语音合成系统。
3、公共场合的广播系统。目前广播系统大多使用人工广播,既浪费人力资源,也容易出错,而广播的内容,往往是程序输出的结果(比如车站机场的提示信息,均是调度软件系统的输出数据)。如果把这些结果数据直接输入到本语音合成系统中,可以降低人员成本,而且不必担心认为因素导致的错误。
有益效果
与传统的文字到语音的自动合成技术对比,本发明具有以下优点:
1、合成结果效果好,语音连续,输出的语言流畅、自然。经过本系统合成的语音,可以达到真人发音的效果;
2、体积小。本系统自带的语音库,体积通常在5M字节以下,体积小,效率高,适合各种计算平台,包括移动手机平台;
3、语音数据库不随待覆盖文本的大小增大而增大;
具体实施方式
实施例1:
一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。
所述混合型语音库制作过程包括以下步骤:
A、对语音数据进行统计,分析单个字、词或句子可能出现的所有发音,这一步骤必须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;
B、对字、词、句子的可能发音进行录音,根据适用的目标应用程序的要求,进行有损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或句子查找到语音的二进制文件;
C、搜集语言的材料库,分析字词句发音的例外情况,对于例外情况,建立规则集,所述规则集对于给定的字词以及所处的上下文信息,准确地给出最佳的发音;
D、把语音库,规则集压缩创建索引,生成混合型语音库。
所述语音合成引擎核心功能是把输入的文本转换为语音,转换过程包括以下步骤:
A、对输入的自然语音文本进行分析,该分析过程包括:语句的切分,寻找切分最理想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发音的情况,要把待发音的字、词句以及上下文的情况进行编码,生成一个可以被上下文中提及的规规则集识别的输入情况;
B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息;
C.合成,优化处理并输出。
由于本发明所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,语音库中词语与句子为真人发音,真人发音具有语言流畅、清楚、连续的优点,因此非常适用以下领域(不限于所列):
1、无线平台的语音合成。比如智能手机,手持电子设备平台。这些平台通常只有有限的存储空间。在这些平台上的带有语音的应用程序可以使用本语音合成系统,达到节省存储空间,提高合成质量的目的。
2、导航系统。GPS和车载导航系统需要高质量的语音导航,在需要的时候对驾驶员做出提示。这是本系统一个非常理想的应用场合。此外,任何需要对操作人员进行语音提示或指令,而需要尽量少分散操作元注意力的应用场合,均可使用本语音合成系统。
3、公共场合的广播系统。目前广播系统大多使用人工广播,既浪费人力资源,也容易出错,而广播的内容,往往是程序输出的结果(比如车站机场的提示信息,均是调度软件系统的输出数据)。如果把这些结果数据直接输入到本语音合成系统中,可以降低人员成本,而且不必担心认为因素导致的错误。
与传统的文字到语音的自动合成技术对比,本发明具有以下优点:
1、合成语音质量高,语音连续,输出的语音流畅、自然。经过本合成系统合成的语音结果可以达到CD或近似CD音质。而传统语音合成结果,通常只可以达到电台语音效果;
2、语音数据库体积小。混合型语音合成系统自身都带有一个语音数据库。本合成系统的语音数据库,对一种自然语音,体积只有不到3.5M字节,而传统语音合成系统的语音数据库大小是我们的10倍甚至更多;
3、体积不随词库大小的增大而线性增大。传统语音合成技术为了优化,可以对特定领域的应用定制语音数据库。即根据可能需要覆盖的文本,提供可以满足需求的最小数据库,随着需要覆盖的文本空间的增大,就需要增大语音数据库的大小。而本合成系统由于考虑了自然语音的特性,语音数据库大小不仅非常小,而且不会随着需要覆盖的文本空间的增大而增大。在待覆盖词库词条达到11万条的时候数据库大小仅仅为3.2M,随后即基本保持一个常数。当待覆盖词库达到17万条时,数据库大小仅增加到3.3M。
实施例2:
一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。本系统适用于基于单字或单词为发音元素的语言,比如中文,日文,韩文等。
所述语音合成系统的工作原理,以中文为例,说明如下:
A、将汉语文字进行统计,分析所有汉字可能发出的声音;
B、把所有单个汉字可能的发音进行分别录音,压缩,并建立索引;
C、对汉语语言进行统计,用计算机程序分析汉字在不同上下文中可能发生的声音变化,比如多音字,连续两个第三声的变音,语速变化,词尾句尾轻声变化,等等。所得结果进行建模,压缩,并建立索引;
D、把B和C所得数据压缩成语音合成数据库格式;
E、对于一个给定的中文文本输入,程序分析扫描文本,从D所述的数据库中高效查找最优匹配,生成语音文件,输出到用户制定的输出设备上(比如文件,扬声器等),达到语音合成的目的。
其具体实施包括以下两个主要环节:
1.混合型语音库的生成。
混合型语音库生产包括以下几个步骤:
A、对语音数据进行统计,分析单个字、词、句可能出现的所有发音,这一步骤必须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;
B、对字词的可能发音进行录音,根据适用的目标应用程序的要求,进行有损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或句子查找到语音的二进制文件。
C、搜集语言的材料库,分析字词句发音的例外情况,比如中文中的多音字,连续三声变音,词尾句尾轻声等,对于例外情况,建立规则集,该规则集可以实现对于给定的字词以及所处的上下文信息,可以准确地给出最佳的发音,比如中文中的“理想”一词,两个字都不是多音字,但是如果组成这个词,那么“理”应改发第二声;
D、把语音库,规则集压缩创建索引,生成混合型语音库。
2.混合型语音合成引擎的实现。
语音合成引擎是一段计算机代码,核心功能是把输入的文本转换为语音,可分为如下几个步骤:
A、对输入的自然语音文本进行分析,该分析过程涉及:语句的切分,寻找切分最理想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发音的情况,要把待发音的字、词、句,以及上下文的情况进行编码,生成一个可以被上下文中提及的规则集识别的输入情况;
B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息。
C.合成,优化处理并输出。

Claims (3)

1.一种混合型语音合成系统,包括语音库、语音合成引擎,其特征在于:所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。
2.根据权利要求1所述的混合型语音合成系统,其特征在于:所述混合型语音库制作过程包括以下步骤:
A.对语音数据进行统计,分析单个字、词或句子可能出现的所有发音,这一步骤必须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;
B.对字、词、句子的可能发音进行录音,根据适用的目标应用程序的要求,进行有损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或句子查找到语音的二进制文件;
C.搜集语言的材料库,分析字词句发音的例外情况,对于例外情况,建立规则集,所述规则集对于给定的字词以及所处的上下文信息,准确地给出最佳的发音;
D.把语音库,规则集压缩创建索引,生成混合型语音库。
3.根据权利要求1所述的混合型语音合成系统,其特征在于:所述语音合成引擎核心功能是把输入的文本转换为语音,转换过程包括以下步骤:
A.对输入的自然语音文本进行分析,该分析过程包括:语句的切分,寻找切分最理想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发音的情况,要把待发音的字、词句以及上下文的情况进行编码,生成一个可以被上下文中提及的规则集识别的输入情况;
B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息;
C.合成,优化处理并输出。
CN200910030596A 2009-04-24 2009-04-24 混合型语音合成系统 Pending CN101872614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910030596A CN101872614A (zh) 2009-04-24 2009-04-24 混合型语音合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910030596A CN101872614A (zh) 2009-04-24 2009-04-24 混合型语音合成系统

Publications (1)

Publication Number Publication Date
CN101872614A true CN101872614A (zh) 2010-10-27

Family

ID=42997432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910030596A Pending CN101872614A (zh) 2009-04-24 2009-04-24 混合型语音合成系统

Country Status (1)

Country Link
CN (1) CN101872614A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和系统
CN102929495A (zh) * 2012-09-07 2013-02-13 深圳市朵唯志远科技有限公司 一种实现动态壁纸的方法、装置及移动终端
CN103093751A (zh) * 2011-10-28 2013-05-08 上海移远通信技术有限公司 语音合成系统及其语音合成方法
CN103297582A (zh) * 2012-02-24 2013-09-11 联想(北京)有限公司 一种对语音通信内容进行处理的方法及电子设备
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN106548786A (zh) * 2015-09-18 2017-03-29 广州酷狗计算机科技有限公司 一种音频数据的检测方法及系统
CN108573694A (zh) * 2018-02-01 2018-09-25 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN108777751A (zh) * 2018-06-07 2018-11-09 上海航动科技有限公司 一种呼叫中心系统及其语音交互方法、装置和设备
CN109859746A (zh) * 2019-01-22 2019-06-07 安徽声讯信息技术有限公司 一种基于tts的语音识别语料库生成方法及系统
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和系统
CN103093751A (zh) * 2011-10-28 2013-05-08 上海移远通信技术有限公司 语音合成系统及其语音合成方法
CN103297582A (zh) * 2012-02-24 2013-09-11 联想(北京)有限公司 一种对语音通信内容进行处理的方法及电子设备
CN102929495A (zh) * 2012-09-07 2013-02-13 深圳市朵唯志远科技有限公司 一种实现动态壁纸的方法、装置及移动终端
CN106548786A (zh) * 2015-09-18 2017-03-29 广州酷狗计算机科技有限公司 一种音频数据的检测方法及系统
CN106548786B (zh) * 2015-09-18 2020-06-30 广州酷狗计算机科技有限公司 一种音频数据的检测方法及系统
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN108573694A (zh) * 2018-02-01 2018-09-25 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN108777751A (zh) * 2018-06-07 2018-11-09 上海航动科技有限公司 一种呼叫中心系统及其语音交互方法、装置和设备
CN109859746A (zh) * 2019-01-22 2019-06-07 安徽声讯信息技术有限公司 一种基于tts的语音识别语料库生成方法及系统
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置

Similar Documents

Publication Publication Date Title
CN101872614A (zh) 混合型语音合成系统
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
US8032356B2 (en) Spoken translation system using meta information strings
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN105931644A (zh) 一种语音识别方法及移动终端
DE60125397D1 (de) Sprachunabhängige stimmbasierte benutzeroberfläche
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
JP2009300573A (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
CN111951779A (zh) 语音合成的前端处理方法及相关设备
CN112543932A (zh) 语义分析方法、装置、设备及存储介质
US9026430B2 (en) Electronic device and natural language analysis method thereof
CN111144128A (zh) 语义解析方法和装置
CN110991179A (zh) 基于电力专业术语的语义分析方法
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
CN109343768A (zh) 显示方法及系统、计算机系统及计算机可读存储介质
CN103186522A (zh) 电子设备及其自然语言分析方法
Klabbers et al. Speech synthesis development made easy: the bonn open synthesis system.
CN110808028B (zh) 嵌入式语音合成方法、装置以及控制器和介质
Yaseen et al. Building Annotated Written and Spoken Arabic LRs in NEMLAR Project.
CN102571882A (zh) 基于网络的语音提醒的方法和系统
CN104679733A (zh) 一种语音对话翻译方法、装置及系统
CN112711654B (zh) 语音机器人的汉字解释话术生成方法、系统、设备及介质
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
RU80603U1 (ru) Электронная приемопередающая система с функцией синхронного перевода устной речи с одного языка на другой

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101027