CN107516509A - 用于新闻播报语音合成的语音库构建方法及系统 - Google Patents
用于新闻播报语音合成的语音库构建方法及系统 Download PDFInfo
- Publication number
- CN107516509A CN107516509A CN201710756925.2A CN201710756925A CN107516509A CN 107516509 A CN107516509 A CN 107516509A CN 201710756925 A CN201710756925 A CN 201710756925A CN 107516509 A CN107516509 A CN 107516509A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- symbol
- recording text
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000009411 base construction Methods 0.000 title claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 21
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L2013/083—Special characters, e.g. punctuation marks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种用于新闻播报语音合成的语音库构建方法包括获取新闻语料,筛选新闻语料得到目标录音文本,然后对目标录音文本进行预处理,最后对目标录音文本进行录制并采集目标语音,构建语音库;用于新闻播报语音合成的语音库构建系统包括语料采集筛选模块、预处理模块、语音采集模块和语音库生成模块;本发明提供了一种高质量、时效高的用于新闻播报语音合成的语音库构建方法及系统。
Description
技术领域
本发明涉及一种数据统计领域,尤其涉及一种用于新闻播报语音合成的语音库构建方法及系统。
背景技术
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,而合成音系统的质量好坏主要通过以下两方面进行考量:合成技术方案与音库。
音库的质量可以通过多方面进行考量,比如音色、文本、韵律、自然度、性价比和时间等。一般首先是视应用的需求,选择特定合适的音色声优;其次是在录制文本的选取上也存在可选性以增加领域的适应性。在拼接技术中,由于采用了真实的录音进行拼接,所以对音库的要求是较高的,所以在设计音库过程中,对录音文本的设计、数量以及发音的自然度、韵律、音高、一致性、感情等因素都要做到严格控制,以保证最后拼接单元之间的适配性,因为稍有缺陷就会造成对合成音的重大影响,同时该技术需要大规模语料音库才可以得到良好的扩展效果。在参数合成技术中,由于该技术的特点,不直接使用原始音频,而是通过一种语音合成器通过特征参数合成语音,所以其在文本与声音的控制上不在需要那么严格。
无论采用哪种技术,合成音库的质量需要尽量得到保证,同时在实际需求当中,更期望尽可能快速得到高质量的音库。传统构建音库,若想得到一个高质量的音库,会考虑发音、音素、音节、词语、短语、句子及其韵律等多方面精细标注,但整个构建过程将需要耗费大量的人力物力,整个制作周期又是非常漫长的,甚至长达一两年。一般质量的音库虽然不用去考虑过多音素标注,节省了时间与资源,但音库的质量往往难以得到保证。
发明内容
为解决上述技术问题,本发明的目的在于针对现有技术中构建音库质量不高,高质量的音库构建周期长、耗资巨大以及时效低等问题,提供了一种高质量、时效高的用于新闻播报语音合成的语音库构建方法及系统。
本发明提供的一种用于新闻播报语音合成的语音库构建方法包括:
S1、获取新闻语料,筛选新闻语料得到目标录音文本;
S2、目标录音文本的预处理;
S3、对目标录音文本进行录制并采集目标语音,构建语音库。
进一步的,所述步骤S2中所述目标录音文本的预处理的步骤包括:
S21、对目标录音文本中的符号进行归一化转换成文字;
S22、目标录音文本的拼音标注处理;
S23、目标录音文本的分句处理。
更进一步的,所述步骤S21中的所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。
更进一步的,所述步骤S22中所述目标录音文本的拼音标注处理包括对所述目标录音文本的拼音的声调符号的数字化处理。
更进一步的,所述步骤S23中所述目标录音文本的分句处理包括目标录音文本中基于标点符号的符号分句和阈值长度的长度分句。
本发明提供的一种用于新闻播报语音合成的语音库构建系统,包括:
语料采集筛选模块,用于采集新闻语料筛作为基础语料并进行筛选;
预处理模块,用于对所述语料采集模块筛选出的目标录音文本进行预处理;
语音采集模块,用于对经所述预处理模块预处理的所述目标录音文本进行录制,获得目标语音;
语音库生成模块,用于储存所述语音采集模块采集的语音生成语音库。
进一步的,所述预处理模块包括:
符号转换模块,用于将所述目标录音文本中的符号归一化转换成文字;
拼音标注模块,用于对所述目标录音文本对应的拼音及声调进行数字化处理;
分句模块,用于对所述目标录音文本进行分句。
更进一步的,所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。
更进一步的,所述分句模块包括标点符号分句模块和长度分句模块,所述标点符号分句模块用于根据所述目标录音文本中的标点符号进行分句,所述长度分句模块根据所述目标录音文本中句子的阈值长度进行分句。
进一步的,所述目标录音文本为字符覆盖率大于95%、音节覆盖率等于100%、词语覆盖率大于99%且句式覆盖率等于100%的目标录音文本。
本发明提供的用于新闻播报语音合成的语音库构建方法及系统,对特定应用场景选用领域内文本,采用自动化方法与文本选择准则,使文本在音素、音节以及语调上覆盖均衡,减少语料的样本数量,节省了时间与成本;提出了覆盖多类别的文本归一方法,将涉及的符号进行归一化转换;使用拼音-字符对照朗读和特定的分句形式,减少错误,提供朗读韵律,为最终构建一个发音准确、平稳、富有自然度、具备感情的高质量语音库提供了必不可少的技术条件。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明提供的用于新闻播报语音合成的语音库构建系统的结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种用于新闻播报语音合成的语音库构建方法的一较佳实施例包括:
S1、获取新闻语料,筛选新闻语料得到目标录音文本;
1)获取新闻语料:
通常在制作一款合成音时,我们通常会使用已有的语料库,这样可以节省不少时间,但是也隐藏了隐患,因为现有的录音文本库与特定领域在韵律、情感等存在一定的差异性。当制作新闻播报的合成音时,例如:一份来自于财经新闻的文本:“上股交:挂牌企业总数九千五百六十六家,其中N板(科创板)七十九家,E板六百四十七家,Q板八千八百四十家,累计融资额二百二十一点三五亿。”和一份来自日常对话领域的文本:“冬天能干啥呢?老闷在家看电视也没劲,还不如串门唠嗑呢!”。可以明显看出,不同领域,语言上存在明显的特点。新闻文本在感情上会稍带了严肃的特性,而聊天文本就比较随意。因此如果使用对话聊天文本去制作新闻播报的合成音,在合成效果上会存在两方面的问题:a)语调不适应问题;b)合成效果,比如自然度、韵律都存在问题。因此,对于特定领域的合成音,我们采取从特定领域获取录音材料文本的方案,所以我们从新闻语料中抽取大量的文本资料作为待处理的目标录音文本。
2)筛选新闻语料:
新闻语料可以从新闻咨询中轻易拿到,但是如果对所有录音目标文本都进行录制,那将是耗费时间与成本的,同时也难以保证质量。因此需要从原始大量的文本语料中选取具有覆盖度的录音目标文本。
S2、目标录音文本的预处理;
防止目标录音文本的处理不善,导致声优对目标录音文本的录制效果与预期效果产生偏差,需要对目标录音文本进行预处理。
S3、对目标录音文本进行录制并采集目标语音,构建语音库。
对经筛选和预处理的目标录音文本进行录制,对目标录音文本中多音字发音的正确度、意群确立、停顿、自然度以及情感进行规范化的掌控,最终构建一个高质量的用于新闻播报语音合成的语音库。
为了更好的筛选新闻语料,提高新闻语料的质量,需要保证目标录音文本中的字符覆盖率、音节覆盖率、词语覆盖率和句式覆盖率:
1)字符覆盖率:统计所有字符(其中部分偏僻字,暂不做考虑)的数量,保证覆盖95%以上的字符;
2)音节覆盖率:保证覆盖所有的音节拼音形式,并且使得分布在一定的区间内;
3)词语覆盖率:保证覆盖所有常用的词语及其他词语达到词典(211556个词数)的99%以上;
4)句式覆盖率:保证覆盖每一类句式。
对目标录音文本进行预处理的步骤包括:
S21、对目标录音文本中的符号进行归一化转换成文字,符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号;
在获取原始文本后,文本中存在诸如123456与+-/%等符号,这些符号在不同上下文中,语义会存在不同,在录音开始前,必须都统一转换程中文形式,主要的步骤如下:
1)数字类型转换处理:根据上下文语音信息及其场景进行判断数字的读法,例如:“明天晚上10:15的比赛结果是10:15”,其中第一个10:15按照时间来调整,读成十点三十分,而第二个10:15按照比分来调整,读成二十一比十七;
2)数学符号类转换:主要根据上下文及场景判断符号的读法,转换为相应的中文读法,例如:符号“-”可做减号,也做“到/至”;如"1-5等于"表示"一减去五等于";"1-5日"表示"1-到五日";符号”/”可做”除以”,也可做”每”;100/1表示如100m/S;符号">"换成"大于",符号"%"换成"百分之";
3)其他符号的转换处理:另外还涉及时期、时间、分数、单位、表达式、区号、号码、网址、比分、地理等各个领域的数字字符表达式的处理,这些都需要一一做中文的转换,避免词意的误解造成录音的失效,以及错误的数据的引入,比如:经纬度:N8°8'8"=>北纬8度8分8秒等等。
S22、目标录音文本的拼音标注处理,对目标录音文本的拼音的声调符号的数字化处理;
为了防止由于声优语言水平或能力不足造成的发音错误,甚至影响整个朗读的自然度,音录音人员在录制过程中,会存在思考正确读法而导致读错或影响韵律,因此采用拼音字符对照的形式,具体如下:拼音:wo3-shi4-zhong1-guo2-ren2,字符句子:我是中国人。
在操作过程中,明显可以减少朗读人员读错的机会,而且在韵律上也明显得到的改善,提炼录制质量与效率。
S23、目标录音文本的分句处理,包括目标录音文本中句子的符号分句和长度分句;
为了解决句子过长导致朗读停顿不便,韵律不够明确,或带入过多信息从而影响到录制质量与合成音制作的模型构建,对目标录音文本进行分句处理,具体如下:
1)标点符号分句:句子分段或结束,如:".!?。?!",不包括逗号的原因在于由于大多数的句子逗号的位置依旧存在上下文的关联,如果此处分割,极易造成韵律的丢失;
2)长度分句:①不超过阈值长度的句子,不用考虑;②超过阈值长度的句子,根据句意以及正常阅读时换气的停顿来划分句子;③超过阈值长度的句子,但是前后句之间有联系的句子不可分割。
有些句子长主要是因为文本的不规范预计多重句式,在实际的朗读过程中,对于长过程的句子必然存在的停顿,所以需要从上下文的语境进行区分分割。
为了保证录音符合合成的标准要求,步骤S3中目标语音是音量在10000~20000分贝之间的目标语音。
本方法对特定应用场景选用领域内文本,采用自动化方法与文本选择准则,使文本在音素、音节以及语调上覆盖均衡,减少语料的样本数量,节省了时间与成本;提出了覆盖多类别的文本归一方法,将涉及的符号进行归一化转换;使用拼音-字符对照朗读和特定的分句形式,减少错误,提供朗读韵律,构建了一个发音准确、平稳、富有自然度、具备感情的高质量语音库。
参见图1,图1是本发明提供的一种用于新闻播报语音合成的语音库构建系统的一较佳实施例,用于实现上述的用于新闻播报语音合成的语音库构建方法。在本实施例中,用于新闻播报语音合成的语音库构建系统包括:
语料采集筛选模块,用于采集新闻语料筛作为基础语料并进行筛选;
预处理模块,用于对语料采集模块筛选出的目标录音文本进行预处理;
语音采集模块,用于对经预处理模块预处理的目标录音文本进行录制,获得目标语音;
语音库生成模块,用于储存语音采集模块采集的语音生成语音库。
作为优选,预处理模块包括:
符号转换模块,用于将目标录音文本中的符号归一化转换成文字;
拼音标注模块,用于对目标录音文本对应的拼音及声调进行数字化处理;
分句模块,用于对目标录音文本进行分句。
为了进行目标录音文本中符号的归一化处理,符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。
为了方便声优录制目标录制文本,分句模块包括:标点符号分句模块用于根据目标录音文本中的标点符号进行分句;长度分句模块根据目标录音文本中句子的阈值长度进行分句。
为了得到合适的目标录音文本,目标录音文本为字符覆盖率大于95%、音节覆盖率等于100%、词语覆盖率大于99%且句式覆盖率等于100%的目标录音文本。
用于新闻播报语音合成的语音库构建系统的工作步骤如下:
首先,由语料采集筛选模块将采集到的新闻语料进行筛选得到目标录音文本,目标录音文本在预处理模块中进行符号转换、拼音标注和分句的预处理,通过语音采集模块,对声优录制目标录音文本生成的目标语音进行采集,采集到的目标语音通过语音库生成模块进行储存并生成用于新闻播报语音合成的语音库。
本发明提供的用于新闻播报语音合成的语音库构建系统是从录音文本的设计准备,到录音,以及核对,直到最后得到标注的音频-文本音库。基于原始音频文本库所需的录制基础上,考虑利用声学,语言学的特性做多重保证处理,规范录音文本及其录音规范,同时进行自动与人工相结合的方式录制合成语音库,最终形成符合要求的语音库,最终构建一个发音精准、平稳、富有自然度及具备感情的高质量语音库。
以上仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种用于新闻播报语音合成的语音库构建方法,其特征在于,所述的用于新闻播报语音合成的语音库构建方法包括:
S1、获取新闻语料,筛选新闻语料得到目标录音文本;
S2、目标录音文本的预处理;
S3、对目标录音文本进行录制并采集目标语音,构建语音库。
2.根据权利要求1所述的用于新闻播报语音合成的语音库构建方法,其特征在于:所述步骤S2中所述目标录音文本的预处理的步骤包括:
S21、对目标录音文本中的符号进行归一化转换成文字;
S22、目标录音文本的拼音标注处理;
S23、目标录音文本的分句处理。
3.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法,其特征在于:所述步骤S21中的所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。
4.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法,其特征在于:所述步骤S22中所述目标录音文本的拼音标注处理包括对所述目标录音文本的拼音的声调符号的数字化处理。
5.根据权利要求2所述的用于新闻播报语音合成的语音库构建方法,其特征在于:所述步骤S23中所述目标录音文本的分句处理包括目标录音文本中基于标点符号的符号分句和阈值长度的长度分句。
6.一种用于新闻播报语音合成的语音库构建系统,其特征在于,所述用于新闻播报语音合成的语音库构建系统包括:
语料采集筛选模块,用于采集新闻语料筛作为基础语料并进行筛选;
预处理模块,用于对所述语料采集模块筛选出的目标录音文本进行预处理;
语音采集模块,用于对经所述预处理模块预处理的所述目标录音文本进行录制,获得目标语音;
语音库生成模块,用于储存所述语音采集模块采集的语音生成语音库。
7.根据权利要求6所述的用于新闻播报语音合成的语音库构建系统,其特征在于,所述预处理模块包括:
符号转换模块,用于将所述目标录音文本中的符号归一化转换成文字;
拼音标注模块,用于对所述目标录音文本对应的拼音及声调进行数字化处理;
分句模块,用于对所述目标录音文本进行分句。
8.根据权利要求7所述的用于新闻播报语音合成的语音库构建系统,其特征在于:所述符号包括数学符号、数字符号、日期符号、时间符号、地理符号和特殊符号。
9.根据权利要求7所述的用于新闻播报语音合成的语音库构建系统,其特征在于:所述分句模块包括标点符号分句模块和长度分句模块,所述标点符号分句模块用于根据所述目标录音文本中的标点符号进行分句,所述长度分句模块根据所述目标录音文本中句子的阈值长度进行分句。
10.根据权利要求6所述的用于新闻播报语音合成的语音库构建系统,其特征在于:所述目标录音文本为字符覆盖率大于95%、音节覆盖率等于100%、词语覆盖率大于99%且句式覆盖率等于100%的目标录音文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710756925.2A CN107516509B (zh) | 2017-08-29 | 2017-08-29 | 用于新闻播报语音合成的语音库构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710756925.2A CN107516509B (zh) | 2017-08-29 | 2017-08-29 | 用于新闻播报语音合成的语音库构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107516509A true CN107516509A (zh) | 2017-12-26 |
CN107516509B CN107516509B (zh) | 2021-12-28 |
Family
ID=60724519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710756925.2A Active CN107516509B (zh) | 2017-08-29 | 2017-08-29 | 用于新闻播报语音合成的语音库构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107516509B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
CN109065031A (zh) * | 2018-08-02 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
CN109101581A (zh) * | 2018-07-20 | 2018-12-28 | 安徽淘云科技有限公司 | 一种文本语料的筛选方法及装置 |
CN109213996A (zh) * | 2018-08-08 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种语料库的训练方法及系统 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN109902199A (zh) * | 2019-03-01 | 2019-06-18 | 深圳市伟文无线通讯技术有限公司 | 一种近场语料采集方法及装置 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN111369966A (zh) * | 2018-12-06 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 一种用于个性化语音合成的方法和装置 |
CN111933120A (zh) * | 2020-08-19 | 2020-11-13 | 潍坊医学院 | 一种用于语音识别的语音数据自动化标注方法和系统 |
CN112750423A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
WO2021217433A1 (zh) * | 2020-04-28 | 2021-11-04 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1811912A (zh) * | 2005-01-28 | 2006-08-02 | 北京捷通华声语音技术有限公司 | 小音库语音合成方法 |
CN1815551A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 在方言语音合成系统中进行文本方言化处理的方法 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102184167A (zh) * | 2011-05-25 | 2011-09-14 | 安徽科大讯飞信息科技股份有限公司 | 一种文本数据处理方法和装置 |
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
US20160104477A1 (en) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Method for the interpretation of automatic speech recognition |
CN106844516A (zh) * | 2016-12-28 | 2017-06-13 | 中央民族大学 | 一种热点词的提取方法及系统 |
-
2017
- 2017-08-29 CN CN201710756925.2A patent/CN107516509B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1811912A (zh) * | 2005-01-28 | 2006-08-02 | 北京捷通华声语音技术有限公司 | 小音库语音合成方法 |
CN1815551A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 在方言语音合成系统中进行文本方言化处理的方法 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102184167A (zh) * | 2011-05-25 | 2011-09-14 | 安徽科大讯飞信息科技股份有限公司 | 一种文本数据处理方法和装置 |
US20160104477A1 (en) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Method for the interpretation of automatic speech recognition |
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
CN106844516A (zh) * | 2016-12-28 | 2017-06-13 | 中央民族大学 | 一种热点词的提取方法及系统 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
CN109101581A (zh) * | 2018-07-20 | 2018-12-28 | 安徽淘云科技有限公司 | 一种文本语料的筛选方法及装置 |
CN109065031A (zh) * | 2018-08-02 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
CN109065031B (zh) * | 2018-08-02 | 2020-05-12 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
WO2020024690A1 (zh) * | 2018-08-02 | 2020-02-06 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN109213996A (zh) * | 2018-08-08 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种语料库的训练方法及系统 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN109473106B (zh) * | 2018-11-12 | 2023-04-28 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN111369966A (zh) * | 2018-12-06 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 一种用于个性化语音合成的方法和装置 |
CN109902199A (zh) * | 2019-03-01 | 2019-06-18 | 深圳市伟文无线通讯技术有限公司 | 一种近场语料采集方法及装置 |
CN112750423A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
CN112750423B (zh) * | 2019-10-29 | 2023-11-17 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
WO2021217433A1 (zh) * | 2020-04-28 | 2021-11-04 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
CN113940049A (zh) * | 2020-04-28 | 2022-01-14 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
CN113940049B (zh) * | 2020-04-28 | 2023-10-31 | Vidaa(荷兰)国际控股有限公司 | 基于内容的语音播放方法及显示设备 |
CN111933120A (zh) * | 2020-08-19 | 2020-11-13 | 潍坊医学院 | 一种用于语音识别的语音数据自动化标注方法和系统 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113643684B (zh) * | 2021-07-21 | 2024-02-27 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107516509B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516509A (zh) | 用于新闻播报语音合成的语音库构建方法及系统 | |
US9865251B2 (en) | Text-to-speech method and multi-lingual speech synthesizer using the method | |
CN105845125A (zh) | 语音合成方法和语音合成装置 | |
CN106328146A (zh) | 一种视频的字幕生成方法及装置 | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和系统 | |
Leemann et al. | Rhythmic variability in Swiss German dialects | |
CN111613224A (zh) | 一种个性化语音合成方法及装置 | |
CN102254554A (zh) | 一种对普通话重音进行层次化建模和预测的方法 | |
Chomphan et al. | Implementation and evaluation of an HMM-based Thai speech synthesis system. | |
Masmoudi et al. | Phonetic tool for the Tunisian Arabic | |
Chan | Exposure to accents and pronunciation modelling: A case study of a secondary school in H ong K ong | |
Hansakunbuntheung et al. | Thai tagged speech corpus for speech synthesis | |
Gutkin et al. | FonBund: A library for combining cross-lingual phonological segment data | |
CN111599338A (zh) | 一种稳定可控的端到端语音合成方法及装置 | |
Dalton et al. | Nuclear accents in four Irish (Gaelic) dialects | |
Seeliger et al. | Boundary tones in German wh-questions and wh-exclamatives–a cluster-based approach | |
Setter | A comparison of speech rhythm in British and Hong Kong English | |
Fivela et al. | Variation in intonation across Italy: The case of Palermo Italian | |
Shah et al. | Bi-Lingual Text to Speech Synthesis System for Urdu and Sindhi | |
Grice et al. | Tune-text negotiation: The effect of intonation on vowel duration | |
Onyeocha | The standard Igbo in radio broadcasting: A study of selected radio stations in Anambra state | |
Torres et al. | Another look at the Phonological Features of Lectal Speakers: Re-validation of the Description of the Philippine English’s Phonology | |
CN104318920A (zh) | 具有谱稳定边界的跨音节中文语音合成基元构建方法 | |
Bentum et al. | A Speech Recognizer for Frisian/Dutch Council Meetings | |
Peerachachayanee | Towards the phonology of Thai English |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |