CN107731219B - 语音合成处理方法、装置及设备 - Google Patents

语音合成处理方法、装置及设备 Download PDF

Info

Publication number
CN107731219B
CN107731219B CN201710797787.2A CN201710797787A CN107731219B CN 107731219 B CN107731219 B CN 107731219B CN 201710797787 A CN201710797787 A CN 201710797787A CN 107731219 B CN107731219 B CN 107731219B
Authority
CN
China
Prior art keywords
text
label
tag
background sound
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710797787.2A
Other languages
English (en)
Other versions
CN107731219A (zh
Inventor
王禹
谢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710797787.2A priority Critical patent/CN107731219B/zh
Publication of CN107731219A publication Critical patent/CN107731219A/zh
Application granted granted Critical
Publication of CN107731219B publication Critical patent/CN107731219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提出一种语音合成处理方法、装置及设备,其中方法包括:对待处理的文本进行处理,确定文本的特征;根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;根据目标语音标签,将文本进行语音合成。该方法使得播放的语音形式丰富多变,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户使用体验。

Description

语音合成处理方法、装置及设备
技术领域
本申请涉及语音合成技术领域,尤其涉及一种语音合成处理方法、装置及设备。
背景技术
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。然而,现有的语音合成方式一般都是在已有的语音库中选取与文本信息对应的语句、或者词语进行语音合成,并将合成的语音进行播报。虽然上述方式可以实现语音的合成,但是语音播放的形式比较单一,并且提供的信息简单,使得适用范围受到限制。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音合成处理方法,该方法使得播放的语音形式丰富多变,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户使用体验。
本申请的第二个目的在于提出一种语音合成处理装置。
本申请的第三个目的在于提出一种终端设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种语音合成处理方法,该方法包括:
对待处理的文本进行处理,确定所述文本的特征;
根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;
根据所述目标语音标签,将所述文本进行语音合成。
本申请实施例提供的语音合成处理方法中,通过对待处理的文本进行处理,确定出待处理文本的文本特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,对文本进行语音合成。由此,通过获取的目标语音标签,对文本进行语音合成,使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户的使用体验。
另外,本申请上述实施例提出的语音合成处理方法还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述目标语音标签包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
在本申请的另一个实施例中,所述目标语音标签为背景音标签;
所述获取目标语音标签,包括:
若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定所述第一音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的时间信息对应的第二音乐,则确定所述第二音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的天气信息对应的第三音乐,则确定所述第三音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与所述文本的特征匹配的第四音乐,则确定所述第四音乐的标签为所述文本的背景音标签。
在本申请的另一个实施例中,所述目标语音标签为音色调节标签;
所述获取目标语音标签,包括:
若所述文本中包括专有名,则根据所述专有名的属性,获取所述专有名对应的音色调节标签;
和/或,
获取与所述文本的特征中包含的情感信息对应的音色调节标签。
在本申请的另一个实施例中,所述目标语音标签为音频标签;
所述获取目标语音标签,包括:
获取与所述文本的特征中包含的专有名对应的音频标签。
为达上述目的,本申请第二方面实施例提出了一种语音合成处理装置,包括:
确定模块,用于对待处理的文本进行处理,确定所述文本的特征;
获取模块,用于根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;
合成模块,用于根据所述目标语音标签,将所述文本进行语音合成。
本申请实施例提供的语音合成处理装置中,通过对待处理的文本进行处理,确定出待处理文本的文本特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,将文本进行语音合成。由此,通过获取的目标语音标签,对文本进行语音合成,使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户的使用体验。
另外,本申请上述实施例提出的语音合成处理装置还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述目标语音标签包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
在本申请的另一个实施例中,所述目标语音标签为背景音标签;
所述获取模块,具体包括:
若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定所述第一音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的时间信息对应的第二音乐,则确定所述第二音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的天气信息对应的第三音乐,则确定所述第三音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与所述文本的特征匹配的第四音乐,则确定所述第四音乐的标签为所述文本的背景音标签。
在本申请的另一个实施例中,所述目标语音标签为音色调节标签;
所述获取模块具体包括:
若所述文本中包括专有名,则根据所述专有名的属性,获取所述专有名对应的音色调节标签;
和/或,
获取与所述文本的特征中包含的情感信息对应的音色调节标签。
在本申请的另一个实施例中,所述目标语音标签为音频标签;
所述获取模块具体包括:
获取与所述文本的特征中包含的专有名对应的音频标签。
为达上述目的,本申请第三方面实施例提出了一种终端设备,包括:存储器、处理器、通信端口;
所述通信端口,用于传输通信数据;
所述存储器,用于存储可执行程序代码;
所述处理器,用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现第一方面实施例所述的语音合成处理方法。
本申请实施例提供的终端设备中,通过对待处理的文本进行处理,确定出待处理文本的文本特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,将文本进行语音合成。由此,通过获取的目标语音标签,对文本进行语音合成,使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户的使用体验。
为达到上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面实施例所述的语音合成处理方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的语音合成处理方法的流程图;
图2为本申请另一个实施例的语音合成处理方法的流程图;
图3为本申请的一个实施例的语音合成处理装置的结构示意图;
图4为本申请的一个实施例的终端设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请主要针对现有技术中,通过传统的方式进行语音合成时存在的语音播报形式单一,并且提供的信息简单,使得语音合成的适用范围受到限制的问题,提出一种语音合成处理方法。
本申请提出的语音合成处理方法,通过对待处理文本进行处理,以确定文本的特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,对文本进行语音合成。由此,通过目标语音标签,对文本进行语音合成,使得最终播放的语音形式丰富多变,并且还能携带更多的信息,增加了语音合成的适用范围,极大的提高了用户的使用体验。
下面结合附图对本申请实施例提出的语音合成处理方法进行详细描述。
图1为本申请一个实施例的语音合成处理方法的流程图。
如图1所示,该语音合成处理方法可以包括以下步骤:
步骤101,对待处理的文本进行处理,确定文本的特征。
具体的,本申请实施例提供的语音合成处理方法,可以由本申请提供的语音合成处理装置执行,该装置可以被配置在任意具有语音合成功能的终端设备中,以实现对待处理文本进行处理。
其中,终端设备可以是,但不限于智能手机、个人数字化助理、车载导航等设备。
具体实现时,本申请可通过对待处理文本进行分词处理得到多个分词,并依据分词的词性对多个分词进行过滤,以滤除词性为量词、虚词等不重要的分词,然后将剩余的其他分词作为待处理文本的特征。
进一步地,为了保证确定的文本特征更准确可靠,本申请还可通过评估函数,对上述确定的文本特征进行评估,并对上述文本特征中的每个分词进行打分,得到每个分词的权重值。然后将分词按权值大小进行排序,将预定数目的最优分词作为文本的特征。
其中,在本实施例中预定数目可以根据实际需要进行适应性设置,本申请对此不做限制。比如,3个、5个、6个等等。
步骤102,根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签。
其中,在本申请中,目标语音标签可以包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
其中,音乐调节标签可以包括:音色(spectrum)、音调(pitch)、语速(speed)、音量(volume)等,本申请对此不做具体限定。
具体的,在确定出文本的特征之后,本申请可根据文本的特征、当前的时间和/或天气信息,获取对应的目标语音标签。在一种实现方式中,本申请可通过服务器实时从不同网站或者平台上获取对应的目标语音标签。在另一种实现方式,可从预先建立的数据资源库中获取对应的目标语音标签,本申请对此不做限定。
在本实施例中,预先建立的数据资源库中存储有文本的特征、当前的时间信息和/或天气信息对应的多种目标语音标签。
进一步的,为了保证从数据资源库中获取的目标语音标签,与文本的特征、当前的时间信息和/或天气信息更匹配。本申请还可对数据资源库按照预设的周期进行自动更新,以确保获取到的目标语音标签更符合使用场景,进一步提升用户体验。
其中,预设周期可以根据实际需求进行适应性设置,本申请对此不做限定。比如24小时、一周、一个月等。
可以理解的是,在本实施例中获取目标语音标签的方式,可以是根据文本特征和当前的时间信息获取;或者,也可以是根据文本特征和天气信息获取;又或者,还可以是根据确定的文本特征、当前的时间信息及天气信息获取,本申请对此不做具体限定。
步骤103,根据目标语音标签,将文本进行语音合成。
具体的,本申请中获取的目标语音标签可能包含一种,或多种语音标签,因此在对文本进行语音合成时,可根据目标语音标签中包含一种或者多种语音标签,分别对应的对文本进行语音合成。
举例说明,若目标语音标签中包含有背景音标签、音频标签,则对文本进行语音合成时,可先对文本分别进行背景音标注和音频标注,然后在对添加了背景音标签和音频标签的文本进行语音合成处理操作,得到对应的语音结果。
又例如,若目标语音标签中包含有音色调节标签,则对文本进行语音合成时,可先对文本进行音色调节标注,然后对添加了音色调节标签的文本进行处理生成音子,并以音子为单位进行时长预测,确定文本的时长,进一步对音子进行音调调节,最后调节音量大小得到对应的语音结果。
本申请实施例提供的语音合成处理方法中,通过对待处理的文本进行处理,以确定出待处理文本的特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,将文本进行语音合成。由此,通过获取目标语音标签,对文本进行处理,从而使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的使用范围,极大的提高用户的使用体验。
基于上述实施例可知,本申请根据目标语音标签对文本进行语音合成处理。在一种可能的实现情景中,本申请还可确定目标语音标签的具体类型,并采取不同的方式获取对应的语音标签信息,以实现对待处理文本进行不同形式的语音合成处理。下面结合图2,对上述情况下的语音合成处理方法进行具体说明。
图2为本申请的另一个实施例的语音合成处理方法的流程图。
如图2所示,该语音合成处理方法可以包括以下步骤:
步骤201,对待处理的文本进行处理,确定文本的特征。
步骤202,根据文本的特征、当前的时间信息和/或天气信息,确定目标语音标签的类型。
具体的,由于不同文本所表达的场景、语速、音调及当前的时间和/或天气等信息各有不同,因此,本申请还可基于文本的特征、当前的时间信息和/或天气信息,确定待处理文本对应的目标语音标签的类型。
具体实现时,在一种实现方式中,可根据文本的特征和当前的时间信息,确定目标语音标签的类型;在另一种实现方式中,可根据当前的时间信息和天气信息,确定目标语音标签的类型;在第三种实现方式中,可根据文本的特征和当前的天气信息,确定目标语音标签的类型;第四种实现方式中,可根据文本的特征、当前的时间信息及当前的天气信息,确定目标语音标签的类型,本申请对此不做具体限定。
其中,本申请目标语音标签的标签类型可以是,但不限于背景音类型、音色调节类型、音频类型等等,本申请对此不做限定。
步骤203,若目标语音标签为背景音标签,则获取背景音标签。
具体的,当确定出目标语音标签为背景音标签时,可通过以下方式获取背景音标签,举例说明如下:
示例一,若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定第一音乐的标签为文本的背景音标签;
其中,本实施例中背景音库可以是预先设置的,本申请对此不做限定。
举例说明,若当前的时间信息为春天,且当前的天气晴朗,文本的特征比较欢快,则可以将背景音库中欢快的音乐A,确定为文本的背景音标签。
又例如,若当前的时间信息为冬天,且当前的天气在下雪,文本的特征比较沉闷,则可以将背景音库中忧伤的音乐C,确定为文本的背景音标签。
示例二,若背景音库中包括与当前的时间信息对应的第二音乐,则确定第二音乐的标签为文本的背景音标签;
例如,若当前的时间为圣诞节,则可以将背景音库中有关圣诞的音乐D,确定为文本的背景音标签。
示例三,若背景音库中包括与当前的天气信息对应的第三音乐,则确定第三音乐的标签为所述文本的背景音标签;
例如,若当前的天气为雨天,则可以将背景音库中的雨滴声,确定为文本的背景音标签。
又例如,若当前的天气为刮风,则可以将背景音库中的风声,确定为文本的背景音标签。
示例四,若背景音库中包括与文本的特征匹配的第四音乐,则确定第四音乐的标签为文本的背景音标签。
例如,若当前的文本特征为鸟叫,则可以将背景音库中鸟叫声,确定为文本的背景音标签。
当然除此之外,还可以通过其他方式确定文本的背景音标签,本申请对此不做具体描述。
步骤204,根据背景音标签,将文本进行语音合成。
具体的,获取到背景音标签之后,本申请可根据背景音标签,对文本进行对应的语音合成处理。
例如,若文本中某处有鸟叫特征时,则在鸟叫特征位置处添加对应鸟叫声的背景音标签,以实现在播放鸟叫特征时,对应响起鸟叫的声音,使得播放的语音更生动贴切,令用户有种身临其境的感觉。
也就是说,本申请在播放语音时,当播放到有添加背景音标签的位置时,播放对应的背景音内容,由此使得语音播放更多样性,更具有个性化特点。
步骤205,若目标语音标签为音色调节标签,则获取音色调节标签。
具体的,当确定出目标语音标签为音色调节标签时,可通过以下方式获取音色调节标签,举例说明如下:
示例一,若文本中包括专有名,则根据专有名的属性,获取专有名对应的音色调节标签;
其中,本申请文本的专有名可以是但不限于,歌曲名、人名、地点等等。例如,北京、周杰伦等等。
举例来说,若文本信息中包括“西安”,则可以根据西安的文化底蕴,获取语速缓慢,音调轻柔的音色调节标签,以根据音色调节标签突出西安的文化底蕴,吸引用户的注意力。
示例二,获取与文本的特征中包含的情感信息对应的音色调节标签。
例如,若文本的特征信息中,包含有“高兴”的信息时,则可以获取语调欢快、音色较透亮的音色调节标签。
当然除此之外,本申请还可以通过其他方式获取音色调节标签,本申请对此不做具体限定。
步骤206,根据音色调节标签,将文本进行语音合成。
具体的,获取到音色调节标签之后,本申请可根据音色调节标签,对文本进行对应的语音合成处理。
例如,若文本中包含有专有名“周杰伦”时,则在播放到“周杰伦”的文本时,增加“周杰伦”的音量、升高音调,以吸引用户的注意力。
也就是说,本申请在播放语音时,当播放到有专有名词或者情感信息时,调整专有名词或者情感信息词语的语气、语调或者音量,以增加语音播放的生动性。
步骤207,若目标语音标签为音频标签,则获取目标语音标签。
具体的,若确定目标语音标签为音频标签时,本申请可通过获取与文本的特征中包含的专有名对应的音频标签。
其中,文本特征中的专有名可以是广告、或者虚拟角色等,本申请对此不做限定。
举例来说,若文本特征中的专有名为“麦当劳广告”,则可以获取“麦当劳”对应的广告音,作为音频标签。
又例如,若文本特征中有专有名为“恶霸黑老三”,则可以获取气势强硬的先导音,作为音频标签。
步骤208,根据音频标签,将文本进行语音合成。
具体的,获取到音频标签之后,本申请可根据音频标签,对文本进行对应的语音合成处理。
例如,若文本的特征包含有专有名“恶霸黑老三”时,则在播放到“恶霸黑老三”的文本特征之前,先播放“恶霸黑老三”出场时的气焰嚣张的先导音,然后在播放“恶霸黑老三”说话的内容,从而通过先导音使得用户对“恶霸黑老三”有了特定印象。
也就是说,通过在文本中添加音频标签,起到对固定声音形象的广告或者虚拟角色的展现。
本申请实施例提供的语音合成处理方法中,通过确定目标语音标签的类型,获取对应的语音标签,从而根据获取的语音标签对文本进行相对应的语音合成处理。由此,实现了对文本进行不同方式的语音合成处理,使得语音更具有个性化,满足了用户在不同场景下的不同需求,进一步提升了用户的使用体验。
为了实现上述实施例,本发明还提出一种语音合成处理装置。
图3为本发明一个实施例的语音合成处理装置的结构示意图。
参照图3,该语音合成处理装置包括:确定模块11、获取模块12、以及合成模块13。
其中,确定模块11用于对待处理的文本进行处理,确定所述文本的特征;
获取模块12用于根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;
其中,所述目标语音标签包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
合成模块13用于根据所述目标语音标签,将所述文本进行语音合成。
进一步的,在本发明的另一个实施例中,当所述目标语音标签为背景音标签;
所述获取模块12具体包括:
若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定所述第一音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的时间信息对应的第二音乐,则确定所述第二音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的天气信息对应的第三音乐,则确定所述第三音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与所述文本的特征匹配的第四音乐,则确定所述第四音乐的标签为所述文本的背景音标签。
在本另一个实施例中,当所述目标语音标签为音色调节标签;
所述获取模块12具体包括:
若所述文本中包括专有名,则根据所述专有名的属性,获取所述专有名对应的音色调节标签;
和/或,
获取与所述文本的特征中包含的情感信息对应的音色调节标签。
进一步的,在本发明的一个实施例中,当所述目标语音标签为音频标签;
所述获取模块12具体包括:
获取与所述文本的特征中包含的专有名对应的音频标签。
需要说明的是,本实施例的语音合成处理装置的实施过程和技术原理参见前述对语音合成处理方法实施例的解释说明,此处不再赘述。
本申请实施例提供的语音合成处理装置中,通过对待处理的文本进行处理,确定出待处理文本的文本特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,将文本进行语音合成。由此,通过获取目标语音标签,对文本进行处理,从而使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的使用范围,极大的提高用户的使用体验。
为了实现上述实施例,本发明还提出了一种终端设备。
图4为本发明一个实施例的终端设备的结构示意图。
如图4所示,该终端设备20,包括存储器21、处理器22、通信端口23;
其中,所述通信端口23用于传输通信数据;
所述存储器21用于存储可执行程序代码;
所述处理器22用于读取所述存储器21中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现第一方面实施例所述的语音合成处理方法。
其中语音合成处理方法,包括:对待处理的文本进行处理,确定所述文本的特征;根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;根据所述目标语音标签,将所述文本进行语音合成。
其中,在本实施例中,终端设备可以是任意具有语音合成功能的设备。比如智能手机、个人数字化助理、车载导航等。
需要说明的是,前述对语音合成处理方法实施例的解释说明也适用于该实施例的终端设备中,其实现原理类似,此处不再赘述。
本申请实施例提供的终端设备中,通过对待处理的文本进行处理,确定出待处理文本的文本特征,并根据文本的特征、当前的时间信息和/或天气信息,获取目标语音标签,然后根据获取的目标语音标签,将文本进行语音合成。由此,通过获取目标语音标签,对文本进行处理,从而使得播放的语音形式丰富多样,并且还能携带更多的信息,增加了语音合成的使用范围,极大的提高用户的使用体验。
为了实现上述实施例,本申请还提出一种计算机可读存储介质。
该计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面实施例所述的语音合成处理方法。该方法包括:对待处理的文本进行处理,确定所述文本的特征;根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;根据所述目标语音标签,将所述文本进行语音合成。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音合成处理方法,其特征在于,包括:
对待处理的文本进行处理,确定所述文本的特征,其中,对所述待处理的文本进行分词处理得到多个分词,通过评估函数对所述多个分词中的每个分词进行打分,得到所述每个分词的权重值,将分词按照权重值大小进行排序,将预定数目的最优分词作为所述文本的特征;
根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;
根据所述目标语音标签,将所述文本进行语音合成,其中,所述目标语音标签包含多种语音标签,分别对所述文本进行不同语音标签的标注,对添加所述语音标签的文本进行语音合成处理操作,以得到对应的语音结果。
2.如权利要求1所述的方法,其特征在于,所述目标语音标签包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
3.如权利要求2所述的方法,其特征在于,所述目标语音标签为背景音标签;
所述获取目标语音标签,包括:
若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定所述第一音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的时间信息对应的第二音乐,则确定所述第二音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的天气信息对应的第三音乐,则确定所述第三音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与所述文本的特征匹配的第四音乐,则确定所述第四音乐的标签为所述文本的背景音标签。
4.如权利要求2所述的方法,其特征在于,所述目标语音标签为音色调节标签;
所述获取目标语音标签,包括:
若所述文本中包括专有名,则根据所述专有名的属性,获取所述专有名对应的音色调节标签;
和/或,
获取与所述文本的特征中包含的情感信息对应的音色调节标签。
5.如权利要求2所述的方法,其特征在于,所述目标语音标签为音频标签;
所述获取目标语音标签,包括:
获取与所述文本的特征中包含的专有名对应的音频标签。
6.一种语音合成处理装置,其特征在于,包括:
确定模块,用于对待处理的文本进行处理,确定所述文本的特征,其中,对所述待处理的文本进行分词处理得到多个分词,通过评估函数对所述多个分词中的每个分词进行打分,得到所述每个分词的权重值,将分词按照权重值大小进行排序,将预定数目的最优分词作为所述文本的特征;
获取模块,用于根据所述文本的特征、当前的时间信息和/或天气信息,获取目标语音标签;
合成模块,用于根据所述目标语音标签,将所述文本进行语音合成,其中,所述目标语音标签包含多种语音标签,分别对所述文本进行不同语音标签的标注,对添加所述语音标签的文本进行语音合成处理操作,以得到对应的语音结果。
7.如权利要求6所述的装置,其特征在于,所述目标语音标签包括以下标签中的至少一种:背景音标签、音色调节标签、音频标签、停顿标签及强调标签。
8.如权利要求7所述的装置,其特征在于,所述目标语音标签为背景音标签;
所述获取模块具体包括:
若背景音库中包括与当前的时间信息、天气信息及文本特征均匹配的第一音乐,则确定所述第一音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的时间信息对应的第二音乐,则确定所述第二音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与当前的天气信息对应的第三音乐,则确定所述第三音乐的标签为所述文本的背景音标签;
和/或,
若背景音库中包括与所述文本的特征匹配的第四音乐,则确定所述第四音乐的标签为所述文本的背景音标签。
9.如权利要求7所述的装置,其特征在于,所述目标语音标签为音色调节标签;
所述获取模块具体包括:
若所述文本中包括专有名,则根据所述专有名的属性,获取所述专有名对应的音色调节标签;
和/或,
获取与所述文本的特征中包含的情感信息对应的音色调节标签。
10.如权利要求7所述的装置,其特征在于,所述目标语音标签为音频标签;
所述获取模块具体包括:
获取与所述文本的特征中包含的专有名对应的音频标签。
11.一种终端设备,其特征在于,包括:存储器、处理器、通信端口;
所述通信端口,用于传输通信数据;
所述存储器,用于存储可执行程序代码;
所述处理器,用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5任一所述的语音合成处理方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的语音合成处理方法。
CN201710797787.2A 2017-09-06 2017-09-06 语音合成处理方法、装置及设备 Active CN107731219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710797787.2A CN107731219B (zh) 2017-09-06 2017-09-06 语音合成处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710797787.2A CN107731219B (zh) 2017-09-06 2017-09-06 语音合成处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN107731219A CN107731219A (zh) 2018-02-23
CN107731219B true CN107731219B (zh) 2021-07-20

Family

ID=61205697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710797787.2A Active CN107731219B (zh) 2017-09-06 2017-09-06 语音合成处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN107731219B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
US10896689B2 (en) * 2018-07-27 2021-01-19 International Business Machines Corporation Voice tonal control system to change perceived cognitive state
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
CN109473090A (zh) * 2018-09-30 2019-03-15 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及装置
CN109582271B (zh) * 2018-10-26 2020-04-03 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备
CN109542389B (zh) * 2018-11-19 2022-11-22 北京光年无限科技有限公司 用于多模态故事内容输出的音效控制方法及系统
CN109616094A (zh) * 2018-12-29 2019-04-12 百度在线网络技术(北京)有限公司 语音合成方法、装置、系统及存储介质
CN109885587A (zh) * 2019-01-31 2019-06-14 上海小蓦智能科技有限公司 一种动态调整tts播报的方法、装置、设备
CN111415650A (zh) * 2020-03-25 2020-07-14 广州酷狗计算机科技有限公司 文本语音转换的方法、装置、设备以及存储介质
CN113779204B (zh) * 2020-06-09 2024-06-11 浙江未来精灵人工智能科技有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111966257A (zh) * 2020-08-25 2020-11-20 维沃移动通信有限公司 信息处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575488A (zh) * 2014-12-25 2015-04-29 北京时代瑞朗科技有限公司 一种基于文本信息的波形拼接语音合成方法
CN105810205A (zh) * 2014-12-29 2016-07-27 中国移动通信集团公司 一种语音处理方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1246826C (zh) * 2004-06-01 2006-03-22 安徽中科大讯飞信息科技有限公司 在语音合成系统中将背景音与文本语音混合输出的方法
US20060106618A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation System and method for converting text to speech
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US20140056438A1 (en) * 2012-08-21 2014-02-27 Harman International Industries, Incorporated System for vehicle sound synthesis
JP6203258B2 (ja) * 2013-06-11 2017-09-27 株式会社東芝 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム
US9542929B2 (en) * 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
CN106557298A (zh) * 2016-11-08 2017-04-05 北京光年无限科技有限公司 面向智能机器人的背景配音输出方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575488A (zh) * 2014-12-25 2015-04-29 北京时代瑞朗科技有限公司 一种基于文本信息的波形拼接语音合成方法
CN105810205A (zh) * 2014-12-29 2016-07-27 中国移动通信集团公司 一种语音处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A dynamic Weighting Framework for unit selection Text-to-Speech Syhthesis";Jerome R;《IEEE transaction onaudio》;20101231;第18卷(第6期);全文 *
"基于隐含语义分析的微博热点话题发现策略";马雯雯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;全文 *

Also Published As

Publication number Publication date
CN107731219A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107731219B (zh) 语音合成处理方法、装置及设备
CN109523986B (zh) 语音合成方法、装置、设备以及存储介质
US10891928B2 (en) Automatic song generation
JP6928642B2 (ja) 音声放送方法及び装置
CN109308892B (zh) 语音合成播报方法、装置、设备及计算机可读介质
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
CN105096932A (zh) 有声读物的语音合成方法和装置
CN104980790B (zh) 语音字幕的生成方法和装置、播放方法和装置
CN109257659A (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
CN104038804A (zh) 基于语音识别的字幕同步装置和方法
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
CN114173067A (zh) 一种视频生成方法、装置、设备及存储介质
CN109686362A (zh) 语音播报方法、装置和计算机可读存储介质
CN108847066A (zh) 一种教学内容提示方法、装置、服务器和存储介质
CN113205793A (zh) 音频生成方法、装置、存储介质及电子设备
CN107122393B (zh) 电子相册生成方法以及装置
CN109492126B (zh) 一种智能交互方法及装置
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN109697244A (zh) 信息处理方法、装置及存储介质
CN110324702B (zh) 视频播放过程中的信息推送方法和装置
CN113032616B (zh) 音频推荐的方法、装置、计算机设备和存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN114694645A (zh) 一种确定用户意图的方法及装置
CN110176227B (zh) 一种语音识别的方法以及相关装置
CN111276126A (zh) 一种时政要闻语音合成的方法及其终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant