CN109767754A - 一种模拟发声方法、装置、电子设备及存储介质 - Google Patents
一种模拟发声方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109767754A CN109767754A CN201910037235.0A CN201910037235A CN109767754A CN 109767754 A CN109767754 A CN 109767754A CN 201910037235 A CN201910037235 A CN 201910037235A CN 109767754 A CN109767754 A CN 109767754A
- Authority
- CN
- China
- Prior art keywords
- text
- sound
- voice
- input information
- externally input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明实施例公开了一种模拟发声的方法、装置、电子设备及存储介质,属于语言识别、语音合成技术,模拟发声方法包括:获取外部输入的信息,并进行信息类型识别;在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,根据所述地区语音和所述声音元素对所述文字进行模拟发声。本方法能有针对性的服务用户,使得模拟发声的语言更为丰富、多元化,用户在打字过程中,可以学习不认识文字的读音,以及对于文字读音错误的纠正。进而提高人们学习文字的效率。
Description
技术领域
本发明实施例涉及语音合成技术领域,具体涉及一种模拟发声的方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的飞速发展,以及语音识别技术的日渐成熟,语音合成作为通过机械的、电子的方法产生人造语音的技术,也得到了巨大的发展和进步。语音合成,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话,通过计算机语音合成,可以在任何时候将任意文本转换成具有高自然度的语音。
语音合成技术得以广泛应用到人们的日常生活中,出现了很多例如有声小说、有声新闻、天气播报以及字典朗读等的语音合成并模拟发声的应用,给人们的日常生活带来了很多便利和娱乐乐趣。
本发明人发现,现有的语音合成技术中,通常是根据特定人或者特定主题进行语音合成,对文字进行语音翻译,以语音播放文字内容的方式体现,通用性较为有限。
发明内容
为此,本发明实施例提供一种模拟发声的方法、装置、电子设备及存储介质,以解决现有技术中导致的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
在本发明的第一方面,提供一种模拟发声方法,包括:
获取外部输入的信息,并进行信息类型识别;
在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
在另一实施例中,所述在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,还包括:
在微调模式下,获取被选中的文字,对所述被选中的文字对应的语音进行微调。
在另一实施例中,所述获取外部输入的信息,并进行信息类型识别,包括:
获取外部输入的信息,从所述外部输入的信息中获取所述外部输入的信息的属性,根据所述外部输入的信息的属性,判断所述外部输入的信息所属的信息类型。
在另一实施例中,所述在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音,包括:
获取所述音源对应的国家及地区,根据所述国家及地区获取地区语音。
在另一实施例中,所述方法还包括:在识别到所述外部输入的信息为释义的情形下,从所述外部输入的信息中获取待解释文本,获取并提示所述待解释文本对应的解释内容。
在本发明的第二方面,提供一种输入文字模拟发声的方法,包括:
获取外部输入的信息,并进行信息类型识别;
在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
所述方法还包括:根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
在本发明的第三方面,提供一种模拟发声装置,包括:
信息获取模块,用于获取外部输入的信息,并进行信息类型识别;
音源设置模块,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
声音属性设置模块,用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
语音合成模块,用于在识别到所述外部输入的信息为文字的情形下,识别文字内容,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
在本发明的第四方面,提供一种输入文字模拟发声的装置,包括:
信息收集模块,用于获取外部输入的信息,并进行信息类型识别;
输入法配置模块,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
音源配置模块,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
声音属性配置模块,用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
语音模拟模块,用于在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
还用于根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
在本发明的第五方面,提供一种模拟发声电子设备,包括:
输入器,分别于音频设置器和播放器相连,用于获取外部输入的信息,并进行信息类型识别;
音频设置器,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;还用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
播放器,用于在识别到所述外部输入的信息为文字的情形下,识别文字内容,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
在本发明的第六方面,提供一种输入文字模拟发声的电子设备,包括:
信息采集器,用于获取外部输入的信息,并进行信息类型识别;
配置器,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
合成器,用于在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
还用于根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
进一步地,合成器,用于语音输入合成。根据输入法输入文字文本,该文字文本信息作为语言合成的输入信息。
在本发明的第七方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现如上所述的模拟发声方法。
在本发明的第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现如上所述的输入文字模拟发声方法。
本发明实施例具有如下优点:
通过获取外部输入的信息,进行音源设置,进而能够合成对应的地区语言对文字进行模拟发声,有针对性的服务用户,使得模拟发声的语言更为丰富、多元化。另外,采用本发明方法,可以在获取到文本的同时,针对文本内容发声,使得用户在在打字过程中,可以学习不认识文字的读音,以及对于文字读音错误的纠正。进而提高人们学习文字的效率。更进一步的,通过将文本文件转化为了声音文件,可以使得信息可以更快、更方便的传播和分享。更进一步地,采用段落、文章语音中对于文字语音的微调,可以营造更亲切、更为容易接受的用户体验。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明的一个实施例提供的一种模拟发声方法流程图;
图2为本发明的另一个实施例提供的一种输入文字模拟发声的方法流程图;
图3为本发明的另一个实施例提供的一种模拟发声装置结构图。
图4为本发明的另一个实施例提供的一种输入文字模拟发声装置结构图。
图中:301为信息获取模块、302为音源设置模块、303为声音属性设置模块、304为语音合成模块、305为释义模块,401为信息收集模块、402为输入法配置模块、403为音源配置模块、404为声音属性配置模块、405为语音模拟模块、406为解释模块。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的第一方面,提供一种模拟发声方法,如图1所示,包括:
步骤101:获取外部输入的信息,并进行信息类型识别,如是音源,则执行步骤102;如是声音属性,则执行步骤103;如是文本,则执行步骤104;如是释义,则执行步骤105;
在本发明实施例中,获取外部输入的信息,从外部输入的信息中获取外部输入的信息的属性,根据外部输入的信息的属性,判断外部输入的信息所属的信息类型。
进一步地,对外部输入的信息的属性进行判断,如是按键信息则获取该按键信息对应的键值,对按键信息对应键值进行判断,在键值为音源设置的情形下,判定外部输入的信息为音源;在键值为声音属性设置的情形下,判定外部输入的信息为声音属性;在键值为释义的情形下,判定外部输入的信息为释义,以获取解释。
在判定外部输入的信息的属性是文本的情形下,判定外部输入的信息为文字。
步骤102:在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音,返回步骤101;
在本发明实施例中,首先获取音源对应的国家及地区,再根据国家及地区获取地区语音,本发明中,地区语音包括但不限于标准语言及地方语言。以获取到国家及地区为中国为例,获取到的地区语音包括但不限于,标准普通话、北京话、上海话等地方方言。
步骤103:在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素,返回步骤101;
在本发明实施例中,声音元素,包括:
男声、女声、声音长短、声音高低、声音粗细、合成音乐背景中的至少一种。
在本发明实施例中,通过进行声音属性的设置,更为丰富了语音输出的形式,使得语音多元化,能够营造更亲切、更为容易接受的用户体验。
步骤104:在识别到外部输入的信息为文本的情形下,识别文本中的文字,根据地区语音和声音元素对文字进行模拟发声,返回步骤101。
在本发明实施例中,在识别到文本的情形下,进一步对文本的内容进行识别,识别到文字及文字所属的语言类型,判断文字所属的语言类型是否与音源匹配,在文字所属的语言类型与音源匹配的情形下,根据音源对应的地区语音及声音元素对文字进行模拟发声。在文字所属的语言类型与音源不匹配的情形下,生成并提示文本与音源设置不匹配信息。
更进一步地,在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,获取被选中的文字,对被选中的文字对应的语音进行微调操作,生成语音微调合成结果。其中,微调操作包括调整声音长短、声音高低、声音粗细。进而对于文字段落、文章进行语音合成。
在本发明实施例中,还包括响应于用户的操作,将模拟发声的音频文件即根据默认设置的合成结果、语音微调合成结果保存为语音文件。还可以响应于用户的操作,对已保存的语音文件进行删除、编辑、播放操作,其中,编辑语音文件支持对于文字语音的编辑,包括编辑声音长短、声音高低、声音粗细。
步骤105:在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,获取并提示待解释文本对应的解释内容,返回步骤101;
在本发明实施例中,在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,根据待解释文本获取对应的解释内容,具体可以将待解释文本作为搜索对象,从万维网上对应的解释内容,还可以根据待解释文本,从预设的数据库中获取与之对应的解释内容。
进一步地,在获取到待解释文本对应的解释内容的情形下,可以根据待解释文本所属的语言类型,选择对应的地区语音,选择声音元素,根据地区语音和声音元素对解释内容进行模拟发声。其中,地区语音及声音元素可以根据用户的习惯进行选择,还可以选择系统默认的地区语音及声音元素。
在本发明的第二方面,提供一种输入文字模拟发声的方法,如图2所示,包括:
步骤201:获取外部输入的信息,并进行信息类型识别,如是输入法,则执行步骤202;如是音源,则执行步骤203;如是声音属性,则执行步骤204;如是文本,则执行步骤205;如是释义,则执行步骤206;
在本发明实施例中,获取外部输入的信息,从外部输入的信息中获取外部输入的信息的属性,根据外部输入的信息的属性,判断外部输入的信息所属的信息类型。
进一步地,对外部输入的信息的属性进行判断,如是按键信息则获取该按键信息对应的键值,对按键信息对应键值进行判断,在键值为输入法设置的情形下,判定外部输入的信息为输入法;在键值为音源设置的情形下,判定外部输入的信息为音源;在键值为声音属性设置的情形下,判定外部输入的信息为声音属性;在键值为释义的情形下,判定外部输入的信息为释义,以获取解释。
在判定外部输入的信息的属性是文本的情形下,判定外部输入的信息为文字。
步骤202:在识别到外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法,返回步骤201。
在本发明实施例中,通过切换输入法,以此实现不同国家地区语言的输入。本发明技术方案支持多国家地区的语言输入。
步骤203:在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音,返回步骤201;
在本发明实施例中,首先获取音源对应的国家及地区,再根据国家及地区获取地区语音,本发明中,地区语音包括但不限于标准语言及地方语言。以获取到国家及地区为中国为例,获取到的地区语音包括但不限于,标准普通话、北京话、上海话等地方方言。
步骤204:在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素,返回步骤201;
在本发明实施例中,声音元素,包括:
男声、女声、声音长短、声音高低、声音粗细、合成音乐背景中的至少一种。
在本发明实施例中,通过进行声音属性的设置,更为丰富了语音输出的形式,使得语音多元化,能够营造更亲切、更为容易接受的体验。
步骤205:在识别到外部输入的信息为文本的情形下,根据地区语音和声音元素对文本中的文字进行模拟发声,返回步骤201。
在本发明实施例中,在识别到外部输入的信息为文本的情形下,识别文本中的文字,确定文字所属的语言类型,判断文字所属的语言类型是否与音源匹配,在文字所属的语言类型与音源匹配的情形下,根据音源对应的地区语音及声音元素对文字进行模拟发声。在文字所属的语言类型与音源不匹配的情形下,生成并提示文本与音源设置不匹配信息。
在本发明实施例中,还包括:根据输入法以及地区语音和声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。进一步地,进行语音输入合成,根据输入法输入文字文本,该文字文本信息作为语言合成的输入信息。
更进一步地,在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,获取被选中的文字,对被选中的文字对应的语音进行微调操作,生成语音微调合成结果,返回步骤201。其中,微调操作包括调整声音长短、声音高低、声音粗细。进而对于文字段落、文章进行语音合成。
在本发明实施例中,还包括响应于用户的操作,将模拟发声的根据默认设置的合成结果、语音微调合成结果保存为语音文件。还可以响应于用户的操作,对已保存的语音文件进行删除、编辑、播放操作,其中,编辑语音文件支持对于文字语音的编辑,包括编辑声音长短、声音高低、声音粗细。
步骤206:在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,获取并提示待解释文本对应的解释内容,返回步骤201;
在本发明实施例中,在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,根据待解释文本获取对应的解释内容,具体可以将待解释文本作为搜索对象,从万维网上对应的解释内容,还可以根据待解释文本,从预设的数据库中获取与之对应的解释内容。
进一步地,在获取到待解释文本对应的解释内容的情形下,可以根据待解释文本所属的语言类型,选择对应的地区语音,选择声音元素,根据地区语音和声音元素对解释内容进行模拟发声。其中,地区语音及声音元素可以根据用户的习惯进行选择,还可以选择系统默认的地区语音及声音元素。
在本发明的第三方面,提供一种模拟发声装置,如图3所示,包括:
信息获取模块301,分别与音源设置模块302、声音属性设置模块303、语音合成模块304、释义模块305相连,用于获取外部输入的信息,并进行信息类型识别;
在本发明实施例中,信息获取模块301,用于获取外部输入的信息,从外部输入的信息中获取外部输入的信息的属性,根据外部输入的信息的属性,判断外部输入的信息所属的信息类型。
进一步地,信息获取模块301,用于对外部输入的信息的属性进行判断,如是按键信息则获取该按键信息对应的键值,对按键信息对应键值进行判断,在键值为音源设置的情形下,判定外部输入的信息为音源;在键值为声音属性设置的情形下,判定外部输入的信息为声音属性;在键值为释义的情形下,判定外部输入的信息为释义,以获取解释。
在判定外部输入的信息的属性是文本的情形下,判定外部输入的信息为文字。
音源设置模块302,用于在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音;
在本发明实施例中,音源设置模块302,用于获取音源对应的国家及地区,再根据国家及地区获取地区语音,本发明中,地区语音包括但不限于标准语言及地方语言。以获取到国家及地区为中国为例,获取到的地区语音包括但不限于,标准普通话、北京话、上海话等地方方言。
声音属性设置模块303,用于在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素;
在本发明实施例中,声音元素,包括:
男声、女声、声音长短、声音高低、声音粗细、合成音乐背景中的至少一种。
语音合成模块304,用于在识别到外部输入的信息为文字的情形下,识别文字内容,根据地区语音和声音元素对文字进行模拟发声。
在本发明实施例中,语音合成模块304,用于在识别到文本的情形下,进一步对文本的内容进行识别,识别到文字及文字所属的语言类型,判断文字所属的语言类型是否与音源匹配,在文字所属的语言类型与音源匹配的情形下,根据音源对应的地区语音及声音元素对文字进行模拟发声。在文字所属的语言类型与音源不匹配的情形下,生成并提示文本与音源设置不匹配信息。
在本发明实施例中,语音合成模块304还包括:微调单元,用于在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,获取被选中的文字,对被选中的文字对应的语音进行微调操作,生成语音微调合成结果。其中,微调操作包括调整声音长短、声音高低、声音粗细。进而对于文字段落、文章进行语音合成。
释义模块305,用于在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,获取并提示待解释文本对应的解释内容;
在本发明实施例中,释义模块305,用于在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,根据待解释文本获取对应的解释内容,具体可以将待解释文本作为搜索对象,从万维网上对应的解释内容,还可以根据待解释文本,从预设的数据库中获取与之对应的解释内容。
进一步地,释义模块305在获取到待解释文本对应的解释内容的情形下,可以根据待解释文本所属的语言类型,选择对应的地区语音,选择声音元素,根据地区语音和声音元素对解释内容进行模拟发声。其中,地区语音及声音元素可以根据用户的习惯进行选择,还可以选择系统默认的地区语音及声音元素。
在本发明实施例中,还可以包括存储模块,用于将模拟发声的根据默认设置的合成结果、语音微调合成结果保存为语音文件。
还包括删除模块,用于响应用户的操作,对已保存的语音文件进行删除;
还包括编辑模块,用于响应用户的操作,对已保存的语音文件进行编辑;其中,编辑语音文件支持对于文字语音的编辑,包括编辑声音长短、声音高低、声音粗细。
还包括播放模块,用于响应用户的操作,获取已保存的语言文件,对该语音文件执行播放操作。在本发明的第四方面,提供一种输入文字模拟发声的装置,如图4所示,包括:
信息收集模块401,分别与输入法配置模块402、音源配置模块403、声音属性配置模块404、语音模拟模块405、解释模块406相连,用于获取外部输入的信息,并进行信息类型识别;
在本发明实施例中,信息收集模块401,用于获取外部输入的信息,从外部输入的信息中获取外部输入的信息的属性,根据外部输入的信息的属性,判断外部输入的信息所属的信息类型。
进一步地,信息收集模块401对外部输入的信息的属性进行判断,如是按键信息则获取该按键信息对应的键值,对按键信息对应键值进行判断,在键值为输入法设置的情形下,判定外部输入的信息为输入法;在键值为音源设置的情形下,判定外部输入的信息为音源;在键值为声音属性设置的情形下,判定外部输入的信息为声音属性;在键值为释义的情形下,判定外部输入的信息为释义,以获取解释。
在判定外部输入的信息的属性是文本的情形下,判定外部输入的信息为文字。
输入法配置模块402,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
在本发明实施例中,通过输入法配置模块402切换输入法,以此实现不同国家地区语言的输入。本发明技术方案支持多国家地区的语言输入。
音源配置模块403,用于在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音;
在本发明实施例中,音源配置模块403,用于获取音源对应的国家及地区,再根据国家及地区获取地区语音,本发明中,地区语音包括但不限于标准语言及地方语言。以获取到国家及地区为中国为例,获取到的地区语音包括但不限于,标准普通话、北京话、上海话等地方方言。
声音属性配置模块404,用于在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素;
在本发明实施例中,声音元素,包括:
男声、女声、声音长短、声音高低、声音粗细、合成音乐背景中的至少一种。
在本发明实施例中,通过进行声音属性的设置,更为丰富了语音输出的形式,使得语音多元化,能够营造更亲切、更为容易接受的的体验。
语音模拟模块405,用于在识别到外部输入的信息为文本的情形下,根据地区语音和声音元素对文本中的文字进行模拟发声;还用于根据输入法以及地区语音和声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。进一步地,语音模拟模块405,用于语音输入合成。根据输入法输入文字文本,该文字文本信息作为语言合成的输入信息在识别到外部输入的信息为文本的情形下,根据地区语音和声音元素对文本中的文字进行模拟发声。
进一步地,语音模拟模块405在识别到外部输入的信息为文本的情形下,识别文本中的文字,确定文字所属的语言类型,判断文字所属的语言类型是否与音源匹配,在文字所属的语言类型与音源匹配的情形下,根据音源对应的地区语音及声音元素对文字进行模拟发声。在文字所属的语言类型与音源不匹配的情形下,生成并提示文本与音源设置不匹配信息。语音模拟模块405根据输入法输入文字文本,该文字文本信息作为语言合成的输入信息。
语音模拟模块405还包括:微调单元,用于在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,获取被选中的文字,对被选中的文字对应的语音进行微调操作,生成语音微调合成结果。其中,微调操作包括调整声音长短、声音高低、声音粗细。进而对于文字段落、文章进行语音合成。
解释模块406,用于在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,获取并提示待解释文本对应的解释内容;
在本发明实施例中,解释模块406,用于在识别到外部输入的信息为释义的情形下,从外部输入的信息中获取待解释文本,根据待解释文本获取对应的解释内容,具体可以将待解释文本作为搜索对象,从万维网上对应的解释内容,还可以根据待解释文本,从预设的数据库中获取与之对应的解释内容。
进一步地,解释模块406在获取到待解释文本对应的解释内容的情形下,可以根据待解释文本所属的语言类型,选择对应的地区语音,选择声音元素,根据地区语音和声音元素对解释内容进行模拟发声。其中,地区语音及声音元素可以根据用户的习惯进行选择,还可以选择系统默认的地区语音及声音元素。
在本发明实施例中,还可以包括存储模块,用于将模拟发声的根据默认设置的合成结果、语音微调合成结果保存为语音文件。
还包括删除模块,用于响应用户的操作,对已保存的语音文件进行删除;
还包括编辑模块,用于响应用户的操作,对已保存的语音文件进行编辑;其中,编辑语音文件支持对于文字语音的编辑,包括编辑声音长短、声音高低、声音粗细。
还包括播放模块,用于响应用户的操作,获取已保存的语言文件,对该语音文件执行播放操作。
在本发明的第五方面,提供一种模拟发声电子设备,包括:
输入器,分别于音频设置器和播放器相连,用于获取外部输入的信息,并进行信息类型识别;
音频设置器,用于在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音;还用于在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素;
播放器,用于在识别到外部输入的信息为文字的情形下,识别文字内容,根据地区语音和声音元素对文字进行模拟发声。
在本发明实施例中,播放器在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,可以进行文字语音的微调,对于文字段落、篇章进行进一步语音合成处理。
本发明的第六方面,提供一种输入文字模拟发声的电子设备,包括:
信息采集器,用于获取外部输入的信息,并进行信息类型识别;
配置器,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
用于在识别到外部输入的信息为音源的情形下,获取并保存音源对应的地区语音;
用于在识别到外部输入的信息为声音属性的情形下,获取并保存声音属性对应的声音元素;
合成器,用于在识别到外部输入的信息为文本的情形下,根据地区语音和声音元素对文本中的文字进行模拟发声。
合成器,还用于根据输入法以及地区语音和声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
在本发明实施例中,合成器根据输入法输入文字文本,该文字文本信息作为语言合成的输入信息。在识别到外部输入的信息为文本的情形下,识别文本中的文字,在当前为微调模式下,可以进行文字语音的微调,对于文字段落、篇章进行进一步语音合成处理。
本发明的第七方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现如上所述的模拟发声方法。
本发明的第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现如上所述的输入文字模拟发声的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种模拟发声方法,其特征在于,包括:
获取外部输入的信息,并进行信息类型识别;
在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
2.如权利要求1所述的方法,其特征在于,所述在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,还包括:
在微调模式下,获取被选中的文字,对所述被选中的文字对应的语音进行微调。
3.如权利要求1所述的方法,其特征在于,所述在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音,包括:
获取所述音源对应的国家及地区,根据所述国家及地区获取地区语音。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:在识别到所述外部输入的信息为释义的情形下,从所述外部输入的信息中获取待解释文本,获取并提示所述待解释文本对应的解释内容。
5.一种输入文字模拟发声的方法,其特征在于,包括:
获取外部输入的信息,并进行信息类型识别;
在识别到所述外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
所述方法还包括:根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
6.一种模拟发声装置,其特征在于,包括:
信息获取模块,用于获取外部输入的信息,并进行信息类型识别;
音源设置模块,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
声音属性设置模块,用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
语音合成模块,用于在识别到所述外部输入的信息为文字的情形下,识别文字内容,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
7.一种输入文字模拟发声的装置,其特征在于,包括:
信息收集模块,用于获取外部输入的信息,并进行信息类型识别;
输入法配置模块,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
音源配置模块,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
声音属性配置模块,用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
语音模拟模块,用于在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
还用于根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
8.一种模拟发声电子设备,其特征在于,包括:
输入器,分别于音频设置器和播放器相连,用于获取外部输入的信息,并进行信息类型识别;
音频设置器,用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;还用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
播放器,用于在识别到所述外部输入的信息为文字的情形下,识别文字内容,根据所述地区语音和所述声音元素对所述文字进行模拟发声。
9.一种输入文字模拟发声的电子设备,其特征在于,包括:
信息采集器,用于获取外部输入的信息,并进行信息类型识别;
配置器,用于在识别到所示外部输入的信息为输入法的情形下,获取并保存输入法设置信息对应的输入法;
用于在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;
用于在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;
合成器,用于在识别到所述外部输入的信息为文本的情形下,根据所述地区语音和所述声音元素对所述文本中的文字进行模拟发声;
还用于根据所述输入法以及所述地区语音和所述声音元素,在动态输出文字文本的过程中,对相应文本中的文字进行模拟发声。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序用于实现如权利要求1-4所述的模拟发声方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910037235.0A CN109767754A (zh) | 2019-01-15 | 2019-01-15 | 一种模拟发声方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910037235.0A CN109767754A (zh) | 2019-01-15 | 2019-01-15 | 一种模拟发声方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109767754A true CN109767754A (zh) | 2019-05-17 |
Family
ID=66452255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910037235.0A Pending CN109767754A (zh) | 2019-01-15 | 2019-01-15 | 一种模拟发声方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767754A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2209844Y (zh) * | 1994-08-18 | 1995-10-11 | 世平兴业股份有限公司 | 可播放语音信号的传呼机 |
CN1474379A (zh) * | 2002-07-02 | 2004-02-11 | �ձ������ȷ湫˾ | 语音识别/响应系统、语音/识别响应程序及其记录介质 |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
US20070112570A1 (en) * | 2005-11-17 | 2007-05-17 | Oki Electric Industry Co., Ltd. | Voice synthesizer, voice synthesizing method, and computer program |
CN106131317A (zh) * | 2016-06-24 | 2016-11-16 | 何颖 | 自动播放与回复信息的方法与系统 |
US20170309272A1 (en) * | 2016-04-26 | 2017-10-26 | Adobe Systems Incorporated | Method to Synthesize Personalized Phonetic Transcription |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN108364633A (zh) * | 2017-01-25 | 2018-08-03 | 晨星半导体股份有限公司 | 文字转语音系统以及文字转语音方法 |
CN108986802A (zh) * | 2017-05-31 | 2018-12-11 | 联想(新加坡)私人有限公司 | 用于提供与方言相关联的输出的方法、设备及程序产品 |
-
2019
- 2019-01-15 CN CN201910037235.0A patent/CN109767754A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2209844Y (zh) * | 1994-08-18 | 1995-10-11 | 世平兴业股份有限公司 | 可播放语音信号的传呼机 |
CN1474379A (zh) * | 2002-07-02 | 2004-02-11 | �ձ������ȷ湫˾ | 语音识别/响应系统、语音/识别响应程序及其记录介质 |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
US20070112570A1 (en) * | 2005-11-17 | 2007-05-17 | Oki Electric Industry Co., Ltd. | Voice synthesizer, voice synthesizing method, and computer program |
US20170309272A1 (en) * | 2016-04-26 | 2017-10-26 | Adobe Systems Incorporated | Method to Synthesize Personalized Phonetic Transcription |
CN106131317A (zh) * | 2016-06-24 | 2016-11-16 | 何颖 | 自动播放与回复信息的方法与系统 |
CN108364633A (zh) * | 2017-01-25 | 2018-08-03 | 晨星半导体股份有限公司 | 文字转语音系统以及文字转语音方法 |
CN108986802A (zh) * | 2017-05-31 | 2018-12-11 | 联想(新加坡)私人有限公司 | 用于提供与方言相关联的输出的方法、设备及程序产品 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
JP4363590B2 (ja) | 音声合成 | |
US7596499B2 (en) | Multilingual text-to-speech system with limited resources | |
US6847931B2 (en) | Expressive parsing in computerized conversion of text to speech | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
Eide et al. | A corpus-based approach to< ahem/> expressive speech synthesis | |
CN101156196A (zh) | 混合语音合成器、方法和使用 | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
CN112802446A (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
JP2006337667A (ja) | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 | |
CN109767754A (zh) | 一种模拟发声方法、装置、电子设备及存储介质 | |
EP1271469A1 (en) | Method for generating personality patterns and for synthesizing speech | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
KR20080011859A (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
JPH0950286A (ja) | 音声合成装置及びこれに使用する記録媒体 | |
CN110164414A (zh) | 语音处理方法、装置及智能设备 | |
KR100554950B1 (ko) | 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법 | |
Perepelytsia et al. | IDEAR: A speech database of identity-marked, clear and read speech | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
Mihkla et al. | Estonian speech synthesis: applications and challenges/Синтез речи эстонского языка: применение и вызовы | |
KR20210020774A (ko) | 자동 통역 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |
|
RJ01 | Rejection of invention patent application after publication |