CN105788588B - 导航语音播报方法和装置 - Google Patents
导航语音播报方法和装置 Download PDFInfo
- Publication number
- CN105788588B CN105788588B CN201410814430.7A CN201410814430A CN105788588B CN 105788588 B CN105788588 B CN 105788588B CN 201410814430 A CN201410814430 A CN 201410814430A CN 105788588 B CN105788588 B CN 105788588B
- Authority
- CN
- China
- Prior art keywords
- navigation
- voice
- text unit
- corpus text
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
一种导航语音播报方法,包括以下步骤:获取启动导航语音播放功能的指令;向导航服务器请求得到导航语句;根据预定发音人的原声语音库合成所述导航语句对应的语音数据,所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到;将所述导航语句对应的语音数据输出为语音。上述方法可使用预定发音人的声音播报导航信息,实现导航播报语音的定制化。此外,还提供一种导航语音播报装置。
Description
技术领域
本发明涉及语音导航技术领域,特别是涉及一种导航语音播报方法和装置。
背景技术
导航是引导某一行驶对象,从指定航线的一点运动到另一点的方法。导航分为两类:(1)自主式导航:用飞行器或船舶上的设备导航,有惯性导航、多普勒导航和天文导航等;(2)非自主式导航:用于飞行器、船舶、汽车等交通设备与有关的地面或空中设备相配合导航,有无线电导航、卫星导航。卫星导航包括GPS\GLONASS\Beidou\Galileo。
用于导航的导航设备一般采用语音形式播报导航信息,从而可以解放出用户的眼睛和手关注或操作其它的事情,例如驾驶汽车时观察前方路况以及操作汽车方向盘。
但是,现有技术中导航播报过程所采用的语音一般为机器合成语音,相对于真人语音较为机械、死板和不自然,而不能根据预定发音人的声音播报导航信息。
发明内容
基于此,有必要提供一种可使用预定发音人的声音播报导航信息的导航语音播报方法和装置。
一种导航语音播报方法,包括以下步骤:
获取启动导航语音播放功能的指令;
向导航服务器请求得到导航语句;
根据预定发音人的原声语音库合成所述导航语句对应的语音数据,所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到;
将所述导航语句对应的语音数据输出为语音。
一种导航语音播报装置,包括:
指令获取模块,用于获取启动导航语音播放功能的指令;
导航语句请求模块,用于向导航服务器请求得到导航语句;
语音数据合成模块,用于根据预定发音人的原声语音库合成所述导航语句对应的语音数据,所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到;
语音输出模块,用于将所述导航语句对应的语音数据输出为语音。
上述导航语音播报方法和装置,可预先录制任意预定发音人的语音以得到该预定发音人的原声语音库,根据原声语音库中的导航字、导航词和导航句对应的预定发音人的原声连续语音段数据,合成导航语句对应的语音数据,并进一步将导航语句对应的语音数据输出为语音,因此,上述导航语音播放方法和装置可使用预定发音人的声音播报导航信息,实现导航播报语音的定制化。
附图说明
图1为一个实施例中可运行本申请文件所述的导航语音播报方法的设备的内部结构示意图;
图2为一个实施例中的导航语音播报方法的流程示意图;
图3为一个实施例中生成预定发音人的原声语音库的过程的流程示意图;
图4A为一个实施例中图2中的步骤S206的流程示意图;
图4B为另一实施例中图2中的步骤S206的流程示意图;
图5A为一个实施例中图4B中的步骤S406的流程示意图;
图5B为另一实施例中图4B中的步骤S406的流程示意图;
图6为一个实施例中的导航语音播报装置的结构示意图;
图7为一个实施例中的导航语音播报装置的结构示意图;
图8A为一个实施例中的导航语音播报装置的结构示意图;
图8B为一个实施例中语音数据合成模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中可运行本申请文件所述的导航语音播报方法的设备的内部结构示意图。如图1所示,该设备可包括通过系统总线连接的处理器、存储介质、录音装置和语音输出装置。其中,该设备的录音装置可用于录制预定发音人的语音;语音输出装置可用于输出导航文本对应的语音;存储介质存储有操作系统、数据库等,另外该设备的存储介质中还存储了用于实现本申请文件所述的导航语音播报方法的软件指令,该设备的处理器执行这些指令以控制各个功能部件来实现本申请文件中的数据挖掘的方法。
如图2所示,在一个实施例中,一种导航语音播报方法,包括以下步骤:
步骤S202,获取启动导航语音播放功能的指令。
步骤S204,向导航服务器请求得到导航语句。
导航服务器用于根据上报的目的地以及实时上报的位置信息提供实时导航服务。可生成包含当前位置信息的导航请求,将导航请求发送到导航服务器;并接收导航服务器返回的由该当前位置信息和预先上报的目的地计算得到导航语句。
步骤S206,根据预定发音人的原声语音库合成所述导航语句对应的语音数据,所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到。
在一个实施例中,在步骤S206之前,上述导航语音播报方法还包括生成上述预定发音人的原声语音库的过程,该过程包括以下步骤:
步骤S302,对预定发音人朗读导航语料文本集的语音进行录音获得语音模拟信号,并对语音模拟信号进行采集编码,得到导航语料文本集对应的原声语音数据。
原声语音数据可理解为可高保真还原原声语音的语音数据。
步骤S304,提取导航语料文本集对应的原声语音数据中连续语音段对应的语音数据,得到原声连续语音段数据,获取原声连续语音段数据对应的文本作为原声语音库的语料文本单位,并将语料文本单位及其对应的原声连续语音段数据对应存储在原声语音库中。
在一个实施例中,导航语料文本集中包含预设的导航字、导航词和导航句中的一种或几种。优选的,这些导航字、导航词和导航句为导航过程中常用的字词句。
在朗读过程上,导航语料文本集中各个独立的导航字、各个独立的导航词以及各条完整的导航句都对应一段连续语音,而独立的导航字、独立的导航词以及完整的导航句对应的语音之间则具有一定时长的停顿。从而导航语料文本集中的各个独立的导航字、各个独立的导航词以及各条完整的导航句都形成原声语音库中的语料文本单位。
例如,导航语料文本集中包含以下文本:向左执行、前方100米右转、前方200米有摄像头、摄像头、100、200、300、500、米、……。其中,以顿号分隔的各个独立的文本(包括字、词、语句)都形成一段连续语音。这些独立的文本作为原声语音库中的语料文本单位,与其对应的原声连接语音数据对应存储在原声语音库中。
在一个实施例中,生成上述预定发音人的原声语音库的过程还包括以下步骤:从导航语料文本集的导航语句对应的原声连续语音数据中,切分出导航语句所包含的预设的导航关键文本对应的原声连续语音数据;以导航关键文本作为原声语音库的语料文本单位,将导航关键文本与其对应的原声连续语音数据对应存储到原声语音库。
导航关键文本一般为导航过程中使用频率比较高的文本。例如,导航语句“向左执行”中包含导航关键文本“执行”。则可从“向左执行”对应的原声连接语音数据中切分出“执行”对应的原声连续语音数据,并将“执行”作为原声语音库的语料文本单位,将“执行”与其对应的原声连续语音数据对应存储到原声语音库中。
步骤S208,将导航语句对应的语音数据输出为语音。
在一个实施例中,如图4A所示,步骤S206包括以下步骤:
步骤S402,根据预设的用于表征语音的特征参数的统计模型预测导航语句对应的特征参数值,该统计模型根据原声语音库训练得到。
步骤S404,根据获取的特征参数值合成导航语句对应的语音数据。
本实施例中,在生成预定发音人的原声语音库后以及步骤S302之前,上述导航语音播报方法还包括步骤:根据原声语音库训练预设的用于表征语音的特征参数的统计模型。
用于表征语音的特征参数包括但不限于:用于控制音强的幅度、用于控制音高的基频、用于控制音色的共振峰参数和用于控制音长的时间参数等。
可基于传统的模型训练方法训练得到用于表征语音的特征参数的统计模型,例如,该统计模型为隐马尔可夫模型(Hidden Markov Model,HMM)。。
在一个实施例中,上述的导航语料文本集中的文本覆盖中文的所有元音(包括5个单韵母、14个复韵母和16个鼻韵母)和辅音(包括23个声母),以及覆盖中文发音的所有声调(包括阴平、阳平、上声、去声和轻音)。根据该导航语料文本集生成的原声语音库可用于训练出更准确的用于表征语音的特征参数的统计模型。
在另一个实施例中,如图4B所示,步骤S206包括以下步骤:
步骤S406,在预定发音人的原声语音库中挑选出可组合成导航语句的语料文本单位构成导航语句对应的语料文本单位序列。
例如,导航语句为:向前行驶100米后左转,原声语音库中包含语料文本单位:向前行驶、向前行驶100米后、左转、100米、后、……。则可组合成导航语句的语料文本单位的序列包括例如序列1和序列2,序列1:向前行驶、100米、后、左转;序列2:向前行驶100米后、左转。该序列1和序列2即为导航语句对应的语料文本单位序列。
步骤S408,依次拼接语料文本单位序列中各个语料文本单位对应的原声连续语音段数据,合成导航语句对应的语音数据。
以序列2为例,可将语料文本单位“向前行驶100米后”对应的原声连续语音段数据和语料文本单位“左转”对应的原声连续语音段数据拼接成导航语句“向前行驶100米后左转”对应的语音数据。
在一个实施例中,如图5A所示,步骤S406包括以下步骤:
步骤S502,在原声语音库中查找导航语句所包含的最长的语料文本单位,并进一步在原声语音库中循环执行以下查找,直到查找到的语料文本单位可组合成导航语句:查找导航语句中已查找到的语料文本单位以外的各个连续文本段所包含的最长的语料文本单位。
例如,导航语句为:AWWWWWCD,原声语音库中包含语料文本单位:A、WWWWW、CD、AWWW、WWCD。则首先,可在原声语音库中查找得到导航语句所包含的最长的语料文本单位:WWWWW。导航语句中已查找到的语料文本单位以外的连续文本段包括:A、CD。进一步,可在原声语音库中查找得到已查找到的语料文本单位以外的连续文本段所包含的最长的语料文本单位:CD;依次类推,最后,可查找到语料文本单位:A。
步骤S504,将查找到的语料文本单位按照其在导航语句中对应的位置构成导航语句对应的语料文本单位序列,得到导航语句对应的连续语音段最长的语料文本单位序列。
例如,基于上述示例,可将查找到的语料文本单位(WWWWW、CD、A)按照其在导航语句中对应的位置构成导航语句对应的连续语音段最长的语料文本单位序列:A、WWWWW、CD。
本实施例中,根据导航语句对应的连续语音段最长的语料文本单位序列合成导航语句对应的语音数据,可相对增强最终输出的语音的自然度。
在另一个实施例中,如图5B所示,步骤S406还包括以下步骤:
步骤S506,以导航语句对应的连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取所包含的最长的语料文本单位的长度小于该基准长度的导航语句对应的语料文本单位序列。
下文中的部分实施中,语料文本单位序列所包含的最长的语料文本单位的长度被称为:语料文本单位序列对应的连续长度。
在一个实施例中,可获取对应的连续长度相对于该基准长度逐一递减的导航语句对应的语料文本单位序列,直到大于或者等于连续语音段最长的语料文本单位序列的语料文本单位数量,其中,n为导航语句的长度,N为待获取的语料文本单位序列对应的连续长度,为向上取整符号。
例如,基于上述示例,连续语音段最长的语料文本单位序列(A、WWWWW、CD)对应的连续长度为5。可从原声语音库中获取对应的连续长度为4的导航语句对应的语料文本单位序列,不需要继续获取对应的连续长度为4以下的语料文本序列,因为连续语音段最长的语料文本单位序列的语料文本单位数量为3,而导航语句的长度8除以4以下的数并将商向上取整,得到的结果一定大于或等于3。
基于上述示例,可获取到对应的连续长度为4的导航语句对应的语料文本单位序列:AWWW、WWCD。
步骤S508,比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据。
例如,在导航语句“AWWWWWCD”对应的两个语料文本单位序列“A、WWWWW、CD”和“AWWW、WWCD”中,可获取第二个序列作为合成导航语句对应的语音数据所依据的序列。
本实施例中,根据语料文本单位数量尽量少的语料文本单位序列合成导航语句对应的语音数据,可增强最终输出的语音的自然度。
在一个实施例中,若步骤S406没有获取到可组合成完整的导航语句的语料文本单位序列,则可在预定发音人的原声语音库中挑选出可组合成导航语句中一段连续文本的语料文本单位序列,并在其中选取可组合成的连续文本最长的语料文本单位序列;进一步的,可按照步骤S402和S404所述的方式合成导航语句中该语料文本单位序列以外的文本对应的语音数据;进一步的,将该语料文本单位序列对应的语音数据以及该语料文本单位序列以外的文本对应的语音数据进行拼接,得到导航语句对应的语音数据。
本实施例中,尽可能地以原声语音库中的原声连续语音数据合成导航语句对应的语音数据,可增强最终输出的语音的自然度。
如图6所示,在一个实施例中,一种导航语音播报装置,包括指令获取模块602、导航语句请求模块604、语音数据合成模块606和语音输出模块608,其中:
指令获取模块602用于获取启动导航语音播放功能的指令。
导航语句请求模块604用于向导航服务器请求得到导航语句。
导航服务器用于根据上报的目的地以及实时上报的位置信息提供实时导航服务。导航语句请求模块604可生成包含当前位置信息的导航请求,将导航请求发送到导航服务器;并接收导航服务器返回的由该当前位置信息和预先上报的目的地计算得到导航语句。
语音数据合成模块606用于根据预定发音人的原声语音库合成所述导航语句对应的语音数据,所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述语料文本单位包括预设的导航字、导航词和导航句,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到。
如图7所示,在一个实施例中,上述导航语音播报装置还包括语音库构成模块702,用于对预定发音人朗读导航语料文本集的语音进行录音获得语音模拟信号,并对语音模拟信号进行采集编码,得到导航语料文本集对应的原声语音数据。
原声语音数据可理解为可高保真还原原声语音的语音数据。
语音库构成模块702用于提取导航语料文本集对应的原声语音数据中连续语音段对应的语音数据,得到原声连续语音段数据,获取原声连续语音段数据对应的文本作为原声语音库的语料文本单位,并将语料文本单位及其对应的原声连续语音段数据对应存储在原声语音库中。
在一个实施例中,导航语料文本集中包含预设的导航字、导航词和导航句中的一种或几种。优选的,这些导航字、导航词和导航句为导航过程中常用的字词句。
在朗读过程上,导航语料文本集中各个独立的导航字、各个独立的导航词以及各条完整的导航句都对应一段连续语音,而独立的导航字、独立的导航词以及完整的导航句对应的语音之间则具有一定时长的停顿。从而导航语料文本集中的各个独立的导航字、各个独立的导航词以及各条完整的导航句都形成原声语音库中的语料文本单位。
例如,导航语料文本集中包含以下文本:向左执行、前方100米右转、前方200米有摄像头、摄像头、100、200、300、500、米、……。其中,以顿号分隔的各个独立的文本(包括字、词、语句)都形成一段连续语音。这些独立的文本作为原声语音库中的语料文本单位,与其对应的原声连接语音数据对应存储在原声语音库中。
在一个实施例中,语音库构成模块702还用于从导航语料文本集的导航语句对应的原声连续语音数据中,切分出导航语句所包含的预设的导航关键文本对应的原声连续语音数据;以导航关键文本作为原声语音库的语料文本单位,将导航关键文本与其对应的原声连续语音数据对应存储到原声语音库。
导航关键文本一般为导航过程中使用频率比较高的文本。例如,导航语句“向左执行”中包含导航关键文本“执行”。则可从“向左执行”对应的原声连接语音数据中切分出“执行”对应的原声连续语音数据,并将“执行”作为原声语音库的语料文本单位,将“执行”与其对应的原声连续语音数据对应存储到原声语音库中。
语音输出模块608用于将导航语句对应的语音数据输出为语音。
如图8A所示,在一个实施例中,上述导航语音播报装置还包括模型训练模块802,语音数据合成模块606包括参数值预测模块804和参数合成模块806,且,其中:
模型训练模块802用于根据原声语音库训练预设的用于表征语音的特征参数的统计模型。
用于表征语音的特征参数包括但不限于:用于控制音强的幅度、用于控制音高的基频、用于控制音色的共振峰参数和用于控制音长的时间参数等。
模型训练模块802可基于传统的模型训练方法训练得到用于表征语音的特征参数的统计模型,例如,该统计模型为隐马尔可夫模型(Hidden Markov Model,HMM)。
在一个实施例中,上述的导航语料文本集中的文本覆盖中文的所有元音(包括5个单韵母、14个复韵母和16个鼻韵母)和辅音(包括23个声母),以及覆盖中文发音的所有声调(包括阴平、阳平、上声、去声和轻音)。根据该导航语料文本集生成的原声语音库可用于训练出更准确的用于表征语音的特征参数的统计模型。
本发明的导航语音播报装置可不限于模型训练模块802,本实施例所述的导航语音播报装置在不包括模型训练模块802的情况下也属于本发明保护的范围。
参数值预测模块804用于根据预设的用于表征语音的特征参数的统计模型预测导航语句对应的特征参数值,该统计模型根据原声语音库训练得到。
参数合成模块806用于根据获取的特征参数值合成导航语句对应的语音数据。
在另一个实施例中,如图8B所示,语音数据合成模块606包括序列构成模块808和拼接模块810,其中:
序列构成模块808用于在预定发音人的原声语音库中挑选出可组合成导航语句的语料文本单位构成导航语句对应的语料文本单位序列。
例如,导航语句为:向前行驶100米后左转,原声语音库中包含语料文本单位:向前行驶、向前行驶100米后、左转、100米、后、……。则序列构成模块808可组合成导航语句的语料文本单位的序列包括例如序列1和序列2,序列1:向前行驶、100米、后、左转;序列2:向前行驶100米后、左转。该序列1和序列2即为导航语句对应的语料文本单位序列。
拼接模块810用于依次拼接语料文本单位序列中各个语料文本单位对应的原声连续语音段数据,合成导航语句对应的语音数据。
以序列2为例,可将语料文本单位“向前行驶100米后”对应的原声连续语音段数据和语料文本单位“左转”对应的原声连续语音段数据拼接成导航语句“向前行驶100米后左转”对应的语音数据。
在一个实施例中,序列构成模块808用于在原声语音库中查找导航语句所包含的最长的语料文本单位,并进一步在原声语音库中循环执行以下查找,直到查找到的语料文本单位可组合成导航语句:查找导航语句中已查找到的语料文本单位以外的各个连续文本段所包含的最长的语料文本单位。
进一步的,序列构成模块808还用于将查找到的语料文本单位按照其在导航语句中对应的位置构成导航语句对应的语料文本单位序列,得到导航语句对应的连续语音段最长的语料文本单位序列。
本实施例中,可根据导航语句对应的连续语音段最长的语料文本单位序列合成导航语句对应的语音数据,从而可相对增强最终输出的语音的自然度。
在另一个实施例中,序列构成模块808还用于以导航语句对应的连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取所包含的最长的语料文本单位的长度小于该基准长度的导航语句对应的语料文本单位序列。
下文中的部分实施中,语料文本单位序列所包含的最长的语料文本单位的长度被称为:语料文本单位序列对应的连续长度。
在一个实施例中,序列构成模块808可获取对应的连续长度相对于该基准长度逐一递减的导航语句对应的语料文本单位序列,直到大于或者等于连续语音段最长的语料文本单位序列的语料文本单位数量,其中,n为导航语句的长度,N为待获取的语料文本单位序列对应的连续长度,为向上取整符号。
进一步的,序列构成模块808还用于比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据。
本实施例中,根据语料文本单位数量尽量少的语料文本单位序列合成导航语句对应的语音数据,可增强最终输出的语音的自然度。
在一个实施例中,语音数据合成模块606包括参数值预测模块804、参数合成模块806、序列构成模块808和拼接模块810。若序列构成模块808没有获取到可组合成完整的导航语句的语料文本单位序列,则可在预定发音人的原声语音库中挑选出可组合成导航语句中一段连续文本的语料文本单位序列,并在其中选取可组合成的连续文本最长的语料文本单位序列;进一步的,参数值预测模块804可根据预设的用于表征语音的特征参数的统计模型预测导航语句中该语料文本单位序列以外的文本对应的特征参数值,参数合成模块806,可根据获取的特征参数值合成导航语句中该语料文本单位序列以外的文本对应的语音数据;拼接模块810可将该语料文本单位序列对应的语音数据以及该语料文本单位序列以外的文本对应的语音数据进行拼接,得到导航语句对应的语音数据。
本实施例中,尽可能地以原声语音库中的原声连续语音数据合成导航语句对应的语音数据,可增强最终输出的语音的自然度。
上述导航语音播报方法和装置,可预先录制任意预定发音人的语音以得到该预定发音人的原声语音库,根据原声语音库中的导航字、导航词和导航句对应的预定发音人的原声连续语音段数据,合成导航语句对应的语音数据,并进一步将导航语句对应的语音数据输出为语音,因此,上述导航语音播放方法和装置可使用预定发音人的声音播报导航信息,实现导航播报语音的定制化。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种导航语音播报方法,包括以下步骤:
获取启动导航语音播放功能的指令;
向导航服务器请求得到导航语句;
根据预定发音人的原声语音库合成所述导航语句对应的语音数据;包括:以连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取对应的连续长度相对于该基准长度逐一递减的导航语句对应的语料文本单位序列,直到大于或者等于连续语音段最长的语料文本单位序列的语料文本单位数量,其中,n为导航语句的长度,N为待获取的语料文本单位序列对应的连续长度,为向上取整符号;比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据;
所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到;所述原声连续语音段数据为从导航语料文本集对应的原声语音数据中提取连续语音段对应的语音数据得到;
将所述导航语句对应的语音数据输出为语音。
2.根据权利要求1所述的导航语音播报方法,其特征在于,所述根据预定发音人的原声语音库合成所述导航语句对应的语音数据的步骤包括:
根据预设的用于表征语音的特征参数的统计模型预测所述导航语句对应的特征参数值,所述统计模型根据所述原声语音库训练得到;
根据获取的特征参数值合成所述导航语句对应的语音数据。
3.根据权利要求1所述的导航语音播报方法,其特征在于,所述语料文本单位包括预设的导航字、导航词和导航句中的一种或几种,所述根据预定发音人的原声语音库合成所述导航语句对应的语音数据的步骤包括:
在预定发音人的原声语音库中挑选出可组合成所述导航语句的语料文本单位构成所述导航语句对应的语料文本单位序列;
依次拼接所述语料文本单位序列中各个语料文本单位对应的所述原声连续语音段数据,合成所述导航语句对应的语音数据。
4.根据权利要求3所述的导航语音播报方法,其特征在于,所述在预定发音人的原声语音库中挑选出可组合成所述导航语句的语料文本单位构成所述导航语句对应的语料文本单位序列的步骤包括以下步骤:
在所述原声语音库中查找所述导航语句所包含的最长的语料文本单位,并进一步在所述原声语音库中循环执行以下查找,直到查找到的语料文本单位可组合成所述导航语句:查找所述导航语句中已查找到的语料文本单位以外的各个连续文本段所包含的最长的语料文本单位;
将查找到的语料文本单位按照其在所述导航语句中对应的位置构成所述语料文本单位序列,得到所述导航语句对应的连续语音段最长的语料文本单位序列。
5.根据权利要求4所述的导航语音播报方法,其特征在于,所述在预定发音人的原声语音库中挑选出可组合成所述导航语句的语料文本单位构成所述导航语句对应的语料文本单位序列的步骤还包括以下步骤:
以所述连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取所包含的最长的语料文本单位的长度小于所述基准长度的导航语句对应的语料文本单位序列;
比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据。
6.一种导航语音播报装置,其特征在于,包括:
指令获取模块,用于获取启动导航语音播放功能的指令;
导航语句请求模块,用于向导航服务器请求得到导航语句;
语音数据合成模块,用于根据预定发音人的原声语音库合成所述导航语句对应的语音数据;包括:以连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取对应的连续长度相对于该基准长度逐一递减的导航语句对应的语料文本单位序列,直到大于或者等于连续语音段最长的语料文本单位序列的语料文本单位数量,其中,n为导航语句的长度,N为待获取的语料文本单位序列对应的连续长度,为向上取整符号;比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据;
所述原声语音库中存储了语料文本单位对应的所述预定发音人的原声连续语音段数据,所述预定发音人的原声连续语音段数据根据录制所述预定发音人的语音得到;所述原声连续语音段数据为从导航语料文本集对应的原声语音数据中提取连续语音段对应的语音数据得到;
语音输出模块,用于将所述导航语句对应的语音数据输出为语音。
7.根据权利要求6所述的导航语音播报装置,其特征在于,所述语音数据合成模块包括:
参数值预测模块,用于根据预设的用于表征语音的特征参数的统计模型预测所述导航语句对应的特征参数值,所述统计模型根据所述原声语音库训练得到;
参数合成模块,用于根据获取的特征参数值合成所述导航语句对应的语音数据。
8.根据权利要求6所述的导航语音播报装置,其特征在于,所述语料文本单位包括预设的导航字、导航词和导航句中的一种或几种,所述语音数据合成模块包括:
序列构成模块,用于在预定发音人的原声语音库中挑选出可组合成所述导航语句的语料文本单位构成所述导航语句对应的语料文本单位序列;
拼接模块,用于依次拼接所述语料文本单位序列中各个语料文本单位对应的所述原声连续语音段数据,合成所述导航语句对应的语音数据。
9.根据权利要求8所述的导航语音播报装置,其特征在于,所述序列构成模块用于在所述原声语音库中查找所述导航语句所包含的最长的语料文本单位,并进一步在所述原声语音库中循环执行以下查找,直到查找到的语料文本单位可组合成所述导航语句:查找所述导航语句中已查找到的语料文本单位以外的各个连续文本段所包含的最长的语料文本单位;
所述序列构成模块还用于将查找到的语料文本单位按照其在所述导航语句中对应的位置构成所述语料文本单位序列,得到所述导航语句对应的连续语音段最长的语料文本单位序列。
10.根据权利要求9所述的导航语音播报装置,其特征在于,所述序列构成模块还用于以所述连续语音段最长的语料文本单位序列所包含的最长的语料文本单位的长度作为基准长度,获取所包含的最长的语料文本单位的长度小于所述基准长度的导航语句对应的语料文本单位序列;
所述序列构成模块还用于比较获取到的导航语句对应的各个语料文本单位序列的语料文本单位数量,获取语料文本单位数量最少的语料文本单位序列,以根据该语料文本单位序列合成所述导航语句对应的语音数据。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现如权利要求1至5中任一项所述的导航语音播报方法。
12.一种终端设备,包括存储介质,处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的导航语音播报方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814430.7A CN105788588B (zh) | 2014-12-23 | 2014-12-23 | 导航语音播报方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814430.7A CN105788588B (zh) | 2014-12-23 | 2014-12-23 | 导航语音播报方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105788588A CN105788588A (zh) | 2016-07-20 |
CN105788588B true CN105788588B (zh) | 2020-08-14 |
Family
ID=56378273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410814430.7A Active CN105788588B (zh) | 2014-12-23 | 2014-12-23 | 导航语音播报方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105788588B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN108109633A (zh) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | 无人值守的云端语音库采集与智能产品测试的系统与方法 |
CN111508467A (zh) * | 2020-04-13 | 2020-08-07 | 湖南声广信息科技有限公司 | 一种音乐广播电台主持语音拼接方法 |
CN112017636B (zh) * | 2020-08-27 | 2024-02-23 | 大众问问(北京)信息科技有限公司 | 基于车辆的用户发音模拟方法、系统、设备及存储介质 |
GB2600933B (en) * | 2020-11-11 | 2023-06-28 | Sony Interactive Entertainment Inc | Apparatus and method for analysis of audio recordings |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246014A (zh) * | 2007-02-14 | 2008-08-20 | 高德软件有限公司 | 语音导航装置 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102201233A (zh) * | 2011-05-20 | 2011-09-28 | 北京捷通华声语音技术有限公司 | 一种混搭语音合成方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
CN1945691A (zh) * | 2006-10-16 | 2007-04-11 | 安徽中科大讯飞信息科技有限公司 | 一种在语音合成系统中提升模板句合成效果的方法 |
WO2008113391A1 (en) * | 2007-03-21 | 2008-09-25 | Tomtom International B.V. | Apparatus for text-to-speech delivery and method therefor |
CN103137124A (zh) * | 2013-02-04 | 2013-06-05 | 武汉今视道电子信息科技有限公司 | 一种语音合成方法 |
-
2014
- 2014-12-23 CN CN201410814430.7A patent/CN105788588B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246014A (zh) * | 2007-02-14 | 2008-08-20 | 高德软件有限公司 | 语音导航装置 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102201233A (zh) * | 2011-05-20 | 2011-09-28 | 北京捷通华声语音技术有限公司 | 一种混搭语音合成方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105788588A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105788588B (zh) | 导航语音播报方法和装置 | |
EP3739476A1 (en) | Multilingual text-to-speech synthesis method | |
KR100998566B1 (ko) | 음성인식을 이용한 언어 번역 방법 및 장치 | |
EP3504709B1 (en) | Determining phonetic relationships | |
US9431008B2 (en) | Multiple parallel dialogs in smart phone applications | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN110992944B (zh) | 语音导航的纠错方法、语音导航装置、车辆和存储介质 | |
EP3044781B1 (en) | Vehicle interface system | |
US20090157408A1 (en) | Speech synthesizing method and apparatus | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
WO2011121649A1 (ja) | 音声認識装置 | |
EP4191586A1 (en) | Method and system for applying synthetic speech to speaker image | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
CN111862944A (zh) | 语音识别装置、方法、电子设备和计算机可读存储介质 | |
CN114255740A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
US11881211B2 (en) | Electronic device and controlling method of electronic device for augmenting learning data for a recognition model | |
CN107885720B (zh) | 关键词生成装置以及关键词生成方法 | |
CN103901450A (zh) | 语音导航方法和系统 | |
CN113345454B (zh) | 语音转换模型的训练、应用方法、装置、设备及存储介质 | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP2006330486A (ja) | 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体 | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
RU2606312C2 (ru) | Устройство синтеза речи |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |