CN114639371B - 一种语音的转换方法、装置及设备 - Google Patents
一种语音的转换方法、装置及设备 Download PDFInfo
- Publication number
- CN114639371B CN114639371B CN202210257446.7A CN202210257446A CN114639371B CN 114639371 B CN114639371 B CN 114639371B CN 202210257446 A CN202210257446 A CN 202210257446A CN 114639371 B CN114639371 B CN 114639371B
- Authority
- CN
- China
- Prior art keywords
- text information
- word
- preset
- words
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 216
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000013519 translation Methods 0.000 claims description 161
- 238000012549 training Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000014616 translation Effects 0.000 description 139
- 230000008569 process Effects 0.000 description 27
- 208000016354 hearing loss disease Diseases 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 238000013507 mapping Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 230000018109 developmental process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 230000010370 hearing loss Effects 0.000 description 7
- 231100000888 hearing loss Toxicity 0.000 description 7
- 206010011878 Deafness Diseases 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000032683 aging Effects 0.000 description 3
- 210000000860 cochlear nerve Anatomy 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 206010044565 Tremor Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000002431 foraging effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000028804 PERCHING syndrome Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 229910052957 realgar Inorganic materials 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种语音的转换方法、装置及设备,该方法包括:获取待处理的第一文本信息,对第一文本信息中包含的满足预设条件的词语进行词语转译,以将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,预设条件至少由词语对应的音素的发音基频和/或由预设词语确定,基于第二文本信息,确定将第二文本信息转换为语音数据的转换参数,该转换参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种,基于该转换参数将第二文本信息转换为语音数据。通过本说明书实施例,可以使得最终转换后的语音数据更易于用户听见和听清,以及对语音内容的理解。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种语音的转换方法、装置及设备。
背景技术
对于某些人群(如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等)来说,听力障碍是常见的生活烦恼,另外,由于其中某些人的学习能力减弱,对社会发展变化和对语言自身的发展变化的敏感度也有所下降,而当前的很多语言交流往往简单明快,且会经常夹杂当前热门或流行的网络词语,对于这些人来说往往无法听懂上述网络词语,因此,数字产品服务需要具备更适用于上述人群的特性,也是数字产品服务机构需要支持的方向之一。如何保证文本语音合成系统对用户(尤其是上述人群的用户)更加适用,更加易用户收听和理解成为当前需要解决的重要问题。
通常,当前由文本到语音的转换,大部分是针对通用的文本到语音的转换需求,针对上述人群的用户听觉和理解能力的文本到语音的转换则很少,这样就需要在上述由文本到语音的转换之后,再通过有一些物理方式改善用户的听力,如,可以再通过助听器改善用户的听力或通过扩增语音能量来改善用户听力等。但是,上述方式仅仅能够单纯的将文本信息转换为语音数据,并不能帮助用户提升语言理解能力,而对于一些通过扩增语音能量来改善用户听力的方式,大音量和噪音会增加人体听力损伤,长期佩戴会影响人们的听力,为此,需要提供一种对用户(尤其是上述人群的用户)更加适用、更加易于用户收听和理解的文本语音合成系统。
发明内容
本说明书实施例的目的是提供一种对用户(尤其是上述人群的用户)更加适用、更加易于用户收听和理解的文本语音合成系统。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种语音的转换方法,所述方法包括:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
本说明书实施例提供的一种语音的转换装置,所述装置包括:
文本获取模块,获取待处理的第一文本信息;
词语转译模块,对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
转换参数确定模块,基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
语音转换模块,基于所述转换参数将所述第二文本信息转换为语音数据。
本说明书实施例提供的一种语音的转换设备,所述语音的转换设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
相较于现有技术,本说明书提供的一种语音的转换方法,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于用户(尤其是有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户)听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
本说明书提供的一种语音的转换装置、设备以及存储介质,与语音的转换方法具有相同或相似的有益效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种语音的转换方法实施例;
图2为本说明书另一种语音的转换方法实施例;
图3为一种语音频率强度分布示意图;
图4为本说明书又一种语音的转换方法实施例;
图5为本说明书又一种语音的转换方法实施例;
图6为本说明书又一种语音的转换方法实施例;
图7为本说明书又一种语音的转换方法实施例;
图8A为本说明书又一种语音的转换方法实施例;
图8B为本说明书又一种语音的转换方法实施例;
图9为本说明书一种语音的转换装置实施例;
图10为本说明书一种语音的转换设备实施例。
具体实施方式
本说明书实施例提供一种语音的转换方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本申请的发明构思如下:对于某些人群(如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等)来说,听力障碍是常见的生活烦恼,如何保证文本语音合成系统对上述人群的用户更加适用,更加易于上述人群的用户收听和理解成为当前需要解决的重要问题。当前由文本到语音的转换,大部分是针对通用的文本到语音的转换需求,针对上述人群的用户听觉和理解能力的文本到语音的转换则很少,这样就需要在上述由文本到语音的转换之后,再通过有一些物理方式改善上述人群的用户的听力。但是,上述方式并不能帮助上述人群的用户提升语言理解能力,而且,上述方式需要配置额外设备,并需要经常佩戴,这样就会给用户带来不便,并且大音量和噪音会增加人体听力损伤,长期佩戴会影响用户听力,为此,本说明书实施例根据某些用户(尤其是上述人群的用户)对互联网新文化信息不敏感,提出一种文本信息转换为适用于上述人群的的语音数据方式,并根据上述人群的用户听阈特点,以及汉语声韵母音素的发音基频分布特点,提出了适用于上述人群的的语义近义词映射方式,此外,针对上述人群的用户的理解接受能力较慢,提供了基于文本信息的语音转换控制参数,从而有助于上述人群的用户听到关键内容,更好理解语义。
如图1所示,本说明书实施例提供一种语音的转换方法,该方法的执行主体可以为语音转换设备等,其中,语音转换设备可以是终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机(PC)等设备,服务器可以是一个独立的服务器,也可以是由多个不同的服务器构成的服务器集群,该服务器可以是进行语音转换的服务器,也可以是其它相关业务的服务器等。该方法可以应用于将文本信息转换为语音数据等处理中,该方法具体可以包括以下步骤:
在步骤S102中,获取待处理的第一文本信息。
其中,第一文本信息可以包括文字、字母、数字、其它字符和标点符号等,第一文本信息可以是终端设备显示的某新闻资讯、短信息或网页信息等文本信息,还可以是当前用户阅读的报纸、书籍、杂志、文件等实体刊物中的记载的文本的信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,通常,可以基于Tansformer的TTS语音合成技术来实现由文本到语音的转换,而上述实现方式的本质是通过上述方式构建的模型中的编码器,将文本信息编码成某种有效的语言表示,然后,通过该模型中的解码器学习到上述语言表示和相应的声学特征(如梅尔谱等)。训练后的模型,就可以通过输入的文本信息,直接预测该文本信息对应的声学特征(如梅尔谱等),对于梅尔谱等声学特征,可以通过额外的方法(如声码器,或者特征信号翻转算法,如grifflin-Lim等)将其转换为语音数据。但是,当前由文本到语音的转换,大部分是针对通用的文本到语音的转换需求,针对某些人群(如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等)听觉和理解能力的文本到语音的转换则很少,这样就需要在上述由文本到语音的转换之后,再通过有一些物理方式改善上述人群的用户的听力,如,可以再通过助听器改善上述人群的用户的听力或通过扩增语音能量来改善上述人群的用户听力等。
通过物理方式改进声波传输到用户听觉神经的过程,并不能帮助用户跨越语言代际,提升用户的语言理解能力。而且,上述方式需要配置额外设备,并需要经常佩戴,这样就会给用户带来不便。而对于一些通过扩增语音能量来改善用户听力的方式,大音量和噪音会增加人体听力损伤,长期佩戴会影响用户听力,为此,需要提供一种对用户(尤其是上述人群的用户)更加适用、更加易于用户收听和理解的文本语音合成系统。本说明书实施例提供一种可实现的技术方案,具体可以包括以下内容:
可以通过多种不同的方式获取待处理的第一文本信息,例如,用户需要阅读某书籍、报纸或期刊等刊物中的文本,该用户可以使用指定的扫描设备将上述刊物中的文本进行扫描,从而,语音转换设备可以获取到扫描到的文本信息,并可以将该文本信息确定为待处理的第一文本信息。再例如,用户需要阅读某电子文档中的文本,则该用户可以通过当前显示该电子文档的设备向语音转换设备发送用户选定的文本信息,或者,语音转换设备可以通过用户预先设定的相关信息向当前显示该电子文档的设备拉取用户选定的文本信息等,除了可以通过上述方式实现外,还可以通过多种不同的方式实现,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S104中,对第一文本信息中包含的满足预设条件的词语进行词语转译,以将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,预设条件至少由词语对应的音素的发音基频和/或由预设词语确定。
其中,音素可以是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,音素分为元音与辅音两大类。发音基频是语音中最重要的声学参数之一,它能够反映说话人的很多生物学信息,如年龄、性别和体形大小等。预设词语可以是预先设定的流行词语或兴起于互联网,并通过互联网的传播被人们所熟知和使用的新型词语(即网络词语)等,例如“奥利给”、“凡尔赛”等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,实际应用中,对于某些人群(如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等)的用户,影响上述用户听觉的主要原因之一,是听到的内容是否熟悉,而现代数字媒体中涉及的服务的文本信息大多是面向指定群体(如年轻人群体或时尚达人等),该文本信息不可避免的包含了语言中很多精炼精简的、现代化的、网络文化特点的词语或表达。这些无冗余的、时代化的词语或表达对指定群体的用户来说简单高效,但是对上述人群的用户并不友好,为此,语音转换的目标不止是让人听见,也要让人听懂,因此,可以对文本信息中的预设词语进行词语转译。此外,听得懂的前提是听得见,对于某些用户(如老年人等),在高频段声波上的听觉存在损失,且比低频段声波上的听觉损失更大,为此,还可以对文本信息中包含发音基频较高的音素的词语进行词语转译。可以根据实际情况预先设定词语的转译机制,例如,可以构建预设词语与该预设词语的含义的对应关系,可以基于该对应关系设置该词语的转译机制,具体可以如表1所示,
表1
预设词语 | 预设词语的含义 |
奥利给 | 加油 |
凡尔赛 | 拐弯抹角的自夸 |
YYDS | 永远的神 |
或者,也可以训练相应的模型,通过训练的模型对文本信息进行转译,得到具有相同语义的词语等,在实际应用中,除了可以通过上述方式实现外,还可以通过多种不同的方式实现,本说明书实施例对此不做限定。
通过上述处理获取到待处理的第一文本信息后,可以获取词语转译中设置的预设条件,可以对第一文本信息进行分析,判断该第一文本信息是否满足上述设定的转译机制对应的预设条件,如果第一文本信息中包含满足预设条件的词语,则可以对第一文本信息中包含的满足预设条件的词语进行词语转译,例如,如果第一文本信息中包括如表1所示的预设词语(如“YYDS”),则可以对该预设词语进行词语转译,通过上述词语转译处理,可以将将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语(基于上述示例,即为“永远的神”),转译完成后,得到的文本信息可以作为第二文本信息。或者,如果第一文本信息中包含满足预设条件的词语,则可以对第一文本信息中包含的满足预设条件的词语进行词语转译,例如,如果第一文本信息中包含发音基频较高(如发音基频高于预设频率阈值)的音素的词语(如“琐碎”、“雄起”),则可以对该预设词语进行词语转译,通过上述词语转译处理,可以将将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语(基于上述示例,即分别为“又多又杂”、“振作”),转译完成后,得到的文本信息可以作为第二文本信息等。
需要说明的是,上述词语转译方式仅是两种可选的方式,在实际应用中,除了可以通过上述方式实现外,还可以通过多种方式实现,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,基于第二文本信息,确定将第二文本信息转换为语音数据的转换参数,该转换参数包括用于控制语音数据对应的参数,该控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种。
在实施中,为了更有利于用户听到关键内容,更好理解语义,可以设定相应的转换参数,通过设置的转换参数,可以实现对第二文本信息中的关键词语的适当重读,并适当的降低语速等,具体地,可以对第二文本信息的内容进行分析,确定第二文本信息中不同语句之间的关系,以及上下文的语义等分析结果,可以基于得到的分析结果确定哪些语句应该降低语速进行朗读、哪些语句以正常语速进行朗读,以及哪些语句或词语应该提高音量进行朗读、以及哪些语句或词语应该提高音调进行朗读等,最终可以总结得到第二文本信息转换为语音数据的转换参数。
在步骤S108中,基于上述转换参数将第二文本信息转换为语音数据。
在实施中,通过上述方式对待处理的第一文本信息进行处理后,得到的第二文本信息的内容能够被用户理解和接受,尤其是能够被上述人群的用户所理解,然后,可以通过如上所述的基于Tansformer的TTS语音合成机制,通过上述转换参数将第二文本信息转换为语音数据,具体地,可以将第二文本信息输入到通过上述方式构建的模型中的编码器,将第二文本信息编码成某种有效的语言表示(如带韵律的音素序列等),然后,通过该模型中的解码器将上述语言表示转换为相应的声学特征(如梅尔谱等),最后,可以通过声码器或特征信号翻转算法等对梅尔谱等声学特征进行转换,得到相应的语音数据。这样,通过上述方式得到的语音数据对应的频率主要分布于中低频率段,利于用户(尤其是上述人群的用户)听见和听清,并且可以通过词语转译将预设词语转换为同义的其它词语,利于用户(尤其是老年人用户)理解。
本说明书实施例提供一种语音的转换方法,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
在实际应用中,对于预设条件由预设词语确定的情况,可以将现代网络词语等预设词语扩展为传统的表达方式,让受众更加易于理解,因此,上述步骤S104的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见图2所示的步骤S10402和步骤S10404的处理:
在步骤S10402中,检测第一文本信息中是否包括上述预设词语。
在步骤S10404中,如果检测到第一文本信息中包括上述预设词语,则从预设的第一转译关系中获取第一文本信息中包括的预设词语对应的第一转译词语,并使用第一转译词语替换第一文本信息中的预设词语,得到第二文本信息。
针对上述步骤S10402和步骤S10404,可以通过映射的方式,将第一文本信息中的网络新词、缩略语、外文简写、拼音简写词等预设词语修改为更适用于上述人群的文本信息表达方式,具体地,可以基于一个第一转译关系映射表进行操作,该第一转译关系中每个映射项是一个<k,v>字符串对。对于第一文本信息,可以通过正则匹配替换的方式,将其中出现的k子串(即第一转译词语),替换为v子串(第一文本信息中的预设词语),即可得到第二文本信息。其中,第一转译关系映射表的部分内容可以参见表2所示。
表2
例如:如表2所示为部分的第一转译关系映射表。如果第一文本信息为“以科技创新为抓手,大力促进产业升级”,则经过正则匹配替换的方式处理后,第二文本信息内容可以为“以科技创新为切入点和突破口,大力促进产业升级”。这样,通过上述词语转译,可以使得用户(尤其是上述人群的用户)更加容易理解文本信息的含义,而且上述实现过程简单方便,而且有效。
在实际应用中,一般人的说话语音的频率范围是500Hz-3400Hz,而人耳听觉频率范围一般是20Hz-20000Hz,所以正常情况下人耳能够听到人们发出的声音,但某些人听力会存在变化,使得用户在高频段声波上的听觉损失显著提高。在自然语言中,不同音素所处的发音范围不同,以中文为例,中文中的某些音素处于高频率发音范围内,可以如图3所示。在中文普通话环境中,不同音素的使用频率不平衡。基于此,对于预设条件包括词语对应的音素的发音基频大于预设频率阈值的情况,上述步骤S104的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见图4所示的步骤S10406和步骤S10408的处理:
在步骤S10406中,检测第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语。
在实施中,可以对第一文本信息中的每个字符进行分析,确定每个字符对应的音素的信息,并可以根据上述图3所示的音素的发音频率,判断第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语。
在步骤S10408中,如果检测到第一文本信息中包括第一词语,则从预设的第二转译关系中获取第一词语对应的第二转译词语,并使用第二转译词语替换第一文本信息中的第一词语,得到第二文本信息。
在实施中,可以预先设定第二转译关系,可以将发音基频为高频的音素及包含该音素发音的字词与不包含或少包含发音基频为高频的音素同义字词或近义字词对应设置于第二转译关系中,其中,第二转译关系可以如表3所示。
表3
第一词语(高频词语) | 第二转译词语 |
自测 | 亲身测量 |
俗气 | 太普通 |
琐碎 | 又多又杂 |
嬉戏 | 打打闹闹 |
思索 | 考虑 |
死锁 | 打死结儿 |
机器 | 设备 |
积极 | 主动 |
瑟瑟发抖 | 发抖 |
雄起 | 振作 |
继续 | 持续 |
机警 | 聪明 |
崎岖 | 弯弯绕绕 |
激情 | 热烈奔放 |
侧倾 | 歪向一边 |
栖息 | 生活 |
习气 | 习性 |
稀奇 | 少见 |
如果检测到第一文本信息中包括第一词语,则可以通过第一文本信息中的第一词语,在第二转译关系中查找第一词语对应的第二转译词语,并使用第二转译词语替换第一文本信息中的第一词语,得到第二文本信息。这样,通过将包含有发音基频较高的音素的高频词语,用它的发音基频较低的音素的同义词或近义词代替,从而可以在不影响语义的情况下,使得文本信息的整体声学频率降低,有助于上述人群的用户更好的听见语音数据的内容。
在实际应用中,在上述步骤S10408中的从预设的第二转译关系中获取第一词语对应的第二转译词语处理之前,还可以通过下述方式构建第二转译关系,具体可以参见图5所示的步骤S10410~步骤S10414的处理:
在步骤S10410中,获取发音基频大于预设频率阈值的声母音素构成的声母集合。
在实施中,可以参见上述如图3所示的音素的发音频率,可以从中获取发音基频大于预设频率阈值的声母音素构成的声母集合,具体地,可以采集发音基频为高频的音素及包含该音素发音的字词,可以使用不包含或少包含发音基频为高频的音素同义或近义字词来替换。发音基频为高频的音素,本实例中以3000Hz作为界限,可以将高于发音基频高于3000Hz的音素作为高频音素,因此,可以在上述图3所示的音素的发音频率上,确定超过3000Hz的发音基频的音素,作为高频音素。通过图3,可以确定高频音素包括声母音素[z,c,s,j,q,x],可以通过上述多个声母音素构建声母集合。
在步骤S10412中,基于上述声母集合中的声母音素和预设的韵母集合中的韵母音素确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合。
在实施中,可以获取中文普通话中使用概率较大的韵母,可以包括[e,I,u,uo,ong,…],可以通过上述多个韵母音素构建韵母集合。可以将上述确定的声母集合中的声母音素和上述韵母集合中的韵母音素两者组合,然后,再结合中文的四个音调,得到发音基频为高频,且中文普通话中使用较多的汉字拼音,并转化为常用词语,即可以得到包括音素的发音基频大于预设频率阈值的高频词语的高频词集合,其中的常用词语的音素可以包括[ze,ce,se,ji,qi,xi,zu,cu,su,zuo,cuo,suo,jiong,qiong,xiong,zong,cong,song,……],相应的常用中文字符可以包括[则,择,责,吉,……],找出上述中文字符可以组成的常用词语,可以得到包括音素的发音基频大于预设频率阈值的高频词语的高频词集合。
在步骤S10414中,确定上述高频词集合中的每个高频词语对应的转译词语,并将该高频词集合中的每个高频词语及其对应的转译词语存储于第二转译关系中,该转译词语对应的发音基频不高于该转译词语对应的高频词语对应的发音基频,该转译词语与该转译词语对应的高频词语的语义相同。
在实施中,可以找出高频词集合中的高频词语对应的近义词,且其中近义字词中不包含或少包含高频音素的声母,可以将上述高频词语与其近义词组成映射关系,即第二转译关系。第二转译关系中的每个映射是从发音频率较高的高频词语转化为发音频率相对较低的词语,利于用户的听觉系统感知。
对于第一文本信息,可以通过第二转译关系逐个对第一文本信息中的词语进行逐个匹配,如果匹配到相应的词语,则替换为该词语近义词。最后将词语进行再拼接,得到第二文本信息。本实施例中的第二转译关系,不可能在第二文本信息中彻底去除发音基频较高的词语,但是,由于第二转译关系是基于常见声母和韵母的组合构建,因此它可以去除一部分常见的高频词语,从而更适合用户听力,例如,第一文本信息为“这件裙子花纹琐碎,样式俗气,我不喜欢”,得到的第二文本信息为“这件裙子花纹又多又杂,样式太普通,我不喜欢”,第一文本信息中“琐碎”、“俗气”、“喜”等字符对应的语音中使用了j、q、x等高频声母音素,发音基频都可能超过3000Hz,是某些用户听力损失较高的频域,不容易听清。而第二文本信息中表达了相似的意思,但更容易被用户听到和理解。
在实际应用中,上述步骤S10406的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见图6所示的步骤S104062~步骤S104066的处理:
在步骤S104062中,对第一文本信息进行分词处理,得到第一文本信息对应的分词。
在步骤S104064中,基于上述第二转译关系,确定第一文本信息中是否包含第二转译关系中的高频词语。
在步骤S104066中,如果包括,则确定第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
在实际应用中,转换参数还可以包括韵律标记信息,韵律标记信息可以是给文本信息加注读法、停顿标注等的信息,韵律标记可以包括三韵律或四韵律标注方式,四韵律有#1、#2、#3和#4等四种韵律符,韵律符越大,阅读时停顿越显著,例如,原始文本信息为“现在的年轻人你不能批评,一批评就撂挑子”,增加韵律标记信息的文本信息为“现在的#1年轻人#2你#1不能#1批评#3,一批评#1就#1撂挑子#4”。在文本语音合成系统中,韵律标记信息最终会同步到待合成的音素序列里“xian4 zai4 de5#1nian2 qing1 ren5#2ni3#1 bu4neng2#1 pi1 ping5#3,yi4 pi1 ping2#1 jiu4#1liao4 tiao1 zi5#4”,带韵律标记信息的音素序列输入到语音转换模型中,由语音转换模型根据韵律标记信息生成合理停顿,具体可以参见下述相关内容。基于此,上述步骤S106的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见图7所示的步骤S1062~步骤S1066的处理:
在步骤S1062中,对第二文本信息进行主成分提取,得到第二文本信息对应的主成分信息。
在实施中,可以对第二文本信息进行语法分析,对第二文本信息进行主成分提取,得到第二文本信息对应的主成分信息,例如,第二文本信息为“这件裙子花纹又多又杂,样式太普通,我不喜欢”,则第二文本信息对应的主成分信息为“这件裙子,我不喜欢”。
在步骤S1064中,确定第二文本信息对应的主成分信息中的每个词语对应的转换参数。
在实施中,可以对主要词句(即第二文本信息对应的主成分信息)进行降低语速、增加重读、增加停顿等处理。可以预先设定语速控制参数的默认值为1.0,该数值越大,则表明语速越慢,该数值越小则表明语速越快;音量控制参数的默认值可以为1.0,该数值越大,则合成的语音数据的音量越大;音调控制参数的默认值为1.0,该数值越大,则表明合成的语音数据的音调越高,本实施例中,首先控制整体句子的合成语速,可以将语速控制参数的参数值设置为1.1,使得合成的语音数据的整体语速低于普通说话人语速。可以控制语句的关键词句读法,使得关键词句部分语速更慢、停顿明显且重读,为此,本实施例首先用中文语法分析来提取语句的主干,将主干词句作为关键词句。在语句中关键词句后,检查其原始韵律标记,如果不存在韵律标记,则插入#2停顿,如果韵律标记为#1级别停顿,则修改为#2级别停顿,如果是#2、#3、#4级停顿则保持不变,从而使得合成的语音数据会有显著停顿。基于上述内容,上述示例中第二文本信息对应的主成分信息中的每个词语对应的转换参数为:“这#2”,1.2,1.2;“件#1”,1.1,1.0;“裙子#2”,1.2,1.2;“我#2不喜欢#3”,1.2,1.2。
在步骤S1066中,确定第二文本信息中除主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定第二文本信息中除主成分信息之外的信息对应的目标参数,目标参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种。
在实施中,基于上述内容,上述示例中第二文本信息中除主成分信息之外的信息中的每个词语对应的韵律标记信息和第二文本信息中除主成分信息之外的信息对应的目标参数为:“花纹#1又多#1又杂#2,样式#1太#1普通#2,”,1.1,1.0。
此为,一般中文普通话文本预处理中,还可以包括多音字消歧、文本特殊字符归一化(例如,“kg”归一化为“千克”)、韵律预测和汉字到拼音的转换等诸多处理。经过上述处理后,文本预处理的结果是带有韵律标记、合成控制参数的音素序列,基于上述示例,即为(“zhei4#2”,1.2,1.2),(“jian4#1”,1.1,1.0),(“qun2 zi5#2”,1.2,1.2),(“hua1 wen2#1you4 duo1#1 you4 za2#2,yang4 shi4#1 tai4#1 pu3 tong1#2,”,1.1,1.0),(“wo3#2 bu4xi3 huan5#3。”,1.2,1.2)。
在实际应用中,上述步骤S108的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见图8A所示的步骤S1082的处理:
在步骤S1082中,将上述转换参数和第二文本信息输入到预先训练的语音转换模型中,得到第二文本信息对应的语音数据。
其中,语音转换模型可以通过多种不同的算法构建,例如,可以通过预先设定的编码器和解码器设定,也可以通过神经网络算法构建等,本实施例中,语音转换模型可以是基于FastSpeech2模型构建,也可以是基于GlowTTS或Flowtron等模型或算法构建。需要说明的是,该语音转换模型可以支持对合成的语音数据的语速、音量、停顿、重读等特性的调节。但是,采用不同的模型或算法,可能会对上述处理中的具体步骤有影响,比如,如果语音转换模型直接支持字词级别的细粒度调整,则在进行语音数据合成时,输入语音转换模型中的数据为带字词级别的控制参数的音素序列即可,而对于FastSpeech2模型等不支持字词级别的细粒度调整,只能通过对整个语句的特性控制进行调整,因此,可以根据关键字词内容,把一个语句划分为多个部分,然后进行多次合成,最后合并合成的结果。
上述涉及的语音转换模型可以通过多种不同的方式训练得到,以下提供一种可选的训练方式,具体可以包括以下步骤A2和步骤A4的处理。
在步骤A2中,获取多个训练文本信息,并获取每个训练文本信息对应的训练标签,该训练标签是满足预设筛选条件的录音员为该训练文本信息录制的语音数据,该筛选条件由录音员的声音能量对应的频率确定。
在步骤A4中,基于多个训练文本信息和每个训练文本信息对应的训练标签,对语音转换模型进行训练,得到训练后的语音转换模型。
上述涉及的录音员可以通过多种不同的筛选方式筛选得到,以下提供一种可选的处理方式,具体可以包括以下步骤A6和步骤A10的处理。
在步骤A6中,获取待筛选的多个不同的录音员录制的语音样本数据。
在实施中,语音转换模型的语音样本数据应该基于声音能量集中在中低频的录音员录制。如上所述,可以使用[300Hz,2000Hz]频率范围内的能量比例来筛选录音员,可以设定录音员在指定频带内的能量在80%(或其它预设阈值)以上,为此,可以获取待筛选的多个不同的录音员录制的语音样本数据。
在步骤A8中,对每个语音样本数据进行切分,得到每个语音样本数据对应的语音片段。
在实施中,可以对录音员录制的每个语音样本数据进行预处理,去掉其中的静音片段,然后,对每个语音样本数据进行数据随机采样,可以使用指定时长作为步长,可以基于该步长对每个语音样本数据进行切分,截取该步长的多个语音片段,例如,可以使用0.2秒时长为步长(或窗口),从每个语音样本数据中切分出多个上述步长(或窗口)的语音片段,如切分出不少于100个窗口或语音片段等。
在步骤A10中,对每个语音片段进行时频变换,得到每个语音片段对应的频域信息,该时频变换是通过快速傅里叶变换、离散傅里叶变换和短时傅里叶变换中的一种方式得到。
在步骤A12中,基于每个语音片段对应的频域信息,确定每个语音样本数据对应的语音片段的第一能量均值和每个语音样本数据对应的语音片段中频率处于预设频率范围内的语音片段的第二能量均值。
在步骤A14中,将多个不同的录音员中第二能量均值与第一能量均值的比值大于预设比例阈值的录音员作为满足预设筛选条件的录音员。
在实施中,可以先计算多个语音片段(如上述不少于100个语音片段)上能量的均值E(1)(即第一能量均值),然后,对每个语音片段,在[300Hz,2000Hz]频率范围内的能量部分,计算多个语音片段(如上述不少于100个语音片段)在上述能量部分的均值E(2)(即第二能量均值),最后计算E(2)/E(1)是否大于0.8(即80%)即可。对于选取300Hz到2000Hz的能量的处理,假定通过快速傅里叶变换进行时频变换,在进行快速傅里叶变换时,预先指定的最低频率为0,最高频率为8000Hz,指定的采样频点数量为1000个,则每个频点为8Hz,则可以取最接近的38*8=304Hz,250*8=2000Hz,所以,可以取上述1000个采样频点中的第38个频点的数值到第250个频点的数值的能量总和,即可代表[300Hz,2000Hz]内的能量。这样,选取用户听觉敏感的音色来对语音转换模型进行训练,最后合成的语音数据对用户更容易听到。
以下通过具体的应用场景对上述语音的转换进行详细说明,鉴于当前人口老龄化是新世纪人口结构的重大变化,而听力障碍是老年人常见的生活烦恼,另外,由于老年人的学习能力减弱,对社会发展变化和对语言自身的发展变化的敏感度也有所下降,而当前的很多语言交流往往简单明快,且会经常夹杂当前热门或流行的网络词语,老年人往往无法听懂上述网络词语,因此,数字产品服务的适老化特性,也是数字产品服务机构需要支持的方向之一。如何保证文本语音合成系统对老年人用户更加适用,更加易于老年人用户收听和理解成为当前需要解决的重要问题。
通常,当前由文本到语音的转换,大部分是针对通用的文本到语音的转换需求,针对老年人听觉和理解能力的文本到语音的转换则很少,这样就需要在上述由文本到语音的转换之后,再通过有一些物理方式改善老年人的听力,如,可以再通过助听器改善老年人的听力或通过扩增语音能量来改善老年人听力等。但是,上述方式仅仅能够单纯的将文本信息转换为语音数据,并不能帮助老年人提升语言理解能力,而对于一些通过扩增语音能量来改善老年人听力的方式,大音量和噪音会增加人体听力损伤,长期佩戴会影响老年人听力,为此,本实施例的场景可以包括:针对老年人的语音转换场景,即根据老年人对互联网新文化信息不敏感,提出一种文本信息转换为适老化的语音数据方式,并根据老年人听阈特点,以及汉语声韵母音素的发音基频分布特点,提出了适老化的语义近义词映射方式,此外,针对老年人的理解接受能力较慢,提供了基于文本信息的语音转换控制参数,从而有助于老年人听到关键内容,更好理解语义,如图8B所示,具体可以包括以下内容:
在步骤S202中,获取待处理的第一文本信息。
在实施中,听力障碍是老年人常见的生活烦恼,据调查:65-74岁老年人中有1/3的老年人患有各种听力损失,75岁以上的老年人中患有听力困难的比例达到1/2以上。老年人的听力障碍跟人们衰老带来的内耳和听觉神经渐行性退化有关,一般是不可逆的。另外,由于老年人的学习能力减弱,对社会发展变化和对语言自身的发展变化的敏感度也有所下降,而年轻人之间的语言交流往往简单明快,且会经常夹杂当前热门或流行的网络词语,老年人即使能够接收到上述网络词语,也无法听懂上述网络词语。文本语音合成技术是现代机器学习落地于社会生产的重要技术之一,基于文本语音合成技术的互联网产品、服务方兴未艾,大量的语音合成机器人、智能语音客服、有声出版物等产品服务的创新不断涌现。老年人作为不断壮大的社会群体,应该享受到均等的社会数字化成果,数字产品服务的适老化特性,也是数字产品服务机构需要支持的方向之一。如何保证文本语音合成系统对老年人用户更加适用,更加易于老年人用户收听和理解成为当前需要解决的重要问题。
通常,可以基于Tansformer的TTS语音合成技术来实现由文本到语音的转换,而上述实现方式的本质是通过上述方式构建的模型中的编码器,将文本信息编码成某种有效的语言表示,然后,通过该模型中的解码器学习到上述语言表示和相应的声学特征(如梅尔谱等)。训练后的模型,就可以通过输入的文本信息,直接预测该文本信息对应的声学特征(如梅尔谱等),对于梅尔谱等声学特征,可以通过额外的方法(如声码器,或者特征信号翻转算法,如grifflin-Lim等)将其转换为语音数据。但是,当前由文本到语音的转换,大部分是针对通用的文本到语音的转换需求,针对老年人听觉和理解能力的文本到语音的转换则很少,这样就需要在上述由文本到语音的转换之后,再通过有一些物理方式改善老年人的听力,如,可以再通过助听器改善老年人的听力或通过扩增语音能量来改善老年人听力等。
通过物理方式改进声波传输到老年人听觉神经的过程,并不能帮助老年人跨越语言代际,提升老年人的语言理解能力。而且,上述方式需要配置额外设备,并需要经常佩戴,这样就会给老年人带来不便。而对于一些通过扩增语音能量来改善老年人听力的方式,大音量和噪音会增加人体听力损伤,基于此,本说明书实施例提供一种可实现的技术方案,具体可以包括以下内容:
可以通过多种不同的方式获取待处理的第一文本信息,例如,老年人用户如果需要阅读某刊物中的文本,该老年人用户可以使用指定的扫描设备将上述刊物中的文本进行扫描,从而,语音转换设备可以获取到扫描到的文本信息,并可以将该文本信息确定为待处理的第一文本信息。再例如,老年人用户需要阅读某电子文档中的文本,则该老年人用户可以通过当前显示该电子文档的设备向语音转换设备发送选定的文本信息,或者,语音转换设备可以通过老年人用户预先设定的相关信息向当前显示该电子文档的设备拉取老年人用户选定的文本信息等,除了可以通过上述方式实现外,还可以通过多种不同的方式实现,具体可以根据实际情况设定,本说明书实施例对此不做限定。
实际应用中,对于老年人用户,影响老年人听觉的主要原因之一,是听到的内容是否熟悉,而现代数字媒体中涉及的服务的文本信息大多是面向年轻人群体,该文本信息不可避免的包含了语言中很多精炼精简的、现代化的、网络文化特点的词语或表达。这些无冗余的、时代化的词语或表达对年轻人来说简单高效,但是对老年人并不友好,为此,可以对文本信息中包含的网络词语进行词语转译。具体可以参见下述步骤S204和步骤S206的处理。
在步骤S204中,检测第一文本信息中是否包括网络词语。
在步骤S206中,如果检测到第一文本信息中包括网络词语,则从预设的第一转译关系中获取第一文本信息中包括的网络词语对应的第一转译词语,并使用第一转译词语替换第一文本信息中的网络词语,得到第二文本信息。
针对上述步骤S204和步骤S206,可以通过映射的方式,将第一文本信息中的网络新词、缩略语、外文简写、拼音简写词等网络词语修改为适老化的文本信息表达方式,具体处理过程可以参见上述相关内容,在此不再赘述。
在实际应用中,语音转换的目标不止是让人听见,也要让人听懂,因此,可以对文本信息中的网络词语进行词语转译。此外,听得懂的前提是听得见,对于老年人用户,在高频段声波上的听觉存在损失,且比低频段声波上的听觉损失更大,为此,还可以对文本信息中包含发音基频较高的音素的词语进行词语转译。此外,一般人的说话语音的频率范围是500Hz-3400Hz,而人耳听觉频率范围一般是20Hz-20000Hz,所以正常情况下人耳能够听到人们发出的声音,但人随着年龄的增长,其听力会出现渐行性蜕变,使得老年人在高频段声波上的听觉损失显著提高。基于此,对于预设条件包括词语对应的音素的发音基频大于预设频率阈值的情况,还可以执行下述步骤S208~步骤S214的处理。
在步骤S208中,对第一文本信息进行分词处理,得到第一文本信息对应的分词。
在步骤S210中,基于第二转译关系,确定第一文本信息中是否包含第二转译关系中的高频词语。
在步骤S212中,如果包括,则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
在步骤S214中,如果检测到第一文本信息中包括第一词语,则从预设的第二转译关系中获取第一词语对应的第二转译词语,并使用第二转译词语替换第一文本信息中的第一词语,得到第二文本信息。
上述步骤S208~步骤S214的具体处理过程可以参见上述相关内容,在此不再赘述。这样,通过将包含有发音基频较高的音素的高频词语,用它的发音基频较低的音素的同义词或近义词代替,从而可以在不影响语义的情况下,使得文本信息的整体声学频率降低,有助于老年人更好的听见语音数据的内容。
其中,第二转译关系的构建方式可以参见前述相关内容,在此不再赘述。第二转译关系中的每个映射是从发音频率较高的高频词语转化为发音频率相对较低的词语,利于老年人的听觉系统感知。此外,本实施例中的第二转译关系,不可能在第二文本信息中彻底去除发音基频较高的词语,但是,由于第二转译关系是基于常见声母和韵母的组合构建,因此它可以去除一部分常见的高频词语,从而更适合老年人听力。
在步骤S216中,对第二文本信息进行主成分提取,得到第二文本信息对应的主成分信息。
在步骤S218中,确定第二文本信息对应的主成分信息中的每个词语对应的转换参数。
在步骤S220中,确定第二文本信息中除主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定第二文本信息中除主成分信息之外的信息对应的目标参数,目标参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种。
在步骤S222中,将上述转换参数和第二文本信息输入到预先训练的语音转换模型中,得到第二文本信息对应的语音数据。
上述步骤S216~步骤S222的具体处理过程可以参见上述相关内容,在此不再赘述。其中,语音转换模型的构建方式可以参见前述相关内容,构建语音转换模型过程中录音员的选取方式,也可以参见前述相关内容,在此不再赘述。这样,选取老年人听觉敏感的音色来对语音转换模型进行训练,最后合成的语音数据对老年人更容易听到。
本说明书实施例提供一种语音的转换方法,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于用户(尤其是有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户)听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
此外,通过对第二文本信息中的关键词句的合成效果控制(包括如停顿、增加音量、和放慢语速等),实际使用中也可以适度提高声调来提高老年人的听觉注意力。此外,还可以采用音频频段能量比的方式,来筛选训练语音转换模型所使用的语音样本数据录音员的音色,从而使得训练后的语音转换模型输出的语音数据更加适合老年人收听。
以上为本说明书实施例提供的语音的转换方法,基于同样的思路,本说明书实施例还提供一种语音的转换装置,如图9所示。
该语音的转换装置包括:文本获取模块901、词语转译模块902、转换参数确定模块903和语音转换模块904,其中:
文本获取模块901,获取待处理的第一文本信息;
词语转译模块902,对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
转换参数确定模块903,基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调的音调控制参数中的一种或多种;
语音转换模块904,基于所述转换参数将所述第二文本信息转换为语音数据。
本说明书实施例中,所述预设条件由预设词语确定,所述词语转译模块902包括:
第一检测单元,检测所述第一文本信息中是否包括所述预设词语;
第一词语转译单元,如果检测到所述第一文本信息中包括所述预设词语,则从预设的第一转译关系中获取所述第一文本信息中包括的预设词语对应的第一转译词语,并使用所述第一转译词语替换所述第一文本信息中的预设词语,得到第二文本信息。
本说明书实施例中,所述预设条件包括词语对应的音素的发音基频大于预设频率阈值,所述词语转译模块902包括:
第二检测单元,检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语;
第二词语转译单元,如果检测到所述第一文本信息中包括所述第一词语,则从预设的第二转译关系中获取所述第一词语对应的第二转译词语,并使用所述第二转译词语替换所述第一文本信息中的第一词语,得到第二文本信息。
本说明书实施例中,所述装置还包括:
第一集合获取模块,获取发音基频大于预设频率阈值的声母音素构成的声母集合;
第二集合获取模块,基于所述声母集合中的声母音素和预设的韵母集合中的韵母音素,确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合;
第二转译关系确定模块,确定所述高频词集合中的每个高频词语对应的转译词语,并将所述高频词集合中的每个高频词语及其对应的转译词语存储于所述第二转译关系中,所述转译词语对应的发音基频不高于所述转译词语对应的高频词语对应的发音基频,所述转译词语与所述转译词语对应的高频词语的语义相同。
本说明书实施例中,所述第二检测单元,对所述第一文本信息进行分词处理,得到所述第一文本信息对应的分词;基于所述第二转译关系,确定所述第一文本信息中是否包含所述第二转译关系中的高频词语;如果包括,则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
本说明书实施例中,所述转换参数还包括韵律标记信息,所述转换参数确定模块903包括:
主成分提取单元,对所述第二文本信息进行主成分提取,得到所述第二文本信息对应的主成分信息;
第一转换参数确定单元,确定所述第二文本信息对应的主成分信息中的每个词语对应的转换参数;
第二转换参数确定单元,确定所述第二文本信息中除所述主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定所述第二文本信息中除所述主成分信息之外的信息对应的目标参数,所述目标参数包括所述语速控制参数、所述音量控制参数和所述音调控制参数中的一种或多种。
本说明书实施例中,所述语音转换模块904,将所述转换参数和所述第二文本信息输入到预先训练的语音转换模型中,得到所述第二文本信息对应的语音数据。
本说明书实施例中,所述装置还包括:
新联文本获取模块,获取多个训练文本信息,并获取每个所述训练文本信息对应的训练标签,所述训练标签是满足预设筛选条件的录音员为所述训练文本信息录制的语音数据,所述筛选条件由所述录音员的声音能量对应的频率确定;
模型训练模块,基于多个所述训练文本信息和每个所述训练文本信息对应的训练标签,对所述语音转换模型进行训练,得到训练后的语音转换模型。
本说明书实施例中,所述装置包括:
语音录制模块,获取待筛选的多个不同的录音员录制的语音样本数据;
数据切分模块,对每个所述语音样本数据进行切分,得到每个所述语音样本数据对应的语音片段;
时频变换模块,对每个所述语音片段进行时频变换,得到每个所述语音片段对应的频域信息,所述时频变换是通过快速傅里叶变换、离散傅里叶变换和短时傅里叶变换中的一种方式得到;
能量均值确定模块,基于每个所述语音片段对应的频域信息,确定每个所述语音样本数据对应的语音片段的第一能量均值和每个所述语音样本数据对应的语音片段中频率处于预设频率范围内的语音片段的第二能量均值;
录音员选取模块,将所述多个不同的录音员中所述第二能量均值与所述第一能量均值的比值大于预设比例阈值的录音员作为满足预设筛选条件的录音员。
本说明书实施例提供一种语音的转换装置,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于用户(尤其是有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户)听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
此外,通过对第二文本信息中的关键词句的合成效果控制(包括如停顿、增加音量、和放慢语速等),实际使用中也可以适度提高声调来提高老年人的听觉注意力。此外,还可以采用音频频段能量比的方式,来筛选训练语音转换模型所使用的语音样本数据录音员的音色,从而使得训练后的语音转换模型输出的语音数据更加适合老年人收听。
对应上述实施例提供的语音的转换方法,基于相同的技术构思,本说明书实施例还提供了一种语音的转换设备,该语音的转换设备用于执行上述的语音的转换方法,图10为实现本说明书各个实施例的一种语音的转换设备的硬件结构示意图,图10所示的语音的转换设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、用户输入单元106、接口单元107、存储器108、处理器109、以及电源110等部件。本领域技术人员可以理解,图10中示出的语音的转换设备结构并不构成对语音的转换设备的限定,语音的转换设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器109,用于获取待处理的第一文本信息;
处理器109,还用于对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
处理器109,还用于基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
处理器109,还用于基于所述转换参数将所述第二文本信息转换为语音数据。
其中,所述预设条件由预设词语确定,处理器109,还用于:
检测所述第一文本信息中是否包括所述预设词语;
如果检测到所述第一文本信息中包括所述预设词语,则从预设的第一转译关系中获取所述第一文本信息中包括的预设词语对应的第一转译词语,并使用所述第一转译词语替换所述第一文本信息中的预设词语,得到第二文本信息。
其中,所述预设条件包括词语对应的音素的发音基频大于预设频率阈值,处理器109,还用于:
检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语;
如果检测到所述第一文本信息中包括所述第一词语,则从预设的第二转译关系中获取所述第一词语对应的第二转译词语,并使用所述第二转译词语替换所述第一文本信息中的第一词语,得到第二文本信息。
其中,处理器109,还用于:
获取发音基频大于预设频率阈值的声母音素构成的声母集合;
基于所述声母集合中的声母音素和预设的韵母集合中的韵母音素,确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合;
确定所述高频词集合中的每个高频词语对应的转译词语,并将所述高频词集合中的每个高频词语及其对应的转译词语存储于所述第二转译关系中,所述转译词语对应的发音基频不高于所述转译词语对应的高频词语对应的发音基频,所述转译词语与所述转译词语对应的高频词语的语义相同。
其中,处理器109,还用于:
对所述第一文本信息进行分词处理,得到所述第一文本信息对应的分词;
基于所述第二转译关系,确定所述第一文本信息中是否包含所述第二转译关系中的高频词语;
如果包括,则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
其中,所述转换参数还包括韵律标记信息,处理器109,还用于:
对所述第二文本信息进行主成分提取,得到所述第二文本信息对应的主成分信息;
确定所述第二文本信息对应的主成分信息中的每个词语对应的转换参数;
确定所述第二文本信息中除所述主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定所述第二文本信息中除所述主成分信息之外的信息对应的目标参数,所述目标参数包括所述语速控制参数、所述音量控制参数和所述音调控制参数中的一种或多种。
其中,处理器109,还用于将所述转换参数和所述第二文本信息输入到预先训练的语音转换模型中,得到所述第二文本信息对应的语音数据。
其中,处理器109,还用于:
获取多个训练文本信息,并获取每个所述训练文本信息对应的训练标签,所述训练标签是满足预设筛选条件的录音员为所述训练文本信息录制的语音数据,所述筛选条件由所述录音员的声音能量对应的频率确定;
基于多个所述训练文本信息和每个所述训练文本信息对应的训练标签,对所述语音转换模型进行训练,得到训练后的语音转换模型。
其中,处理器109,还用于:
获取待筛选的多个不同的录音员录制的语音样本数据;
对每个所述语音样本数据进行切分,得到每个所述语音样本数据对应的语音片段;
对每个所述语音片段进行时频变换,得到每个所述语音片段对应的频域信息,所述时频变换是通过快速傅里叶变换、离散傅里叶变换和短时傅里叶变换中的一种方式得到;
基于每个所述语音片段对应的频域信息,确定每个所述语音样本数据对应的语音片段的第一能量均值和每个所述语音样本数据对应的语音片段中频率处于预设频率范围内的语音片段的第二能量均值;
将所述多个不同的录音员中所述第二能量均值与所述第一能量均值的比值大于预设比例阈值的录音员作为满足预设筛选条件的录音员。
本说明书实施例中的语音的转换设备,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于用户(尤其是有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户)听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
需要说明的是,本说明书实施例提供的语音的转换设备100能够实现上述语音的转换方法实施例中语音的转换设备实现的各个过程,为避免重复,这里不再赘述。
应理解的是,本说明书实施例中,射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自上游设备的下行数据接收后,给处理器109处理;另外,将上行的数据发送给上游设备。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信系统与网络和其他设备通信。
语音的转换设备通过网络模块102为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。
输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。
接口单元107为外部装置与语音的转换设备100连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元107可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到语音的转换设备100内的一个或多个元件或者可以用于在语音的转换设备100和外部装置之间传输数据。
存储器108可用于存储软件程序以及各种数据。存储器108可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器108可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器109是语音的转换设备的控制中心,利用各种接口和线路连接整个语音的转换设备的各个部分,通过运行或执行存储在存储器108内的软件程序和/或模块,以及调用存储在存储器108内的数据,执行语音的转换设备的各种功能和处理数据,从而对语音的转换设备进行整体监控。处理器109可包括一个或多个处理单元;优选的,处理器109可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器109中。
语音的转换设备100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器109逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,语音的转换设备100包括一些未示出的功能模块,在此不再赘述。
优选的,本说明书实施例还提供一种语音的转换设备,包括处理器109,存储器108,存储在存储器108上并可在所述处理器109上运行的计算机程序,该计算机程序被处理器109执行时实现上述语音的转换方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,基于上述图1到图8B所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
本说明书实施例中,所述预设条件由预设词语确定,
所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译,得到第二文本信息,包括:
检测所述第一文本信息中是否包括所述预设词语;
如果检测到所述第一文本信息中包括所述预设词语,则从预设的第一转译关系中获取所述第一文本信息中包括的预设词语对应的第一转译词语,并使用所述第一转译词语替换所述第一文本信息中的预设词语,得到第二文本信息。
本说明书实施例中,所述预设条件包括词语对应的音素的发音基频大于预设频率阈值,
所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译,得到第二文本信息,包括:
检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语;
如果检测到所述第一文本信息中包括所述第一词语,则从预设的第二转译关系中获取所述第一词语对应的第二转译词语,并使用所述第二转译词语替换所述第一文本信息中的第一词语,得到第二文本信息。
本说明书实施例中,还包括:
获取发音基频大于预设频率阈值的声母音素构成的声母集合;
基于所述声母集合中的声母音素和预设的韵母集合中的韵母音素,确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合;
确定所述高频词集合中的每个高频词语对应的转译词语,并将所述高频词集合中的每个高频词语及其对应的转译词语存储于所述第二转译关系中,所述转译词语对应的发音基频不高于所述转译词语对应的高频词语对应的发音基频,所述转译词语与所述转译词语对应的高频词语的语义相同。
本说明书实施例中,所述检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语,包括:
对所述第一文本信息进行分词处理,得到所述第一文本信息对应的分词;
基于所述第二转译关系,确定所述第一文本信息中是否包含所述第二转译关系中的高频词语;
如果包括,则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
本说明书实施例中,所述转换参数还包括韵律标记信息,所述基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,包括:
对所述第二文本信息进行主成分提取,得到所述第二文本信息对应的主成分信息;
确定所述第二文本信息对应的主成分信息中的每个词语对应的转换参数;
确定所述第二文本信息中除所述主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定所述第二文本信息中除所述主成分信息之外的信息对应的目标参数,所述目标参数包括所述语速控制参数、所述音量控制参数和所述音调控制参数中的一种或多种。
本说明书实施例中,所述基于所述转换参数将所述第二文本信息转换为语音数据,包括:
将所述转换参数和所述第二文本信息输入到预先训练的语音转换模型中,得到所述第二文本信息对应的语音数据。
本说明书实施例中,还包括:
获取多个训练文本信息,并获取每个所述训练文本信息对应的训练标签,所述训练标签是满足预设筛选条件的录音员为所述训练文本信息录制的语音数据,所述筛选条件由所述录音员的声音能量对应的频率确定;
基于多个所述训练文本信息和每个所述训练文本信息对应的训练标签,对所述语音转换模型进行训练,得到训练后的语音转换模型。
本说明书实施例中,还包括:
获取待筛选的多个不同的录音员录制的语音样本数据;
对每个所述语音样本数据进行切分,得到每个所述语音样本数据对应的语音片段;
对每个所述语音片段进行时频变换,得到每个所述语音片段对应的频域信息,所述时频变换是通过快速傅里叶变换、离散傅里叶变换和短时傅里叶变换中的一种方式得到;
基于每个所述语音片段对应的频域信息,确定每个所述语音样本数据对应的语音片段的第一能量均值和每个所述语音样本数据对应的语音片段中频率处于预设频率范围内的语音片段的第二能量均值;
将所述多个不同的录音员中所述第二能量均值与所述第一能量均值的比值大于预设比例阈值的录音员作为满足预设筛选条件的录音员。
本说明书实施例提供一种存储介质,通过对待处理的第一文本信息中包含的预设词语进行词语转译,使得转译后的文本信息更易于理解,此外,还可以通过音素的发音基频判断待处理的第一文本信息中是否包含指定类型的词语(如发音基频高于预设阈值的词语等),如果包含,则对该词语进行词语转译,进而实现了可以降低待处理的第一文本信息中的典型高音频词语出现的概率,从而使得后续合成的语音数据整体能量更多的分布于中低频率段,有利于用户(尤其是有利于如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等人群的用户)听见和听清,另外,还可以通过第二文本信息确定将第二文本信息转换为语音数据的转换参数,进而通过该转换参数对第二文本信息进行语音转换,从而可以通过语速控制参数实现放慢合成语音数据的播放速度,同时,可以通过音量控制参数和音调控制参数等强调语音的重点内容字词,这样,可以进一步增加用户对语音内容的理解,因此,通过上述方式实现的文本语音合成系统,其合成的语音数据相比于常用的文本语音合成系统,更有利于人们(尤其是上述人群的用户)听见,听懂,从而,可以提高文本语音合成系统的使用率。
此外,通过对第二文本信息中的关键词句的合成效果控制(包括如停顿、增加音量、和放慢语速等),实际使用中也可以适度提高声调来提高老年人的听觉注意力。此外,还可以采用音频频段能量比的方式,来筛选训练语音转换模型所使用的语音样本数据录音员的音色,从而使得训练后的语音转换模型输出的语音数据更加适合老年人收听。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (12)
1.一种语音的转换方法,所述方法包括:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少包括词语对应的音素的发音基频大于预设频率阈值和/或包括由预设词语确定的条件,所述预设词语包括网络词语或预先设定的流行词语;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
2.根据权利要求1所述的方法,所述预设条件由预设词语确定,
所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译,得到第二文本信息,包括:
检测所述第一文本信息中是否包括所述预设词语;
如果检测到所述第一文本信息中包括所述预设词语,则从预设的第一转译关系中获取所述第一文本信息中包括的预设词语对应的第一转译词语,并使用所述第一转译词语替换所述第一文本信息中的预设词语,得到第二文本信息。
3.根据权利要求1或2所述的方法,所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译,得到第二文本信息,包括:
检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语;
如果检测到所述第一文本信息中包括所述第一词语,则从预设的第二转译关系中获取所述第一词语对应的第二转译词语,并使用所述第二转译词语替换所述第一文本信息中的第一词语,得到第二文本信息。
4.根据权利要求3所述的方法,所述方法还包括:
获取发音基频大于预设频率阈值的声母音素构成的声母集合;
基于所述声母集合中的声母音素和预设的韵母集合中的韵母音素,确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合;
确定所述高频词集合中的每个高频词语对应的转译词语,并将所述高频词集合中的每个高频词语及其对应的转译词语存储于所述第二转译关系中,所述转译词语对应的发音基频不高于所述转译词语对应的高频词语对应的发音基频,所述转译词语与所述转译词语对应的高频词语的语义相同。
5.根据权利要求4所述的方法,所述检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语,包括:
对所述第一文本信息进行分词处理,得到所述第一文本信息对应的分词;
基于所述第二转译关系,确定所述第一文本信息中是否包含所述第二转译关系中的高频词语;
如果包括,则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
6.根据权利要求1所述的方法,所述转换参数还包括韵律标记信息,所述基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,包括:
对所述第二文本信息进行主成分提取,得到所述第二文本信息对应的主成分信息;
确定所述第二文本信息对应的主成分信息中的每个词语对应的转换参数;
确定所述第二文本信息中除所述主成分信息之外的信息中的每个词语对应的韵律标记信息,并确定所述第二文本信息中除所述主成分信息之外的信息对应的目标参数,所述目标参数包括所述语速控制参数、所述音量控制参数和所述音调控制参数中的一种或多种。
7.根据权利要求1所述的方法,所述基于所述转换参数将所述第二文本信息转换为语音数据,包括:
将所述转换参数和所述第二文本信息输入到预先训练的语音转换模型中,得到所述第二文本信息对应的语音数据。
8.根据权利要求7所述的方法,所述方法还包括:
获取多个训练文本信息,并获取每个所述训练文本信息对应的训练标签,所述训练标签是满足预设筛选条件的录音员为所述训练文本信息录制的语音数据,所述筛选条件由所述录音员的声音能量对应的频率确定;
基于多个所述训练文本信息和每个所述训练文本信息对应的训练标签,对所述语音转换模型进行训练,得到训练后的语音转换模型。
9.根据权利要求8所述的方法,所述方法还包括:
获取待筛选的多个不同的录音员录制的语音样本数据;
对每个所述语音样本数据进行切分,得到每个所述语音样本数据对应的语音片段;
对每个所述语音片段进行时频变换,得到每个所述语音片段对应的频域信息,所述时频变换是通过快速傅里叶变换、离散傅里叶变换和短时傅里叶变换中的一种方式得到;
基于每个所述语音片段对应的频域信息,确定每个所述语音样本数据对应的语音片段的第一能量均值和每个所述语音样本数据对应的语音片段中频率处于预设频率范围内的语音片段的第二能量均值;
将所述多个不同的录音员中所述第二能量均值与所述第一能量均值的比值大于预设比例阈值的录音员作为满足预设筛选条件的录音员。
10.一种语音的转换装置,所述装置包括:
文本获取模块,获取待处理的第一文本信息;
词语转译模块,对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少包括词语对应的音素的发音基频大于预设频率阈值和/或包括由预设词语确定的条件,所述预设词语包括网络词语或预先设定的流行词语;
转换参数确定模块,基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
语音转换模块,基于所述转换参数将所述第二文本信息转换为语音数据。
11.一种语音的转换设备,所述语音的转换设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少包括词语对应的音素的发音基频大于预设频率阈值和/或包括由预设词语确定的条件,所述预设词语包括网络词语或预先设定的流行词语;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
12.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取待处理的第一文本信息;
对所述第一文本信息中包含的满足预设条件的词语进行词语转译,以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,所述预设条件至少包括词语对应的音素的发音基频大于预设频率阈值和/或包括由预设词语确定的条件,所述预设词语包括网络词语或预先设定的流行词语;
基于所述第二文本信息,确定将所述第二文本信息转换为语音数据的转换参数,所述转换参数包括用于控制语音数据对应的参数,所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种;
基于所述转换参数将所述第二文本信息转换为语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210257446.7A CN114639371B (zh) | 2022-03-16 | 2022-03-16 | 一种语音的转换方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210257446.7A CN114639371B (zh) | 2022-03-16 | 2022-03-16 | 一种语音的转换方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114639371A CN114639371A (zh) | 2022-06-17 |
CN114639371B true CN114639371B (zh) | 2023-08-01 |
Family
ID=81949415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210257446.7A Active CN114639371B (zh) | 2022-03-16 | 2022-03-16 | 一种语音的转换方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114639371B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801618A (zh) * | 2017-11-16 | 2019-05-24 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN109801630A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音识别的数字转换方法、装置、计算机设备和存储介质 |
CN113066511A (zh) * | 2021-03-16 | 2021-07-02 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4004376B2 (ja) * | 2002-10-02 | 2007-11-07 | 日本電信電話株式会社 | 音声合成装置、音声合成プログラム |
JP2008203717A (ja) * | 2007-02-22 | 2008-09-04 | Oki Electric Ind Co Ltd | コーパスベース音声合成のためのテキスト文セット選択方法、そのプログラム、及びその装置 |
CN102394061B (zh) * | 2011-11-08 | 2013-01-02 | 中国农业大学 | 基于语义检索的文语转换方法及系统 |
DE102014114845A1 (de) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Verfahren zur Interpretation von automatischer Spracherkennung |
CN110750959B (zh) * | 2019-10-28 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111128122B (zh) * | 2019-12-31 | 2022-08-16 | 思必驰科技股份有限公司 | 韵律预测模型的优化方法及系统 |
CN111883103B (zh) * | 2020-06-19 | 2021-12-24 | 马上消费金融股份有限公司 | 语音合成的方法及装置 |
-
2022
- 2022-03-16 CN CN202210257446.7A patent/CN114639371B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801618A (zh) * | 2017-11-16 | 2019-05-24 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN109801630A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音识别的数字转换方法、装置、计算机设备和存储介质 |
CN113066511A (zh) * | 2021-03-16 | 2021-07-02 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114639371A (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9799323B2 (en) | System and method for low-latency web-based text-to-speech without plugins | |
US11380300B2 (en) | Automatically generating speech markup language tags for text | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
JP2013047809A (ja) | 移動通信装置の音声語彙を自動的に拡張するための方法及び装置 | |
US6681208B2 (en) | Text-to-speech native coding in a communication system | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN110399315B (zh) | 一种语音播报的处理方法、装置、终端设备及存储介质 | |
JP6599828B2 (ja) | 音処理方法、音処理装置、及びプログラム | |
US11948564B2 (en) | Information processing device and information processing method | |
CN115249480A (zh) | 基于北斗短报文的语音文字的转换方法及相关装置 | |
CN114639371B (zh) | 一种语音的转换方法、装置及设备 | |
CN113012683A (zh) | 语音识别方法及装置、设备、计算机可读存储介质 | |
KR20200069264A (ko) | 사용자 맞춤형 음성 선택이 가능한 음성 출력 시스템 및 그 구동방법 | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
CN115273851A (zh) | 音频处理方法、装置、设备及存储介质 | |
Franich | Internal and contextual cues to tone perception in Medʉmba | |
US9711134B2 (en) | Audio interface | |
US9251782B2 (en) | System and method for concatenate speech samples within an optimal crossing point | |
KR102457822B1 (ko) | 자동 통역 장치 및 그 방법 | |
JP2015179198A (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
CN112786004B (zh) | 语音合成方法以及电子设备、存储装置 | |
JP2003233389A (ja) | アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法 | |
KR20180103273A (ko) | 음성 합성 장치 및 음성 합성 방법 | |
Eskenazi et al. | A study on speech over the telephone and aging | |
CN116665643B (zh) | 韵律标注方法、装置和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |