CN112992117B - 多语言语音模型生成方法、装置、计算机设备及存储介质 - Google Patents
多语言语音模型生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112992117B CN112992117B CN202110219479.8A CN202110219479A CN112992117B CN 112992117 B CN112992117 B CN 112992117B CN 202110219479 A CN202110219479 A CN 202110219479A CN 112992117 B CN112992117 B CN 112992117B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- language
- enhanced
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 7
- 238000003786 synthesis reaction Methods 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种多语言语音模型生成方法、装置、计算机设备及存储介质,其中所述方法包括获取预先采集的第一语音数据集;根据预设数据增强脚本对第二语音信息进行数据增强,以得到增强语音样本;将增强语音样本随机插入第一语音信息以得到目标语音信息;利用目标语音信息训练一神经网络,以得到一中间模型;获取预设的第二语音数据集中的基于第一语言的第三语音信息,获取第三语音信息中的音色以对中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。本发明数据收集便捷,可得到用于生成对多语言语音合成单音色需求的多语言语音信息的目标模型,还能应用于智慧政务等场景中,从而推动智慧城市的建设,提高用户使用体验度。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种多语言语音模型生成方法、装置、计算机设备及存储介质。
背景技术
目前,多语言的语音合成是学术界的热门话题,完整的高质量的多语音合成体系和模型仍然是大家讨论的焦点所在。一般来说,在说话过程中,若存在两个语言体系,即会存在一个主体系及一个从体系,通常以自己的母语为主体系,而另一个语言为从体系,作为从体系的语言在语句中不会大段地连续出现,只是以单词的形式嵌入到句子中起辅助作用。例如人们在说汉语的时候,有时会夹杂着英语的字母或者部分英文的单词。
现今多语言语音合成体系主要包括作为主体系的主要语言和以及作为从体系的辅助语言,若只使用主要语言训练神经网络模型,即难以获得针对辅助语言的准确语音。在神经网络模型训练过程中获取包含多种语言的数据集是很困难的,尤其是较难找到精通多种语言的说话人进行数据采集。而使用多说话人的混合数据集训练神经网络模型时,需要收集大量的分别以主体语言为母语的说话人的预料以及以辅助语言为母语的说话人的预料等数据,但是在训练过程种由于不同说话人的音色不同,会导致神经网络模型生成的语句种存在明显的两个音色现象。故可知,在多语言语音合成模型的训练上,存在单说话人训练数据难收集以及多说话人训练得到的模型质量欠佳等问题。
发明内容
本发明实施例提供一种多语言语音模型生成方法、装置、计算机设备及存储介质,其不仅数据收集便捷,可得到用于生成对多语言语音合成单音色需求的多语言语音信息的目标模型,还能应用于智慧政务等场景中,从而推动智慧城市的建设,提高用户使用体验度。
第一方面,本发明实施例提供了一种多语言语音模型生成方法,该方法包括:
获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息;
根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本;
将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息;
利用目标语音信息训练一神经网络,以得到一中间模型;
获取预设的第二语音数据集中的基于第一语言的第三语音信息,获取所述第三语音信息中的音色以对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
第二方面,本发明实施例还提供了一种多语言语音模型生成装置,该装置包括:
数据获取单元,用于获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息;
数据增强单元,用于根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本;
语音处理单元,用于将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息;
第一训练单元,用于利用目标语音信息训练一神经网络,以得到一中间模型;
第二训练单元,用于调用预设的第二语音数据集中的基于第一语言的第三语音信息,以获取所述第三语音信息中的音色对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种多语言语音模型生成方法、装置、计算机设备及存储介质。其中,所述方法包括:获取预先采集的第一语音数据集;根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本;将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息;利用目标语音信息训练一神经网络,以得到一中间模型;获取预设的第二语音数据集中的基于第一语言的第三语音信息,获取所述第三语音信息中的音色以对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。本发明实施例由于数据收集便捷,可得到用于生成对多语言语音合成单音色需求的多语言语音信息的目标模型,还能应用于智慧政务等场景中,从而推动智慧城市的建设,提高用户使用体验度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多语言语音模型生成方法的流程示意图;
图1a是本发明实施例提供的一种多语言语音模型生成方法的应用场景示意图;
图2是本发明实施例提供的一种多语言语音模型生成方法的子流程示意图;
图3是本发明实施例提供的一种多语言语音模型生成方法的子流程示意图;
图4是本发明实施例提供的一种多语言语音模型生成方法的子流程示意图;
图5是本发明实施例提供的一种多语言语音模型生成方法的子流程示意图;
图6是本发明实施例提供的一种多语言语音模型生成装置的示意性框图;
图7是本发明实施例提供的一种多语言语音模型生成装置的数据增强单元的示意性框图;
图8是本发明实施例提供的一种多语言语音模型生成装置的数据拼接单元的示意性框图;
图9是本发明实施例提供的一种多语言语音模型生成装置的标志插入单元的示意性框图;
图10是本发明实施例提供的一种多语言语音模型生成装置的语音处理单元的示意性框图;
图11是本发明实施例提供的一种计算机设备结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1和图1a,图1是本申请实施例提供的一种多语言语音模型生成方法的示意流程图,图1a是本申请实施例中多语言语音模型生成方法的场景示意图。该多语言语音模型生成方法应用于管理服务器10中。该管理服务器10能够通过对基于第一语言的第一主体20的第一语音信息的采集以及基于第二语言的第一主体20的第二语音信息的采集,实现对第一语音信息的数据增强,即得到混合有第二语音信息的目标语音信息,其中所有的目标语音信息构成一目标数据集;利用目标数据集训练一神经网络,以得到一中间模型;再次获取基于第一语言的第二主体30的第三语音信息,利用第三语音信息对中间模型再次进行训练,以获取第三语音信息的音色,从而得到一目标模型。以下将以处理服务器10的角度详细地介绍该多语言语音模型生成方法的各个步骤。
请参阅图1,图1是本发明实施例提供的一种多语言语音模型生成方法的示意流程图。如图1所示,该方法的步骤包括步骤S101~S105。
步骤S101,获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息。
在本实施例中,预先采集的基于第一语言的第一语音信息为同一个主体提供,其可以是一个完整的数据集,该数据集可以涵盖第一语言中的大部分语音数据的类型。预先采集的基于第二语言的第二语音信息也由上述主体提供,其可以包括第二语言中的基础语音数据。
例如,所述第一语言可以是汉语,所述第二语言可以是英语。作为优选地,在第一语音数据集中,汉语语音信息所占的比重远大于英语语信息据所占的比重。通常,第一语音信息作为一个较为完整的汉语语音数据集,可以涵盖人们生活中的大部分日常语言,从而保证后续训练得到的模型的质量。第二语音信息作为英语语音数据集,可以是上述主体提供的26个英文字母的读音,因为对于大量的英语语音信息,上述主体可能没有能力提供,而我们在日常生活中离不开英语字母,即车牌、楼门号等等计数或者号码牌都是需要字母的;通过26个英文字母的读音的获取,即可通过相应地处理得到更多的英语语音信息。
步骤S102,根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本。
在本实施例中,由于第一语音信息和第二语音信息是分开的,为了得到多语言的混合语音信息,此时需要预先设置一个数据增强脚本,该数据增强脚本用于随机组合所述第二语音信息,从而得到一个较长的语音信息,即得到若干增强语音样本。例如,当第二语音信息为英语字母时,可以随机抽取若干英语字母以组成多个英语单词,进而构成一个或多个简短的日常英语语句。
在另一实施例中,如图2所示,所述第二语音信息包括若干条第二语音数据,所述步骤102包括步骤S201~S202。
步骤S201,运行预设数据增强脚本以从第二语音信息中随机抽取多组第二语音数据;其中,每组中的第二语音数据的数量至少为两个。
在本实施例中,管理服务器可以调取预设数据增强脚本,并进行运行,从而可以从第二语音信息中随机抽取多组第二语音数据,为了确保拼接的相关语音信息更为合理,此时每组中的第二语音数据至少为两个,如可以是两个或者三个及以上的数量。
步骤S202,将所抽取的每组第二语音数据进行拼接以得到多个相应的增强语音样本。
在本实施例中,管理服务器需要将所抽取的每组第二语音数据进行拼接,从而得到多个相应的增强语音样本,例如,可以通过随机组合少量的英语语音数据,构成日常生活用语和句子等。
在进一步的实施例中,如图3所示,所述步骤S202包括步骤S301~S303。
步骤S301,将所抽取的每组第二语音数据进行拼接,以得到多个中间词组。
其中,管理服务器可以将所抽取的每组第二语音数据进行拼接,由于通常第二语音数据为第二语言中的基础发音和组成部分,故此时通过拼接,可以得到多个中间词组。
步骤S302,将所得到的中间词组进行组合,以得到多个中间语句。
其中,管理服务器还能够再次对所得到的中间词组进行组合,从而得到多个中间语句,通过中间语句的组合,可以得到多个相关日常用语。
步骤S303,将所得到的中间语句进行拼接,并在拼接位置插入预设静音标志,以得到增强语音样本,其中,不同的预设静音标志关联有不同的静音时间段。
其中,管理服务器将所得到的中间语句进行拼接时,可以在拼接位置插入静音标志,通过设置静音标志,可以保证语句的整体韵律不出现问题,不同的静音标志关联有不同的静音时间段,静音时间段中通常没有语音内容,代表录音中的停顿。
作为可选地,所述预设静音标志为标点符号,所述标点符号包括逗号、顿号、句号、问号以及感叹号中的一种或多种。例如,拼接两段中间语句,通过设置标点符号来表示相应的静音,一般逗号和顿号200-300毫秒,句号、问号、感叹号停顿400-500毫秒等。
在一实施例中,如图4所示,若所述标点符号包括逗号和句号,所述逗号关联的静音时间段为200~300毫秒,所述句号关联的静音时间段为400~500毫秒,所述步骤S303包括步骤S401~S403。
步骤S401,将所得到的中间语句进行拼接以得到一拼接语句。步骤S402,判断所述拼接语句的字符数是否超过第一预设值。步骤S403,若所述拼接语句的字符数超过第一预设值,在拼接位置插入句号,以得到增强语音样本。所述方法还包括以下步骤,步骤S404,若所述拼接语句的字符数没有超过第一预设值,在拼接位置插入逗号,以得到增强语音样本。
其中,管理服务器将所得到的中间语句进行拼接后,可以计算该拼接语句的字符数是否超过第一预设值,通常当字符数过多时,不便进行停顿,会导致语句的整体韵律出现问题,故可以再凭借语句中加入预设静音标志如句号或逗号,此时逗号所关联的停顿时间可以是200~300毫秒,句号所关联的停顿时间可以是400~500毫秒,即当字符数超过第一预设值时,此时需要使用句号进行停顿,若字符数没有超过第一预设值,此时则是使用逗号进行停顿。
步骤S103,将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息。
在本实施例中,管理服务器能够将所述增强语音样本随机地插入第一语音信息中,从而得到多个包括有增强语音样本地目标语音信息。
例如,当第一语音信息为汉语语音信息时,若其中一条第一语音信息为“那儿有一辆车”,此时,其中一条增强语音样本为“red”时,可以将两者合并为目标语音信息“那儿有一辆red车”。
在另一实施例中,如图5所示,所述步骤S103可以包括步骤S501~S502。
步骤S501,获取所述增强语音样本。其中,管理服务器能够获取所述增强语音样本,以便于将增强语音样本插入到相应的第一语音信息中。
步骤S502,将所获取的增强语音样本随机插入不同的第一语音信息中,以得到多个不同的目标语音信息。其中,管理服务器能够将所获取的增强语音样本随机插入到不同的第一语音信息中,从而得到多个不同的目标语音信息。通常插入增强语音样本的第一语音信息可以时包含多语言的语音信息。
步骤S104,利用目标语音信息训练一神经网络,以得到一中间模型。
在本实施例中,管理服务器能够获取目标语音信息,从而训练一神经网络,通过训练后的神经网络可以得到一中间模型,该神经网络可以采用循环神经网络(如:LSTM等),训练的损失函数为均方差损失函数。
在一实施例中,所述目标语音信息为上述主体的读音信息,与该主体的说话的音色无关,以便于后续对相关模型的进一步的提升训练,从而得到更为完善的模型。
步骤S105,获取预设的第二语音数据集中的基于第一语言的第三语音信息,获取所述第三语音信息中的音色以对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
在本申请中,预设的第二语音数据集包括另一主体所提供的基于第一语言的第三语音信息,并通过获取所述第三语音信息中的音色来实现对中间模型的进一步的训练。管理服务器获取第三语音信息的音色,能够使得中间模型在再次训练之后得到一个可生成符合用户的对多语言语音合成需求的多语言语音信息的目标模型。
综上,本申请可以不仅数据收集更为便捷,还能生成符合用户的对多语言语音合成单音色需求的多语言语音信息的目标模型,提高了用户的使用体验度。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
请参阅图6,对应上述一种多语言语音模型生成方法,本发明实施例还提出一种多语言语音模型生成装置,该装置100包括:数据获取单元101、数据增强单元102、语音处理单元103、第一训练单元104以及第二训练单元105。
所述数据获取单元101,用于获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息。
在本实施例中,预先采集的基于第一语言的第一语音信息为同一个主体提供,其可以是一个完整的数据集,该数据集可以涵盖第一语言中的大部分语音数据的类型。预先采集的基于第二语言的第二语音信息也由上述主体提供,其可以包括第二语言中的基础语音数据。
例如,所述第一语言可以是汉语,所述第二语言可以是英语。作为优选地,在第一语音数据集中,汉语语音信息所占的比重远大于英语语信息据所占的比重。通常,第一语音信息作为一个较为完整的汉语语音数据集,可以涵盖人们生活中的大部分日常语言,从而保证后续训练得到的模型的质量。第二语音信息作为英语语音数据集,可以是上述主体提供的26个英文字母的读音,因为对于大量的英语语音信息,上述主体可能没有能力提供,而我们在日常生活中离不开英语字母,即车牌、楼门号等等计数或者号码牌都是需要字母的;通过26个英文字母的读音的获取,即可通过相应地处理得到更多的英语语音信息。
所述数据增强单元102,用于根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本。
在本实施例中,由于第一语音信息和第二语音信息是分开的,为了得到多语言的混合语音信息,此时需要预先设置一个数据增强脚本,该数据增强脚本用于随机组合所述第二语音信息,从而得到一个较长的语音信息,即得到若干增强语音样本。例如,当第二语音信息为英语字母时,可以随机抽取若干英语字母以组成多个英语单词,进而构成一个或多个简短的日常英语语句。
在另一实施例中,如图7所示,所述第二语音信息包括若干条第二语音数据,所述数据增强单元102包括脚本运行单元201以及数据拼接单元202。
所述脚本运行单元201,用于运行预设数据增强脚本以从第二语音信息中随机抽取多组第二语音数据;其中,每组中的第二语音数据的数量至少为两个。
在本实施例中,管理服务器可以调取预设数据增强脚本,并进行运行,从而可以从第二语音信息中随机抽取多组第二语音数据,为了确保拼接的相关语音信息更为合理,此时每组中的第二语音数据至少为两个,如可以是两个或者三个及以上的数量。
所述数据拼接单元202,用于将所抽取的每组第二语音数据进行拼接以得到多个相应的增强语音样本。
在本实施例中,管理服务器需要将所抽取的每组第二语音数据进行拼接,从而得到多个相应的增强语音样本,例如,可以通过随机组合少量的英语语音数据,构成日常生活用语和句子等。
在进一步的实施例中,如图8所示,所述所述数据拼接单元202包括数据抽取单元301、词组组合单元302以及标志插入单元303。
所述数据抽取单元301,用于将所抽取的每组第二语音数据进行拼接,以得到多个中间词组。
其中,管理服务器可以将所抽取的每组第二语音数据进行拼接,由于通常第二语音数据为第二语言中的基础发音和组成部分,故此时通过拼接,可以得到多个中间词组。
所述词组组合单元302,用于将所得到的中间词组进行组合,以得到多个中间语句。
其中,管理服务器还能够再次对所得到的中间词组进行组合,从而得到多个中间语句,通过中间语句的组合,可以得到多个相关日常用语。
所述标志插入单元303,用于将所得到的中间语句进行拼接,并在拼接位置插入预设静音标志,以得到增强语音样本,其中,不同的预设静音标志关联有不同的静音时间段。
其中,管理服务器将所得到的中间语句进行拼接时,可以在拼接位置插入静音标志,通过设置静音标志,可以保证语句的整体韵律不出现问题,不同的静音标志关联有不同的静音时间段,静音时间段中通常没有语音内容,代表录音中的停顿。
作为可选地,所述预设静音标志为标点符号,所述标点符号包括逗号、顿号、句号、问号以及感叹号中的一种或多种。例如,拼接两段中间语句,通过设置标点符号来表示相应的静音,一般逗号和顿号200-300毫秒,句号、问号、感叹号停顿400-500毫秒等。
在一实施例中,如图9所示,若所述标点符号包括逗号和句号,所述逗号关联的静音时间段为200~300毫秒,所述句号关联的静音时间段为400~500毫秒,所述标志插入单元303包括语句拼接单元401、数值判断单元402、第一插入单元403以及第二插入单元404。
所述语句拼接单元401,用于将所得到的中间语句进行拼接以得到一拼接语句。所述数值判断单元402,用于判断所述拼接语句的字符数是否超过第一预设值。所述第一插入单元403,用于若所述拼接语句的字符数超过第一预设值,在拼接位置插入句号,以得到增强语音样本。所述装置100还包括第二插入单元404,用于若所述拼接语句的字符数没有超过第一预设值,在拼接位置插入逗号,以得到增强语音样本。
其中,管理服务器将所得到的中间语句进行拼接后,可以计算该拼接语句的字符数是否超过第一预设值,通常当字符数过多时,不便进行停顿,会导致语句的整体韵律出现问题,故可以再凭借语句中加入预设静音标志如句号或逗号,此时逗号所关联的停顿时间可以是200~300毫秒,句号所关联的停顿时间可以是400~500毫秒,即当字符数超过第一预设值时,此时需要使用句号进行停顿,若字符数没有超过第一预设值,此时则是使用逗号进行停顿。
所述语音处理单元103,用于将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息。
在本实施例中,管理服务器能够将所述增强语音样本随机地插入第一语音信息中,从而得到多个包括有增强语音样本地目标语音信息。
例如,当第一语音信息为汉语语音信息时,若其中一条第一语音信息为“那儿有一辆车”,此时,其中一条增强语音样本为“red”时,可以将两者合并为目标语音信息“那儿有一辆red车”。
在另一实施例中,如图10所示,所述语音处理单元103可以包括样本获取单元501以及样本插入单元502。
所述样本获取单元501,用于获取所述增强语音样本。其中,管理服务器能够获取所述增强语音样本,以便于将增强语音样本插入到相应的第一语音信息中。
所述样本插入单元502,用于将所获取的增强语音样本随机插入不同的第一语音信息中,以得到多个不同的目标语音信息。其中,管理服务器能够将所获取的增强语音样本随机插入到不同的第一语音信息中,从而得到多个不同的目标语音信息。通常插入增强语音样本的第一语音信息可以时包含多语言的语音信息。
所述第一训练单元104,用于利用目标语音信息训练一神经网络,以得到一中间模型。
在本实施例中,管理服务器能够获取目标语音信息,从而训练一神经网络,通过训练后的神经网络可以得到一中间模型,该神经网络可以采用循环神经网络(如:LSTM等),训练的损失函数为均方差损失函数。
在一实施例中,所述目标语音信息为上述主体的读音信息,与该主体的说话的音色无关,以便于后续对相关模型的进一步的提升训练,从而得到更为完善的模型。
所述第二训练单元105,用于调用预设的第二语音数据集中的基于第一语言的第三语音信息,以获取所述第三语音信息中的音色对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
在本申请中,预设的第二语音数据集包括另一主体所提供的基于第一语言的第三语音信息,并通过获取所述第三语音信息中的音色来实现对中间模型的进一步的训练。管理服务器获取第三语音信息的音色,能够使得中间模型在再次训练之后得到一个可生成符合用户的对多语言语音合成需求的多语言语音信息的目标模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述多语言语音模型生成装置100和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
由以上可见,在硬件实现上,以上数据获取单元101、数据增强单元102、语音处理单元103、第一训练单元104以及第二训练单元105等可以以硬件形式内嵌于或独立于多语言语音模型生成装置中,也可以以软件形式存储于多语言语音模型生成装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述多语言语音模型生成装置可以实现为一种计算机程序的形式,计算机程序可以在如图11所示的计算机设备上运行。
图11为本发明一种计算机设备的结构组成示意图。该设备可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参照图11,该计算机设备600包括通过系统总线601连接的处理器602、存储器、内存储器604和网络接口605,其中,存储器可以包括非易失性存储介质603和内存储器604。
该非易失性存储介质603可存储操作系统6031和计算机程序6032,该计算机程序6032被执行时,可使得处理器602执行一种多语言语音模型生成方法。
该处理器602用于提供计算和控制能力,支撑整个计算机设备600的运行。
该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境,该计算机程序6032被处理器602执行时,可使得处理器602执行一种多语言语音模型生成方法。
该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备600的限定,具体的计算机设备600可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器602用于运行存储在存储器中的计算机程序6032,以实现如上述实施例中的多语言语音模型生成方法中的步骤。应当理解,在本申请实施例中,处理器602可以是中央处理单元(Central Processing Unit,CPU),该处理器602还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如上述实施例中的多语言语音模型生成方法中的步骤。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种多语言语音模型生成方法,其特征在于,所述方法包括:
获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息;
根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本;
将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息;
利用目标语音信息训练一神经网络,以得到一中间模型;
获取预设的第二语音数据集中的基于第一语言的第三语音信息,获取所述第三语音信息中的音色以对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
2.如权利要求1所述的方法,其特征在于,所述第二语音信息包括若干条第二语音数据,所述根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本,包括:
运行预设数据增强脚本以从第二语音信息中随机抽取多组第二语音数据;其中,每组中的第二语音数据的数量至少为两个;
将所抽取的每组第二语音数据进行拼接以得到多个相应的增强语音样本。
3.如权利要求2所述的方法,其特征在于,所述将所抽取的每组第二语音数据进行拼接以得到多个相应的增强语音样本,包括:
将所抽取的每组第二语音数据进行拼接,以得到多个中间词组;
将所得到的中间词组进行组合,以得到多个中间语句;
将所得到的中间语句进行拼接,并在拼接位置插入预设静音标志,以得到增强语音样本,其中,不同的预设静音标志关联有不同的静音时间段。
4.如权利要求3所述的方法,其特征在于,所述预设静音标志为标点符号,所述标点符号包括逗号、顿号、句号、问号以及感叹号中的一种或多种。
5.如权利要求4所述的方法,其特征在于,若所述标点符号包括逗号和句号,所述逗号关联的静音时间段为200~300毫秒,所述句号关联的静音时间段为400~500毫秒,所述将所得到的中间语句进行拼接,并在拼接位置插入预设静音标志,以得到增强语音样本,包括:
将所得到的中间语句进行拼接以得到一拼接语句;
判断所述拼接语句的字符数是否超过第一预设值;
若所述拼接语句的字符数超过第一预设值,在拼接位置插入句号,以得到增强语音样本。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若所述拼接语句的字符数没有超过第一预设值,在拼接位置插入逗号,以得到增强语音样本。
7.如权利要求1所述的方法,其特征在于,所述将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息,包括:
获取所述增强语音样本;
将所获取的增强语音样本随机插入不同的第一语音信息中,以得到多个不同的目标语音信息。
8.一种多语言语音模型生成装置,其特征在于,所述装置包括:
数据获取单元,用于获取预先采集的第一语音数据集,该语音数据集包括均为同一主体提供的基于第一语言的第一语音信息以及基于第二语言的第二语音信息;
数据增强单元,用于根据预设数据增强脚本对所述第二语音信息进行数据增强,以得到若干增强语音样本;
语音处理单元,用于将所述增强语音样本随机插入第一语音信息中,以得到目标语音信息;
第一训练单元,用于利用目标语音信息训练一神经网络,以得到一中间模型;
第二训练单元,用于调用预设的第二语音数据集中的基于第一语言的第三语音信息,以获取所述第三语音信息中的音色对所述中间模型进行训练,并得到一用于合成多语言语音信息的目标模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110219479.8A CN112992117B (zh) | 2021-02-26 | 2021-02-26 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
PCT/CN2021/096668 WO2022178996A1 (zh) | 2021-02-26 | 2021-05-28 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110219479.8A CN112992117B (zh) | 2021-02-26 | 2021-02-26 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992117A CN112992117A (zh) | 2021-06-18 |
CN112992117B true CN112992117B (zh) | 2023-05-26 |
Family
ID=76351191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110219479.8A Active CN112992117B (zh) | 2021-02-26 | 2021-02-26 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112992117B (zh) |
WO (1) | WO2022178996A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115188365B (zh) * | 2022-09-09 | 2022-12-27 | 中邮消费金融有限公司 | 一种停顿预测方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN108711420A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 多语言混杂模型建立、数据获取方法及装置、电子设备 |
KR20190085879A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN111696521A (zh) * | 2019-12-18 | 2020-09-22 | 新加坡依图有限责任公司(私有) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN112001181A (zh) * | 2020-07-17 | 2020-11-27 | 北京百度网讯科技有限公司 | 多语言语义表示模型的训练方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845125B (zh) * | 2016-05-18 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN107481713B (zh) * | 2017-07-17 | 2020-06-02 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
US11238845B2 (en) * | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
CN109616096B (zh) * | 2018-12-29 | 2022-01-04 | 北京如布科技有限公司 | 多语种语音解码图的构建方法、装置、服务器和介质 |
CN112397051B (zh) * | 2019-08-16 | 2024-02-02 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN111816169B (zh) * | 2020-07-23 | 2022-05-13 | 思必驰科技股份有限公司 | 中英语种混杂语音识别模型训练方法和装置 |
-
2021
- 2021-02-26 CN CN202110219479.8A patent/CN112992117B/zh active Active
- 2021-05-28 WO PCT/CN2021/096668 patent/WO2022178996A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN108711420A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 多语言混杂模型建立、数据获取方法及装置、电子设备 |
KR20190085879A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN111696521A (zh) * | 2019-12-18 | 2020-09-22 | 新加坡依图有限责任公司(私有) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 |
CN112001181A (zh) * | 2020-07-17 | 2020-11-27 | 北京百度网讯科技有限公司 | 多语言语义表示模型的训练方法、装置、设备及存储介质 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022178996A1 (zh) | 2022-09-01 |
CN112992117A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719649B (zh) | 语音识别方法及装置 | |
Babel et al. | Expectations and speech intelligibility | |
Benati et al. | Grammar acquisition and processing instruction: Secondary and cumulative effects | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
EP2966601A1 (en) | Comprehension assistance system, comprehension assistance server, comprehension assistance method, and computer-readable recording medium | |
CN112399269B (zh) | 视频分割方法、装置、设备及存储介质 | |
CN112560510A (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
CN110517668A (zh) | 一种中英文混合语音识别系统及方法 | |
CN112992117B (zh) | 多语言语音模型生成方法、装置、计算机设备及存储介质 | |
CN111768781A (zh) | 语音打断的处理方法和装置 | |
CN111553138B (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN113409791A (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
CN112784022A (zh) | 一种政务faq知识库自动构建方法、装置和电子设备 | |
US20070061139A1 (en) | Interactive speech correcting method | |
CN110970030A (zh) | 一种语音识别转换方法及系统 | |
US10325597B1 (en) | Transcription of communications | |
Acar | Standards and competence in English as an international language pedagogy | |
CN112233661B (zh) | 基于语音识别的影视内容字幕生成方法、系统及设备 | |
JP2004334207A (ja) | 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助 | |
JP4659433B2 (ja) | 問題自動作成装置および問題自動作成プログラム | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
CN112765973A (zh) | 评分模型训练方法及装置、作文评分方法及装置 | |
CN112002325A (zh) | 多语种语音交互方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |