CN109461435B - 一种面向智能机器人的语音合成方法及装置 - Google Patents
一种面向智能机器人的语音合成方法及装置 Download PDFInfo
- Publication number
- CN109461435B CN109461435B CN201811376508.6A CN201811376508A CN109461435B CN 109461435 B CN109461435 B CN 109461435B CN 201811376508 A CN201811376508 A CN 201811376508A CN 109461435 B CN109461435 B CN 109461435B
- Authority
- CN
- China
- Prior art keywords
- text
- converted
- voice synthesis
- parameters
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 132
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000008451 emotion Effects 0.000 claims abstract description 56
- 238000006243 chemical reaction Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Toys (AREA)
Abstract
一种面向智能机器人的语音合成方法及装置,该方法包括:步骤一、获取声音合成参数配置指令;步骤二、在对待转换文本信息进行TTS转换的过程中,基于声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对待转换文本信息进行TTS转换,得到所需要的音频信息。本方法能够在合成最终的语音合成效果之前,利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预,从而使得最终合成的语音更加具有情感,从而避免了现有技术合成的语音过于机械化的问题。
Description
技术领域
本发明涉及机器人技术领域,具体地说,涉及一种面向智能机器人的语音合成方法及装置。
背景技术
随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人,人机交互也就成为决定智能机器人发展的重要因素。因此,提升智能机器人的交互能力,改善机器人的类人性和智能性,是现在亟需解决的重要问题。
发明内容
本发明提供了一种面向智能机器人的语音合成方法,所述方法包括:
步骤一、获取声音合成参数配置指令;
步骤二、在对待转换文本信息进行TTS转换的过程中,基于所述声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换,得到所需要的音频信息。
根据本发明的一个实施例,所述声音合成参数包括以下所列项中的任一项或几项:
声音波动幅度、基频、语速、音量、混响开关和朗读符号间隔时长。
根据本发明的一个实施例,在所述步骤二中,基于调整后的声音合成参数,利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。
根据本发明的一个实施例,利用预设语料集合来训练得到所述TTS转换模型,其中,所述预设语料集合包括多个训练语料,各个训练语料包含有待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。
根据本发明的一个实施例,在所述调整相应的声音合成参数时,获取语音合成标签,所述语音合成标签包含:针对于特定交互场景的多个声音合成参数以及情感参数。
本发明还提供了一种程序产品,其上存储有可执行如上任一项所述的方法步骤的程序代码。
本发明还提供了一种面向智能机器人的人机交互系统,其特征在于,所述系统装配有操作系统,所述操作系统能够装载并执行如上所述的程序产品。
本发明还提供了一种面向智能机器人的语音合成装置,所述装置包括:
指令获取模块,其用于获取声音合成参数配置指令;
TTS转换模块,其用于在对待转换文本信息进行TTS转换的过程中,基于所述声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换,得到所需要的音频信息。
根据本发明的一个实施例,所述声音合成参数包括以下所列项中的任一项或几项:
声音波动幅度、基频、语速、音量、混响开关和朗读符号间隔时长。
根据本发明的一个实施例,所述TTS转换模块配置为基于调整后的声音合成参数,利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。
根据本发明的一个实施例,利用预设语料集合来训练得到所述TTS转换模型,其中,所述预设语料集合包括多个训练语料,各个训练语料包含有待转换文本的文本结构对应的声母韵母信息和发音起止时间信息。
根据本发明的一个实施例,在所述调整相应的声音合成参数时,所述指令获取模块配置为获取语音合成标签,所述语音合成标签包含:针对于特定交互场景的多个声音合成参数,以及所述文本所包含的情感参数。
本发明还提供了一种儿童专用智能设备,所述设备包括智能机器人和云端服务器,所述智能机器人和云端服务器配合地获取声音合成参数配置指令并根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数,进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换,从而得到所需要的音频信息。
本发明所提供的面向智能机器人的语音合成方法以及装置能够在合成最终的语音合成效果之前,利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预,从而使得最终合成的语音更加具有情感,从而避免了现有技术合成的语音过于机械化的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
图1是根据本发明一个实施例的面向智能机器人的语音合成方法的实现流程示意图;
图2是根据本发明一个实施例的用于获取声音合成参数配置指令的GUI界面示意图;
图3是根据本发明一个实施例的确定情感参数的实现流程示意图;
图4是根据本发明另一个实施例的面向智能机器人的语音合成方法的实现流程示意图;
图5是根据本发明一个实施例的面向智能机器人的语音合成装置的结构示意图;
图6是根据本发明一个实施例的儿童专用智能设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
TTS技术又称文语转换技术,它能够将计算机产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。TTS技术在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程,包括文本规整、词的切分、语法分析和语义分析,从而使计算机对输入的文本能完全理解。
传统的语音合成技术可以将一句文本(例如中文、英文或是其他语言文字等)合成语音,而现有的语音合成技术所得到的语音听起来较为机械。在朗读有感情的内容时,现有的语音合成技术无法很好地模拟出文本所含有的情感,这样也就限制了语音合成技术的应用与发展。
针对现有技术中所存在的问题,本发明提供了一种新的面向智能机器人的语音合成方法,该方法通过对声音合成参数进行合理的条件,能够使得最终通过TTS转换得到的音频信息更加生动。
为了更加清楚地阐述本发明所提供的面向智能机器人的语音合成方法的实现原理、实现过程以及优点,以下分别结合不同的实施例来对该方法作进一步的说明。
实施例一:
图1示出了本实施例所提供的面向智能机器人的语音合成方法的实现流程示意图。
如图1所示,本实施例所提供的面向智能机器人的语音合成方法优选地首先会在步骤S101中获取声音合成参数配置指令。本实施例中,如图2所示,该方法优选地可以通过智能机器人人机交互的多模态输入端,经智能机器人的解析端以获取用户针对当前问答/聊天话题的交互指令,或者,童话故事、英语学习等内容输出的意图指令,该意图指令触发语音合成的步骤。该方法通过获取用户在智能机器人人机交互的多模态输入端,经智能机器人的解析端以获取用户意图指令,依据该意图指令生成相应的声音合成参数配置指令。
例如,本实施例中,该方法在步骤S101中所获取到的声音合成参数配置指令中所包含的声音合成参数优选地包括:声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长。
当然,在本发明的其他实施例中,根据实际需要,上述声音合成参数既可以仅包含以上所列项中的某一项或某几项,还可以包含其他未列出的合理项,抑或是以上所列项中的某一项或某几项与其他未列出的合理项的组合,本发明不限于此。
再次如图1所示,本实施例中,在得到声音合成参数配置指令后,在对待转换文本信息进行TTS转换的过程中,该方法会在步骤S102中基于步骤S101中所获取到的声音合成参数配置指令,来根据待转换文本的文本结构以及文本所包含的情感参数,来调整相应的语音合成参数。随后,在方法则会在步骤S103中基于调整后的声音合成参数来对待转换文本信息进行TTS转换,从而得到所需要的音频信息。
一方面,上述音频信息可以是针对与用户之间的多模态交互;另一方面,上述音频信息可以将故事内容、英语学习材料、绘本故事等,以生动地、富于感情地输出给用户。同时,伴随着音频信息,智能机器人配合地输出相关的多模态数据,如动作、表情数据以配合音频信息。
本实施例中,该方法在步骤S101中所获取到的声音合成参数配置指令包含了相应声音合成参数的配置值。因此,该方法在步骤S102中也就可以通过对步骤S101中所获取到的声音合成参数配置指令进行解析来得到各个声音合成参数的配置值。
例如,通过对声音合成参数配置指令进行解析,该方法在步骤S102中可以得到朗读符号间隔时长中句号后的间隔时长为300毫秒,问号和叹号后的间隔时长为450毫秒,段落与段落自检的间隔时长为600毫秒。通过合理的设定朗读符号间隔时长,该方法能够使得最终转换得到的音频信息听起来更加的合理、类人化,而不会像现有方法转换得到的音频信息那样听起来存在上气不接下气。
同时,本实施例中,该方法在调整声音合成参数的过程中,除了依据步骤S101中所获取到的声音合成参数配置指令外,还会基于待转换文本本身的文本结构以及文本所包含的情感参数。
本实施例中,待转换文本所包含的情感参数优选地通过对待转换文本进行情感分析来确定。其中,该方法优选地采用句子级分析方式来获取待转换文本的情感参数。
具体地,如图3所示,该方法优选地首先会在步骤S301中对待转换文本进行语句提取。根据待转换文本的文本结构,可以根据文本中的朗读符号(例如句号、问号以及叹号等)来对待转换文本进行分割,从而将待转换文本转换为多个语句。
在完成语句提取后,该方法会在步骤S302中对分割得到的各个语句进行特征词抽取。其中,特征词能够用于表征语句所隐含的情感。本实施例中,该方法在步骤S302中所抽取的特征词优选地包括连词以及否定词等。
在步骤S303中,该方法会对各个语句进行句法分析。具体地,该方法优选地会根据步骤S302中所抽取出的联系来确定句子中该连词前后的分词权重,而针对否定词则会进行极性反转或者双重否定的识别。
在步骤S304中,该方法则会根据各个语句中的情感词汇以及句法分析结果,综合确定出语句的评分,该评分则能够表征语句的情感参数。例如,语句的评分越低,那么语句所表征的情感越负面;语句的评分越高,那么语句所表征的情感越正面。
例如,如果语句的评分为-10,那么则表示该语句所表征的情感为极端负面的情感(例如暴躁、狂怒等);如果语句的评分为-2,那么则表示该语句所表征的情感为较为负面的情感(例如心情低落等);而如果语句的评分为0,那么则表示该语句所表征的情感为中性;如果语句的评分为+7,那么则表示该语句所表征的情感为较为正面的情感(例如十分喜悦)。
需要指出的是,在本发明的其他实施例中,根据实际需要,该方法还可以采用其他合理方式来确定待转换文本所包含的情感参数,本发明不限于此。例如,在本发明的一个实施例中,该方法所确定出的情感参数不仅仅包含情感的正面或是负面属性,还可以包含诸如“严肃的”、“深情的”等属性。
当然,在本发明的其他实施例中,该方法还可以采用其他合理方式来基于获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数,来对相应的声音合成参数进行调整,本发明同样不限于此。
本实施例中,该方法在对待转换文本信息进行TTS转换时,优选地基于调整后的声音合成参数,利用预先训练得到的TTS转换模型里对待转换文本信息进行TTS转换。
其中,该方法优选地利用预设语料集合来训练得到TTS转换所需要的TTS转换模型。本实施例中,上述预设语料集合优选地包括多个训练语料(例如5000到10000个语料),各个训练语料均包含有相应的待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。
从上述描述中可以看出,本发明所提供的面向智能机器人的语音合成方法能够在合成最终的语音合成效果之前,利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预,从而使得最终合成的语音更加具有情感,从而避免了现有技术合成的语音过于机械化的问题。
实施例二:
图4示出了本实施例所提供的面向智能机器人的语音合成方法的实现流程示意图。
如图4所示,本实施例所提供的面向智能机器人的语音合成方法优选地首先会在步骤S101中获取语音合成过程中所使用到的语音合成标签。其中,该方法所获取到的语音合成标签优选地包括这对特定交互场景的多个声音合成参数以及情感参数。
发明人通过对人与人的交互过程进行分析发现,在一个交互场景中,人所发出的语音通常并不是单单由某一个声音合成配置参数来决定的。例如,不同人的说话语速可能不同,因此单单依靠语速来体现交互过程中的情感是不准确的。而如果要求最终合成得到的音频信息能够准确表达出所需要的情感,那么也就需要通过调整大量的声音合成参数配置指令来实现,这仅仅需要设置声音合成参数的配置值的操作人员需要专业的知识,还需要耗费大量的时间来完成该操作。
因此,针对该问题,本实施例所提供的方法在步骤S401中直接获取的是语音合成过程中的语音合成标签。该语音合成标签中包含了对于所需要的交互场景(即特定交互场景)的多个声音合成参数以及情感参数,这样用户也就可以通过输入语音合成标签的方式来实现对声音合成参数的调整。
例如,如果所需要的音频信息是较为粗犷的,那么在现有技术中也就需要通过反复调整多个声音合成参数来能够实现上述效果,而利用本实施例所提供的方法时声音合成模型在运行时,调用“粗犷”这一语音合成标签即可实现上述效果。
在获取获取到语音合成标签后,该方法会在步骤S402中根据上述语音合成标签以及待转换文本的文本结构,来调整相应的声音合成参数。随后,该方法会在步骤S403中来基于调整后的声音合成参数对待转换文本信息进行TTS转换,得到所需要的音频信息。
需要指出的是,本实施例中,上述步骤S402以及步骤S403的实现原理以及实现过程与上述实施例一中步骤S102和步骤S103的实现原理以及实现过程类似,故在此不再对步骤S402以及步骤S403的具体内容进行赘述。
本发明还提供了一种程序产品以及面向智能机器人的人机交互系统。其中,该程序产品存储有可执行上述面向智能智能机器人的语音合成方法步骤的程序代码,而该人机交互系统则装配有相应的操作系统,该操作系统能够装载并执行上述程序产品。
同时,本发明还提供了一种面向智能机器人的语音合成装置以及包含该装置的儿童专用智能设备。
图5示出了本实施例所提供的面向智能机器人的语音合成装置的结构示意图。
如图5所示,本实施例所提供的面向智能机器人的语音合成装置优选地包括指令获取模块501和TTS转换模块502。其中,指令获取模块501用于获取声音合成参数配置指令,并将该声音合成参数配置指令传输至与之连接的TTS转换模块502。
本实施例中,指令获取模块501优选地为智能机器人人机交互的多模态输入端,智能机器人人机交互的多模态输入端,经智能机器人的解析端以获取用户针对当前问答/聊天话题的交互指令,或者,童话故事、英语学习等内容输出的意图指令的输入设备。用户可以通过智能机器人人机交互的多模态输入端,经智能机器人的解析端以获取用户针对童话故事、英语学习等内容输出的意图指令,配合所述指令获取模块501则可以通过获取意图指令生成相应的声音合成参数配置指令。
在对待转换文本信息进行TTS转换的过程中,TTS转换模块502能够基于指令获取模块501所传输来的声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对待转换文本信息进行TTS转换,得到所需要的音频信息。一方面,所述音频信息可以是针对与用户之间的多模态交互;另一方面,所述音频信息将故事内容、英语学习材料、绘本故事等,以生动的,富于感情地输出给用户。同时,伴随着音频信息,智能机器人配合地输出相关的多模态数据,如动作、表情数据以配合音频信息。
本实施例中,指令获取模块501以及TTS转换模块502实现其各自功能的具体原理以及过程与上述实施例一中步骤S103至步骤S103所涉及的内容类似,故在此不再对指令获取模块501以及TTS转换模块502的具体内容进行赘述。
当然,在本发明的其他实施例中,指令获取模块501所获取到的还可以为上述实施例二中所述的语音合成标签,指令获取模块501TTS转换模块502还可以采用如上述实施例二中步骤S401至步骤S403所公开的方式来实现对待转换文本信息的TTS转换,本发明不限于此。
本发明还提供了一种儿童专用智能设备。如图6所示,本实施例中,该儿童专用智能设备优选地包括智能机器人601和云端服务器602。其中,智能机器人601与云端服务器602能够配合地根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数,进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换,从而得到所需要的音频信息。
本实施例中,面向智能机器人的语音合成装置中的指令获取模块优选地配置在智能机器人601中。需要指出的是,本实施例中,智能机器人601可以为诸如平板电脑、儿童手表、机器人、手机、故事机或是绘本阅读机器人等设备。
在得到声音合成参数配置指令后,智能机器人601优选地会通过自身的通信模块来将上述声音合成参数配置指令上传至云端服务器602。云端服务器602能够根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数,进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换,从而得到所需要的音频信息。
云端服务器602会将转换得到的音频信息传输至智能机器人601,以由智能机器人601通过自身的输出模块向用户603输出。
需要指出的是,在本发明的不同实施例中,上述待转换文本既可以由智能机器人601来进行获取,也可以由与云端服务器602通信连接的其他设备来获取到,本发明不限于此。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。
Claims (9)
1.一种面向智能机器人的语音合成方法,其特征在于,所述方法包括:
步骤一、获取声音合成参数配置指令;所述声音合成参数配置指令中所包含的声音合成参数包括:声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长;
步骤二、在对待转换文本信息进行TTS转换的过程中,基于所述声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换,得到所需要的音频信息;
在所述步骤二中,通过对待转换文本进行情感分析来确定所述情感参数,包括以下操作:
依据待转换文本的文本结构,根据文本中的朗读符号来对待转换文本进行分割;
对分割得到的各个语句进行特征词抽取;
根据抽取出的连词来确定句子中该连词前后的分词权重,针对否定词进行极性反转或者双重否定的识别;得到句法分析结果;
根据各语句中的情感词汇以及句法分析结果,综合确定出语句的情感评分,以表征语句的情感参数。
2.如权利要求1所述的方法,其特征在于,在所述步骤二中,基于调整后的声音合成参数,利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。
3.如权利要求2所述的方法,其特征在于,利用预设语料集合来训练得到所述TTS转换模型,其中,所述预设语料集合包括多个训练语料,各个训练语料包含有待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。
4.如权利要求1~3中任一项所述的方法,其特征在于,在所述调整相应的声音合成参数时,获取语音合成标签,所述语音合成标签包含:针对于特定交互场景的多个声音合成参数以及情感参数。
5.一种程序产品,其上存储有可执行如权利要求1~4中任一项所述的方法步骤的程序代码。
6.一种面向智能机器人的人机交互系统,其特征在于,所述系统装配有操作系统,所述操作系统能够装载并执行如权利要求5所述的程序产品。
7.一种面向智能机器人的语音合成装置,其特征在于,所述装置包括:
指令获取模块,其用于获取声音合成参数配置指令;所述声音合成参数配置指令中所包含的声音合成参数包括:声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长;
TTS转换模块,其用于在对待转换文本信息进行TTS转换的过程中,基于所述声音合成参数配置指令,根据待转换文本的文本结构及文本所包含的情感参数,调整相应的声音合成参数,并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换,得到所需要的音频信息;
所述TTS转换模块配置为通过以下操作对待转换文本进行情感分析来确定所述情感参数:
依据待转换文本的文本结构,根据文本中的朗读符号来对待转换文本进行分割;
对分割得到的各个语句进行特征词抽取;
根据抽取出的连词来确定句子中该连词前后的分词权重,针对否定词进行极性反转或者双重否定的识别;得到句法分析结果;
根据各语句中的情感词汇以及句法分析结果,综合确定出语句的情感评分,以表征语句的情感参数。
8.如权利要求7所述的装置,其特征在于,所述TTS转换模块配置为基于调整后的声音合成参数,利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换;
利用预设语料集合来训练得到所述TTS转换模型,其中,所述预设语料集合包括多个训练语料,各个训练语料包含有待转换文本的文本结构对应的声母韵母信息和发音起止时间信息;
在所述调整相应的声音合成参数时,所述指令获取模块配置为获取语音合成标签,所述语音合成标签包含:针对于特定交互场景的多个声音合成参数,以及所述文本所包含的情感参数。
9.一种儿童专用智能设备,其特征在于,所述设备包括智能机器人和云端服务器,所述智能机器人和云端服务器配合地执行如权利要求1~4中任一项所述的语音合成方法,用以获取声音合成参数配置指令,并根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数,进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换,从而得到所需要的音频信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811376508.6A CN109461435B (zh) | 2018-11-19 | 2018-11-19 | 一种面向智能机器人的语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811376508.6A CN109461435B (zh) | 2018-11-19 | 2018-11-19 | 一种面向智能机器人的语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109461435A CN109461435A (zh) | 2019-03-12 |
CN109461435B true CN109461435B (zh) | 2022-07-01 |
Family
ID=65610975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811376508.6A Active CN109461435B (zh) | 2018-11-19 | 2018-11-19 | 一种面向智能机器人的语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109461435B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102615154B1 (ko) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN110232907B (zh) * | 2019-07-24 | 2021-11-02 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
CN110534088A (zh) * | 2019-09-25 | 2019-12-03 | 招商局金融科技有限公司 | 语音合成方法、电子装置及存储介质 |
CN111312210B (zh) * | 2020-03-05 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种融合图文的语音合成方法及装置 |
CN112151008B (zh) * | 2020-09-22 | 2022-07-15 | 中用科技有限公司 | 一种语音合成方法、系统及计算机设备 |
CN112381040B (zh) * | 2020-11-27 | 2022-09-27 | 天津大学 | 一种基于语音和人脸图像的跨模态生成方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100347741C (zh) * | 2005-09-02 | 2007-11-07 | 清华大学 | 移动语音合成方法 |
CN101064104B (zh) * | 2006-04-24 | 2011-02-02 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN102938252B (zh) * | 2012-11-23 | 2014-08-13 | 中国科学院自动化研究所 | 结合韵律和发音学特征的汉语声调识别系统及方法 |
CN105355193B (zh) * | 2015-10-30 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN108597492B (zh) * | 2018-05-02 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
-
2018
- 2018-11-19 CN CN201811376508.6A patent/CN109461435B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109461435A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109461435B (zh) | 一种面向智能机器人的语音合成方法及装置 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
Crumpton et al. | A survey of using vocal prosody to convey emotion in robot speech | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
CN106057023A (zh) | 一种面向智能机器人的儿童教学方法和装置 | |
EP3191934A1 (en) | Systems and methods for cinematic direction and dynamic character control via natural language output | |
CN106548777B (zh) | 一种用于智能机器人的数据处理方法及装置 | |
CN112599113A (zh) | 方言语音合成方法、装置、电子设备和可读存储介质 | |
JP7166580B2 (ja) | 言語学習方法 | |
KR20140071070A (ko) | 음소기호를 이용한 외국어 발음 학습방법 및 학습장치 | |
Saunders et al. | Towards using prosody to scaffold lexical meaning in robots | |
CN116580691A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN108352126A (zh) | 外语读音及标记装置及其方法,包括利用其装置和方法的基于外语节奏动作传感器的运动学习装置、运动学习方法以及对其进行记录的电子媒体和学习教材 | |
EP4033487A1 (en) | Method and system for measuring the cognitive load of a user | |
Burgos et al. | Engaging human-to-robot attention using conversational gestures and lip-synchronization | |
KR102395702B1 (ko) | 문장을 이루는 단위를 단계별 확장하여 스텝화한 영어 교육 서비스 제공 방법 | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
CN112017668A (zh) | 一种基于实时情感检测的智能语音对话方法、装置和系统 | |
AU2012100262A4 (en) | Speech visualisation tool | |
Yilmazyildiz et al. | Expressive gibberish speech synthesis for affective human-computer interaction | |
Kim et al. | Estimation of the movement trajectories of non-crucial articulators based on the detection of crucial moments and physiological constraints. | |
Jarmolowicz et al. | Gesture, prosody and lexicon in task-oriented dialogues: multimedia corpus recording and labelling | |
Wouters et al. | Authoring tools for speech synthesis using the sable markup standard. | |
Normuratovna | Speech culture of a modern teacher | |
Dahl | The separation of voices in a literary utterance: a dialogical approach to discourse presentation, viewpoint, focalization–and punctuation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |