CN106486111B - 基于智能机器人的多tts引擎输出语速调节方法及系统 - Google Patents

基于智能机器人的多tts引擎输出语速调节方法及系统 Download PDF

Info

Publication number
CN106486111B
CN106486111B CN201610898765.0A CN201610898765A CN106486111B CN 106486111 B CN106486111 B CN 106486111B CN 201610898765 A CN201610898765 A CN 201610898765A CN 106486111 B CN106486111 B CN 106486111B
Authority
CN
China
Prior art keywords
tts engine
speed
output
called
tts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610898765.0A
Other languages
English (en)
Other versions
CN106486111A (zh
Inventor
王合心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Wuxian Technology Co Ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN201610898765.0A priority Critical patent/CN106486111B/zh
Publication of CN106486111A publication Critical patent/CN106486111A/zh
Application granted granted Critical
Publication of CN106486111B publication Critical patent/CN106486111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于智能机器人的多TTS引擎输出语速调节方法及系统,其中,该方法包括:朗读速度确定步骤,接收多模态交互数据,对多模态交互数据进行解析,确定出需调用的TTS引擎的类型和朗读速度;输出语速确定步骤,基于语速调整模型及需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速;语音输出步骤,调用需调用的TTS引擎以输出语速进行语音输出。相较于现有的多TTS引擎输出语速调节方法,本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置,而是能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置,从而提高了多TTS引擎输出语速调节的高效性和便捷性。

Description

基于智能机器人的多TTS引擎输出语速调节方法及系统
技术领域
本发明涉及智能机器人技术领域,具体地说,涉及一种基于智能机器人的多TTS引擎输出语速调节方法及系统。
背景技术
随着智能机器人技术的发展,智能机器人的应用已经逐渐深入到人们生活的各个方面。从辅助教学、医疗卫生到公共服务的各个方面,都能见到智能机器人忙碌的身影。
智能机器人可以通过TTS引擎实现文本到语音的转换。为了使语音输出的效果更好,往往需要对语音输出的语速进行调整。但是智能机器人面对的用户多种多样,不同用户使用的交互语言可能有所不同,而智能机器人本身的输出语言,在不同的场景下,也需要不同的语言输出,有时在同一场景下需要使用两种或者两种以上的语言的进行输出。而不同语言可能使用不同的TTS引擎,对于使用多TTS引擎的智能机器人,如何在交互过程中快速有效的实现语速调节,是本领域技术人员亟需解决的一个问题。
发明内容
为解决上述问题,本发明提供了一种基于智能机器人的多TTS引擎输出语速调节方法,其包括:
朗读速度确定步骤,接收多模态交互数据,对所述多模态交互数据进行解析,确定出需调用的TTS引擎的类型和朗读速度;
输出语速确定步骤,基于语速调整模型及所述需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速;
语音输出步骤,调用所述需调用的TTS引擎以所述输出语速进行语音输出。
根据本发明的一个实施例,在基于语速调整模型及所述TTS引擎的类型和朗读速度获取需调用的TTS引擎的输出语速的步骤包括:
将所述朗读速度输入到引擎语速接口;
利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速。
根据本发明的一个实施例,所述语速调整模型如下式所示:
Figure GDA0002312421490000021
其中,vs表示需调用的TTS引擎的输出语速,vin表示朗读速度,vmax表示能够实现的朗读速度的最大值,vc表示所述需调用的TTS引擎的输出语速的最大值。
根据本发明的一个实施例,所述对多模态交互数据进行解析以确定需调用的TTS引擎的类型和朗读速度的步骤包括:
结合多模态交互数据,根据当前用户使用的语言类型,确定需调用的TTS引擎类型,以及根据多模态交互数据生成语言输出内容后,结合语言输出内容,确定朗读速度;或者,
对多模态交互数据进行解析,当解析到语速调整指令或通过特定语言类型进行交互的指令时,根据所述语速调整指令确定朗读速度或将所述特定语言类型对应的TTS引擎作为需调用的TTS引擎;
或者,
对多模态交互数据进行解析,当解析到当前需要调用语言教学应用时,根据需要进行语言教学的语言类型,确定需调用的TTS引擎类型,根据当前用户对该语言的听力,确定朗读速度。
根据本发明的一个实施例,所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。
本发明还提供了一种基于智能机器人的多TTS引擎输出语速调节系统,其包括:
朗读速度确定模块,其用于接收多模态交互数据,对所述多模态交互数据进行解析,确定出需调用的TTS引擎的类型和朗读速度;
输出语速确定模块,其用于基于语速调整模型及所述需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速;
语音输出模块,其用于调用所述需调用的TTS引擎以所述输出语速进行语音输出。
根据本发明的一个实施例,所述输出语速确定模块配置为:
将所述朗读速度输入到引擎语速接口;
利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速。
根据本发明的一个实施例,所述语速调整模型如下式所示:
Figure GDA0002312421490000031
其中,vs表示需调用的TTS引擎的输出语速,vin表示朗读速度,vmax表示能够实现的朗读速度的最大值,vc表示所述需调用的TTS引擎的输出语速的最大值。
根据本发明的一个实施例,所述朗读速度确定模块配置为:
结合多模态交互数据,根据当前用户使用的语言类型,确定需调用的TTS引擎类型,以及根据多模态交互数据生成语言输出内容后,结合语言输出内容,确定朗读速度;或者,
对多模态交互数据进行解析,当解析到语速调整指令或通过特定语言类型进行交互的指令时,根据所述语速调整指令确定朗读速度或将所述特定语言类型对应的TTS引擎作为需调用的TTS引擎;
或者,
对多模态交互数据进行解析,当解析到当前需要调用语言教学应用时,根据需要进行语言教学的语言类型,确定需调用的TTS引擎类型,根据当前用户对该语言的听力,确定朗读速度。
根据本发明的一个实施例,所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。
本发明所提供的基于智能机器人的多TTS引擎输出语速调节方法能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置。相较于现有的多TTS引擎输出语速调节方法,本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置,从而提高了多TTS引擎输出语速调节的高效性和便捷性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
图1是根据本发明一个实施例的基于智能机器人的多TTS引擎输出语速调节方法的实现流程图;
图2是根据本发明一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图;
图3是根据本发明另一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图;
图4是根据本发明再一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图;
图5是根据本发明一个实施例的基于智能机器人的多TTS引擎输出语速调节装置的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
不同的TTS引擎会存在使用方法上的不统一性,这种不统一性尤其表现在TTS引擎的输出语速控制方面。例如,中文TTS引擎的输出语速范围为0~10,最小调整幅度为1,其中,数值越大表示输出语速越快,其默认输出语速(即正常语速)通常为5。而英文TTS引擎的输出语速范围为0~2,最小调整幅度同样为1,其中,数值越大表示输出语速越快,其默认输出语速(即正常语速)通常为1。
如果当前场景需要对输出语速进行调整的话,由于中文TTS引擎与英文TTS引擎在设置方面的不同,因此对相关参数的调整也将存在不同。例如,如果当前场景需要将输出语速调整为正常语速的2倍,那么对于中文TTS引擎来说,就需要将中文TTS引擎的输出语速设置为9,而对于英文TTS引擎来说,就需要将英文TTS引擎的输出语速设置为2。这显然不利于多TTS引擎输出速度的快速有效调节,从而影响人机交互效率。
针对现有技术中所存在的上述问题,本实施例提供了一种新的基于智能机器人的多TTS引擎输出语速调节方法。该方法能够实现对多个TTS引擎输出语速的统一调节,从而实现了在交互过程中对TTS引擎输出速度的快速有效的调节,提高了人机交互的便利性。
图1示出了本实施例所提供的基于智能机器人的多TTS引擎输出语速调节方法的实现流程图。
如图1所示,本实施例所提供的方法首先在步骤S101中接收用户输入的多模态交互数据,并在步骤S102中对上述多模态交互数据进行解析,从而确定出需调用的TTS引擎的类型和朗读速度。
需要指出的是,在本发明的不同实施例中,该方法可以采用不同的合理方式来根据接收到的多模态交互数据解析得到需调用的TTS引擎的类型和朗读速度,本发明不限于此。
具体地,在本发明的一个实施例中,该方法可以采用如图2所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图2所示,在该实施例中,本方法会在步骤S201中根据当前用户使用的语言类型,确定需要调用的TTS引擎类型。
该方法在步骤S201中会对用户输入的多模态交互数据中的语音信息和/或文本信息进行解析,从而得到该语音信息或文本信息所使用的语言类型,这样也就得到了当前用户使用的语言类型。根据当前用户所使用的语言类型,也就可以确定出需调用的TTS引擎类型。
例如,如果当前用户所输入的为中文语音,那么该方法也就可以在步骤S201中确定出当前用户使用的语言类型为中文,而在通常状态下,智能机器人与当前用户进行交互显然也应该使用中文,因此该方法也就将需调用的TTS引擎类型确定为中文TTS引擎。
在图2所示的实施例中,该方法还会在步骤S202中根据所获取到的多模态交互数据生成语言输出内容,并在步骤S203中根据步骤S202中所得到的语言输出内容确定朗读速度。
例如,如果所生成的语言输出内容所表征的情绪信息为“欢快”,那么该方法也就会将朗读速度适应地调快(例如将朗读速度调整为“70”)。需要指出的是,本实施例中,各类情绪信息所对应的朗读速度可以根据实际需要事先确定,在此并不对各类情绪信息与朗读速度的具体取值之间的对应关系进行限定。
而在本发明的另一个实施例中,该方法还可以采用如图3所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图3所示,在该实施例中,本方法会在步骤S301中对获取到的多模态输入数据进行解析,从而得到语速调整指令和通过特定语言类型进行交互的指令。随后,该方法也就可以在步骤S302中根据步骤S301中所得到的语速调整指令来确定朗读速度,并在步骤S303中将特定语言类型所对应的TTS引擎作为需调用的TTS引擎。
例如,通过对获取到的多模态交互数据进行解析,得到诸如“通过英文进行交互”指令以及“语速设定为60”的语速调整指令,那么该方法也就可以在步骤S302中将朗读速度确定为“60”,并在步骤S303中将需调用的TTS引擎确定为“英文TTS引擎”。
而在本发明的另一个实施例中,该方法还可以采用如图4所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图4所示,在该实施例中,本方法会在步骤S401中对获取到的多模态交互数据进行解析,并在步骤S402中根据步骤S401中的解析结果判断是否需要调用语言教学应用。如果该步骤S402中判断出此时需要调用语言教学应用,那么该方法则可以在步骤S403中根据需要进行语言教学的语言类型,来确定需调用的TTS引擎类型。同时,该方法还可以在步骤S404中根据该语言教学环境下用户的听力来确定朗读速度。
例如,如果某一用户的母语为中文,此时该用户需要通过英文进行学习时,该方法也就可以在步骤S403中确定出此时需调用的TTS引擎为中文TTS引擎和英文TTS引擎。如果该用户的历史交互记录显示该用户的英语听力较强,那么该方法也就可以在步骤S404中将英文TTS引擎的朗读速度确定为一较高值(例如80等)。
再次如图1所示,在得到需调用的TTS引擎的类型和朗读速度后,该方法将在步骤S103中基于预设的语速调节模型来根据步骤S102中所确定出的TTS引擎类型和朗读速度计算需调用的TTS引擎的输出语速。
具体地,本实施例中,该方法在步骤S103中根据如下语速调节模型来计算需调调用的TTS引擎的输出语速:
Figure GDA0002312421490000071
其中,vs表示需调用的TTS引擎的输出语速,vin表示朗读速度,vmax表示能够实现的朗读速度的最大值,vc表示需调用的TTS引擎的输出语速的最大值。
例如,假设提供给用户的TTS引擎的语速接口的范围统一为0-100。如果用户需要调用中文TTS引擎,并且将朗读速度设定为60,那么利用上述语速调节模型可以计算得到中文TTS引擎的输出语速vs为:
Figure GDA0002312421490000072
即确定出的该中文TTS引擎的输出语速需要为6。
而如果用户需要调用英文TTS引擎,并且将朗读速度设定为60,那么利用上述语速调节模型可以计算出英文TTS引擎的输出语速vs为:
Figure GDA0002312421490000073
即确定出的该中文TTS引擎的输出语速需要为1.2。
如图1所示,在确定出需调用的TTS引擎的输出语速后,该方法便可以在步骤S104中利用需调用的TTS引擎来以特定的输出语速来进行语音输出。
从上述描述中可以看出,本发明所提供的基于智能机器人的多TTS引擎输出语速调节方法能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置。相较于现有的多TTS引擎输出语速调节方法,本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置,从而提高了多TTS引擎输出语速调节的高效性和便捷性。
本发明还提供了一种基于智能机器人的多TTS引擎输出语速调节系统,图5示出了本实施例中该系统的结构示意图。
如图5所示,本实施例所提供的基于智能机器人的多TTS引擎输出语速调节系统优选地包括:朗读速度确定模块501、输出语速确定模块502以及语音输出模块503。其中,朗读速度确定模块501用于接收用户输入的多模态交互数据,并对上述多模态交互数据进行解析,从而确定出需调用的TTS引擎的类型和朗读速度。
需要指出的是,在本发明的不同实施例中,朗读速度确定模块501可以采用不同的合理方式来根据接收到的多模态交互数据来解析得到需调用的TTS引擎的类型和朗读速度,本发明不限于此。
例如,在本发明的一个实施例中,朗读速度确定模块501既可以采用如图2所示的方式来确定需调用的TTS引擎的类型和朗读速度,也可以采用如图3所示的方式来确定需调用的TTS引擎的类型和朗读速度,还可以采用如图4所示的方式来需调用的TTS引擎的类型和朗读速度。
在确定出需调用的TTS引擎的类型和朗读速度后,朗读速度确定模块501会将需调用的TTS引擎的类型和朗读速度传输至输出语速确定模块502。输出语速确定模块502则会基于语速调节模型以及上述需调用的TTS引擎的类型和朗读速度,来计算需调用的TTS引擎的输出语速。
需要指出的是,本实施例中,输出语速确定模块502基于语速调节模型需调用的TTS引擎的输出语速的具体实现原理以及实现过程与上述步骤S103所涉及的内容类似,故在此不再对输出语速确定模块502的相关内容进行赘述。
输出语速确定模块502会将确定出的需调用的TTS引擎的输出语速传输至语音输出模块503。语音输出模块502则会条用该TTS引擎来以上述输出语速来进行语音输出。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。

Claims (6)

1.一种基于智能机器人的多TTS引擎输出语速调节方法,其特征在于,包括:
朗读速度确定步骤,接收多模态交互数据,对所述多模态交互数据进行解析,从配置的多个TTS引擎中确定出需调用的TTS引擎的类型和朗读速度,其中,所配置的多个TTS引擎对应的输出语速范围不完全相同,所述朗读速度具有一统一的取值范围;
输出语速确定步骤,将所述朗读速度输入到引擎语速接口,利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速;
语音输出步骤,调用所述需调用的TTS引擎以所述输出语速进行语音输出;
其中,所述语速调整模型如下式所示:
Figure FDA0002312421480000011
其中,vs表示需调用的TTS引擎的输出语速,vin表示朗读速度,vmax表示能够实现的朗读速度的最大值,vc表示所述需调用的TTS引擎的输出语速的最大值。
2.根据权利要求1所述的方法,其特征在于,所述对多模态交互数据进行解析以确定需调用的TTS引擎的类型和朗读速度的步骤包括:
结合多模态交互数据,根据当前用户使用的语言类型,确定需调用的TTS引擎类型,以及根据多模态交互数据生成语言输出内容后,结合语言输出内容,确定朗读速度;或者,
对多模态交互数据进行解析,当解析到语速调整指令或通过特定语言类型进行交互的指令时,根据所述语速调整指令确定朗读速度或将所述特定语言类型对应的TTS引擎作为需调用的TTS引擎;
或者,
对多模态交互数据进行解析,当解析到当前需要调用语言教学应用时,根据需要进行语言教学的语言类型,确定需调用的TTS引擎类型,根据当前用户对该语言的听力,确定朗读速度。
3.根据权利要求1所述的方法,其特征在于,所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。
4.一种基于智能机器人的多TTS引擎输出语速调节系统,其特征在于,包括:
朗读速度确定模块,其用于接收多模态交互数据,对所述多模态交互数据进行解析,从配置的多个TTS引擎中确定出需调用的TTS引擎的类型和朗读速度,其中,所配置的多个TTS引擎对应的输出语速范围不完全相同,所述朗读速度具有一统一的取值范围;
输出语速确定模块,其用于将所述朗读速度输入到引擎语速接口,利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速;
语音输出模块,其用于调用所述需调用的TTS引擎以所述输出语速进行语音输出;
其中,所述语速调整模型如下式所示:
Figure FDA0002312421480000021
其中,vs表示需调用的TTS引擎的输出语速,vin表示朗读速度,vmax表示能够实现的朗读速度的最大值,vc表示所述需调用的TTS引擎的输出语速的最大值。
5.根据权利要求4所述的系统,其特征在于,所述朗读速度确定模块配置为:
结合多模态交互数据,根据当前用户使用的语言类型,确定需调用的TTS引擎类型,以及根据多模态交互数据生成语言输出内容后,结合语言输出内容,确定朗读速度;或者,
对多模态交互数据进行解析,当解析到语速调整指令或通过特定语言类型进行交互的指令时,根据所述语速调整指令确定朗读速度或将所述特定语言类型对应的TTS引擎作为需调用的TTS引擎;
或者,
对多模态交互数据进行解析,当解析到当前需要调用语言教学应用时,根据需要进行语言教学的语言类型,确定需调用的TTS引擎类型,根据当前用户对该语言的听力,确定朗读速度。
6.根据权利要求4所述的系统,其特征在于,所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。
CN201610898765.0A 2016-10-14 2016-10-14 基于智能机器人的多tts引擎输出语速调节方法及系统 Active CN106486111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610898765.0A CN106486111B (zh) 2016-10-14 2016-10-14 基于智能机器人的多tts引擎输出语速调节方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610898765.0A CN106486111B (zh) 2016-10-14 2016-10-14 基于智能机器人的多tts引擎输出语速调节方法及系统

Publications (2)

Publication Number Publication Date
CN106486111A CN106486111A (zh) 2017-03-08
CN106486111B true CN106486111B (zh) 2020-02-07

Family

ID=58270722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610898765.0A Active CN106486111B (zh) 2016-10-14 2016-10-14 基于智能机器人的多tts引擎输出语速调节方法及系统

Country Status (1)

Country Link
CN (1) CN106486111B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107605608B (zh) * 2017-08-30 2019-07-30 山东大学 用于液压驱动腿足式机器人的汽油发动机转速控制方法
CN108630224B (zh) * 2018-03-22 2020-06-09 云知声智能科技股份有限公司 控制语速的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2261658Y (zh) * 1996-09-27 1997-09-03 张文婧 数字录音外语学习机
WO2003073417A2 (en) * 2002-02-26 2003-09-04 Sap Aktiengesellschaft Intelligent personal assistants
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN101895614A (zh) * 2009-05-20 2010-11-24 北京闻言科技有限公司 一种调节手机客户端程序播放语速的技术
US20150356967A1 (en) * 2014-06-08 2015-12-10 International Business Machines Corporation Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices
CN105827504A (zh) * 2015-11-30 2016-08-03 维沃移动通信有限公司 一种语音信息的传输方法、移动终端和系统
CN105654950B (zh) * 2016-01-28 2019-07-16 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN105869626B (zh) * 2016-05-31 2019-02-05 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端

Also Published As

Publication number Publication date
CN106486111A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN106504743B (zh) 一种用于智能机器人的语音交互输出方法及机器人
KR20210106397A (ko) 음성 전환 방법, 장치 및 전자 기기
CN110287303B (zh) 人机对话处理方法、装置、电子设备及存储介质
US11348583B2 (en) Data processing method and apparatus for intelligent device, and storage medium
JP2021144248A (ja) 音声データ処理方法、装置及びスマート車両
US11194378B2 (en) Information processing method and electronic device
CN107516526A (zh) 一种声源跟踪定位方法、装置、设备和计算机可读存储介质
JP7247442B2 (ja) ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
EP3769303B1 (en) Modifying spoken commands
US20230058437A1 (en) Method for human-computer interaction, apparatus for human-computer interaction, device, and storage medium
CN106486111B (zh) 基于智能机器人的多tts引擎输出语速调节方法及系统
CN103514882A (zh) 一种语音识别方法及系统
CN109005190A (zh) 一种基于网页实现全双工语音对话和页面控制的方法
CN112861548A (zh) 自然语言生成及模型的训练方法、装置、设备和存储介质
KR20220083990A (ko) 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
KR20210038812A (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20210033873A (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
WO2022152029A1 (zh) 语音识别方法、装置、计算机设备及存储介质
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
CN107066288B (zh) 一种用于智能机器人的多模态交互方法及装置
CN111312243B (zh) 设备交互方法和装置
CN108597499A (zh) 语音处理方法以及语音处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant