CN111768756A - 信息处理方法、装置、车辆和计算机存储介质 - Google Patents

信息处理方法、装置、车辆和计算机存储介质 Download PDF

Info

Publication number
CN111768756A
CN111768756A CN202010589864.7A CN202010589864A CN111768756A CN 111768756 A CN111768756 A CN 111768756A CN 202010589864 A CN202010589864 A CN 202010589864A CN 111768756 A CN111768756 A CN 111768756A
Authority
CN
China
Prior art keywords
information
target
style
converted
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010589864.7A
Other languages
English (en)
Other versions
CN111768756B (zh
Inventor
丁磊
郭刘飞
黄骏
周宏波
郭昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Human Horizons Shanghai Internet Technology Co Ltd
Original Assignee
Human Horizons Shanghai Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Human Horizons Shanghai Internet Technology Co Ltd filed Critical Human Horizons Shanghai Internet Technology Co Ltd
Priority to CN202010589864.7A priority Critical patent/CN111768756B/zh
Publication of CN111768756A publication Critical patent/CN111768756A/zh
Application granted granted Critical
Publication of CN111768756B publication Critical patent/CN111768756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本申请公开了一种信息处理方法,应用于车辆,所述车辆中安装有车载应用,并且所述车辆中安装有语音合成TTS引擎,包括:车载应用获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;所述车载应用将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。

Description

信息处理方法、装置、车辆和计算机存储介质
技术领域
本申请涉及音频处理领域,尤其涉及一种信息处理方法、装置、车辆和计算机存储介质。
背景技术
随着智能化的发展,车辆中也增设了提升智能化程度的车载应用,其中包括车载应用控制进行发声的智能场景。然而,在车辆中如何通过车载应用的控制使得发声效果更加个性化,使得其音频播放场景更加丰富,是需要解决的问题。
发明内容
为了解决现有技术中上述至少一个问题,本申请实施例提供一种信息处理方法、装置、设备和计算机存储介质。
第一方面,本申请实施例提供一种信息处理方法,应用于车辆,所述车辆中安装有车载应用,并且所述车辆中安装有语音合成TTS引擎,包括:
车载应用获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
所述车载应用将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
第二方面,本申请实施例提供一种信息处理装置,包括:
转换模块,用于获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
TTS调用模块,用于将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
第三方面,本申请实施例提供一种车辆,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意一项实施例所提供的方法。
第四方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意一项实施例所提供的方法。
上述申请中的一个实施例具有如下优点或有益效果:可以通过车载应用对待转换文本信息进行转换得到携带目标声音风格的信息,进而调用TTS引擎进行音频信息的合成;如此,可以使得车载应用具备更丰富的音频播放风格,在音频播放中能够输出更加个性化的声音风格的信息,满足个性化需求,提升用户的听觉体验。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请一实施例的信息处理方法流程示意图;
图2是根据本申请生成携带目标声音风格的信息的流程示意图;
图3是根据本申请信息处理方法的一种处理场景示意图;
图4是根据本申请信息处理方法的另一种场景处理示意图;
图5是根据本申请一实施例的信息处理装置结构示意图一;
图6是根据本申请一实施例的信息处理装置结构示意图二;
图7是根据本申请一实施例的信息处理装置结构示意图三;
图8是根据本申请一实施例的信息处理装置结构示意图四;
图9是根据本申请一实施例的信息处理装置结构示意图五;
图10是根据本申请一实施例的信息处理装置结构示意图六;
图11是本申请另一实施例的信息处理装置结构示意图七;
图12是用来实现本申请实施例的信息处理方法的车辆的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供了一种信息处理方法,应用于车辆,所述车辆中安装有车载应用,并且所述车辆中安装有语音合成TTS引擎,如图1所示,包括:
S101:车载应用获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
S102:所述车载应用将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
S101中,所述车载应用可以是车辆中安装的多个应用之一。比如,车载应用可以是新闻应用、百科应用等。
车载应用获取的待转换信息,可以是待转换文本信息、待转换音频信息或者待转换语法信息。
获取待转换信息的方式,可以是从手动输入的文本中获取待转换信息,或者从检测到的语音信号中获取待转换信息。除此之外,还可以从云端获取待转换信息。
上述S101中,将待转换信息转换为携带目标声音风格的信息,可以是将待转换信息转换为携带一种目标声音风格的信息,也可以是将待转换信息转换为携带两种以上不同目标声音风格的信息。
上述S101中,将待转换信息转换为携带目标声音风格的信息,可以包括:
在待转换信息为文本信息的情况下,车载应用确定待转换文本信息对应的目标声音风格,根据目标声音风格对所述待转换文本信息进行音频相关属性的标记得到目标SSML(Speech Synthesis Markup Language,语音合成标记语言),将所述目标SSML作为携带目标声音风格的信息,即携带目标声音风格的信息可以是目标SSML。
其中,目标声音风格的确定方式,可以为根据用户设置来确定,比如,车载应用可以为用户提供一个选取声音风格的选取菜单界面,用户通过在该界面进行选取,得到本次所要得到的声音风格,作为所述目标声音风格。在本申请实施例中,目标声音风格可以是多种预设风格中的一种,比如预设六种风格,用户可以选取其中之一作为目标声音风格。具体可以包括,用户在选取菜单界面选择模仿秀模块,得到本次所要的得到的目标声音风格为模仿秀模式对应的声音风格。还可以包括,用户在选取菜单界面选择复读机模块,得到本次所要得到的目标声音风格为复读机模式对应的声音风格。还可以包括,用户在选取菜单界面选择最强编剧模块,得到本次所要得到的目标声音风格为最强编剧模式对应的声音风格。
目标声音风格的确定方式,还可以为根据待转换信息的语境确定,例如,待转换信息为文本信息,用于可手动设置文本信息的框架。文本信息的框架对应一定的语境,同时文本信息的框架也对应一定的目标声音风格。
在待转换信息为待转换文本信息的情况下,目标声音风格的确定方式,还可以为根据云端修改信息生成。云端可自动检测待转换文本信息的内容,根据待转换文本信息的内容,对目标声音风格进行修改。
另外,车载应用还可以具备默认的声音风格;相应的,目标声音风格的确定方式,可以包括:若用户未进行目标声音风格的选取,那么可以直接采用默认的声音风格作为目标声音风格(该声音风格可以跟车载应用本身的类型相关);若用户选取了本次处理所要的声音风格,那就将用户选取的声音风格作为目标声音风格。例如,默认的声音风格为模仿秀模式对应的声音风格或复读机模式对应的声音风格,那么在用户没有进行目标声音风格的选取的情况下,可直接采用模仿秀模式或复读机模式对应的声音风格作为目标声音风格。
目标声音风格还可以根据待转换信息的内容进行确定。比如,待转换信息的内容包括多人对话,则可将待转换信息识别为剧本,相应确定目标声音风格为最强编剧风格。再如,待转换信息的内容包括名人名言,则可将待转换信息识别为模仿秀文本,相应确定目标声音风格为模仿秀风格。再如,待转换信息包括多个重复内容,或者待转换信息过于简短,则可将待转换信息识别为需要重复的信息,相应确定目标声音风格为复读机风格。
一种示例中,将待转换信息转换为携带目标声音风格的信息的过程,可以如图2所示,包括如下步骤:
步骤S201:创建SSML。
可以包括,在创建的携带目标声音风格的信息中,添加版本、语言、URI(UniformResource Identifier,统一资源标识符)、输出语音添加等信息。比如,可以指定用于解释文档标记的携带目标声音风格的信息的规范版本,指定根文档的语言,指定文档的URL用于定义携带目标声音风格的信息的文档的标记词汇。
步骤S202:根据目标声音风格对选择的语音进行调整,并选取服务信息。
比如,录制待转换信息对应的语音。根据目标声音风格对录制的语音进行调整,可以使得录制的语音的风格为前述目标声音风格。
可以将所述服务理解为本申请的音频属性相关信息,也就是目标声音风格最终可以对应与音频属性相关信息相对应。
需要理解的是,不同的风格还可以对应不同服务。所述服务可以包含有语速、语调、音高、停顿等信息中至少之一。
举例来说,服务信息可以包括以下至少之一:在语音中添加或删除中断/暂停;指定语音中的段落和句子;使用音素改善发音;使用自定义词典提高发音;调整韵律;更改语速;更改音量;更改音高;更改音高升降曲线;添加录制的音频;添加背景音频等。
步骤S203:生成目标SSML。可以为基于前述选择以及调整的结果生成携带目标声音风格的信息。在本申请实施例中,携带目标声音风格的信息可以包括一定音频相关属性的标记,可以将音频相关属性理解为服务信息,比如语速、音调、音高、背景音乐等等。这些服务信息针对每种风格都有一些固定设置,比如针对严肃风格和针对娱乐风格,语速、音调、音高、背景音乐等在不同的服务信息中可以至少一项不同。
基于上述生成目标SSML的处理说明,本申请在一种实施方式中,所述获取待转换信息,包括:
获取待转换音频信息;
相应的,所述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述待转换音频信息的音频特效标签确定目标声音风格;
根据所述目标声音风格对应的音频相关属性的标记生成第一目标SSML,将所述第一目标SSML作为携带目标声音风格的第一信息。
上述待转换音频信息,可以通过车内声音获取装置获取,也可以根据用户对在存储介质中存储的音频的选择结果获取,还可以根据用户对云端存储的音频的选择结果获取。例如,用户从云端选择诗歌朗诵的音频得到待转换音频,或者用户自己朗读一段剧本并录制得到待转换音频,或者将用户与他人之间的对话进行录制得到待转换音频。
上述音频特效标签,可以是根据用户的选择添加的音频特效标签。
音频特效标签可以是音频特效的具体信息,也可以是音频特效代码信息。音频特效标签可以与声音风格之间存在多对一的对应关系。比如,音频特效标签A、B、C对应第一声音风格,音频特效标签D、E、F对应第二声音风格。若待转换音频的音频特效标签为A,则确定目标声音风格为第一声音风格。当然,音频特征标签与声音风格之间也可以是一对一的对应关系,这里不再赘述。
在一种实施方式中,所述获取待转换信息,包括:
所述车载应用获取到采集的语音信息;
所述车载应用将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息;将所述文本信息作为待转换信息。
上述采集的语音信息,可以是声音录制装置录制到的语音信息。比如,用户采用录音装置将自己与他人的对话录制成语音信息。
上述采集的语音信息,还可以是从其它应用获取到的语音信息。比如,车载应用通过广播应用获取到广播的语音信息。再如,车载应用通过网络浏览器下载到的互联网络上的语音信息。
上述采集的语音信息,还可以是通过接收到的语音信息。比如,车载应用通过互联网络接收到其他用户通过同样的车载应用发送来的语音信息。
所述车载应用将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息。
具体可以是,通过自动语音识别技术(Automatic Speech Recognition)将语音信息转换后得到计算机可识别的文本信息。实际处理中,还可以采用其他的方式进行语音信息的转换,只要能够将音频信息转换成文本信息的方式,均在本申请实施例的保护范围内。
在一种实施方式中,所述获取待转换信息,包括:
所述车载应用获取到采集的语音信息;
所述车载应用将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息;将所述文本信息作为待转换信息;
同时,所述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述待转换信息的音频特效标签确定目标声音风格;
根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第二目标SSML,将所述第二目标SSML作为携带目标声音风格的第二信息。这里,生成第二目标SSML的处理与前述图2的处理相同,这里不再赘述。
在一种实施方式中,所述获取待转换信息,包括:
所述车载应用获取到目标剧本框架;
所述车载应用获取到目标文本,将所述目标文本作为待转换信息。
上述目标剧本框架,可以是用户从车载应用的给定剧本框架中选择得到的。例如,用户选择车载应用中的最强编剧模块,进入最强编剧模块后,用户从车载应用提供的预定剧本框架中选择剧本框架作为目标剧本框架。在确定目标剧本框架后,用户可以基于剧本的提示手动输入目标文本,车载应用基于目标文本和目标剧本框架,确定目标风格和待转换信息。
上述目标文本,可以是与目标剧本框架结合产生的文本。
在一种实施方式中,所述获取待转换信息,包括:
所述车载应用获取到目标剧本框架;
所述车载应用获取到目标文本,将所述目标文本作为待转换信息;同时,述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述目标剧本框架确定目标声音风格;
根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第三目标SSML,将所述第三目标SSML作为携带目标声音风格的第三信息。其中生成第三目标SSML的方式与前述图2的生成目标SSML的方式相同,不再重复说明。
基于以上处理,进一步地,在一种实施方式中,所述方法还包括:
所述车载应用检测到播放指令,向TTS引擎发送调用请求;
所述车载应用基于所述TTS引擎反馈的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎。
具体可以是,所述车载应用基于所述TTS引擎反馈的信息,确定将所述携带目标声音风格的信息发送给TTS引擎。
这里,所述携带目标声音风格的信息可以是前述:携带目标声音风格的第一信息、携带目标声音风格的第二信息、携带目标声音风格的第三信息中之一。
上述播放指令,可以为用户确认待转换信息的情况下,在车载应用的展示界面中包含的控制键区域按下用于控制播放的虚拟按键,或通过按下车辆中的某一指定的物理按键而触发的。
上述播放指令,还可以为用户确认待转换信息的情况下,通过语音信息方式发出的指令。在用户发出语音信息后,通过声音采集单元采集到用户的语音信息;进行语音识别得到语音指令信息,若语音指令信息表征确定播放上述输入的文本信息,则可以将其理解为播放指令。
在上述实施例的一种具体实现方式中,目标风格可以是:严肃、幽默、娱乐等。在车载应用向TTS引擎发送调用请求之后,车载应用基于所述TTS引擎反馈调用请求的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎,使得TTS引擎能够根据携带目标风格的信息进行音频合成并输出合成的音频信息。
比如,车载应用中存在声音模仿秀模块(或功能或选项),用户点击进入模仿秀模块后,会展示一个信息选择界面,用户可以在该信息选择界面进一步选择模仿秀模式或复读机模式。当用户选择模仿秀模式后,目标声音风格可以为模仿秀模式对应的声音风格;当用户选择复读机模式后,目标声音风格可以为复读机模式对应的声音风格。当用户确定选择的模式并点击下发选定指令后,获取待转换的信息,将待转换的信息转换为携带用户所选择的模式对应的目标声音风格的信息。用户也可以按下播放的虚拟按键,发送播放指令。在收到播放指令之后,车载应用向TTS引擎发送调用请求。然后,车载应用基于所述TTS引擎反馈调用请求的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎,使得TTS引擎能够根据携带目标风格的信息进行音频合成并输出合成的音频信息。
在一种实施方式中,所述向TTS引擎发送调用请求还包括:
所述车载应用确定声音输出通道,向所述TTS引擎发送针对所述声音输出通道的调用请求。
进一步来说,所述车载应用向TTS引擎发送调用请求,可以为所述车载应用基于当前确定的目标声音风格选取对应的音频输出通道;然后向TTS引擎发送调用该音频输出通道的调用请求;在所述音频输出通道能够进行音频输出的情况下,所述车载应用将将所述携带目标声音风格的信息发送至TTS引擎。
进而,在TTS引擎的处理中,可以将所述携带目标声音风格的信息所对应的目标音频信息加入所述对应的音频输出通道的输出队列;通过所述音频输出通道输出所述输出队列中的目标声音风格所对应的目标音频信息。
还需要指出的是,TTS引擎的处理中,可以包括有结合目标声音风格所对应的语音模型进行语音合成。该语音模型可以为车辆本地预设的,也可以为云端的。
比如,车辆的TTS引擎可以将携带目标声音风格的信息发送至云端,由云端选取对应的语音模型对携带目标声音风格的信息进行合成,并将合成得到的音频依次反馈给车辆,并通过车辆的TTS引擎对应的音频输出通道进行音频输出。这种方式,可以在车辆能够连接云端的时候采用,或者,可以为车辆与云端的通信质量好的时候采用,或者,可以为用户设置车辆能够连接云端并且通信质量大于预设阈值的时候采用。
又比如,车辆的TTS引擎可以直接根据本地的语音模型对携带目标声音风格的信息进行语音合成。这种情况中,本地的语音模型,可以为在能够连接云端的时候可以更新的语音模型,和/或,也可以为在本地预设的语音模型。
另外,所述方法还包括:所述车载应用在检测到暂停播放的指令时,将所述暂停播放的指令发送至所述TTS引擎,以控制所述TTS引擎暂停音频合成。
其中,所述暂停播放的指令的生成可以为:车载应用检测到当前的播放界面、或车载应用展示的控制界面中的暂停虚拟按键的点击操作后,生成暂停播放的指令;或者,车载应用检测到车辆中的一指定的暂停播放按键(物理按键)的点击操作后,生成暂停播放的指令。
在一种实施方式中,所述方法还包括:
收到所述第一应用发来的取消音频播放的请求时,控制停止进行音频合成;
和/或,收到所述第一应用发来的取消音频输出通道的请求时,控制释放所述音频输出通道。
也就是,可以根据第一应用侧的实际需要需取消TTS申请,进而取消音频合成。
本申请一种示例,如图3所示,可以包括:
车载应用支持声音模仿秀模式,车载应用(比如AI声音技能APP)具有AI(Artificial Intelligence,人工智能)声音技能,运行的硬件基础可以是车载应用的芯片(IDCM)。
车载应用可以存在多个可选功能(或可选模块,如图中的A、B、C以及声音模仿秀模块),可根据用户选择进入声音模仿秀模块。
进入声音模仿秀模块的页面后,用户可以手动点击选择“模仿秀模式”或“复读机模式”。在用户做出选择之后,调用录音机截取音频,或者调用语音能力获取ASR结果。
分别来说:
若用户选择“模仿秀模式”,则自动打开麦克风,并通过语音信息或文字信息提示用户说一段话,调用录音机截取用户说话的音频,将音频作为前述待转换信息;
若车载应用申请调用TTS引擎,若当前TTS引擎可被调用,TTS引擎给予车载应用调用成功的反馈,否则反馈调用失败;
在车载应用收到调用成功的反馈后,车载应用根据前述音频以及对应的特效标签,确定对应的携带目标声音风格的信息,可以将携带目标声音风格的信息;将该携带目标声音风格的信息发送给TTS引擎合成音频并播放。
若用户选择“复读机模式”,则自动打开麦克风,并通过语音信息或文字信息提示用户说一段话,调用录音机截取用户说话的音频;然后车载应用对采集的音频进行ASR处理,得到对应的文本信息;
若车载应用申请调用TTS引擎,若当前TTS引擎可被调用,TTS引擎给予车载应用调用成功的反馈,否则反馈调用失败;
在车载应用收到调用成功的反馈后,车载应用根据前述文本信息以及对应的特效标签,确定对应的携带目标声音风格的信息;将该携带目标声音风格的信息发送给TTS引擎合成音频并播放。
本申请的又一种示例中,如图4所示,可以包括:
车载应用可以存在多个可选功能(或可选模块,如图中的A、B、C以及最强编剧模块),可以根据用户选择进入最强编剧模块,然后展示选择剧本界面;
在选择剧本界面选择剧本框架。选择的剧本框架可以确定文本语境,使得在该剧本框架下的文本呈现出该剧本框架对应的语境中的输出效果。也就是说,该剧本框架可以对应一定的风格。
剧本框架选择完毕,车载应用可以展示输入文案页面,可以在展示的输入文案页面提示用户输入文本。车载应用结合文本和剧本框架,获得最强编剧模块对应的最终文案。将最终文案转换为携带目标声音风格的信息(或目标SSML)。
获得文案后,用户可以手动操作“开始表演”按钮,操作生效后,车载应用申请调用TTS引擎。
若当前TTS引擎可被调用,TTS引擎给予车载应用调用成功的反馈,否则反馈调用失败;在车载应用收到调用成功的反馈后,将携带目标声音风格的信息(或文案、或目标SSML)发送给TTS引擎,TTS引擎合成音频并播放。
其中,发送携带目标声音风格的信息的处理,可以为逐句发送(或逐字发送),并且同时携带有每句所携带的声音风格的信息,使得TTS根据该信息进行逐句合成。
另外,车载应用收到TTS合成成功的反馈后,还可以从背景音库中随机选取一条音频作为背景音频信息,调用安卓系统的媒体播放器播放播放背景音频信息,以将背景音频信息与TTS引擎输出的合成音频进行混音播放;需要指出的是,混音时,最强编剧(也就是TTS引擎的合成音频)为主,背景音频信息为辅;也就是TTS音频输出的音频声音大于背景音频信息的播放声音。
本申请实施例中,可以通过车载应用对待转换信息进行转换得到携带目标声音风格的信息,进而调用TTS引擎进行音频信息的合成;在这个过程中,用户可以选择将音频、语音或剧本作为待转换信息,从而合成的音频信息可以具有声音模仿秀、最强编剧等多种风格。如此,可以使得车载应用具备更丰富的音频播放风格,在音频播放中能够输出更加个性化的声音风格的信息,满足个性化需求。
本申请实施例还提供一种信息处理装置,如图5所示,包括:
转换模块51,用于获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
TTS调用模块52,用于将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
在一种实施方式中,如图6所示,所述转换模51块包括:
第一获取单元61,用于获取待转换音频信息;
第一风格单元62,用于根据所述待转换音频信息的音频特效标签确定目标声音风格;
第一SSML单元63,用于根据所述目标声音风格对应的音频相关属性的标记生成第一目标SSML,将所述第一目标SSML作为携带目标声音风格的第一信息。
在一种实施方式中,如图7所示,所述转换模块51还包括:
第二获取单元71,用于获取到采集的语音信息;
语音转换单元72,用于将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息;将所述文本信息作为待转换信息。
在一种实施方式中,如图8所示,所述转换模块还包括:
第二风格单元81,用于根据所述待转换信息的音频特效标签确定目标声音风格;
第二SSML单元82,用于根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第二目标SSML,将所述第二目标SSML作为携带目标声音风格的第二信息。
在一种实施方式中,如图9所示,所述转换模块51还包括:
第三获取单元91,用于获取到目标剧本框架;
文本单元92,用于获取到目标文本,将所述目标文本作为待转换信息。
在一种实施方式中,如图10所示,所述转换模块51包括:
第三风格单元1001,用于根据所述目标剧本框架确定目标声音风格;
第三SSML单元1002,用于根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第三目标SSML,将所述第三目标SSML作为携带目标声音风格的第三信息。
在一种实施方式中,如图11所示,所述装置还包括:
调用模块1101,用于检测到播放指令,向TTS引擎发送调用请求;
发送模块1102,用于基于所述TTS引擎反馈的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎。
在一种实施方式中,所述发送模块还用于:
所述车载应用确定声音输出通道,向所述TTS引擎发送针对所述声音输出通道的调用请求。
如图12所示,是根据本申请实施例的信息处理方法的车辆的框图。车辆旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。车辆还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该车辆包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在车辆内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个车辆,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息处理方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息处理方法对应的程序指令/模块(例如,图5、6所示的各个单元)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息处理方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据车辆信息处理车辆的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至车辆信息处理车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息处理方法的车辆还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与车辆信息处理车辆的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种信息处理方法,应用于车辆,所述车辆中安装有车载应用,并且所述车辆中安装有语音合成TTS引擎,其特征在于,包括:
车载应用获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
所述车载应用将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
2.根据权利要求1所述的方法,其中,所述获取待转换信息,包括:
获取待转换音频信息;
相应的,所述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述待转换音频信息的音频特效标签确定目标声音风格;
根据所述目标声音风格对应的音频相关属性的标记生成第一目标SSML,将所述第一目标SSML作为携带目标声音风格的第一信息。
3.根据权利要求1所述的方法,其中,所述获取待转换信息,包括:
所述车载应用获取到采集的语音信息;
所述车载应用将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息;将所述文本信息作为待转换信息。
4.根据权利要求3所述的方法,其中,所述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述待转换信息的音频特效标签确定目标声音风格;
根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第二目标SSML,将所述第二目标SSML作为携带目标声音风格的第二信息。
5.根据权利要求1所述的方法,其中,所述获取待转换信息,包括:
所述车载应用获取到目标剧本框架;
所述车载应用获取到目标文本,将所述目标文本作为待转换信息。
6.根据权利要求5所述的方法,其中,所述将所述待转换信息转换为携带目标声音风格的信息,包括:
根据所述目标剧本框架确定目标声音风格;
根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第三目标SSML,将所述第三目标SSML作为携带目标声音风格的第三信息。
7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
所述车载应用检测到播放指令,向TTS引擎发送调用请求;
所述车载应用基于所述TTS引擎反馈的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎。
8.根据权利要求7所述的方法,其中,所述向TTS引擎发送调用请求还包括:
所述车载应用确定声音输出通道,向所述TTS引擎发送针对所述声音输出通道的调用请求。
9.一种信息处理装置,其特征在于,包括:
转换模块,用于获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;
TTS调用模块,用于将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
10.根据权利要求9所述的装置,其中,所述转换模块包括:
第一获取单元,用于获取待转换音频信息;
第一风格单元,用于根据所述待转换音频信息的音频特效标签确定目标声音风格;
第一SSML单元,用于根据所述目标声音风格对应的音频相关属性的标记生成第一目标SSML,将所述第一目标SSML作为携带目标声音风格的第一信息。
11.根据权利要求9所述的装置,其中,所述转换模块还包括:
第二获取单元,用于获取到采集的语音信息;
语音转换单元,用于将所述采集的语音信息进行转换,得到所述语音信息所对应的文本信息;将所述文本信息作为待转换信息。
12.根据权利要求11所述的装置,其中,所述转换模块还包括:
第二风格单元,用于根据所述待转换信息的音频特效标签确定目标声音风格;
第二SSML单元,用于根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第二目标SSML,将所述第二目标SSML作为携带目标声音风格的第二信息。
13.根据权利要求9所述的装置,其中,所述转换模块还包括:
第三获取单元,用于获取到目标剧本框架;
文本单元,用于获取到目标文本,将所述目标文本作为待转换信息。
14.根据权利要求13所述的装置,其中,所述转换模块包括:
第三风格单元,用于根据所述目标剧本框架确定目标声音风格;
第三SSML单元,用于根据所述目标声音风格对所述待转换信息进行音频相关属性的标记生成第三目标SSML,将所述第三目标SSML作为携带目标声音风格的第三信息。
15.根据权利要求9-14任一项所述的装置,其中,所述装置还包括:
调用模块,用于检测到播放指令,向TTS引擎发送调用请求;
发送模块,用于基于所述TTS引擎反馈的信息,确定是否将所述携带目标声音风格的信息发送给TTS引擎。
16.根据权利要求15所述的装置,其中,所述发送模块还用于:
所述车载应用确定声音输出通道,向所述TTS引擎发送针对所述声音输出通道的调用请求。
17.一种车辆,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202010589864.7A 2020-06-24 2020-06-24 信息处理方法、装置、车辆和计算机存储介质 Active CN111768756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010589864.7A CN111768756B (zh) 2020-06-24 2020-06-24 信息处理方法、装置、车辆和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010589864.7A CN111768756B (zh) 2020-06-24 2020-06-24 信息处理方法、装置、车辆和计算机存储介质

Publications (2)

Publication Number Publication Date
CN111768756A true CN111768756A (zh) 2020-10-13
CN111768756B CN111768756B (zh) 2023-10-20

Family

ID=72721802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010589864.7A Active CN111768756B (zh) 2020-06-24 2020-06-24 信息处理方法、装置、车辆和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111768756B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052043A (ja) * 2005-08-15 2007-03-01 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
CN101814288A (zh) * 2009-02-20 2010-08-25 富士通株式会社 使语音合成时长模型自适应的方法和设备
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
CN104200803A (zh) * 2014-09-16 2014-12-10 北京开元智信通软件有限公司 一种语音播放方法、装置及系统
US20150228264A1 (en) * 2014-02-11 2015-08-13 Samsung Electronics Co., Ltd. Method and device for changing interpretation style of music, and equipment
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及系统
CN108231062A (zh) * 2018-01-12 2018-06-29 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108833460A (zh) * 2018-04-10 2018-11-16 平安科技(深圳)有限公司 基于区块链的音乐发布方法、装置及终端设备
KR20190094314A (ko) * 2019-05-21 2019-08-13 엘지전자 주식회사 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
WO2019213177A1 (en) * 2018-04-30 2019-11-07 Ramaci Jonathan E Vehicle telematic assistive apparatus and system
US20200152194A1 (en) * 2018-11-14 2020-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20200056261A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111276119A (zh) * 2020-01-17 2020-06-12 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111326136A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052043A (ja) * 2005-08-15 2007-03-01 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
CN101814288A (zh) * 2009-02-20 2010-08-25 富士通株式会社 使语音合成时长模型自适应的方法和设备
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
US20150228264A1 (en) * 2014-02-11 2015-08-13 Samsung Electronics Co., Ltd. Method and device for changing interpretation style of music, and equipment
CN104200803A (zh) * 2014-09-16 2014-12-10 北京开元智信通软件有限公司 一种语音播放方法、装置及系统
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及系统
CN108231062A (zh) * 2018-01-12 2018-06-29 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108833460A (zh) * 2018-04-10 2018-11-16 平安科技(深圳)有限公司 基于区块链的音乐发布方法、装置及终端设备
WO2019213177A1 (en) * 2018-04-30 2019-11-07 Ramaci Jonathan E Vehicle telematic assistive apparatus and system
US20200152194A1 (en) * 2018-11-14 2020-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20200056261A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20190094314A (ko) * 2019-05-21 2019-08-13 엘지전자 주식회사 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
CN111276119A (zh) * 2020-01-17 2020-06-12 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111326136A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111768756B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
US11468889B1 (en) Speech recognition services
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
CN107112014B (zh) 在基于语音的系统中的应用焦点
US8725513B2 (en) Providing expressive user interaction with a multimodal application
US9530411B2 (en) Dynamically extending the speech prompts of a multimodal application
US8150698B2 (en) Invoking tapered prompts in a multimodal application
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
US8909532B2 (en) Supporting multi-lingual user interaction with a multimodal application
CN110428825B (zh) 用于忽略流式媒体内容中的触发词的方法和系统
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
KR101385316B1 (ko) 로봇을 이용한 광고 및 콘텐츠 연계형 대화 서비스 제공 시스템 및 그 방법
CN111768755A (zh) 信息处理方法、装置、车辆和计算机存储介质
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN109195016B (zh) 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备
CN113066491A (zh) 显示设备及语音交互方法
CN111739510A (zh) 信息处理方法、装置、车辆和计算机存储介质
CN111768756B (zh) 信息处理方法、装置、车辆和计算机存储介质
CN111754974B (zh) 信息处理方法、装置、设备和计算机存储介质
CN109524000A (zh) 离线对话实现方法和装置
CN109300472A (zh) 一种语音识别方法、装置、设备及介质
CN112433697B (zh) 一种资源展示方法、装置、电子设备及存储介质
US20140067398A1 (en) Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores
CN113160782B (zh) 音频处理的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant