CN111754974B

CN111754974B - 信息处理方法、装置、设备和计算机存储介质

Info

Publication number: CN111754974B
Application number: CN202010589690.4A
Authority: CN
Inventors: 丁磊; 周宏波
Original assignee: Human Horizons Shanghai Internet Technology Co Ltd
Current assignee: Human Horizons Shanghai Internet Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-08-10
Anticipated expiration: 2040-06-24
Also published as: CN111754974A

Abstract

本申请公开了一种信息处理方法、装置、设备和计算机存储介质。具体实现方案为包括：接收第一应用的请求信息；基于所述第一应用的请求信息确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；根据确定的至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML；基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息。本申请能够提升音频输出的个性化特点，提升音频收听者的听觉体验。

Description

信息处理方法、装置、设备和计算机存储介质

技术领域

本申请涉及音频处理领域，尤其涉及一种信息处理方法、装置、设备和计算机存储介质。

背景技术

随着计算机技术的发展，语音技术也迎来了快速发展的阶段，机器可以进行对话操作，并能够像真人一样发出对话声音。然而，由于机器并没有思维，机器发声的效果与真人发声效果存在一定的差异。如何改善机器发声的效果，提升用户体验，是机器发声技术发展阶段面临的一个问题。

发明内容

为了解决现有技术中上述至少一个问题，本申请实施例提供一种信息处理方法、装置、设备和计算机存储介质。

第一方面，本申请实施例提供一种信息处理方法，包括：

接收第一应用的请求信息；

基于所述第一应用的请求信息确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；

根据确定的至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML；

基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息。

在一种实施方式中，所述请求信息中包含的待转换内容，包括以下至少之一：待转换文本信息、待转换音频信息、待转换语法信息。

在一种实施方式中，所述基于所述本次音频处理的目标场景确定对应的至少一个目标风格，包括：

根据至少一个场景中不同场景与不同风格之间的对应关系，确定本次音频处理的目标场景所对应的至少一个目标风格。

在一种实施方式中，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML，包括以下至少之一：

若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述目标风格对所述待转换文本进行音频相关属性的标记，得到所述至少一个目标SSML；

若所述第一应用的请求信息中包含的待转换内容为待转换音频信息，则将所述待转换音频信息添加至所述目标SSML，根据所述至少一个目标风格确定对应的音频相关属性的标记，得到所述目标SSML；

若所述第一应用的请求信息中包含的待转换内容为待转换语法信息，则对所述待转换语法信息进行规范化处理，得到与所述至少一个目标风格所对应的所述目标SSML。

在一种实施方式中，所述方法还包括：

基于所述本次音频处理的目标场景确定对应的音频输出通道；

在所述音频输出通道能够进行音频输出的情况下，将所述至少一个目标风格所对应的目标音频信息加入所述对应的音频输出通道的输出队列；

通过所述音频输出通道输出所述输出队列中的目标风格所对应的目标音频信息。

在一种实施方式中，所述第一应用为多个应用中之一；基于所述第一应用的请求信息确定本次音频处理的目标场景，包括：

根据所述第一应用的类型，确定本次音频处理的目标场景。

在一种实施方式中，所述基于与所述目标风格所对应的所述目标SSML进行音频合成，包括：

选取与所述至少一个目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成。

在一种实施方式中，基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息，包括：

将与所述至少一个目标风格所对应的所述目标SSML上传至云端引擎，接收所述云端引擎返回的与所述目标SSML对应的目标音频信息。

在一种实施方式中，信息处理方法还包括：

在与语音云端服务器进行连接的情况下，从所述语音云端服务器获取更新后的语音模型；其中，所述更新后的语音模型中至少包括所述与所述至少一个目标风格对应的语音模型。

在一种实施方式中，所述方法还包括：

收到所述第一应用发来的取消音频播放的请求时，控制停止进行音频合成；

和/或，收到所述第一应用发来的取消音频输出通道的请求时，控制释放所述音频输出通道。

在一种实施方式中，信息处理方法还包括：

在可替换配置文本中保存预设的至少一个场景中不同场景与不同风格之间的对应关系。

第二方面，本申请实施例提供一种信息处理装置，包括：

接收模块，用于接收第一应用的请求信息；

风格模块，用于基于所述第一应用的请求信息确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；

语言模块，用于根据确定的所述本次输出音频的目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述目标风格所对应的目标语音合成标记语言SSML；

合成模块，用于基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息。

在一种实施方式中，所述风格模块还用于：

在一种实施方式中，所述语言模块包括以下至少之一：

文本单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述目标风格对所述待转换文本进行音频相关属性的标记，得到所述目标SSML；

音频单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换音频信息，则将所述待转换音频信息添加至所述目标SSML，根据所述目标风格确定对应的音频相关属性的标记，得到所述目标SSML；

语法单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换语法信息，则对所述待转换语法信息进行规范化处理，得到所述目标SSML。

在一种实施方式中，所述装置还包括：

通道模块，用于基于所述本次音频处理的目标场景确定对应的音频输出通道；

队列模块，用于在所述音频输出通道能够进行音频输出的情况下，将所述目标风格所对应的目标音频信息加入所述对应的音频输出通道的输出队列；

输出模块，用于通过所述音频输出通道输出所述输出队列中的目标风格所对应的目标音频信息。

在一种实施方式中，所述第一应用为多个应用中之一；所述风格模块还用于：

根据所述第一应用的类型，确定本次音频处理的目标场景。

在一种实施方式中，所述合成模块还用于：

根据所述目标SSML中对应的至少一个目标风格，选取与所述目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成。

在一种实施方式中，所述合成模块还用于：

在一种实施方式中，所述装置还包括：

停止模块，用于收到所述第一应用发来的取消音频播放的请求时，控制停止进行音频合成；

和/或，释放模块，用于收到所述第一应用发来的取消音频输出通道的请求时，控制释放所述音频输出通道。

在一种实施方式中，所述风格模块还用于：

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：能够根据第一应用的请求信息，确定对应的目标场景，然后根据目标场景，确定对应的至少一个目标风格，再根据目标风格进行语音合成，从而输出的语音能够体现语音输出的个性化特点，在应用到机器对话场景中时，机器发声能够更加接近真人发声，提升收听者的听觉体验。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的信息处理方法流程示意图；

图2是根据本申请另一实施例的信息处理方法的流程示意图；

图3是根据本申请另一实施例的信息处理方法的流程示意图；

图4是根据本申请另一实施例的信息处理方法的流程示意图；

图5是根据本申请另一实施例的风格和服务映射示意图；

图6是根据本申请另一实施例的信息处理方法的流程示意图；

图7是根据本申请另一实施例的信息处理方法的流程示意图；

图8是根据本申请另一实施例的信息处理方法的流程示意图；

图9是根据本申请另一实施例的信息处理方法的流程示意图；

图10是根据本申请一实施例的信息处理装置结构示意图；

图11是本申请另一实施例的信息处理装置运行框架示意图；

图12是用来实现本申请实施例的车辆信息处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

一般情况下，机器人发声比较机械化，不会像真人一样在语音中体现场景和风格的变化。本申请实施例中，在机器输出声音时，使得声音输出过程结合发送对话的应用所对应的场合，使得发声效果能够体现与场合对应的风格。

本申请实施例提供了一种信息处理方法，如图1所示，包括：

步骤101：接收第一应用的请求信息。

步骤102：基于所述第一应用的请求信息确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格。

步骤103：根据确定的至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML。

步骤104：基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息。

本申请实施例可以应用于车辆，或应用于车端。具体可以应用于车辆（或车端）的TTS（Text To Speech，从文本到语音）引擎，在本申请实施例应用于TTS引擎的情况下，第一应用为TTS引擎的使用方。

在本申请实施例中，第一应用可以是多个应用之一，具体来说可以为车辆中的多个车载应用中之一，第一应用具有对应的应用类型，例如，新闻应用、百科应用等。

例如，第一应用为新闻应用，基于第一应用的请求信息确定本次音频处理的目标场景为新闻场景，基于新闻场景确定对应的至少一个目标风格为严肃风格。

再如，第一应用为娱乐应用，基于第一应用的请求信息确定本次音频处理的目标场景为娱乐场景，基于娱乐场景确定对应的至少一个目标风格为娱乐风格。

S101中，所述第一应用可以理解为多个应用（或车辆中的多个车载应用）中的任意一个。本步骤，具体可以为本申请提供的TTS服务模块（或者TTS服务功能）通过与多个应用之间的接口，接收到多个应用中任意一个应用发来的请求信息。

在本申请实施例中，待转换内容可以包括待转换文本信息、待转换音频信息、待转换语法信息中至少一个。比如，待转换内容包含待转换文本，或者，待转换内容包括待转换音频信息和待转换语法信息，再或者，待转换内容包括待转换文本信息和待转换语法信息。待转换内容也可以包括待转换文本信息、待转换音频信息和待转换语法信息。这里不对其进行穷举。

在一示例中，请求信息中还可以包含场景标识和/或第一应用的标识。

相应的，S102中，基于所述第一应用的请求信息确定本次音频处理的目标场景，可以为：

若请求信息中不包含场景标识，而包含有第一应用的标识的情况下，那么可以基于第一应用的标识来确定其对应的目标场景；

又或者，

若请求信息中包含场景标识（此时可以同时包含第一应用的标识）的情况下，可以直接根据所述场景标识对应的场景确定所述目标场景。

根据所述第一应用的类型，确定本次音频处理的目标场景。

进一步地，根据所述第一应用的标识确定对应的目标场景，可以为根据第一应用的标识确定其对应的类型，进而确定第一应用对应的目标场景。

举例来说，第一应用为应用A，根据该标识可以确定为一新闻类应用，那么根据预设的对应关系，可以确定新闻类应用对应的目标场景为场景1。

在本申请具体示例中，场景和风格之间存在预设的映射关系。需要指出的是，场景与风格之间的对应关系，可以根据实际需求进行调整，只要保证执行本申请前述步骤之前，完成场景与风格之间的对应关系的配置（或设置）即可。

在一示例中，结合图2来说，第一应用通过与TTS服务接口发送请求信息，以实现场景转换进行TTS合成产生PCM语音流。针对每一种已知场景，可以设定对应的风格，根据预设的场景和风格的映射（Mapping）关系，将场景对应到风格。如图2所示，第一应用发送的请求信息，包含待转换的内容为待转换文本（当然还可以为待转换音频信息和/或待转换语法信息，这里仅以待转换文本为示例进行说明），从而请求信息还可以用于确定目标场景，也就是根据所述请求信息中可以得到目标场景和文本201。例如图2所示，预先设定6个场景202，场景的数量可以根据需要进行定制，以实现增减或修改。具体例如，有6个已知风格203，已知有6个场景202，每个场景202可以对应于一个风格203，也可以对应两个以上的风格203。每个风格可以对应固定的服务信息组合，服务信息组合中所包括的服务信息，可以是目标SSML中包括的目标风格所对应的服务信息中的一部分，例如，目标风格对应的服务信息组合为：音量-高、音调-高和语速-低。

可以将所述服务理解为本申请的音频属性相关信息，也就是目标风格最终可以对应与音频属性相关信息相对应。

在本申请实施例中，目标风格可以是预设风格的一种，比如预设六种风格。需要理解的是，不同预设风格还可以对应不同服务信息。所述服务信息可以包含有语速、语调、音高、停顿等信息中至少之一。

在一种实施方式中，还包括：在可替换配置文本中保存预设的至少一个场景中不同场景与不同风格之间的对应关系。

举例来说，场景和风格之间可以是一对多、多对一的关系。场景和风格之间的对应关系，可写在一个可替换配置文本中。根据后续的不同需求，场景和风格之间的对应关系可进行调整。在图2所示的实例中，确定第一应用发送的请求信息中的目标场景，然后根据场景202和风格203之间的映射关系，确定目标风格。然后根据目标风格对待转换文本进行转换，得到目标SSML。

在一种实施方式中，S103，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML，包括以下至少之一：

若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述至少一个目标风格对所述待转换文本进行音频相关属性的标记，得到所述目标SSML；

若所述第一应用的请求信息中包含的待转换内容为待转换音频信息，则将所述待转换音频信息添加至所述目标SSML，根据所述至少一个目标风格确定对应的音频相关属性的信息，得到所述目标SSML；

在本申请实施例中，目标SSML可以包括一定音频相关属性的标记，可以将音频相关属性理解为服务信息，比如语速、音调、音高、背景音乐等等。这些服务信息针对每种风格都有一些固定设置，比如针对严肃风格和针对娱乐风格，语速、音调、音高、背景音乐等在不同的服务信息中可以至少一项不同。

针对前述S103的处理，下面分别进行说明：

一种示例中，将待转换文本转换为SSML的过程，可以如图3所示，包括如下步骤：

步骤301：创建SSML。

可以包括，在创建的SSML中，添加版本、语言、URI（Uniform ResourceIdentifier，统一资源标识符）、输出语音添加等信息。比如，可以指定用于解释文档标记的SSML规范版本，指定根文档的语言，指定文档的URL用于定义SSML文档的标记词汇。

步骤302：选择语音。

比如，如果待转换内容为待转换文本，则选择待转换文本对应的语音。

步骤303：根据目标风格对选择的语音进行调整。使得选择的语音的风格为本实施例根据场景确定的所述至少一个目标风格。

步骤304：选取服务信息。

在待转换内容为待转换文本的情况下，可以采用默认服务信息。

进一步地，本步骤选取服务信息可以包括以下至少之一：在语音中添加或删除中断/暂停；指定语音中的段落和句子；使用音素改善发音；使用自定义词典提高发音；调整韵律；更改语速；更改音量；更改音高；更改音高升降曲线；添加录制的音频；添加背景音频等。

另一示例中，

在待转换内容为待转换语法信息的情况下，第一应用发送的请求信息包含待转换语法信息。其中，待转换语法信息为待转换SSML，可以是第一应用已经转换的SSML，后续需要对该待转换语法信息进行语法核对，确定待转换语法信息中的语言符合预设的特定语法。

比如，可以对待转换语法信息先进行判断，判断其是否满足目标SSML的格式或规范的要求，若符合，则可以直接将待转换语法信息作为所述目标SSML；否则，可以对待转换语法信息进行规范化处理，得到所述目标SSML。

待转换语法信息本身为待转换SSML，其中包含一定的服务信息，比如语速、音量、音高等；本申请实施例中，可以在接收到请求信息中包含的待转换语法信息后，对语法信息进行检查，比如是否包含必要的服务信息等。举例来说，将待转换的语法信息转换成目标SSML时，也可以按照给定风格进行定制，添加服务信息。比如，话“打开车窗”，“好的，正在为您打开车窗”，对应的SSML信息中，可能在“好的”后面没有停顿，在本申请具体示例中进行转换时，可以在“好的”后面添加停顿。

又一示例中，

在待转换内容为待转换音频信息的情况下，第一应用发送的请求信息中包含待转换音频信息。如图4所示，若待转换的内容为待转换音频，则转换过程包括：

步骤401：接收第一应用的请求信息，请求信息中包括待转换音频信息。

步骤402：根据请求信息对应的目标场景，确定对应的至少一个目标风格。

步骤403：添加待转换音频。

步骤404：根据目标风格与预制的服务之间的对应关系，确定目标风格对应的目标服务。

其中，目标服务与目标风格之间可以是多对一关系，如图5所示，预制6种风格，风格1、风格2对应服务1，服务1中包括的服务信息为：语速-高、音量-高、语高-高。风格3、风格4对应服务2，服务2中包括的服务信息为：语速-低、音量-低、语高-低。风格5、风格6对应服务3，服务3中包括的服务信息为：语速-高、音量-低、语高-高。风格和目标服务之间也可以是一对一关系等。目标服务中的服务信息，为SSML中包括的全部服务信息中的一部分。

这里，还可以包括选择其他服务信息为默认服务信息，比如韵律为默认韵律。

步骤405：根据目标服务信息和默认服务信息，更改待转换音频中对应的服务信息，生成目标SSML。

基于以上多个示例的说明，针对第一应用的请求信息，得到了待转换内容所对应的目标SSML。

最终，S104中，具体可以为将目标SSML合成为PCM语音流，从而能够进行输出。

本申请实施例中，根据请求信息确定目标场景，然后根据目标场景确定目标风格，从而输出语音时的语音效果能够结合特定的风格，使得机器发声与真实人物对话的发生更加接近，提高发声效果，提升收听者的体验。当本申请实施例应用到TTS引擎中的时候，TTS的过程能够结合应用的业务场景，比如新闻场景，满足个性化需求，增加TTS输出的音频中的情感因素，提升输出的音频在听觉上产生的情感体验。

基于以上说明，下面针对如何根据目标SSML进行音频输出进行详细说明：

在一种示例中，所述方法还包括：

在所述音频输出通道能够进行音频输出的情况下，将所述目标风格所对应的目标音频信息加入所述对应的音频输出通道的输出队列；

也就是接收第一应用的请求信息之后，需要为第一应用申请TTS服务，发送申请。

另外，本申请实施例提供的方法还包括：

也就是，可以根据第一应用侧的实际需要需取消TTS申请。

具体来说，如图6所示，信息提供方法包括：第一应用601发送请求信息到TTS服务602。请求信息中包含的待转换内容可以是待转换文本信息、待转换音频信息、待转换语法信息中的至少之一。

仍然参照图6，TTS服务602将请求信息加入队列。TTS服务602可定时检测引擎604中的缓存池（Buffer），确定是否当前存在调用语音通道（Audio Track）进行播放的PCM数据。可以在队列中设置，后到的申请能否打断之前已申请成功并且正在播放的语音，从而根据预先设置和对缓存池的监测状况，判断是否将请求信息加入队列。

仍然参照图6，若加入队列成功，TTS服务602向语音管理工具（Audio ex manager）603申请语音焦点（Audio focus），语音管理工具603根据申请成功与否的状况反馈信息。语音焦点可以是本申请前述示例中的音频输出通道。在车辆或安卓系统，音频可能会通过不同的通道进行播放，比如，车辆有9个喇叭，对应5个通道。在本申请示例中，TTS服务602向语音管理工具603申请TTS专门的播放通道，如果申请失败，则不能够播放请求信息对应的目标SSML的PCM语音流。反馈信息可以根据申请成功与否，为“OK（成功）”或“Failed（失败）”。如果申请失败，可以根据预设策略执行下一步操作，例如，预设一个计时器（Timer），第一次失败后，在第一时长之后重新尝试；第二次失败后，在第二时长之后重新尝试；第三次失败后，在第三时长之后重新尝试……第N次失败后，停止尝试。或者可以预设策略，指示在申请失败的时候，等待语音管理工具603发送再次尝试指令，在收到再次尝试指令之后，进行再次尝试。

TTS服务602在接收到反馈信息之后，向第一应用601发送回传信息（Call back），回传信息中包括：处理状态进展，例如申请语音焦点是否成功，从而第一应用可以根据回传信息做出不同的处理。

仍然参照图6，若语音焦点申请成功之后，TTS服务调用引擎604进行音频合成，即基于请求信息确定目标场景、目标风格，然后转换待转换内容得到目标SSML，再对目标SSML进行音频合成，得到PCM语音流。在音频合成的过程中，引擎604会根据合成状况进行自传（Self call），将产生的PCM语音流暂时缓存在引擎的缓存池中，避免后续输出PCM语音流出现卡顿，在音频合成过程中，回传合成状态到第一应用601。

其中，音频合成的过程可以包括：选取与所述至少一个目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成。

或者，将与所述至少一个目标风格所对应的所述目标SSML上传至云端引擎，接收所述云端引擎返回的与所述目标SSML对应的目标音频信息。上述语音合成的处理，可以在云端实现，这主要是在能够与云端（引擎）建立连接的情况下来执行的。当然，可以预先设置，在车辆（或车端）网络状态较好的时候，可以采用云端引擎对SSML进行合成并反馈合成的目标音频信息（可以是实时合成并实时反馈）；车辆（或车端）在网络状态较差、或者无网络连接的时候，采用车辆（或车端）本地的语音模型进行语音合成，并输出合成的目标音频。

需要理解的是，在车辆（或车端）与语音云端服务器进行连接的情况下，车辆（或车端）从所述语音云端服务器获取更新后的语音模型；其中，所述更新后的语音模型中至少包括所述与所述至少一个目标风格对应的语音模型。

也就是说，上述车辆（或车端）的语音模型，可以为在线更新的；不同的语音模型可以对应与不同的风格。另外，语音模型可以在线更新之后，离线使用。

仍然参照图6，引擎604将生成的PCM语音流发送到TTS服务602，由TTS服务602通过对应的语音通道（Audio Track）发送到语音管理工具603进行播放，然后由语音管理工具603将播放状态反馈给TTS服务602，由TTS服务602发送回传信息，告知第一应用601播放状态。第一应用601根据回传的播放状态进行自传操作。第一应用601、TTS服务602、语音管理工具603、引擎604对应不同的节点。

在本申请另一种示例中，如图7所示，车辆（或车端）的信息处理方法包括：第一应用601发送取消请求信息到TTS服务602，取消服务信息中包含的待转换内容可以是待转换文本信息、待转换音频信息、待转换语法信息中的至少一个。

仍然参照图7，TTS服务602将取消请求信息加入队列，并将取消请求信息发送到引擎604。引擎604将音频合成的PCM语音流发送到TTS服务602，同时，TTS服务602通过语音通道将取消信息发送到语音管理工具603。

第一应用601再次发送取消语音焦点请求到TTS服务602，TTS服务602根据语音焦点发送取消信息，使得语音管理工具603通过自传操作结束播放，并将状态通过TTS服务602反馈给第一应用601。

需要理解的是，取消语音焦点请求，可以由第一应用根据实际需求发出，比如，还存在待转换内容时，可以不申请取消语音焦点，再发下一个请求信息执行前述处理，不再赘述。若第一应用不存在待转换内容的时候，可以发送取消语音焦点的请求。

在本申请一种示例中，如图8所示，车辆（或车端）的TTS服务的操作流程包括：

步骤801：接收第一应用发送的请求信息。请求信息中的待处理内容包括目标场景，可以是文本、SSML或PCM。

步骤802：将请求信息加入请求队列。

步骤803：判断申请语音焦点是否成功，若是则进入下一步骤，若否，则返回步骤801。

步骤804：将待转换内容发送到引擎。

步骤805：由引擎进行TTS合成，生成PCM语音流。

步骤806：通过相应的语音通道进行PCM语音流的播放，然后回传播放状态到第一应用。

在本申请一种示例中，如图9所示，TTS服务的操作流程包括：

步骤901：第一应用发送取消请求信息。

步骤902：响应于取消请求信息，释放对应的语音焦点或者暂时不释放对应的音频焦点。音频焦点是否释放，可根据实际需求进行确定，可暂时持续占用音频焦点，从而下次接收到第一应用发送的请求信息时，无需重新申请音频焦点。

步骤903：TTS将取消请求信息发送到队列和引擎。在队列中直接告知引擎取消请求信息，无需经过语音焦点。

步骤904：引擎停止合成音频，并拒绝输出PCM语音流到语音通道。如果引擎正在输出PCM语音流，则断掉PCM语音流的输出，使得播放停止。

本申请实施例还提供一种信息处理装置，如图10所示，包括：

接收模块1001，用于接收第一应用的请求信息；

风格模块1002，用于基于所述第一应用的请求信息确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；

语言模块1003，用于根据确定的至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML；

合成模块1004，用于基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息。

在一种实施方式中，所述风格模块还用于：

在一种实施方式中，所述语言模块包括以下至少之一：

文本单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述至少一个目标风格对所述待转换文本进行音频相关属性的标记，得到所述目标SSML；

音频单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换音频信息，则将所述待转换音频信息添加至所述目标SSML，根据所述至少一个目标风格确定对应的音频相关属性的标记，得到所述目标SSML；

在一种实施方式中，所述装置还包括：

队列模块，用于在所述音频输出通道能够进行音频输出的情况下，将所述至少一个目标风格所对应的目标音频信息加入所述对应的音频输出通道的输出队列；

根据所述第一应用的类型，确定本次音频处理的目标场景。

在一种实施方式中，所述合成模块还用于：

选取与所述目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成。

在一种实施方式中，所述装置还包括：

在一种实施方式中，所述合成模块还用于：

在一种实施方式中，所述风格模块还用于：

需要指出的是，上述信息处理装置，可以为设置在车辆（或车端）的装置，也就是说前述各个模块可以设置在车辆（或车端）。

在本申请一种示例中，信息处理装置的实现架构如图11所示，语音云端（VoiceCloud）1101、语音模块（Voice）1102与本地模型数据库1104（Local Model Data），语音云端1101和语音模块1102属于TTS服务1106以外的应用。本地模型数据库1104中存储语音合成时所依赖的模型数据。比如，录制发言人在不同场景下对应的多种风格的语音，存储到本地模型数据库1104中，这个语音仅供本地使用。还可以在云端进行语音合成，然后将合成的PCM语音流回传到本地进行播放。应用（APP1、APP2）中的第一应用，将请求信息通过接口（Interface）1105发送到TTS服务1106，TTS服务1106根据接收到的请求信息确定对应的目标场景1107，然后根据请求信息中包括的待转换内容（待转换文本、待转换音频和待转换语法中的至少一个），获得目标SSML，然后将目标SSML加入队列1108，申请语音焦点1109，在本地引擎（Local Engine）1110中进行TTS合成，得到PCM语音流，也可在在线状态下上传到云端引擎1111进行合成。将PCM语音流在对应的语音通道中进行播放。

在取消播放时，向语音焦点发送取消请求信息，并在队列中将停止合成指令发送到本地引擎1110。

下面结合一示例，对本申请提供的方案进行说明，以待转换内容为待转换文本为例来说，假设第一应用为创作APP；在该创作APP的诗歌创作模块中，创作一诗歌；然后可以在确定创作完成的时候，通过手动点击“朗诵”按钮，或者通过声音控制的方式指示开始朗诵（比如发出语音指令“开始朗诵”），控制开始进行待转换内容（也就是前述诗歌）的TTS合成处理。具体的：

通过上述第一应用与本申请提供的TTS服务之间的接口，获取到该第一应用发来的请求信息，在该请求信息中可以包括有上述诗歌；

本示例中待转换内容为诗歌，根据创作APP的标识来确定目标场景（或者直接从请求中获取场景标识确定对应的目标场景）；基于目标场景确定至少一个目标风格；一种示例中，可以确定一种目标风格，比如可以为严肃的风格；

然后根据至少一个目标风格对所述诗歌进行音频相关属性的标记，得到该诗歌所对应的目标SSML；将目标SSML发送到本地引擎（TTS引擎），在本地引擎中根据目标SSML所对应的目标风格选取对应的语音模型，基于语音模型对SSML进行音频合成；通过音频输出通道输出音频合成得到的目标音频信息。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图12所示，是根据本申请实施例的车辆信息处理方法的电子设备的框图。该电子设备可以为车辆，又或者，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1201、存储器1202，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的车辆信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的车辆信息处理方法。

存储器1202作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的车辆信息处理方法对应的程序指令/模块（例如，附图10所示的接收模块1001、风格模块1002、语言模块1003、合成模块1004）。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的车辆信息处理方法。

存储器1202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据车辆信息处理电子设备的使用所创建的数据等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1202可选包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至车辆信息处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

车辆信息处理方法的电子设备还可以包括：输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息，以及产生与车辆信息处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

接收第一应用的请求信息；所述请求信息中包含的待转换内容，包括以下至少之一：待转换文本信息、待转换音频信息、待转换语法信息；

基于所述第一应用的请求信息中包含的场景标识和/或第一应用的标识确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；

根据确定的至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML；其中，所述目标SSML中包括音频相关属性的标记；

选取与所述至少一个目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息；

所述对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML，包括以下至少之一：

若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述至少一个目标风格对所述待转换文本信息进行音频相关属性的标记，得到所述目标SSML；

若所述第一应用的请求信息中包含的待转换内容为待转换语法信息，则对所述待转换语法信息进行规范化处理，得到与所述至少一个目标风格所对应的所述目标SSML；

所述方法还包括：

通过所述音频输出通道输出所述输出队列中的所述目标音频信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述本次音频处理的目标场景确定对应的至少一个目标风格，包括：

3.根据权利要求1所述的方法，其特征在于，基于与所述至少一个目标风格所对应的所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.一种信息处理装置，其特征在于，包括：

接收模块，用于接收第一应用的请求信息；

风格模块，用于基于所述第一应用的请求信息中包含的场景标识和/或第一应用的标识确定本次音频处理的目标场景，基于所述本次音频处理的目标场景确定对应的至少一个目标风格；

语言模块，用于根据确定的所述至少一个目标风格，对所述第一应用的请求信息中包含的待转换内容进行处理，得到与所述至少一个目标风格所对应的目标语音合成标记语言SSML；其中，所述目标SSML中包括音频相关属性的标记；

合成模块，用于选取与所述目标风格对应的语音模型；基于选取的所述语音模型对所述目标SSML进行音频合成，得到所述至少一个目标风格所对应的目标音频信息；

所述请求信息中包含的待转换内容，包括以下至少之一：待转换文本信息、待转换音频信息、待转换语法信息；

所述语言模块包括以下至少之一：

文本单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换文本信息，则根据所述至少一个目标风格对所述待转换文本信息进行音频相关属性的标记，得到所述目标SSML；

语法单元，用于若所述第一应用的请求信息中包含的待转换内容为待转换语法信息，则对所述待转换语法信息进行规范化处理，得到所述目标SSML；

所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述风格模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述合成模块还用于：

10.根据权利要求7所述的装置，其特征在于，所述合成模块还用于：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求8所述的装置，其特征在于，所述风格模块还用于：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。