CN116956826A

CN116956826A - 一种数据处理方法、装置、电子设备和存储介质

Info

Publication number: CN116956826A
Application number: CN202211292467.9A
Authority: CN
Inventors: 华健; 马铭泽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-10-27

Abstract

本申请公开了一种数据处理方法、装置、电子设备和存储介质。该方法包括：显示语音合成标记语言的编辑界面；响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标字段所属的目标标签类型；响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性；响应于语音合成指令，合成目标文本内容的目标语音。本申请提供的方法能够在不修改SSML规范标签的同时，方便技术人员对可视化的标签信息进行灵活调整，便捷性高，还能够降低人工学习成本；可广泛应用于互联网技术领域，以及云计算、车联网等与互联网技术相关的其他技术领域。

Description

一种数据处理方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其是一种数据处理方法、装置、电子设备和存储介质。

背景技术

语音合成标记语言(SSML：Speech Synthesis Markup Language)，它是W3C的语音接口框架的一部分，是关于语音应用和在万维网上构建语音应用的一套规范，通过SSML，人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音，把计算和信息传输延伸到全球每个角落。

目前，合成语音的应用场景越来越多，例如人们在阅读电子书籍时，为了休息双眼，可以选择让电子设备自动对电子书籍中的文字进行朗读，电子设备发出的朗读声音就可以通过合成语音的技术来实现。

但是，相关技术人员在实现语音合成功能的工作中，需要提前熟练掌握SSML的规范标签信息，通过SSML的标签对不同文本进行标注，以使得电子设备在识别了标注的标签之后能够将对应的文本合成语音，进而播放音频信号。在这个过程中，技术人员很可能错误输入SSML标签，导致机器无法识别，进而无法合成语音。因此，目前的SSML相关标签数据处理的准确性不高、效率也较低。

发明内容

有鉴于此，本申请实施例提供一种高效且准确的数据处理方法、装置、电子设备和存储介质，能够在不修改SSML规范标签的同时，方便技术人员对可视化的标签信息进行灵活调整，便捷性高，还能够降低人工学习成本。

本申请实施例的一方面提供了一种数据处理方法，该方法包括：

显示语音合成标记语言的编辑界面；其中，所述编辑界面包括标签选取区域和文本编辑区域；所述标签选取区域上部署有若干个标签组件，每个所述标签组件用于表征一种语音合成标记语言的标签类型；每种所述标签类型包括若干个候选标签属性；

响应于文本编辑指令，在所述文本编辑区域显示输入的目标文本内容；

响应于标签类型选取指令，从所述标签选取区域选取目标标签组件，确定所述目标文本内容中目标字段所属的目标标签类型；

响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对所述目标标签类型的标签属性进行编辑，确定所述目标字段所属的目标标签属性；

响应于语音合成指令，根据所述目标字段所属的目标标签属性，合成所述目标文本内容的目标语音。

另一方面，本申请实施例提供了一种数据处理装置，包括：

第一模块，用于显示语音合成标记语言的编辑界面；其中，所述编辑界面包括标签选取区域和文本编辑区域；所述标签选取区域上部署有若干个标签组件，每个所述标签组件用于表征一种语音合成标记语言的标签类型；每种所述标签类型包括若干个候选标签属性；

第二模块，用于响应于文本编辑指令，在所述文本编辑区域显示输入的目标文本内容；

第三模块，用于响应于标签类型选取指令，从所述标签选取区域选取目标标签组件，确定所述目标文本内容中目标字段所属的目标标签类型；

第四模块，用于响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对所述目标标签类型的标签属性进行编辑，确定所述目标字段所属的目标标签属性；

第五模块，用于响应于语音合成指令，根据所述目标字段所属的目标标签属性，合成所述目标文本内容的目标语音。

可选地，所述装置还包括：第六模块，用于构建语音合成编辑架构，所述语音合成编辑架构包括第一处理层、第二处理层和第三处理层；

其中，所述第一处理层，用于接收输入指令，并向编辑界面输出渲染数据；

所述第二处理层，用于获取所述目标字段、所述目标字段所属的目标标签类型和所述目标标签属性，将所述目标字段、所述目标字段所属的目标标签类型和所述目标标签属性转换成符合语音合成标记语言规范的目标语言信息；或者，用于将预设的初始语言信息转换成所述标签组件上的所述标签类型以及所述标签属性，并将所述标签类型和所述标签属性发送至所述第一处理层，以使所述第一处理层向所述编辑界面输出所述标签类型和所述标签属性的渲染数据；

所述第三处理层，用于存储符合语音合成标记语言规范的预设语言信息。

可选地，所述第二模块包括：第一单元，用于响应于所述文本编辑指令，获取输入的目标文本内容；

根据所述目标文本内容，通过所述第一处理层的文本渲染单元生成所述目标文本内容的第一渲染数据；

根据所述第一渲染数据，在所述文本编辑区域显示输入的目标文本内容。

可选地，所述装置还包括第二单元，用于在所述标签选取区域显示标签组件，从所述第三处理层获取符合语音合成标记语言规范的预设语言信息；

根据所述预设语言信息，通过所述第一处理层的标签渲染单元生成所述标签组件对应的第二渲染数据；

根据所述第二渲染数据，在所述标签选取区域显示若干个所述标签组件。

可选地，所述装置还包括第三单元，用于在所述编辑界面显示目标标签属性，根据所述目标字段所属的目标标签属性，通过所述第一处理层的属性渲染单元生成第三渲染数据；

根据所述第三渲染数据，在所述编辑界面显示目标标签属性。

可选地，所述目标字段包括单个字符的字段、多个字符的字段或者光标字段，所述第四模块包括第四单元，用于当所述目标字段为单个字符的字段时，响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述单个字符的字段所属的目标标签属性；

当所述目标字段为多个字符的字段时，响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述多个字符的字段所属的目标标签属性；

当所述目标字段为光标字符的字段时，响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述光标字符的字段所属的目标标签属性。

可选地，所述目标字段包括单个字符的字段、多个字符的字段或者光标字段，所述第四模块包括第五单元，用于当所述目标字段为单个字符的字段时，响应于标签属性确定指令，对所述单个字符的字段的标签属性进行编辑，确定所述目标字段所属的目标标签属性；

当所述目标字段为多个字符的字段时，响应于标签属性确定指令，对所述多个字符的字段的标签属性进行编辑，确定所述目标字段所属的目标标签属性；

当所述目标字段为光标字符的字段时，响应于标签属性确定指令，对所述光标字符的字段的标签属性进行编辑，确定所述目标字段所属的目标标签属性。

可选地，所述目标标签类型包括注音标签、停顿标签、拖音标签和情绪标签中一种或多种，所述第三模块包括第六单元，用于响应于标签类型选取指令，从所述标签选取区域选取注音标签、停顿标签、拖音标签或情绪标签中任一种，确定所述目标文本内容中目标字段所属的目标标签类型。

可选地，当所述目标标签类型为情绪标签时，所述情绪标签包括高兴属性、急迫属性、怀疑属性、恐惧属性、悲伤属性、惊讶属性或生气属性中一种或多种，所述第四模块包括第七单元，用于响应于标签属性确定指令，将选中的标签属性确定为所述目标字段所属的目标标签属性。

可选地，所述第一模块包括第八单元，用于获取所述第三处理层中存储的符合语音合成标记语言规范的预设语言信息；

对所述预设语言信息进行解析转换，得到XML文档信息；

对所述XML文档信息中的树节点以及每个树节点的子节点进行解析，得到HTML信息；

根据所述HTML信息生成第四渲染数据，将所述第四渲染数据在所述编辑界面上显示。

可选地，所述装置还包括第九单元，用于显示标签属性作业界面，具体地，用于响应于所述标签属性确定指令，获取目标位置信息；

根据所述目标位置信息确定目标属性的编辑位置和所述标签属性作业界面的显示位置；

对所述标签属性确定指令进行解析，得到标签属性新增命令或标签属性更新命令；

根据所述标签属性新增命令，通过文档对象模型向所述目标属性的编辑位置插入HTML新增信息；或者，根据所述标签属性更新命令，通过所述文档对象模型更新所述目标属性的编辑位置的HTML原始信息，得到HTML更新信息；

根据所述HTML新增信息或者所述HTML更新信息生成第五渲染数据，将所述第五渲染数据在所述标签属性作业界面上显示。

另一方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现前面的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现前面的方法。

另一方面，本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本申请的实施例首先显示语音合成标记语言的编辑界面；其中，编辑界面包括标签选取区域和文本编辑区域；标签选取区域上部署有若干个标签组件，每个标签组件用于表征一种语音合成标记语言的标签类型；每种标签类型包括若干个候选标签属性；本申请通过语音合成标记语言的编辑界面，为操作对象提供了可视化的作业界面，便捷性高；接着，本申请实施例响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；本申请实施例能够针对任意目标文本内容的目标字段进行可视化的标签信息调整，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度；另外，本申请实施例还能够响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性；方便技术人员对可视化的标签的属性信息进行灵活调整；最后，本申请实施例响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中SSML编辑器的一种实施例的界面示意图；

图2为本申请实施例提供的一种数据处理方法的实施环境的示意图；

图3为本申请实施例中软件系统的编辑界面示意图；

图4为本申请实施例提供的一种数据处理方法的步骤流程图；

图5为本申请实施例提供的一种实施例中标签属性作业界面的示意图；

图6为本申请实施例提供的另一种实施例中标签属性作业界面的示意图；

图7为本申请实施例提供的语音合成编辑构架的结构示意图；

图8为本申请实施例提供的文本编辑区域的界面示意图；

图9为本申请实施例提供的标签选取区域的界面示意图；

图10为本申请实施例提供的目标标签属性的编辑界面示意图；

图11为本申请实施例提供的确定光标字段的标签属性的操作示意图；

图12为本申请实施例提供的另一种数据处理方法的步骤流程图；

图13为图12所示另一种数据处理方法的详细步骤流程图；

图14为本申请实施例提供的一种数据处理装置的结构示意图；

图15为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。

在对本申请实施例进行详细说明之前，对本申请实施例中可能涉及的技术名词或者特征名词进行必要的解释说明：

语音合成(Text To Speech,TTS)，又称文语转换，是一种可以将任意输入文本转换成相应语音的技术。

语音合成标记语言(Speech Synthesis Markup Language,SSML),是一种基于可扩展标记语言(Extensible Markup Language，XML)的标记语言，开发人员可以指定如何使用文本转语音将输入文本转换为合成语音。与纯文本相比，SSML可让开发人员微调音节、发音、语速、音量以及文本转语音输出的其他属性。可以理解的是，SSML可自动处理正常的停顿(例如，在句号后面暂停片刻)，或者在以问号结尾的句子中使用正确的音调。

文档对象模型(Document Object Model，DOM)，是一组用来描述脚本怎样与结构化文档进行交互和访问的全球广域网((World Wide Web，Web)标准，它的功能是把浏览器支持的文档，包括超文本标记语言(Hyper Text Markup Language，HTML)、XML、可扩展超文本标记语言(Extensible Hyper Text Markup Language，XHTML)，当作一个对象来解析，它实际上是一个操作文档里面所包含的内容的一个编程的应用程序接口(ApplicationProgramming Interface，API)，允许开发人员从文档中读取、搜索、修改和删除数据。借助DOM模型可以将一个结构化文档转换成DOM树，程序可以访问、修改树里的节点，也可以新增、删除树里的节点，从而达到从文档中读取、搜索、修改和删除数据的目的。

DOM树，在DOM规范中，对于文档的表示方法并没有任何限制，因此，DOM树是多种文档结构中的一种较为普遍的实现方式，DOM结构构成的基本要素是“节点”，而文档的结构就是由层次化的节点组成。在DOM模型中，节点的概念很宽泛，整个文档(Document)就是一个节点称为文档节点，除此之外还有元素(Element)节点、属性节点、Entity(实体)节点、注释(Comment)节点等。可以通过DOM树表示HTML的层级结构。

通过SSML，人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音，把计算和信息传输延伸到全球每个角落。随着信息化进程的步伐，合成语音的应用场景越来越多，例如人们在阅读电子书籍时，为了休息双眼，可以选择让电子设备自动对电子书籍中的文字进行朗读，电子设备发出的朗读声音就可以通过合成语音的技术来实现。

然而，相关技术中，可用的SSML编辑器均是基于XML的编辑器，提供给对象的是纯文本输入，参见如下所示的一种实施例中SSML编辑框中的相关SSML代码：

<audio src＝"soundbank://soundlibrary/ui/gameshow/amzn_ui_sfx_gameshow

_positive_response_02"/>

Use the editor shortcuts to add tags,like this:<break time＝"2s"/>

Some tags wrap around the text,<prosody pitch＝"x-low">like this one</prosody>.

<break time＝"1s"/>When you're ready,click the yellow button below,toask Alexa to say this text out loud.<break time＝"1s"/>

在通过上述代码内容所实现的语音合成功能中，对象需要了解SSML标签及其含义，对于非专业技术人员而言，学习成本比较高。同时，参见图1所示的另一种实施例中的SSML编辑器的界面示意图，虽然结合了富文本编辑框，其本质上仍然属于普通文本编辑，只是提供了标签的快捷插入功能。然而，插入后，开始和闭合标签不是一个整体，对象可以任意修改标签所属的代码信息，这可能导致标签正确语义的丢失以及语音合成时出现错误。因此，目前的SSML相关标签数据处理的准确性不高、效率也较低。

为此，本申请实施例首先提供了一种数据处理方法，基于该方法实施例提供了一种可视化编辑器，在相应的编辑界面中，直观地显示需要编辑的内容、标签组件和标签组件对应的标签属性。具体地，实施例可以根据对象的文本编辑指令、标签类型选取指令或标签属性确定指令，对目标文本进行可视化编辑，简单易懂，无需分清不同团队的SSML标签差异就可以实现标签的设置和调整。同时，本申请将标签进行封装，标签的开始和闭合部分是整体的，在实现标签的设置和调整功能的同时，有利于提升标签的准确度。需要说明的是，标签组件可以根据实际需求设置，通常情况下，基于语音合成的特点，可以设置注音相关、词性相关、韵律相关或停顿标签；也可以根据实际应用场景，选择关联性高的几个标签；还可以根据实际需求，进行个性化的标签定制。本申请实施例通过对编辑界面中标签组件和标签属性的操作，例如拖拽、点击、输入等，能够针对任意目标文本内容的目标字段进行可视化的标签信息调整，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够缓解SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。

图2是本申请提供的一种实施环境的结构示意图。如图2所示，在该实施环境中，包括了终端101和服务器102。在终端101中搭载了上述数据处理的软件系统，该软件系统可以实现可视化编辑器，同时可以根据设定标签对目标文本进行语音合成。如图3所述的一种实施例中的编辑界面，软件系统的编辑器表现为可视化编辑界面，在该编辑界面中进行操作区域的划分，划分得到区域包括但不限于标签选取区域和文本编辑区域；在标签选取区域中包含了若干个用于表征语音合成标记语言标签类型的标签组件；每个标签组件包括若干标签属性。软件系统可以响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；软件系统也可以响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；软件系统也可以响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性；软件系统还可以响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音；实现标签的快速、准确调整，进而实现快速、准确的语音合成。在该实施环境中，终端101可以是任何一种可通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，该电子产品可以通过其可视化操作界面接收对象的上述指令，并对操作指令的结果进行实时的可视化显示。示例性地，如图2所示，该终端101可以是个人计算机(Personal Computer，PC)、手机、智能手机1011、个人数字助手(PersonalDigital Assistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等。

此外，在图2所示的实施环境中，终端101可以通过网络协议与服务器102建立通信连接，在服务器102的数据库中存储大量的标签组件数据，该标签组件数据可以是未使用或显示的标签组件数据，或者是已经设定或显示的标签组件数据，又或者是在标签调整过程中进行暂存的中间标签组件数据。服务器102可以根据终端101所发送的不同的操作指令，推送各类数据至终端101。在服务器102中存储有规范的SSML标签代码的处理逻辑，用于标签的设置和调整。在该实施环境中，服务器可以采用独立的服务器，或者是由若干台服务器组成的服务器集群，又或者是云计算服务中心；服务器的形式不限于上述举例描述的形式，可以理解的是，服务器还具有数据存储功能，而存储功能的实现可以采用本地数据库或者是云端的数据库。

以某一具体的语音合成过程为例，在图2所示的实施环境中，完整的数据处理的过程为：在终端101的编辑界面，即可视化操作界面，首先显示语音合成标记语音的编辑界面，在该操作界面中，包括了至少标签选取区域和文本编辑区域，标签选取区域包含了多种类型的标签组件，该标准化组件可以用于表征一种语音合成标记语言的标签类型；例如，可以通过修改注音的标签组件表示目标文本的注音；也可以通过添加停顿的标签组件表示选定的光标处设置合成语音的停顿；还可以通过添加情绪的标签组件表示目标文本的朗读情感。在一些可能的实现方式中，可以将标签组件置于服务器中；当需要某个标签组件时，从服务器进行调取和处理。然后，响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性；并将该目标标签属性发送至服务器进行存储，以便后续转化成SSML代码。最后，响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音，通过终端进行目标语音的输出和展示。通过上述过程，实现标签的可视化编辑，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。

应当理解的是，本申请实施例仅是通过图2示例性地说明可以实施的一种实施环境以及一种可能性的实施结果，即对象通过终端101发送了标签组件数据的调取请求，服务器102根据该数据调取请求，将对应的数据进行打包并反馈至终端101进行可视化显示。而在本申请实施例另一些应用场景中，数据处理方法也可以仅由搭载了数据处理软件系统的终端101实现，例如：在终端101断开与服务器102的通信连接之后，对象可以根据终端中缓存的数据进行离线操作，根据内置在终端101中的标签组件生成程序，得到标签组件，进行标签的调整和显示；待重新连接至服务器102后，将终端101缓存在本地的标签组件数据以及相关的调整数据上传更新至服务器102进行数据的存储与更新。本申请实施例不对具体应用场景进行限定，上述的图2的应用场景仅仅作为示例性的说明。

可以理解的是，本申请实施例所提供的数据处理方法，在其实施环境中，用于数据存储的也可以是区块链；在实施的过程中，可以从区块链中已有的区块获取其他区块链节点所上传待合成的标签组件数据，下载至同为区块链节点的终端101，并在终端101的编辑界面中进行可视化展示，并基于标签组件的设置调整，通过转换成SSML代码的方式，进行语音合成。此外还可以通过终端101将语音合成结果以及相关的数据打包成新的区块上传至区块链中；通过区块链的去中心化的数据存储方式，业务数据更为公开安全，也同时避免了恶意的数据篡改。

如图4所示，本申请实施例提供了一种数据处理方法，该方法可以应用于上述图2中的终端设备201或者服务器202来实现，也可以在其他任意具有数据处理能力的装置或设备上执行，例如可以在智能手机上执行。参考图4，该方法具体包括但不限于步骤S100-S500：

S100、显示语音合成标记语言的编辑界面；

其中，编辑界面包括标签选取区域和文本编辑区域；标签选取区域上部署有若干个标签组件，每个标签组件用于表征一种语音合成标记语言的标签类型；每种标签类型包括若干个候选标签属性。

本申请实施例提供一种语音合成标记语言的编辑器，编辑界面用于表征操作人员或技术人员进行标签设置或调整的界面，该界面也可以是向操作人员展示文本、标签的界面，实现可视化编辑。具体地，参见图3所示的一种实施例的编辑界面示意图，编辑界面包括标签选取区域301和文本编辑区域302。标签选取区域用于展示可用的标签组件，如图3中，提供了四种标签组件(修改注音、添加停顿、添加拖音和添加情绪)。需要说明的是，本申请通过将标签进行封装操作，操作人员设置或调整的内容为标签组件显示出的名字或属性，即标签属性(如注音标签duan1区域303)，操作人员并不会直接接触或修改后台语音合成过程中用到的与标签相关的SSML代码，因此，本申请将标签设定为一个整体，缓解了SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。具体地，标签组件的封装可以存储于服务器中，当目标本文需要设置该类型的标签组件时，相应的操作终端向服务器请求标签组件。可以理解的是，每个标签组件用于表征一种语音合成标记语言的标签类型，本领域技术人员可以根据需要设置标签组件的类型和数量，本申请不作限制。

在一些可能的实现方式中，文本编辑区域用于展示待编辑的文本信息和操作人员设置、调整的标签。具体地，如图3中文本编辑区域所示，该实施例中展示的是操作人员设置好的文本信息，通过该文本编辑区域可以知道，需要进行语音合成的文本为：XX语音合成技术，具有端到端，离线系统的整套技术，属于业界前列水平；操作人员已设置的标签有：单字段的注音标签、拖音标签和情绪标签。可以理解的是，通过文本编辑区域的展示和交互，实现标签的可视化编辑，提升了语音合成标记语言的便捷性。可以理解的是，图3中所示的文本编辑区域和标签选取区域的位置关系和显示形式属于示例性举例，本申请并不作相应限制。

S200、响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；

在一些可能的实现方式中，文本编辑指令用于表征操作人员在语音合成标记语言的编辑界面的文本编辑区域中，进行目标文本的输入操作；可以理解的是，通常情况下，由编辑界面捕捉到该输入操作并触发在文本编辑区域进行目标文本的显示操作。当然，触发文本编辑指令的操作包括但不限于点击输入新的目标文本内容、通过复制的方式输入新的目标文本内容。示例性地，对于一些通用的场景，相关文本内容可以存储于服务器中；操作人员在进行文本编辑时，可以根据需要，通过相应的控制组件调用服务器中的文本内容，在此基础上，进行个性化的标签设计，有利于提升文本编辑的效率。

S300、响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；

在一些可能的实现方式中，目标字段即需要进行标签设置或调整的字段。在对文本进行语音合成时，需要对合成语音的音节、发音、语速、音量等方面进行设计或调整，通过语音合成标记语音可以实现上述功能。本申请实施例通过将标签封装，操作人员根据需要添加的标签类型选取相应的标签组件，以可视化的方式完成标签的设计和调整工作。需要说明的是，标签类型选取指令是操作人员在语音合成标记语言的编辑界面的标签选取区域对标签组件进行的操作，由编辑界面捕捉到该操作并触发的指令；可以理解的是，触发标签类型选取指令的操作包括但不限于点击建立新的目标标签组件以及长按新建标签组件进行拖拽等。

示例性地，如图3中所示的目标文本内容，若需要在“目前具有端对端”这一字段中，对端对端增加强调的效果，可以对端对端字段增加拖音或停顿；根据具体的标签类型，在标签选取区域选择相应的标签组件，以实现预定效果的标签配置。

S400、响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性；

在一些可能的实现方式中，本申请实施例可以针对目标标签组件，设定标签组件的具体属性。因此，对于步骤S300中的标签类型选取指令，可以通过弹窗的方式，以供操作人员对目标标签属性进行设置或调整。具体地，对于标签属性需要由操作人员编辑的标签组件，响应于标签类型选取指令，显示标签属性的编辑子界面，以使操作人员通过该编辑子界面对目标标签属性进行编辑。示例性地，参见图5所示，该实施例中，注音标签组件的属性需通过操作人员编辑目标字段的注音设置，此时，标签属性作业界面表现为标签属性编辑子界面503，操作人员可以通过该编辑子界面对端字段的注音标签进行属性编辑，确定标签属性为duan1；操作人员可以通过点击确定区域504生成标签确定指令，由编辑子界面捕捉到该操作并触发标签属性的确定操作。

可选地，对于标签属性可以由操作人员进行选择确定的标签组件，响应于标签类型选取指令，显示标签属性的选取子界面，以使操作人员通过该选取子界面对目标标签属性进行选取操作，以确定目标标签组件的属性。示例性地，参见图6所示，此时，标签属性作业界面表现为标签属性选取子界面603，通过该选取子界面对整个目标文本字段的情绪标签进行属性选取确定，确定标签属性为所示的情绪中的一种；操作人员可以通过点击情绪区域(如高兴区域)生成标签确定指令，由选取子界面捕捉到该操作并触发标签属性的确定操作。

在一些可能的实现方式中，本申请实施例还可以提供标签属性修改的操作。具体地，若操作人员需要对目标标签组件的标签属性进行修改或调整，可以通过点击选中文本编辑区域的标签属性显示区域，由语音合成标记语言的编辑界面捕捉到该操作并触发相应的指令；从而显示对应的标签属性的编辑子界面或标签属性的选取子界面，以使操作人员对目标标签组件的属性进行修改或调整，以方便技术人员对可视化的标签的属性信息进行灵活调整。示例性地，如图3所示的实施例中，若端字段的注音标签的属性需要修改，操作人员可以通过点击duan1区域303，触发标签属性确定指令，进而对端字段的注音标签进行属性调整。综上可知，通过本申请实施例提供的方法使得操作人员以一目了然的方式设置、修改、调整或显示标签组件和标签组件的属性，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。

S500、响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音。

在一些可能的实现方式中，本申请实施例通过目标字段对应的目标标签属性，将目标标签属性转换成后台语音合成过程中需要的代码信息，进而实现目标文本的语音合成，并通过相应的终端展示语音。示例性地，参见图5的示意图，操作人员在语音合成标记语言的编辑界面通过点击试听效果区域505触发合成语言操作，由编辑界面捕捉到该操作并触发语音合成指令，合成相应的语音，并通过终端展示给操作人员。

由此可知，本申请实施例提供了一种语音合成标记语言的编辑器，以一种友好的方式提供SSML的编辑功能；操作人员可以很直观地了解所编辑的内容，有利于降低非专业人员的上手成本。同时，由于不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。

在一些实施例中，本申请提供的数据处理方法，可以包括但不限于步骤S600：

S600、构建语音合成编辑架构，语音合成编辑架构包括第一处理层、第二处理层和第三处理层；

其中，第一处理层，用于接收输入指令，并向编辑界面输出渲染数据；

第二处理层，用于获取目标字段、目标字段所属的目标标签类型和目标标签属性，将目标字段、目标字段所属的目标标签类型和目标标签属性转换成符合语音合成标记语言规范的目标语言信息；或者，用于将预设的初始语言信息转换成标签组件上的标签类型以及标签属性，并将标签类型和标签属性发送至第一处理层，以使第一处理层向编辑界面输出标签类型和标签属性的渲染数据；

第三处理层，用于存储符合语音合成标记语言规范的预设语言信息。

在一些可能的实现方式中，第一处理层用于接收操作人员的鼠标、键盘或触摸屏等事件，同时还用于向对象展示渲染数据，以及用于与对象进行信息的交互。示例性地，如图7所示的DOM层即第一处理层。第二处理层用于将原始的SSML数据和对象的后续编辑行为进行关联，进而进行数据的转换工作；同时，响应对象的交互事件。具体的转换工作可以是将目标标签类型和对应的标签属性转换成符合语音合成标记语言规范的目标语言信息(即处理操作人员编辑后的DOM到SSML的转换)；转换工作也可以是将预设的初始语言信息转换成标签组件上的标签类型以及对应的标签属性(即处理原始的SSML到DOM的转换)。示例性地，如图7所示，实施例采用Editor Core层作为第二处理层；数据转换(Data Transformer)单元，主要执行上述转换工作，实现操作人员所看到的标签语言与后台进行语音合成所使用的语音之间的转换，从而为操作人员提供可视化编辑方案。示例性地，如图3中所示的实施例，操作人员对端字段设置的注音标签，标签属性显示的语言为：duan1；第二处理层在实际处理时，将该标签类型和标签属性转换成符合语音合成标记语言规范的目标语言信息：<phoneme alphabet＝"pinyin"ph＝"duan1">端</phoneme>；完成标签语言的转换工作。同样，第三处理层用于存储原始的SSML数据和编辑后经转化的SSML数据，以通过SSML数据完成后续的语音合成过程。示例性地，如图7所示，其中SSML层即第三处理层。通过构建语义合成框架，实现标签语言的转换与数据传递，进而实现可视化编辑。

在一些实施例中，上述实施例步骤S200、响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容这一步骤，可以包括但不限于步骤S210-S230：

S210、响应于文本编辑指令，获取输入的目标文本内容；

S220、根据目标文本内容，通过第一处理层的文本渲染单元生成目标文本内容的第一渲染数据；

S230、根据第一渲染数据，在文本编辑区域显示输入的目标文本内容。

在一些可能的实现方式中，基于上述步骤S600可知，第一处理层用于接收输入指令，并向编辑界面输出渲染数据；而文本编辑指令用于表征对操作人员输入的目标文本所进行的相关操作。因此，响应于文本编辑指令，首先获取输入的目标文本内容。然后，通过第一处理层的文本渲染单元对目标文本内容进行渲染，生成目标文本内容的第一渲染数据；并通过文本编辑区域显示渲染后的目标文本数据，便于操作人员进行后续的标签操作。需要说明的是，上述过程是通过如图7所示的第一处理层(DOM层)的content单元实现的，其中，content单元还可以用于展示操作人员的编辑结果。具体地，响应于标签属性确定指令，获取操作人员输入的标签属性，通过标签属性编辑结果渲染单元生成标签属性编辑结果渲染数据，并通过文本编辑区域进行显示。示例性地，参见图8所示的实施例，其中，展示区域801展示的是目标文本内容对应的第一渲染数据，展示区域802展示的是标签属性编辑结果渲染数据。通过第一处理层的渲染处理，以通俗易懂的方式向操作人员展示标签的相关内容，有利于提升操作人员进行标签制作的速度，提升语音合成效率。

在一些实施例中，本申请实施例还包括在标签选取区域显示标签组件的步骤，具体地，可以包括但不限于步骤S240-S260：

S240、从第三处理层获取符合语音合成标记语言规范的预设语言信息；

S250、根据预设语言信息，通过第一处理层的标签渲染单元生成标签组件对应的第二渲染数据；

S260、根据第二渲染数据，在标签选取区域显示若干个标签组件。

在一些可能的实现方式中，标签选取区域的标签组件可以通过第三处理层的预设语言信息获取。具体地，对于操作人员尚未进行操作的情况，第三处理层存储有预设的初始语言信息，即包含用于表征该编辑器可以使用的标签组件的初始语言信息。此时，通过读取第三处理层的初始语言信息，得到可用的标签组件信息；通过第一处理层的标签渲染单元对上述可用标签组件信息进行渲染，生成可用标签组件对应的第二渲染数据，并在标签选取区域进行显示。同样，对于操作人员已进行标签相关操作的情况下，第三处理层存储有目标语言信息，即包含用于表征该操作人员已经使用的标签组件的目标语言信息；此时，通过读取第三处理层的目标语言信息，得到已用的标签组件信息；通过第一处理层的标签渲染单元对上述已用标签组件信息进行渲染，生成已用标签组件对应的第二渲染数据，并在标签选取区域进行显示。可用理解的是，参见图9所示的实施例，标签选取区域展示了可用的四种标签，对于操作人员尚未进行操作的情况，四种标签的显示方式为相同的。而对于操作人员已进行标签相关操作的情况下，对于已用的标签组件，可用通过突出显示的方式展示；或者对未使用的标签组件进行灰度虚化显示，达到对标签组件进行区分的效果；进而方便操作人员对目标文本的标签使用情况进行统计和整理。如图9所示的实施例，通过该标签选取区域，操作人员可以快速得知目标文本使用了情绪标签。当然，图9所示的方式属于示例性举例，本申请并不限制可用标签组件和已用标签组件的具体显示方式。综上，通过渲染的方式展示标签组件，方便操作人员简单快捷的对标签进行调整。

在一些实施例中，本申请实施例还包括在编辑界面显示目标标签属性的步骤，具体地，可以包括但不限于步骤S270-S280：

S270、根据目标字段所属的目标标签属性，通过第一处理层的属性渲染单元生成第三渲染数据；

S280、根据第三渲染数据，在编辑界面显示目标标签属性。

在一些可能的实现方式中，目标标签属性通过操作人员编辑确定的，需要在相应的编辑界面显示目标标签属性。具体地，操作人员输入的目标标签属性，通过第一处理层的属性渲染单元进行渲染处理，生成第三渲染数据，并通过编辑界面进行展示。示例性地，如图10所示的一种实施例，对于停顿标签，目标标签属性通过渲染显示为0.5，操作人员可以直观清楚的了解该停顿标签的属性为0.5秒。可以理解的是，对于图3中的注音标签，同样可以通过上述方法，进行目标标签属性的渲染和展示。

在一些实施例中，目标字段包括单个字符的字段、多个字符的字段或者光标字段；上述实施例步骤S400、响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性这一步骤，可以包括但不限于步骤S410-S430：

S410、当目标字段为单个字符的字段时，响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定单个字符的字段所属的目标标签属性；

在一些可能的实现方式中，当目标字段为单个字符字段时，可以通过选取候选标签属性的方式确定单个字符字段所对应的目标标签属性。示例性地，对于单个字符字段属于多音字的情况，修改注音标签组件所对应的标签属性选取子界面，可以给出多音字对应的几个拼音作为候选标签属性，以使操作人员通过选取的方式确定目标标签属性。

S420、当目标字段为多个字符的字段时，响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定多个字符的字段所属的目标标签属性；

在一些可能的实现方式中，当目标字段为多个字符时，也可以通过选取候选标签属性的方式确定多个字符字段所对应的目标标签属性。示例性地，参见图6所示的实施例，针对整个目标文本601(即多个字符字段)使用情绪标签时，可以通过标签属性选取子界面603展示可选的多个情绪标签，操作人员通过点击的方式，选择其中一个标签作为多个字符字段的目标标签属性。需要补充的是，操作人员选中目标字段，并选中添加情绪区域时，即选择了当前调整的标签组件，该场景下，标签选取区域，可以通过突出显示的方式，展示当前编辑中的标签组件，如图6的所示的其中一种突出显示方式，在添加情绪区域602，增加显示框，进行突出显示，以使操作人员清晰的了解当前编辑的标签组件。

S430、当目标字段为光标字符的字段时，响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定光标字符的字段所属的目标标签属性。

在一些可能的实现方式中，当目标字段为光标字符字段时，可以通过选取候选标签属性的方式确定光标字符字段所对应的目标标签属性。示例性地，对于目标文本，若需要在着重强调的部分增加语速或降低语速，可以设置调整语速的标签组件，且该标签属性通过标签属性选取子界面进行调整。具体地，可以设置增加语速和降低语速两个方面作为标签属性，以使操作人员方便快速的对该光标后的语速进行调整。

在一些实施例中，目标字段包括单个字符的字段、多个字符的字段或者光标字段；上述实施例步骤S400、响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性这一步骤，可以包括但不限于步骤S401-S403：

S401、当目标字段为单个字符的字段时，响应于标签属性确定指令，对单个字符的字段的标签属性进行编辑，确定目标字段所属的目标标签属性；

S402、当目标字段为多个字符的字段时，响应于标签属性确定指令，对多个字符的字段的标签属性进行编辑，确定目标字段所属的目标标签属性；

S403、当目标字段为光标字符的字段时，响应于标签属性确定指令，对光标字符的字段的标签属性进行编辑，确定目标字段所属的目标标签属性。

在一些可能的实现方式中，针对目标字段为单个字符字段的情况，示例性地，对于目标文本中包括多音字的场景，操作人员还可以通过选中该多音字字符，对多音字字符字段注音的方式确定该多音字的注音标签属性。参见图5所示的一种实施例，文本编辑区域的已设置标签显示区域501展示设置的标签组件及其标签属性；标签选取区域的注音标签组件区域502突出显示当前编辑的标签组件为注音标签；标签属性编辑子界面503通过与操作人员的交互，展示了操作人员输入的标签属性的具体值；确定区域504可以接收操作人员的标签属性确定指令，以确定单个字符的字段的标签属性；试听效果区域505用于接收操作人员的语音合成指令，向操作人员展示合成的语音。同样，在一些场景下，示例性地，娱乐小视频制作中，若使用到谐音增加娱乐效果时，对谐音部分的成语或短语，操作人员可以通过选中谐音部分的多个字符字段，并对多个字符字段的注音标签属性进行编辑，以确定谐音部分的语音合成达到所预期的娱乐效果。在一些可能的实现方式中，参见图11所示，若需要在目标文本的关键位置添加停顿标签，可以通过选中该光标位置，并通过标签类型选取指令，对停顿标签的标签属性进行编辑，确定目标标签属性为0.5秒。文本编辑区域的标签组件显示区域1101展示了目标标签属性的具体值；标签选取区域的添加停顿区域1102通过显示突出的方式，展示了目标文本已用的标签组件。综上，通过标签属性的可视化编辑和展示，方便技术人员对可视化的标签的属性信息进行灵活调整，提升标签调整的效率和准确率。

在一些实施例中，目标标签类型包括注音标签、停顿标签、拖音标签和情绪标签中一种或多种；上述实施例步骤S300、响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型这一步骤，可以包括但不限于步骤S310：

S310、响应于标签类型选取指令，从标签选取区域选取注音标签、停顿标签、拖音标签或情绪标签中任一种，确定目标文本内容中目标字段所属的目标标签类型。

在一些可能的实现方式中，目标标签类型可以根据需求设置，具体地，可以包括注音标签、拖音标签、停顿标签和情绪标签中的至少一种。操作人员可以通过对标签选取区域中的标签组件进行点击、拖拽等操作，选取需要的标签组件，为目标字段添加标签组件。示例性地，如图6所示的一种实施例，若目标文本的朗读需要带有感情色彩，操作人员首先选中需要带有感情色彩的目标字段，然后通过点击的方式选中添加情绪区域602，确定目标字段的标签组件为情绪标签，便于后续的标签属性确定操作。

在一些实施例中，当目标标签类型为情绪标签时，情绪标签包括高兴属性、急迫属性、怀疑属性、恐惧属性、悲伤属性、惊讶属性或生气属性中一种或多种；上述实施例步骤S400、响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性这一步骤，可以包括但不限于步骤S4001：

S4001、响应于标签属性确定指令，将选中的标签属性确定为目标字段所属的目标标签属性。

在一些可能的实现方式中，如图6所示的一种实施例，操作人员可以通过点击或拖拽相关标签属性区域，确定目标标签属性。示例性地，若需要的是高兴的感情色彩，通过点击高兴区域，确定目标文本的情绪标签所对应的标签属性为高兴。综上，标签组件和标签数据的确定过程，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。

在一些实施例中，上述实施例步骤S100、显示语音合成标记语言的编辑界面这一步骤，可以包括但不限于步骤S110-S140：

S110、获取第三处理层中存储的符合语音合成标记语言规范的预设语言信息；

S120、对预设语言信息进行解析转换，得到XML文档信息；

S130、对XML文档信息中的树节点以及每个树节点的子节点进行解析，得到HTML信息；

S140、根据HTML信息生成第四渲染数据，将第四渲染数据在编辑界面上显示。

在一些可能的实现方式中，显示语音合成标记语言的编辑界面属于编辑界面的初始化过程。具体地，参见图7所示的技术架构，本申请中设计的数据及与技术架构的对应关系为：SSML数据存储于SSML层，是编辑前的原始数据，也是保存后的最终数据；XML文档信息(XMLDocument)属于Editor Core层，对应于数据的中间状态，是将SSML转成DOM的关键数据；HTML属于DOM层，即向对象展示的可视化的内容。可以理解的是，SSML是一种基于XML的语言，是语音接口框架的一部分，以speak为根标签。示例性地，参见图12和图13所示的一种实施例，其中图12展示的是编辑界面的交互和处理流程的简图，图13展示的是详细步骤图；获取符合语音合成标记语言规范的预设语言信息A，可以是下面的信息：

<speak><yxw::emotion name＝"happiness">XX语音合成技术，属于业界<breaktime＝"1000"/>前列<phoneme alphabet＝"py"ph＝"shui3">水</phoneme>平。

</yxw:：emotion></speak>

XMLDocument是一种树结构，可由XML解析得到，解析后的XMLDocument树中，每一个标签会形成一个节点，节点上存有标签的属性及值，结构定义为如下形式：

而上述实施例中，对预设语言信息A进行解析转换，得到XML文档信息B，其中部分代码如下所示；

具体地，HTML是向对象展示的视图，同时也用于接受对象的相关操作。HTML同样是基于XML的标记语言，其语义更丰富，对于不同类型标签，主要就是通过给HTML添加不同的类来展现。示例性地，本申请实施例中HTML实体可以包括以下：

//非标签部分

这里是文本部分

//标签部分

这里是标签部分

其中，非标签部分即可编辑部分，标签部分即不可编辑部分。本申请实施例中的SSML标签最终会转换成上述两种标签的嵌套。而针对上述实施例，对XML文档信息B中的树节点以及每个树节点的子节点进行解析，得到HTML信息C，具体为：

XX语音合成技术，属于业界1s

前列

水shui3

平

高兴

本申请提供的实施例通过上述过程，实现了编辑界面的初始化和展示过程，为操作人员提供了一种可视化的语音合成标记语言的编辑界面，通过SSML、XML、DOM和HTML数据之间的转换，缓解了技术人员直接修改代码所带来的缺陷，提升语音合成的准确度。

在一些实施例中，方法还包括显示标签属性作业界面的步骤，具体地，可以包括但不限于步骤S150-S190：

S150、响应于标签属性确定指令，获取目标位置信息；

S160、根据目标位置信息确定目标属性的编辑位置和标签属性作业界面的显示位置；

S170、对标签属性确定指令进行解析，得到标签属性新增命令或标签属性更新命令；

S180、根据标签属性新增命令，通过文档对象模型向目标属性的编辑位置插入HTML新增信息；或者，根据标签属性更新命令，通过文档对象模型更新目标属性的编辑位置的HTML原始信息，得到HTML更新信息；

S190、根据HTML新增信息或者HTML更新信息生成第五渲染数据，将第五渲染数据在标签属性作业界面上显示。

在一些可能的实现方式中，参见图13所示的实施例，操作人员进行标签调整或设置操作时，首先需要选取目标文本的相应字段，编辑界面接收操作人员的字段选取操作，确定目标位置信息。然后，根据该目标位置信息，确定标签属性作业界面的显示位置和相应的目标属性的编辑位置。具体地，参见图5中所示的标签属性作业界面的一种实施例的示意图可知，标签属性作业界面可以靠近其调整的文本字段(端)，也靠近所属的标签组件(注音标签)，且不会遮挡其调整的文本字段和所属的标签组件；便于操作人员方便地、快捷的设置或调整标签属性。更进一步地，对标签属性确定命令进行解析，确定标签属性是否为新增。示例性地，若通过对标签选取区域的操作进行标签属性编辑，可以认为是标签属性新增命令；若通过对文本编辑区域的操作进行标签属性编辑，可以认为是标签属性更新命令。可以理解的是，根据标签属性新增命令，通过文档对象模型向目标属性的编辑位置插入HTML新增信息；或者，根据标签属性更新命令，通过文档对象模型更新目标属性的编辑位置的HTML原始信息，得到HTML更新信息。对上述HTML新增信息或者HTML更新信息进行渲染处理，生成第五渲染数据，将第五渲染数据在标签属性作业界面上显示，向对象展示形象的标签属性。通过上述过程，实现标签组件和标签属性的可视化编辑。

参照图12和图13，以小视频的语音合成的应用为例，对本申请提出的数据处理方法进行详细描述。结合附图，该场景中的数据处理方法具体包括以下步骤：

首先，执行步骤S1201，初始化编辑框，即显示语音合成标记语言的编辑界面；编辑界面包括标签选取区域和文本编辑区域；标签选取区域上部署有若干个标签组件，每个标签组件用于表征一种语音合成标记语言的标签类型；每种标签类型包括若干个候选标签属性。具体地，编辑界面的初始化过程，可以通过对第三处理层中存储的符合语音合成标记语言规范的预设语言信息进行处理实现。可以理解的是，通过对预设语音进行解析转换和渲染，实现界面的初始化显示过程。

其次，执行步骤S1202和步骤S1203，即响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容。本申请提供的方法，将渲染后的数据向操作人员展示，提升可视化编辑的效率。同样，在标签选取区域显示标签组件。需要说明的是，界面显示的均是经过渲染处理的数据。随后，响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型。示例性地，目标标签类型包括注音标签、停顿标签、拖音标签和情绪标签中一种或多种，可供操作人员选取，提供多样化的标签组件，以满足语音合成过程的不同的定制化需求。更进一步地，响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性。基于上述的参数，执行步骤S1204，合成目标文本的目标语音，编辑界面可视化展示编辑结果。

可以理解的是，除了上述介绍的小视频的语音合成场景外，本申请的数据处理方法还可以适用于电子书籍阅读、音频制作、直播、多媒体等领域，本申请对此不作具体的限定。

示例性的，例如在电子书籍阅读的场景中，通过本申请的数据处理方法，可以将电子书籍的文本内容输入到语音合成标记语言的编辑界面，通过执行上述S1201-S1204的步骤，可以合成电子书籍的文本内容对应的目标语音，然后将目标语音播放，能够实现对电子书籍的自动语音播放，方便读者对电子书籍的阅读。

综上，本申请提出的数据处理方法，技术人员通过可视化的编辑界面对标签进行调整或设置，不需要接触SSML代码，不需要了解SSML标签相关的专业术语；能够缓解不同团队SSML标签的差异性带来的标签编辑的复杂度。同时，本申请提供的语音合成标记语音编辑器，具有一定的可扩展性，通过SSML标签与HTML的对应关系可以实现标签的任意扩展，方便技术人员对可视化的标签进行灵活调整。

参照图14，是本申请实施例提供的数据处理装置的结构示意图，如图14所示，该装置包括：

第一模块1401，用于显示语音合成标记语言的编辑界面；其中，编辑界面包括标签选取区域和文本编辑区域；标签选取区域上部署有若干个标签组件，每个标签组件用于表征一种语音合成标记语言的标签类型；每种标签类型包括若干个候选标签属性；

第二模块1402，用于响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；

第三模块1403，用于响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；

第四模块1404，用于响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性；

第五模块1405，用于响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音。

结合说明书附图14，对本申请技术方案中数据处理装置的具体实施过程进行描述：首先，第一模块1401显示语音合成标记语言的编辑界面，通过对第三处理层存储的预设语言信息处理，生成语音合成标记语言的编辑界面，实现与操作人员进行可视化交互。其次，第二模块1402，响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；第三模块1403，响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；具体地，标签组件可以包括注音标签、停顿标签、拖音标签和情绪标签中一种或多种。第四模块1404，响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性。最后，第五模块1405，响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音。

综上，本申请实施例提供的数据处理装置，无需技术人员手动编辑SSML代码，提高了标签调整的效率还能够降低人工学习成本；同时，因为不需要编辑SSML代码，因此能够避免SSML代码编辑出错导致的机器识别错误，进而提高了语音合成准确度。同时，本装置为操作人员提供了丰富的、可扩展的标签，能够实现多样的定制化方案。

本申请实施例还提供了一种电子设备，该设备包括处理器以及存储器；

存储器存储有程序；

处理器执行程序以执行如前述各个实施例的数据处理方法。

该电子设备具有搭载并运行本申请实施例提供的数据处理的软件平台的功能，例如个人计算机(Personal Computer，PC)、手机、智能手机、个人数字助手(PersonalDigital Assistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等，参见图15，本申请实施例以终端设备为手机为例：

图15示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图15，手机包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本申请实施例中，该终端设备所包括的处理器1580具有以下功能：

显示语音合成标记语言的编辑界面；其中，编辑界面包括标签选取区域和文本编辑区域；标签选取区域上部署有若干个标签组件，每个标签组件用于表征一种语音合成标记语言的标签类型；每种标签类型包括若干个候选标签属性；

响应于文本编辑指令，在文本编辑区域显示输入的目标文本内容；

响应于标签类型选取指令，从标签选取区域选取目标标签组件，确定目标文本内容中目标字段所属的目标标签类型；

响应于标签属性确定指令，从目标标签类型的多个候选标签属性中确定目标字段所属的目标标签属性，或者，响应于标签属性确定指令，对目标标签类型的标签属性进行编辑，确定目标字段所属的目标标签属性；

响应于语音合成指令，根据目标字段所属的目标标签属性，合成目标文本内容的目标语音。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例的数据处理方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序，该程序被处理器执行完成如前述各个实施例的数据处理方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的一种数据处理方法，其特征在于，所述方法还包括：

构建语音合成编辑架构，所述语音合成编辑架构包括第一处理层、第二处理层和第三处理层；

其中，所述第一处理层，用于接收输入指令，并向所述编辑界面输出渲染数据；

3.根据权利要求2所述的一种数据处理方法，其特征在于，所述响应于文本编辑指令，在所述文本编辑区域显示输入的目标文本内容，包括：

响应于所述文本编辑指令，获取输入的目标文本内容；

4.根据权利要求2所述的一种数据处理方法，其特征在于，所述方法还包括在所述标签选取区域显示标签组件的步骤，该步骤包括：

从所述第三处理层获取符合语音合成标记语言规范的预设语言信息；

5.根据权利要求2所述的一种数据处理方法，其特征在于，所述方法还包括在所述编辑界面显示目标标签属性的步骤，该步骤包括：

根据所述目标字段所属的目标标签属性，通过所述第一处理层的属性渲染单元生成第三渲染数据；

6.根据权利要求1所述的一种数据处理方法，其特征在于，所述目标字段包括单个字符的字段、多个字符的字段或者光标字段；

所述响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述目标字段所属的目标标签属性，包括以下至少之一：

当所述目标字段为单个字符的字段时，响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述单个字符的字段所属的目标标签属性；

7.根据权利要求1所述的一种数据处理方法，其特征在于，所述目标字段包括单个字符的字段、多个字符的字段或者光标字段；

所述响应于标签属性确定指令，对所述目标标签类型的标签属性进行编辑，确定所述目标字段所属的目标标签属性，包括以下至少之一：

当所述目标字段为单个字符的字段时，响应于标签属性确定指令，对所述单个字符的字段的标签属性进行编辑，确定所述目标字段所属的目标标签属性；

8.根据权利要求1-7中任一项所述的一种数据处理方法，其特征在于，所述目标标签类型包括注音标签、停顿标签、拖音标签和情绪标签中一种或多种；

所述响应于标签类型选取指令，从所述标签选取区域选取目标标签组件，确定所述目标文本内容中目标字段所属的目标标签类型，包括：

响应于标签类型选取指令，从所述标签选取区域选取注音标签、停顿标签、拖音标签或情绪标签中任一种，确定所述目标文本内容中目标字段所属的目标标签类型。

9.根据权利要求8所述的一种数据处理方法，其特征在于，当所述目标标签类型为情绪标签时，所述情绪标签包括高兴属性、急迫属性、怀疑属性、恐惧属性、悲伤属性、惊讶属性或生气属性中一种或多种；

所述响应于标签属性确定指令，从所述目标标签类型的多个候选标签属性中确定所述目标字段所属的目标标签属性，包括：

响应于标签属性确定指令，将选中的标签属性确定为所述目标字段所属的目标标签属性。

10.根据权利要求2所述的一种数据处理方法，其特征在于，所述显示语音合成标记语言的编辑界面，包括：

获取所述第三处理层中存储的符合语音合成标记语言规范的预设语言信息；

对所述预设语言信息进行解析转换，得到XML文档信息；

11.根据权利要求1所述的一种数据处理方法，其特征在于，所述方法还包括显示标签属性作业界面的步骤，该步骤包括：

响应于所述标签属性确定指令，获取目标位置信息；

12.一种数据处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至11中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法。