CN113111652A

CN113111652A - 数据处理方法、装置及计算设备

Info

Publication number: CN113111652A
Application number: CN202010050687.5A
Authority: CN
Inventors: 陈梦喆; 陈谦; 李博
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-07-13
Anticipated expiration: 2040-01-13
Also published as: CN113111652B

Abstract

本申请实施例提供一种数据处理方法、装置及计算设备。所述方法包括：将采集获得的用户语音进行语音识别，转换为语音识别文本；确定所述语音识别文本切分获得的多个元素；利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理；根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本。其中，文本处理模型基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签训练获得。本申请实施例的技术方案降低了计算量，提高了处理准确度。

Description

数据处理方法、装置及计算设备

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、装置及计算设备。

背景技术

在实际应用中，存在对一个数据对象进行不同分类处理的需求，以获得符合期望要求的数据对象，如在自然语言处理领域中，往往存在对文本或者语音等不同处理的需求。

目前的数据处理方式，以语音转写场景为例下，语音识别获得的文本往往不带标点、且包含一些语气词导致语句不顺畅，数字也通常为中文数字而非阿拉伯数字等问题，直接输出语音识别文本，会影响用户体验，提高阅读成本，因此需要对语音识别文本进行文本处理，也称为后处理。由于语音识别文本存在多种问题，目前，对语音识别文本进行后处理往往需要多个处理模型实现，例如利用顺滑模型首先对语音识别文本进行顺滑处理，进行顺滑之后的文本再利用标点模型添加标点符号，添加标点符号之后的文本再进行反文本规范化处理，最终得到目标文本。

然而，这种数据处理方式，处理链路长、计算量大，而且处理结果也不够准确。

发明内容

本申请实施例提供一种数据处理方法、装置及计算设备，用以解决现有技术中计算量大、且处理结果准确性低的技术问题。

第一方面，本申请实施例中提供了一种数据处理方法，包括：

将采集获得的用户语音进行语音识别，转换为语音识别文本；

确定所述语音识别文本切分获得的多个元素；

利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理；

根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

输出所述目标文本。

第二方面，本申请实施例中提供了一种数据处理方法，包括：

采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

获取所述服务端发送所述目标文本；

显示所述目标文本。

第三方面，本申请实施例中提供了一种数据处理方法，包括：

将待处理语音输入语音处理模型；

利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理；

根据所述待处理语音对应所述多个任务类型的任务处理结果，获得目标语音；

输出所述目标语音。

第四方面，本申请实施例中提供了一种数据处理方法，包括：

将待处理文本输入语音合成模型；

利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处理；

根据所述待处理文本对应所述多个任务类型的任务处理结果，获得目标语音；

输出所述目标语音。

第五方面，本申请实施例中提供了一种数据处理方法，包括：

将待处理文本输入语音合成模型；

利用所述语音合成模型对所述待处理文本分别执行至少一组任务处理；其中，每一组任务处理对应多个任务类型；

根据所述待处理文本对应每一组中的多个任务类型的任务处理结果，获得每一组任务处理对应的目标语音；

分别输出至少一个目标语音。

第六方面，本申请实施例中提供了一种数据处理方法，包括：

确定待处理文本切分获得的多个元素；

根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述待处理文本对应的目标文本。

第七方面，本申请实施例中提供了一种数据处理方法，包括：

确定训练样本切分获得的多个样本元素；

确定所述多个样本元素分别对应多个任务类型的训练标签；

利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型；

其中，所述文本处理模型用于对待处理文本切分获得的多个元素，分别执行多个任务类型的任务处理；其中，根据每个元素分别对应所述多个任务类型的任务处理结果，用于获得所述待处理文本对应的目标文本。

第八方面，本申请实施例中提供了一种数据处理装置，包括：

语音识别模块，用于将采集获得的用户语音进行语音识别，转换为语音识别文本；

第一确定模块，用于确定所述语音识别文本切分获得的多个元素；

第一处理模块，用于利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理；

第二处理模块，用于根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

第一输出模块，用于输出所述目标文本。

第九方面，本申请实施例中提供了一种数据处理装置，包括：

语音采集模块，用于采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

文本获取模块，用于获取所述服务端发送所述目标文本；

文本显示模块，用于显示所述目标文本。

第十方面，本申请实施例中提供了一种数据处理装置，包括：

第三处理模块，用于将待处理语音输入语音处理模型；利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理；

第四处理模块，用于根据所述用户语音对应所述多个任务类型的任务处理结果，获得目标语音；

第二输出模块，用于输出所述目标语音。

第十一方面，本申请实施例中提供了一种数据处理装置，包括：

第五处理模块，用于将待处理文本输入语音合成模型；利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处理；

第六处理模块，用于根据所述待处理文本对应所述多个任务类型的任务处理结果，获得目标语音；

第三输出模块，用于输出所述目标语音。

第十二方面，本申请实施例中提供了一种数据处理装置，包括：

第七处理模块，用于将待处理文本输入语音合成模型；利用所述语音合成模型对所述待处理文本分别执行至少一组任务处理；其中，每一组任务处理对应多个任务类型；

第八处理模块，用于根据所述待处理文本对应每一组中的多个任务类型的任务处理结果，获得每一组任务处理对应的目标语音；

第四输出模块，用于输出至少一个目标语音。

第十三方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行；

所述处理组件用于：

确定所述语音识别文本切分获得的多个元素；

输出所述目标文本。

第十四方面，本申请实施例中提供了一种电子设备，包括处理组件、显示组件、采集组件以及存储组件；

所述处理组件用于：

利用所述采集组件采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

获取所述服务端发送所述目标文本；

在所述显示组件中显示所述目标文本。

第十五方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述处理组件用于：

将待处理语音输入语音处理模型；

根据所述用户语音对应所述多个任务类型的任务处理结果，获得目标语音；

输出所述目标语音。

第十六方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述处理组件用于：

将待处理文本输入语音合成模型；

输出所述目标语音。

第十七方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述处理组件用于：

将待处理文本输入语音合成模型；

输出至少一个目标语音。

本申请实施例中，对待处理对象，如文本、或者语音等，利用相应的处理模型分别执行多个任务类型的任务处理，根据待处理对象分别对应所述多个任务类型的任务处理结果，可以获得目标对象，如文本或者语音等。而处理模型预先基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据对应多个任务类型的任务处理结果，可以对数据对象进行综合处理，既简化了处理链路，降低了计算量，且通过综合处理，保证了处理结果准确性。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种数据处理方法一个实施例的流程图；

图2示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图3示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图4示出了本申请实施例在一个实际应用中的文本处理模型的结构示意图；

图5示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图6a示出了本申请实施例在一个实际应用中的文本显示示意图；

图6b示出了本申请实施例在又一个实际应用中的文本显示示意图；

图7示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图8示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图9示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图10示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图11示出了本申请提供的一种数据处理装置一个实施例的结构示意图；

图12示出了本申请提供的一种计算设备一个实施例的结构示意图；

图13示出了本申请提供的一种数据处理装置又一个实施例的结构示意图；

图14示出了本申请提供的一种电子设备一个实施例的结构示意图；

图15示出了本申请提供的一种数据处理装置又一个实施例的结构示意图；

图16示出了本申请提供的一种计算设备又一个实施例的结构示意图；

图17示出了本申请提供的一种数据处理装置又一个实施例的结构示意图；

图18示出了本申请提供的一种计算设备又一个实施例的结构示意图；

图19示出了本申请提供的一种数据处理装置又一个实施例的结构示意图；

图20示出了本申请提供的一种计算设备又一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以适用于各种数据处理场景下，针对存在多种缺陷问题需要进行处理的数据对象，例如语音转写场景、文本处理场景、文本转语音场景、语音转语音场景等。。

以语音识别文本为例，由于直接进行ASR(Automatic Speech Recognition，自动语音识别)处理获得的语音识别文本存在至少以下几个问题：未加标点符号、包含影响语句顺畅的词语、未采用标准格式表示日期、时间、地址或者金额等，从而影响用户阅读，因此至少需要对语音识别文本进行顺滑处理、添加标点以及进行ITN(Inverse TextNormalization，反文本规范化)处理等后处理操作。而正如背景技术中所述，目前对语音识别文本进行不同处理，采用不同处理模型实现，每个处理模型需要单独训练获得，且对语音识别文本进行不同处理是链路执行，例如会首先利用顺滑模型对语音识别文本进行顺滑处理，进行顺滑之后的文本再利用标点模型添加标点符号，添加标点符号之后的文本再进行ITN处理，最终得到目标文本。而发明人在实现本发明的过程中发现，每个处理模型进行处理时需要的信息往往是重复的，且分别由多个不同处理模型进行处理，导致整体处理链路变长，增加了计算量，且不同处理方式之间可能是相互依赖的，比如没有进行顺滑处理的文本添加标点时会产生更多歧义，而没有添加标点之前进行顺滑处理，某些词语也无法确定是否需要被顺滑掉，从而导致最终的处理结果并不准确，而影响目标文本的准确性。

为了降低计算量且提高处理结果的准确性，发明人经过一系列研究提出了本申请的技术方案，在本申请实施例中，对待处理对象，如文本、或者语音等，利用相应的处理模型分别执行多个任务类型的任务处理，根据待处理对象分别对应所述多个任务类型的任务处理结果，可以获得目标对象，如文本或者语音等。而处理模型预先基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据对应多个任务类型的任务处理结果，可以对数据对象进行综合处理，既简化了处理链路，降低了计算量，且通过综合处理，保证了处理结果准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种数据处理方法一个实施例的流程图，该方法可以包括以下几个步骤：

101：将待处理对象输入处理模型；

102：利用所述处理模型对所述待处理对象分别执行多个任务类型的任务处理。

其中，该处理模型可以预先基于训练样本以及训练样本对应多个任务类型的训练标签训练获得，使得处理模型可以同时对待处理对象进行多个任务类型的任务处理。

103：根据所述待处理对象分别对应所述多个任务类型的任务处理结果，获得所述待处理对象对应的目标对象。

其中，根据所述待处理对象分别对应所述多个任务类型的任务处理结果，可以对待处理对象进行综合，从而获得目标对象。

本实施例中，本处理模型预先基于训练样及训练样本分别对应所述任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据待处理对象对应多个任务类型的任务处理结果，可以对待处理对象进行综合处理，从而获得目标对象，既简化了处理链路，降低了计算量，且通过综合处理，保证了不同任务类型之间的逻辑关联性，提高了处理结果准确性。

实际应用中，待处理对象可以是指文本或者语音等，而目标对象可以是指文本或者语音等，从而本申请实施例技术方案可以适用于对文本转文本、语音转语音、文本转文本等处理场景下，下面几个实施例会分别从不同处理场景对本申请技术方案进行描述。

图2为本申请实施例提供的一种数据处理方法又一个实施例的流程图，该方法可以包括以下几个步骤：

201：确定待处理文本切分获得的多个元素。

其中，该多个元素可以是通过对待处理文本进行分词或者分字获得，因此每个元素可以是指词或者单字。

其中，该待处理文本可以为语音识别文本。

202：利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理。

其中，该文本处理模型可以基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签，训练获得，使得文本处理模型可以同时对每个元素分别进行多个任务类型的任务处理。文本处理模型的具体训练方式在下文相应实施例中会详细进行介绍。

203：根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述待处理文本对应的目标文本。

利用文本处理模型可以获得每个元素对应每个任务类型的任务处理结果，从而根据每个元素对应每个任务类型的任务处理结果，对每个元素进行综合处理，即可以获得最终的目标文本。

其中，每个任务类型的任务处理结果可以包括是否进行该任务类型的任务处理，此外还可以包括处理方式等。例如任务类型为顺滑处理，某个元素的任务处理结果可以为是否进行顺滑处理的判断结果，基于判断结果若确定进行顺滑处理，则可以将该元素删除等。

因此，可选地，所述根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述待处理文本对应的目标文本可以包括：

结合每个元素分别对应所述多个任务类型的任务处理结果，对每个元素进行综合处理，获得所述待处理文本对应的目标文本。

在本实施例中，文本处理模型预先基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据每个元素分别对应多个任务类型的任务处理结果，可以对每个元素进行综合处理，从而获得目标文本，既简化了处理链路，降低了计算量，且通过综合处理，保证了不同任务类型之间的逻辑关联性，提高了处理结果准确性。

其中，该待处理文本可以是对采集获得用户语音识别转换获得的语音识别文本，在实际应用中，存在很多语音转写为文本的情况，例如目前的即时通信场景中，通信双方可以互相发送语音消息，在不方便收听语音消息的情况下，可以将语音消息转换为文本，此时即需要进行语音识别；又如，目前各种搜索引擎可以支持语音输入，再转写为文本进行搜索；又如，输入法软件也可以支持语音输入并实时转写为文本进行显示等，在这些语音转写为文本的场景下，由于语音识别文本往往存在很多不同类型的缺陷问题需要解决，因此采用本申请技术方案，可以提高转写文本的准确度，且可以降低计算量。如图3中所示，为本申请实施例提供的一种数据处理方法又一个实施例的流程图，该方法可以包括以下几个步骤：

301：将采集获得的用户语音进行语音识别，转换为语音识别文本。

本实施例的技术方案可以由语音采集的客户端执行，也可以由服务端执行。

302：确定所述语音识别文本切分获得的多个元素。

303：利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理。

304：根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本。

305：输出所述目标文本。

其中，可选地，输出所述目标文本可以是在语音转写页面中显示所述目标文本。

语音转写页面例如可以为消息列表页面或者输入法软件的输入框页面等。

在某些实施例中，所述根据每个元素分别对应所述多个任务类型的任务处理结果，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本可以包括：

结合每个元素分别对应所述多个任务类型的任务处理结果，按照所述多个任务类型对应的冲突处理规则，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本。

由于不同任务类型之间可能会存在处理冲突，比如对语音识别文本进行处理时，包括顺滑处理、标点处理以及ITN处理等，如果某个元素需要被顺滑掉，则就无需进行ITN处理，若该元素为文本中的第一个元素，也无需进行标点处理等，因此可以预先配置多个任务类型之间的冲突处理规则，该冲突处理规则例如可以包括多个任务类型之间的处理优先级或者处理顺序等等。

在一个实际应用中，该多个任务类型可以包括：顺滑任务、标点任务及反文本规范化ITN任务。

因此，在某些实施例中，所述利用所述文本处理模型对所述多个元素分别执行多个任务类型的任务处理包括：

利用所述文本处理模型分别对所述多个元素判断是否进行顺滑处理、是否进行ITN处理、以及待添加的标点类型；

所述根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本包括：

根据每个元素是否进行顺滑处理的判断结果、是否进行ITN处理的判断结果以及所述标点类型，对每个元素进行顺滑处理、添加所述标点类型和/或按照对应ITN规则进行转换，获得所述语音识别文本对应的目标文本。

其中，基于是否进行顺滑处理的判断结果，若确定进行顺滑处理，则需要将该元素从文本中删除，若不进行顺滑处理，则该元素保留；基于是否进行ITN处理的判断，若确定进行ITN处理，则可以按照ITN规则对该元素进行转换，若不进行ITN处理，则无需对该元素进行转换；添加的标点类型例如可以包括逗号、句号、问号、感叹号以及无标点，因此根据标点类型可以确定该元素后面所需要添加的标点符号等。

文本处理模型可以对每个元素分别进行顺滑任务、标点任务及反文本规范化ITN任务的处理，任务处理结果即包括是否进行顺滑处理的判断结果、是否进行ITN处理的判断结果以及待添加的标点类型。

文本处理模型可以分别计算进行顺滑处理以及不进行顺滑处理的概率，进行ITN处理以及不进行ITN处理的概率，以多种标点类型对应概率，从而基于相应概率值，可以确定是否进行顺滑处理、是否进行ITN处理、以及待添加的标点类型。

由于上文描述可知，不同任务类型之间可能存在处理冲突。因此，在某些实施例中，

根据每个元素是否进行顺滑处理的判断结果、是否进行ITN处理的判断结果以及所述标点类型，按照所述多个任务类型对应的冲突处理规则，对每个元素进行顺滑处理、添加所述标点类型和/或按照对应ITN规则进行转换，获得所述语音识别文本对应的目标文本。

该冲突处理规则可以包括多个任务类型的任务处理结果的处理优先级或者处理顺序等等。

例如顺滑任务的任务处理结果优先级高于标点任务及ITN任务，若文本处理模型判断某个元素需要进行顺滑处理，则可以无需进行ITN处理以及添加标点符号等。而每个元素均需要执行标点任务以及ITN任务的任务处理结果等。

当然，冲突处理规则可以结合实际应用情况，以及任务类型的种类进行确定，本申请对此不进行具体限制。

在某些实施例中，所述利用所述文本处理模型对所述多个元素分别执行多个任务类型的任务处理可以包括：

将所述多个元素作为输入序列输入所述文本处理模型；

利用所述文本处理模型对所述输入序列进行编码获得所述多个元素的元素向量，使得每个元素的元素向量包含剩余元素的元素信息；

对所述多个元素的元素向量分别执行多个任务类型的任务处理。

其中，文本处理模型可以采用神经网络模型实现，例如可以为RNN(RecurrentNeural Network，循环神经网络)模型，此外，为了可以学习元素之间的关联性，可选地，该文本处理模型可以选用transformer模型(谷歌提出的一种神经网络模型)实现。文本处理模型可以由输入层、至少一个中间层以及输出层构成，至少一个中间层可以为transformer层，其中，至少一个transformer层中可以包括Self-Attention(自注意力)层和Point-wise(全连接)前馈网络层。

其中，输入层可以将输入序列中多个元素分别编码为embedding向量，再经由至少一个transformer层学习不同元素之间的关联性，获得每个元素的元素向量，此时每个元素的元素向量即包含剩余元素的元素信息，每个元素的元素向量再经由输出层进行多个任务类型的处理，即可以获得每个元素对应不同任务类型的任务处理结果。

其中，文本处理模型可以为一种前馈神经网络，每一层都包含若干神经元，用于进行不同元素处理等。

为了方便理解，如图4中示出了一种transformer模型在一个实际应用中的结构示意图，假设语音识别文本为“呃我十岁”，分字处理获得4个单字，经过输入层进行embedding处理可以获得4个单字分别对应的embedding向量，4个embedding向量分别经由至少一个transformer层处理，每一个transformer层都会综合学习4个单字之间的关联性，最终获得4个单字的字向量，使得每个字向量都会包含其它字的字信息。4个字向量输入输出层，进行多个任务类型的任务处理，假设包括三个任务：顺滑任务、标点任务以及ITN任务，即可以得到每个单字对应三个任务类型的任务处理结果。假设任务处理结果中，判断单字“呃”需要进行顺滑处理，需要添加“逗号”标点符号，不需要进行ITN处理；单字“我”、“十”判断不需要进行顺滑处理，不添加标点符号、不需要进行ITN处理；单字“岁”判断不需要进行顺滑处理，添加“句号”标点符号、不需要进行ITN处理。则结合冲突处理规则，“呃”字进行顺滑处理且无需再添加标点符号，最终得到的目标文本即为“我十岁。”

由上文描述可知，文本处理模型可以基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签，训练获得。

也即每个样本元素对应每个任务类型都会设置训练标签，下面从模型训练角度对本申请技术方案进行描述，图5为本申请实施例提供的一种数据处理方法又一个实施例的流程图，该方法可以包括以下几个步骤：

501：确定训练样本切分获得的多个样本元素。

可选地，所述确定训练样本切分获得的多个样本元素可以包括：

确定对训练样本进行分词或者分字处理获得的多个样本元素。

502：确定所述多个样本元素分别对应多个任务类型的训练标签。

其中，每个样本元素对应每个任务类型都会设置对应的训练标签。

例如以多个任务类型包括顺滑任务、标点任务以及ITN任务为例。对于某个样本元素其对应顺滑任务的训练标签可以为进行顺滑处理或者不进行顺滑处理，对应标点任务的训练标签可以为元素后添加的标点符号，如句号或者逗号等，对应ITN任务的训练标签可以为进行ITN处理或者不进行ITN处理。从而使得文本处理模型对待处理文本进行处理时，可以获得待处理文本中每个元素对应每个任务类型的任务处理结果。

503：利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型。

其中，所述文本处理模型用于对待处理文本切分获得的多个元素，分别执行多个任务类型的任务处理；其中，基于每个元素分别对应所述多个任务类型的任务处理结果，用于获得所述待处理文本对应的目标文本。

利用文本处理模型对待处理文本进行处理的具体操作可以详见图1所示实施例，在此不再赘述。

本实施例中，文本处理模型预先基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据每个元素分别对应多个任务类型的任务处理结果，可以对每个元素进行综合处理，从而获得目标文本，既简化了处理链路，降低了计算量，且通过综合处理，保证了不同任务类型之间的逻辑关联性，提高了处理结果准确性。

该文本处理模型可以为一种前馈神经网络，在某些实施例中，所述利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型可以包括:

将所述多个样本元素输入所述文本处理模型，获得所述多个样本元素分别对应所述多个任务类型的实际处理结果；

基于每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签的比较结果，对所述文本处理模型进行参数优化。

也即将每个样本元素对应每个任务类型的实际处理结果与训练标签进行比较，获得比较结果。实际处理结果通常为小于1的概率值，训练标签对应的概率值为0或1，为期望处理结果，通过与训练标签进行比较，可以获得差值，即为比较结果。

基于比较结果可以对文本处理模型进行参数优化，直至实际处理结果与训练标签对应的期望处理结果满足优化条件。

可选地，所述基于每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签的比较结果，对所述文本处理模型进行参数优化包括：

将所述每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签进行比较，获得对应所述多个任务类型的比较值；

将每个样本元素对应的多个比较值进行加权处理，获得每个样本元素对应的回传数值；

利用每个样本元素对应的回传数值，对所述文本处理模型进行参数优化。

由于每个样本元素会进行多个任务类型的任务处理，因此，对应每个任务类型都会获得一个比较值，其中比较值也即是指实际处理结果与训练标签对应期望处理结果的差值。因此可以将每个样本元素对应的多个比较值进行加权处理，获得每个样本元素的回传数值。

其中，可以基于每个样本元素对应的回传数值，对所述文本处理模型进行参数优化，直至每个样本元素对应每个任务类型的实际处理结果与训练标签对应的期望处理结果满足优化条件，例如比较值小于一定数值等。

由前文描述可知，在一个实际应用中，本申请的技术方案可以应用于语音转写场景下，对采集获得的用户语音识别获得的语音识别文本进行处理，为了方便理解如图6a中示出了一种在消息列表页面将语音消息转写为文本的一种显示示意图，对用户语音首先进行ASR识别获得ASR结果，再将ASR结果采用本申请的技术方案转换为目标文本输出。

如图6b中示出了在输入法软件的输入框页面中将实时采集语音转写为文本的一种显示示意图，对用户语音首先进行ASR识别获得ASR结果，再将ASR结果采用本申请的技术方案转换为目标文本输出。

当然，图6a～图6b仅是举例说明本申请技术方案可能应用的场景，可以理解的是本申请并不仅限定于此，通过本申请实施例的技术方案可以实现对语音识别文本的准确处理，提高语音转化获得的文本的准确度，且可以降低计算量。

此外，由于不同用户可能对语音识别文本有不同的处理需求，在某些实施例中，所述利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理可以包括：

根据所述用户的用户特征，确定对应的多个任务类型；

利用文本处理模型对所述多个元素分别执行所述多个任务类型的任务处理。

从而针对不同用户可以实现个性化的任务处理。其中，用户特征例如可以包括历史阅读习惯、以及年龄、性别等属性信息，也可以结合实际需求对对用户进行用户画像获得，本申请不对此进行限定。

图7为本申请提供的一种数据处理方法又一个实施例的流程图，该方法可以包括以下几个步骤：

701：采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

702：获取所述服务端发送所述目标文本；

703：显示所述目标文本。

本实施例从用户语音由客户端采集角度对本申请技术方案进行的描述，服务端对用户语音进行处理可以详见图3所示实施例，在此不再赘述。

图8为本申请实施例提供的一种数据处理方法又一个实施例的实施例，本实施例适用于语音转语音的处理场景，该方法可以包括以下几个步骤：

801：将待处理语音输入语音处理模型。

802：利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理。

其中，该语音处理模型可以基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签，训练获得。该训练样本可以具体是指训练语音等。

多个任务类型例如可以包括语言转换、语气转换、口语或者标准语转换等。

803：根据所述待处理语音对应所述多个任务类型的任务处理结果，获得目标语音。

根据待处理语音对应多个任务类型的任务处理结果，可以对待处理语音进行综合处理，从而获得目标语音。

例如，根据待处理语音对应多个任务类型的任务处理结果可以确定是否转换语言、是否增加语气词、是否转换为口语表达或者标准语表达等等，从而进一步的再对待处理语音进行综合处理，获得目标语音。

804：输出所述目标语音。

在本实施例中，语音处理模型预先基于训练样本及训练样本对应多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据待处理语音分别对应多个任务类型的任务处理结果，可以对待处理语音进行综合处理，从而获得目标文本，既简化了处理链路，降低了计算量，且通过综合处理，保证了不同任务类型之间的逻辑关联性，提高了处理结果准确性。

在某些实施例中，所述利用所述语音处理模型对所述待处理语音执行多个任务类型的任务处理包括：

确定所述待处理语音对应的语音场景类型，以及确定所述语音场景类型对应的多个任务类型；

利用所述语音处理模型对所述待处理语音执行所述多个任务类型的任务处理。

其中，语音场景类型例如可以包括新闻播报类场景、教育培训场景、下乡宣传场景等等。

对于新闻播报类场景，希望可以将待处理语音转化为标准化语音，例如不包含口语化表达、不包含方言词汇，语气严肃等。

对于教育培训场景，希望可以将待处理语音转换为针对性语音，例如语气温和、个别词语需要添加拖音等等。

对于下乡宣传场景，希望可以将待处理语音转换为更加人性化的表达，例如个别词语采用口语化表达、语气幽默等等。

不同语音场景类型可以预先设置对应的多个任务类型等。

此外，所述输出所述目标语音可以包括：

在用户设备中播放所述目标语音。

可选地，图8所述实施例的技术方案可以由用户设备执行，当然也可以由服务端执行，并将目标语音发送至用户设备进行播放。

在一个实际应用中，该用户设备例如可以是指智能音箱、电视、或者具备音箱功能的其它设备等，待处理语音相应都可以来自于信号源发送的或者网络端传输的。

在某些实施例中，所述利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理包括：

确定所述用户设备对应的用户特征，以及所述用户特征对应的多个任务类型；

其中，将待处理语音输入语音处理模型可以包括：

获取传输至所述用户设备的待处理语音；

将所述待处理语音输入语音处理模型。

可以是信号源或者网络端传输至用户设备的待处理语音，可选地，可以是依据用户请求，从信号源或者网络端获取用户请求的待处理语音等。

基于不同用户特征对应的多个任务类型，可以实现不同用户的个性化处理，对于同一个待处理语音可以向不同用户输出不同目标语音。比如，待处理语音为新闻播报声音，可以结合用户籍贯等信息，将待处理语音转换为相应的方言语音，以方便用户收听，提高用户体验等。

图9为本申请实施例提供的一种数据处理方法又一个实施例的流程图，本实施例的技术方案适用于文本转语音(英文：Text To Speech，简称：TTS)的处理场景，该方法可以包括以下几个步骤：

901：将待处理文本输入语音合成模型。

902：利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处理。

其中，该语音合成模型可以基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签，训练获得。该训练样本即可以是指训练文本。

多个任务类型例如可以包括文本分析、语音合成、音质清晰度、音质自然度、音质连贯性等。

其中，文本分析可以包括分词处理等，语音合成可以包括将文本的语言学描述转化为言语波形，音质清晰度可以是指正确听辨有意义词语的百分率；音质自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；音质连贯性用来评价合成语句是否流畅等。

903：根据所述待处理文本对应所述多个任务类型的任务处理结果，获得目标语音。

根据待处理文本对应所述多个任务类型的任务处理结果，对待处理文本进行综合处理，即可以获得目标语音。

904：输出所述目标语音。

在实际应用中，例如即时通信场景下，对于即时通信消息为文本类消息，而用户不方便阅读时，则可以采用本实施例技术方案转换为语音。

输出目标语音可以是在用户设备中输出目标语音。

待处理文本可以是用户设备依据用户请求而确定的文本。图9所示实施例的技术方案可以由用户设备执行，当然，也可以由用户设备将待处理文本发送至服务端由服务端执行，服务端再将目标语音发送至用户设备，由用户设备播放该目标语音。

本实施例中，语音合成模型预先基于训练样本及训练样本对应多个任务类型的训练标签训练获得，使得可以同时进行多任务并行处理，根据待处理文本分别对应多个任务类型的任务处理结果，可以对待处理文本进行综合处理，从而获得目标语音，既简化了处理链路，降低了计算量，且通过综合处理，保证了不同任务类型之间的逻辑关联性，提高了处理结果的准确性。

在某些实施例中，所述利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处包括：

获取用户特征，确定所述用户特征对应的多个任务类型；

利用所述语音合成模型对所述待处理文本执行所述多个任务类型的任务处理。

从而可以实现针对不同用户进行个性化处理等。

所述利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处可以包括：

确定所述待处理文本对应的使用场景；

根据所述使用场景类型，确定对应的多个任务类型；

其中，使用场景类型例如可以包括新闻播报类场景、教育培训场景等，从而任务类型中还可以包括语气处理、语言处理等，以实现满足不同使用场景需求。

此外，对于同一个文本，可能存在多种TTS需求，因此，如图10所述，为本申请实施例提供的一种数据处理方法又一个实施例的流程图，该方法可以包括以下几个步骤：

1001：将待处理文本输入语音合成模型。

1002：利用所述语音合成模型对所述待处理文本分别执行至少一组任务处理；其中，每一组任务处理对应多个任务类型。

其中，每一组任务处理对应的任务类型可以不同。

1003：根据所述待处理文本对应每一组中的多个任务类型的任务处理结果，获得每一组任务处理对应的目标语音。

其中，每一组任务处理过程可以详见图9所示实施例，再次不再赘述。

1004：分别输出至少一个目标语音。

通过输出至少一个目标语音可以满足不同用户需求，比如双语声音输出需求等等。

分别输出至少一个目标语音可以是在用户设备中分别播放该至少一个目标语音。用户设备例如可以是手机等便携式终端等。

图10所示实施例的技术方案可以由用户设备执行或者与用户设备互通的服务端执行，由服务端执行时，可以是由用户设备将待处理文本发送至服务端，服务端再将获得至少一个目标语音发送至用户设备，由用户设备播放。

其中，所述利用所述语音合成模型对所述待处理文本分别执行至少一组任务处理可以包括：

获取用户特征，确定所述用户特征对应的处理需求；

根据所述处理需求，确定至少一组任务；

利用所述语音合成模型对所述待处理文本按照所述至少一组任务中的任务类型分别执行任务处理。当然，也可以结合待处理文本的使用场景类型，确定至少一组任务。而每一组任务中分别可以包括多个任务类型。

图11为本申请实施例提供的一种数据处理装置一个实施例的结构示意图，该装置可以包括：

语音识别模块1101，用于将采集获得的用户语音进行语音识别，转换为语音识别文本；

第一确定模块1102，用于确定所述语音识别文本切分获得的多个元素；

第一处理模块1103，用于利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理；

第二处理模块1104，用于根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

第一输出模块1105，用于输出所述目标文本。在某些实施例中，所述文本处理模型基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签，训练获得。

在某些实施例中，所述第二处理模块具体用于根据每个元素分别对应所述多个任务类型的任务处理结果，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本。

在某些实施例中，所述第二处理模块具体用于结合每个元素分别对应所述多个任务类型的任务处理结果，按照所述多个任务类型对应的冲突处理规则，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本。

在某些实施例中，所述多个任务类型包括顺滑任务、标点任务及反文本规范化ITN任务；所述第一处理模块具体用于利用所述文本处理模型分别对所述多个元素判断是否进行顺滑处理、是否进行ITN处理、以及待添加的标点类型；

所述第二处理模块具体用于根据每个元素是否进行顺滑处理的判断结果、是否进行ITN处理的判断结果以及所述标点类型，对每个元素进行顺滑处理、添加所述标点类型和/或按照对应ITN规则进行转换，获得所述语音识别文本对应的目标文本。

在某些实施例中，所述第一确定模块具体用于确定语音识别文本进行分词或分字处理获得的多个元素。

在某些实施例中，所述第一处理模块具体用于将所述多个元素作为输入序列输入所述文本处理模型；利用所述文本处理模型对所述输入序列进行编码获得所述多个元素的元素向量，使得每个元素的元素向量包含剩余元素的元素信息；对所述多个元素的元素向量分别执行多个任务类型的任务处理。

该装置还可以包括：

模型训练模块，用于确定训练样本切分获得的多个样本元素；确定所述多个样本元素分别对应所述多个任务类型的训练标签；利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型。

在某些实施例中，所述模型训练模块利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型包括:将所述多个样本元素输入所述文本处理模型，获得所述多个样本元素分别对应所述多个任务类型的实际处理结果；基于每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签的比较结果，对所述文本处理模型进行参数优化。

在某些实施例中，所述模型训练模块基于每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签的比较结果，对所述文本处理模型进行参数优化包括：将所述每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签进行比较，获得对应所述多个任务类型的比较值；将每个样本元素对应的多个比较值进行加权处理，获得每个样本元素对应的回传数值；利用每个样本元素对应的回传数值，对所述文本处理模型进行参数优化。

在某些实施例中，所述模型训练模块确定训练样本切分获得的多个样本元素包括：确定对训练样本进行分词或者分字处理获得的多个样本元素。

其中，在一个实际应用中，语音识别文本为语音识别文本时，所述第一确定模块具体用于确定语音识别文本切分获得的多个元素；

所述第二处理模块具体用于根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本。

图11所述的数据处理装置可以执行图3所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图11所示实施例的数据处理装置可以实现为一计算设备，如图12中所示，该计算设备可以包括存储组件1201以及处理组件1202；

所述存储组件1201存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件1202调用执行。

所述处理组件1202用于：

确定所述语音识别文本切分获得的多个元素；

输出所述目标文本。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

如在本文所使用的，“计算设备”可以是远程服务器、服务器、计算机联网设备、芯片组、台式计算机、笔记本式计算机、工作站，或任何其他处理设备或者装备。

其中，该计算设备可以为远程服务器，上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图3所示实施例的数据处理方法。

图13为本申请实施例提供的一种数据处理装置一个实施例的结构示意图，该装置可以包括：

语音采集模块1301，用于采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

文本获取模块1302，用于获取所述服务端发送所述目标文本；

文本显示模块1303，用于显示所述目标文本。

图13所述的数据处理装置可以执行图7所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图13所示实施例的数据处理装置可以实现为一电子设备，如图14中所示，该电子设备可以包括存储组件1401、处理组件1402、采集组件1403以及显示组件1403；

所述存储组件1401存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件1402调用执行。

所述处理组件1402用于：

利用所述采集组件1403采集用户语音并将所述用户语音发送至服务端，以供所述服务端将所述用户语音进行语音识别转换为语音识别文本，并确定所述语音识别文本切分获得的多个元素，利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理，以及根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本；

获取所述服务端发送所述目标文本；

在所述显示组件1404中显示所述目标文本。

其中，该显示组件可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。

则处理组件输出所述目标文本可以是通过所述显示组件显示所述目标文本。

当然，电子设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图7所示实施例的数据处理方法。

图15为本申请实施例提供的数据处理装置又一个实施例的结构示意图，该装置可以包括：

第三处理模块1501，用于将待处理语音输入语音处理模型；利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理；

第四处理模块1502，用于根据所述用户语音对应所述多个任务类型的任务处理结果，获得目标语音；

第二输出模块1503，用于输出所述目标语音。

图15所述的数据处理装置可以执行图8所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图15所示实施例的数据处理装置可以实现为一计算设备，如图16中所示，该计算设备可以包括存储组件1601以及处理组件1602；

所述存储组件1601存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件1602调用执行。

所述处理组件1602用于：

将待处理语音输入语音处理模型；

输出所述目标语音。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图8所示实施例的数据处理方法。

图17为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图，该装置可以包括：

第五处理模块1701，用于将待处理文本输入语音合成模型；利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处理；

第六处理模块1702，用于根据所述待处理文本对应所述多个任务类型的任务处理结果，获得目标语音；

第三输出模块1703，用于输出所述目标语音。

图17所述的数据处理装置可以执行图9所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图17所示实施例的数据处理装置可以实现为一计算设备，如图18中所示，该计算设备可以包括存储组件1801以及处理组件1802；

所述存储组件1801存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件1602调用执行。

所述处理组件1802用于：

将待处理文本输入语音合成模型；

输出所述目标语音。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图9所示实施例的数据处理方法。

图19为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图，该装置可以包括：

第七处理模块1901，用于将待处理文本输入语音合成模型；利用所述语音合成模型对所述待处理文本分别执行至少一组任务处理；其中，每一组任务处理对应多个任务类型；

第八处理模块1902，用于根据所述待处理文本对应每一组中的多个任务类型的任务处理结果，获得每一组任务处理对应的目标语音；

第四输出模块1903，用于输出至少一个目标语音。

图19所述的数据处理装置可以执行图10所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图19所示实施例的数据处理装置可以实现为一计算设备，如图20中所示，该计算设备可以包括存储组件2001以及处理组件2002；

所述存储组件2001存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件2002调用执行。

所述处理组件2002用于：

将待处理文本输入语音合成模型；

输出至少一个目标语音。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图10所示实施例的数据处理方法。

其中，上文所述各个实施例中，处理组件可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述语音识别文本切分获得的多个元素；

输出所述目标文本。

2.根据权利要求1所述的方法，其特征在于，所述文本处理模型基于训练样本切分获得的多个样本元素及所述多个样本元素分别对应所述多个任务类型的训练标签，训练获得。

3.根据权利要求1所述的方法，其特征在于，所述根据每个元素分别对应所述多个任务类型的任务处理结果，获得所述语音识别文本对应的目标文本包括：

结合每个元素分别对应所述多个任务类型的任务处理结果，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本。

4.根据权利要求3所述的方法，其特征在于，所述结合每个元素分别对应所述多个任务类型的任务处理结果，对每个元素进行综合处理，获得所述语音识别文本对应的目标文本包括：

5.根据权利要求1所述的方法，其特征在于，所述多个任务类型包括顺滑任务、标点任务及反文本规范化ITN任务；

所述利用所述文本处理模型对所述多个元素分别执行多个任务类型的任务处理包括：

6.根据权利要求1所述的方法，其特征在于，所述确定语音识别文本切分获得的多个元素包括：

确定语音识别文本进行分词或分字处理获得的多个元素。

7.根据权利要求1所述的方法，其特征在于，所述利用所述文本处理模型对所述多个元素分别执行多个任务类型的任务处理包括：

将所述多个元素作为输入序列输入所述文本处理模型；

8.根据权利要求2所述的方法，其特征在于，所述文本处理模型具体按照如下方式预先训练获得：

确定训练样本切分获得的多个样本元素；

确定所述多个样本元素分别对应所述多个任务类型的训练标签；

利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型。

9.根据权利要求8所述的方法，其特征在于，所述利用所述多个样本元素及所述多个样本元素各自的训练标签，训练所述文本处理模型包括:

10.根据权利要求9所述的方法，其特征在于，所述基于每个样本元素分别对应所述多个任务类型的实际处理结果与训练标签的比较结果，对所述文本处理模型进行参数优化包括：

11.根据权利要求8所述的方法，其特征在于，所述确定训练样本切分获得的多个样本元素包括：

确定对训练样本进行分词或者分字处理获得的多个样本元。

12.根据权利要求1所述的方法，其特征在于，所述利用文本处理模型对所述多个元素分别执行多个任务类型的任务处理包括：

根据所述用户的用户特征，确定对应的多个任务类型；

13.根据权利1所述的方法，其特征在于，所述将采集获得的用户语音进行语音识别，转换为语音识别文本包括：

接收客户端采集获得的用户语音；

将所述用户语音进行语音识别，转换为语音识别文本；

所述输出所述目标文本包括：

将所述目标文本发送至所述客户端，以在所述客户端的显示界面输出所述目标文本。

14.一种数据处理方法，其特征在于，包括：

获取所述服务端发送所述目标文本；

显示所述目标文本。

15.一种数据处理方法，其特征在于，包括：

将待处理语音输入语音处理模型；

输出所述目标语音。

16.根据权利要求15所述的方法，其特征在于，所述语音处理模型基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签，训练获得。

17.根据权利要求15所述的方法，其特征在于，所述利用所述语音处理模型对所述待处理语音执行多个任务类型的任务处理包括：

18.根据权利要求15所述的方法，其特征在于，所述输出所述目标语音包括：

在用户设备中播放所述目标语音。

19.根据权利要求18所述的方法，其特征在于，所述利用所述语音处理模型对所述用户语音执行多个任务类型的任务处理包括：

20.根据权利要求18所述的方法，其特征在于，所述将待处理语音输入语音处理模型包括：

获取传输至所述用户设备的待处理语音；

将所述待处理语音输入语音处理模型。

21.一种数据处理方法，其特征在于，包括：

将待处理文本输入语音合成模型；

输出所述目标语音。

22.根据权利要求21所述的方法，其特征在于，所述语音合成模型基于训练样本及所述训练样本分别对应所述多个任务类型的训练标签，训练获得。

23.根据权利要求21所述的方法，其特征在于，所述利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处包括：

获取用户特征，确定所述用户特征对应的多个任务类型；

24.根据权利要求21所述的方法，其特征在于，所述利用所述语音合成模型对所述待处理文本执行多个任务类型的任务处包括：

确定所述待处理文本对应的使用场景；

根据所述使用场景类型，确定对应的多个任务类型；

25.根据权利要求21所述的方法，其特征在于，所述输出所述目标语音包括：

在用户设备中播放所述目标语音。

26.一种数据处理方法，其特征在于，包括：

将待处理文本输入语音合成模型；

分别输出至少一个目标语音。

27.一种数据处理方法，其特征在于，包括：

确定待处理文本切分获得的多个元素；

28.一种数据处理方法，其特征在于，包括：

确定训练样本切分获得的多个样本元素；

确定所述多个样本元素分别对应多个任务类型的训练标签；

29.一种数据处理装置，其特征在于，包括：

第一输出模块，用于输出所述目标文本。

30.一种数据处理装置，其特征在于，包括：

文本获取模块，用于获取所述服务端发送所述目标文本；

文本显示模块，用于显示所述目标文本。

31.一种数据处理装置，其特征在于，包括：

第二输出模块，用于输出所述目标语音。

32.一种数据处理装置，其特征在于，包括：

第三输出模块，用于输出所述目标语音。

33.一种数据处理装置，其特征在于，包括：

第四输出模块，用于输出至少一个目标语音。

34.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

确定所述语音识别文本切分获得的多个元素；

输出所述目标文本。

35.一种电子设备，其特征在于，包括处理组件、显示组件、采集组件以及存储组件；

所述处理组件用于：

获取所述服务端发送所述目标文本；

在所述显示组件中显示所述目标文本。

36.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

将待处理语音输入语音处理模型；

输出所述目标语音。

37.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

将待处理文本输入语音合成模型；

输出所述目标语音。

38.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

将待处理文本输入语音合成模型；

输出至少一个目标语音。