CN109036422A

CN109036422A - 一种语音数据的处理方法和装置

Info

Publication number: CN109036422A
Application number: CN201810914328.2A
Authority: CN
Inventors: 武建昌; 苏文畅
Original assignee: iFlytek Co Ltd
Current assignee: Anhui Hear Technology Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2018-12-18

Abstract

本发明实施例提供了一种语音数据的处理方法和装置，所述处理方法包括：获取待处理的原始语音数据；对所述原始语音数据进行语音识别，得到文本数据；接收用户对所述文本数据的编辑操作；依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据；依据所述目标文本数据和所述原始语音数据，确定目标语音数据。通过本发明实施例，解决了以波形图显示语音数据，用户无法感受到语音数据的处理内容，增加了处理难度和降低了语音数据的处理效率的问题，一方面，使得用户可以直观地感受到语音数据的处理内容，另一方面，降低了语音数据的处理难度，提高了语音数据的处理效率。

Description

一种语音数据的处理方法和装置

技术领域

本发明涉及语音信息处理技术领域，特别是涉及一种语音数据的处理方法和一种语音数据的处理装置。

背景技术

随着人工智能技术的进步，语音作为最自然的人机交互方式得到了迅猛发展，使用语音技术的智能产品应用越来越广泛，而语音技术中语音数据处理也越来越重要。

目前对语音数据处理，基本上是将语音数据导入语音处理软件中，先通过语音处理软件将语音数据转换为可视化的波形图，然后在语音处理软件中对波形图进行编辑来对语音数据进行处理。在处理过程中，需要实时播放语音数据以方便用户寻找到需要处理的语音节点，同时用户需要集中精力关注波形图，以获取需要处理的语音节点在波形图中的起始编辑点，然后进行相应的处理操作，一方面，通过波形图用户无法直观感受到语音数据的处理内容，增加了语音数据的处理难度，另一方面，用户需要频繁播放语音数据和集中精力关注波形图确定需要编辑的语音节点，使得语音数据处理变得枯燥繁琐，降低了语音数据的处理效率。

发明内容

本发明实施例公开了一种语音数据的处理方法和一种语音数据的处理装置，以解决现有语音数据的处理中以波形图显示语音数据，用户无法感受到语音数据的处理内容增加了处理难度和降低了语音数据处理效率的问题。

依据本发明的一个方面，提供了一种语音数据的处理方法，包括：

获取待处理的原始语音数据；

对所述原始语音数据进行语音识别，得到文本数据；

接收用户对所述文本数据的编辑操作；

依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据；

依据所述目标文本数据和所述原始语音数据，确定目标语音数据。

可选地，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳，所述依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据，包括：

依据所述编辑操作，对所述文本内容、所述文本时间戳和所述语音时间戳进行编辑得到目标文本数据。

可选地，所述依据所述编辑操作，对所述文本内容、所述文本时间戳和所述语音时间戳进行编辑得到目标文本数据，包括：

从所述文本内容中确定所述编辑操作对应的文本片段；

从所述语音时间戳中获取所述文本片段对应的语音片段时间戳；

从所述文本时间戳中获取所述文本片段对应的文本片段时间戳；

依据所述文本片段、语音片段时间戳、文本片段时间戳以及所述编辑操作对所述文本数据进行编辑，得到目标文本数据。

可选地，所述依据所述文本片段、语音片段时间戳、文本片段时间戳以及所述编辑操作对所述文本数据进行编辑，得到目标文本数据，包括：

依据所述文本片段和所述编辑操作对所述文本内容进行编辑，得到编辑后的文本内容；

依据所述语音片段时间戳、所述文本片段时间戳以及所述编辑操作对所述文本时间戳和所述语音时间戳进行调整，得到目标文本数据。

可选地，所述编辑操作包括复制操作、剪切操作、粘贴操作和删除操作中的至少一项。

可选地，所述依据所述目标文本数据和所述原始语音数据，确定目标语音数据，包括：

依据所述目标文本数据从所述原始语音数据中提取多个语音片段；

采用所述多个语音片段合成目标语音数据。

可选地，所述依据所述目标文本数据从所述原始语音数据中提取多个语音片段，包括：

依据所述目标文本数据中的文本时间戳和语音时间戳，生成语音时序；

依据所述语音时序，从所述原始语音数据中提取多个语音片段。

可选地，所述语音时间戳包括语音片段的开始时间戳和结束时间戳，所述依据所述目标文本数据中的文本时间戳和语音时间戳，生成语音时序，包括：

依据所述文本时间戳的顺序，读取所述目标文本数据中的所有语音片段的开始时间戳和结束时间戳；

将所有语音片段的开始时间戳和结束时间戳作为元素添加到数组中；

删除所述数组中相邻的相同元素，得到语音时序。

可选地，所述依据所述语音时序，从所述原始语音数据中提取多个语音片段，包括：

以两个元素为步长将所述数组分为多个子数组；

以所述子数组中的两个元素分别为语音片段的开始时间和结束时间，将所述原始语音数据划分为多个语音片段；

提取所述多个语音片段。

依据所述目标文本数据中的文本时间戳和所述语音时间戳，生成语音时序；

依据所述语音时序对所述原始语音数据进行处理，得到目标语音数据。

根据本发明的另一方面，提供了一种语音数据的处理装置，包括：

原始语音数据获取模块，用于获取待处理的原始语音数据；

语音识别模块，用于对所述原始语音数据进行语音识别，得到文本数据；

编辑操作接收模块，用于接收用户对所述文本数据的编辑操作；

编辑模块，用于依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据；

目标语音数据确定模块，用于依据所述目标文本数据和所述原始语音数据，确定目标语音数据。

可选地，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳，所述编辑模块包括：

编辑子模块，用于依据所述编辑操作，对所述文本内容、所述文本时间戳和所述语音时间戳进行编辑得到目标文本数据。

可选地，所述编辑子模块包括：

文本片段确定单元，用于从所述文本内容中确定所述编辑操作对应的文本片段；

语音片段时间戳获取单元，用于从所述语音时间戳中获取所述文本片段对应的语音片段时间戳；

文本片段时间戳获取单元，用于从所述文本时间戳中获取所述文本片段对应的文本片段时间戳；

编辑单元，用于依据所述文本片段、语音片段时间戳、文本片段时间戳以及所述编辑操作对所述文本数据进行编辑，得到目标文本数据。

可选地，所述编辑单元包括：

文本内容编辑子单元，用于依据所述文本片段和所述编辑操作对所述文本内容进行编辑，得到编辑后的文本内容；

时间戳调整子单元，用于依据所述语音片段时间戳、所述文本片段时间戳和所述编辑操作对所述文本时间戳和所述语音时间戳进行调整，得到目标文本数据。

可选地，所述目标语音数据确定模块包括：

语音片段提取子模块，用于依据所述目标文本数据从所述原始语音数据中提取多个语音片段；

语音合成子模块，用于采用所述多个语音片段合成目标语音数据。

可选地，所述语音片段提取子模块包括：

语音时序生成单元，用于依据所述目标文本数据中的文本时间戳和语音时间戳，生成语音时序；

语音片段提取单元，用于依据所述语音时序，从所述原始语音数据中提取多个语音片段。

可选地，所述语音时间戳包括语音片段的开始时间戳和结束时间戳，所述语音时序生成单元包括：

时间戳读取子单元，用于依据所述文本时间戳的顺序，读取所述目标文本数据中的所有语音片段的开始时间戳和结束时间戳；

数组生成子单元，用于将所有语音片段的开始时间戳和结束时间戳作为元素添加到数组中；

语音时序生成子单元，用于删除所述数组中相邻的相同元素，得到语音时序。

可选地，所述语音片段提取单元包括：

子数组生成子单元，用于以两个元素为步长将所述数组分为多个子数组；

语音片段划分子单元，用于以所述子数组中的两个元素分别为语音片段的开始时间和结束时间，将所述原始语音数据划分为多个语音片段；

语音片段提取子单元，用于提取所述多个语音片段。

可选地，所述目标语音数据确定模块包括：

语音时序生成子模块，用于依据所述目标文本数据中的文本时间戳和所述语音时间戳，生成语音时序；

语音数据处理子模块，用于依据所述语音时序对所述原始语音数据进行处理，得到目标语音数据。

本发明实施例提供了一种装置，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行本发明实施例所述的任一语音数据的处理方法。

本发明实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行本发明实施例所述的任一语音数据的处理方法。

本发明实施例语音数据的处理方法，可以将原始语音数据转换为文本数据，用户可以对文本数据进行编辑得到目标文本数据，然后根据目标文本数据和原始语音数据确定目标语音数据，由此解决了以波形图显示语音数据，用户无法感受到语音数据的处理内容增加了处理难度和降低了语音数据的处理效率的问题，一方面使得用户可以直观地感受到语音数据的处理内容，另一方面，降低了语音数据的处理难度，提高了语音数据的处理效率。

本发明实施例中，文本数据包括文本内容和时间信息，时间信息包括对齐的文本时间戳和语音时间戳，用户可以对文本内容、文本时间戳和语音时间戳进行复制、剪切、删除、粘贴等编辑操作，然后可以根据语音时间戳生成语音时序，并从原始语音数据中提取相应的语音片段合成目标语音数据。对文本数据进行复制、剪切、删除、粘贴等编辑操作既可以直观感受到语音数据的处理内容，又降低了语音数据的处理难度和提高了语音数据的处理效率。

本发明实施例中，可以根据编辑后的目标文本数据中的语音时间戳生成语音时序，根据语音时序对原始语音数据进行复制、剪切、粘贴和删除处理，得到目标语音数据，减少了提取语音片段的数量，能够降低语音数据处理的数据量，提高了语音数据的处理效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明的一种语音数据的处理方法实施例1的步骤流程图；

图2示出了本发明的一种语音数据的处理方法实施例2的步骤流程图；

图3示出了本发明的一种语音数据的处理装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明的一种语音数据的处理方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，获取待处理的原始语音数据。

本发明实施例中，原始语音数据可以是各种场合录制的多种格式的音频数据，例如可以是会议录音、歌曲演唱录音、通话录音等形成的mp3、wav、m4a、pcm等格式的音频数据，还可以是从已有的语音数据中截取的部分语音数据。

在实际应用中，用户可以通过网页客户端将原始语音数据上传至网页，在网页客户端对原始语音数据进行处理，也可以是用户通过网页客户端录制原语音数据后在网页客户端对原始语音数据进行处理，还可以是用户录制原始语音数据后在本地设备上通过处理软件对原始语音数据进行处理。

步骤102，对所述原始语音数据进行语音识别，得到文本数据。

文本数据可以是字幕文件，例如可以是srt、smi、ssa等字幕文件，以srt为示例，srt文件可以通过notepad.exe，write.exe，word等文本处理软件进行编辑。文本数据中可以包括文本内容和时间信息，文本内容可以是原始语音数据的语义内容，例如歌曲中的歌词，时间信息可以包括原始语音数据中的语音时间戳，以及与语音时间戳对齐的文本时间戳，语音时间戳可以为语音片段的播放开始时间和结束时间，文本时间戳可以是语音片段对应的文本片段在整个文本内容中的位置。

在实际应用中，可以通过各种语音转写技术将原始语音数据转写为预设格式的文本数据，本发明实施例对语音识别技术不加以限制。

步骤103，接收用户对所述文本数据的编辑操作。

本发明实施例中，用户可以在网页页面中对文本数据进行编辑操作，例如可以在网页页面中对文本数据进行复制、剪切、粘贴和删除等操作，还可以通过notepad.exe，write.exe，word等文本处理软件打开文本数据后对文本数据进行复制、剪切、粘贴和删除等操作。当用户对文本数据进行编辑操作时，可以通过操作接口接收到用户的编辑操作。

步骤104，依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据。

当接收到用户对文本数据的编辑操作时，依据用户的编辑操作对文本数据中的文本内容、文本时间戳和语音时间戳进行相应的编辑，得到目标文本数据。

步骤105，依据所述目标文本数据和所述原始语音数据，确定目标语音数据。

目标文本数据包括了编辑之后的文本内容、文本时间戳和语音时间戳，可以根据文本时间戳和语音时间戳，生成语音时序，依据该语音时序从原始语音数据中提取出多个语音片段，例如从原始语音数据中复制多个语音片段，采用语音合成技术对多个语音片段进行合成，得到目标语音数据。

当然，也可以根据语音时序，直接在原始语音数据上进行相应的编辑操作生成目标语音数据。

本发明实施例可以将原始语音数据转换为文本数据，用户可以对文本数据进行编辑得到目标文本数据，然后根据目标文本数据和原始语音数据确定目标语音数据，由此解决了以波形图显示语音数据，用户无法感受到语音数据的处理内容增加了处理难度和降低了语音数据的处理效率的问题，一方面使得用户可以直观地感受到语音数据的处理内容，另一方面，降低了语音数据的处理难度，提高了语音数据的处理效率。

参照图2，示出了本发明的一种语音数据的处理方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，获取待处理的原始语音数据。

步骤202，对所述原始语音数据进行语音识别，得到文本数据，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳。

在实际应用中，可以通过各种语音转写技术将原始语音数据转写为预设格式的文本数据，具体而言，文本数据中的文本内容、文本时间戳和语音时间戳具有一定的格式，例如：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}。

上述示例中，text后的“音”、“视频”、“转”、“文稿”为文本内容，“bg：0，ed：510，obg：0，oed：510”为时间信息，其中：“bg：0，ed：510”为文本时间戳，表示文本片段在文本内容中的位置，“obg：0，oed：510”为语音时间戳，表示该语音时间戳对应的语音片段在语音数据中播放的开始时间和结束时间，例如“音”在播放时是从第510毫秒开始，830毫秒结束。

在原始语音数据转文本数据后进行编辑之前，文本时间戳和语音时间戳是对齐的，另外文本数据还可以是其它格式而不仅仅限于上述示例。

步骤203，接收用户对所述文本数据的编辑操作。

本发明实施例中，编辑操作可以是对文本数据的复制操作、剪切操作、粘贴操作和删除操作中的至少一种，复制操作可以是指将选定文本片段复制到剪切板的操作，剪切操作可以是指将选定文本片段剪切至剪切板的操作，粘贴操作可以是指将剪切板上的文本片段粘贴到粘贴位置的操作，删除操作可以是指删除选定文本片段的操作，对于粘贴操作需要用户先执行复制操作或者剪切操作然后执行粘贴操作。

步骤204，依据所述编辑操作，对所述文本内容、所述文本时间戳和所述语音时间戳进行编辑得到目标文本数据。

在本发明实施例中，步骤204可以包括如下子步骤：

子步S11，从所述文本内容中确定所述编辑操作对应的文本片段。

当接收到用户的编辑操作时，用户先从文本内容中选定需要编辑的文本片段，因此可以根据用户的编辑操作确定用户选定的文本片段，例如，文本数据如下：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

用户需要在播放“界面”之后播放“视频”，则用户可以先将“视频”选定，然后复制或者剪切到剪切板，然后粘贴在“界面”之后，则用户选定“视频”，则“视频”为编辑操作对应的文本片段。

子步骤S12，从所述语音时间戳中获取所述文本片段对应的语音片段时间戳。

语音时间戳是语音片段在语音数据中播放的开始时间和结束时间，是固定不变的，可以从文本数据包含的语音时间戳中获取到文本片段对应的语音片段时间戳，例如，“视频”对应的语音片段时间戳为“obg：830，oed：1060”，即“视频”播放的开始时间为830毫秒，结束时间为1060毫秒。

子步骤S13，从所述文本时间戳中获取所述文本片段对应的文本片段时间戳。

文本时间戳是文本片段在文本内容中位置，编辑之后是可变的，可以从文本数据包含的文本时间戳中获取到文本片段对应的文本片段时间戳，例如，“视频”对应的文本片段时间戳为“obg：830，oed：1060”，即“视频”在文本时间戳中的开始时间为830毫秒，结束时间为1060毫秒。

子步骤S14，依据所述文本片段、语音片段时间戳、文本片段时间戳以及所述编辑操作对所述文本数据进行编辑，得到目标文本数据。

在本发明实施例中，子步骤S14可以包括如下子步骤：

子步骤S14-1，依据所述文本片段和所述编辑操作对所述文本内容进行编辑，得到编辑后的文本内容。

在实际应用中，不同的编辑操作，对文本内容的编辑是不同的，例如，复制操作将选定的文本片段复制到剪切板对象，剪切操作将选定文本片段剪切至剪切板对象，而粘贴操作则是将剪切板对象上的文本片段粘贴至文本中的粘贴位置，删除操作是将选定文本片段从文本内容中删除，在本发明实施例中，用户可以执行的编辑操作可以是复制、剪切、粘贴和删除中的至少一种，例如用户可以对文本内容执行先复制后粘贴，然后删除编辑操作，或者是先剪切后粘贴，然后复制后再粘贴编辑操作，本发明实施例在依据编辑操作和文本片段对文本内容进行编辑后，可以得到编辑后的文本内容。

子步骤S14-2，依据所述语音片段时间戳、所述文本片段时间戳以及所述编辑操作对所述文本时间戳和所述语音时间戳进行调整，得到目标文本数据。

本发明实施例中，文本数据中包括文本内容、文本时间戳和语音时间戳，文本内容中的每个文本片段对应有文本片段时间戳和语音片段时间戳，因此对文本内容进行编辑操作后，需要对文本时间戳和语音时间戳进行相应调整，具体而言，需要获取文本片段对应的语音片段时间戳的时长，根据该时长调整文本时间戳，在实际应用中，不同的编辑操作对文本时间戳的调整方式是不同的。

为了本领域技术人员更清楚地了解本发明实施对文本数据的编辑过程，以下以示例对各种编辑操作进行说明：

示例1

在示例1中，编辑操作为复制操作，则复制操作对文本数据的编辑过程为：

步骤S1，从所述文本内容中确定所述复制操作对应的文本片段；

步骤S2，从所述语音时间戳中获取所述文本片段对应的语音片段时间戳；

步骤S3，从所述文本时间戳中获取所述文本片段对应的文本片段时间戳；

步骤S4，将所述文本片段、所述文本片段时间戳和所述语音片段时间戳复制至剪切板。

例如，文本数据为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

如果需要复制“视频”的语音数据，则将“{bg：830，ed：1060，obg：830，oed：1060，text：视频}”选定后复制到剪切板。

在本示例中，由于对文本数据只进行了复制，因此文本数据不变。

示例2

在示例2中，编辑操作为复制操作和粘贴操作，则对文本数据的编辑过程为：

S1，从所述文本内容中确定所述复制操作对应的文本片段；

S2，从所述语音时间戳中获取所述文本片段对应的语音片段时间戳；

S3，从所述文本时间戳中获取所述文本片段对应的文本片段时间戳；

S4，将所述文本片段、所述文本片段时间戳和所述语音片段时间戳复制至剪切板。

在获取文本片段、文本片段时间戳和语音片段时间戳之后，可以将文本片段、文本片段时间戳和语音片段时间戳复制到剪切板。当然，用户也可以在文本数据中直接选择文本片段、文本片段时间戳和语音片段时间戳复制至剪切板。

例如，文本数据为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

如果需要复制“视频”的语音数据，则将“{bg：830，ed：1060，obg：830，oed：1060，text：视频}”复制到剪切板。

S5，确定所述粘贴操作在所述文本内容中的粘贴位置。

粘贴位置是将剪切板上的内容插入到文本内容中的数据，当用户进行粘贴操作时，可以在显示界面上的文本内容中显示光标的位置，该位置即为粘贴位置，例如，用户需要在播放“界面”之后播放“视频”，则粘贴位置在“界面”之后。

S6，将所述剪切板上的所述文本片段、所述文本片段时间戳和所述语音片段时间戳粘贴至所述粘贴位置。

确定粘贴位置之后，将剪切板中的文本片段、文本片段时间戳和语音片段时间戳粘贴至粘贴位置，例如粘贴之后，可以由S3中的文本数据变为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

即在“界面”之后增加了“视频”的文本内容、文本片段时间戳和语音片段时间戳。

S7，依据所述语音片段时间戳调整所述文本时间戳，得到目标文本数据。

具体而言，可以依据所述语音片段时间戳确定所述文本片段对应的时长；获取所述粘贴位置的前一文本片段的文本时间戳；依据所述前一文本片段的文本时间戳和所述时长调整所述文本片段时间戳；依据调整之后的文本片段时间戳，调整所述文本片段之后的文本时间戳。

在文本数据中，语音时间戳是语音片段在语音数据中的开始时间和结束时间，是固定不变的，可以根据语音片段的语音片段时间戳从语音数据中提取该语音片段，而文本片段时间戳是文本片段在文本内容中的位置，可以按照文本片段时间戳读取相应的语音片段时间戳生成语音时序，因此需要对文本时间戳进行调整。

例如，在S6执行粘贴操作得到的文本数据中，可以先根据“视频”的语音片段时间戳“obg：830，oed：1060”确定文本片段对应的时长为230毫秒，然后“视频”的前一文本片段为“界面”，其文本时间戳为“bg：2670，ed：3080”，则确定“视频”的文本片段时间戳为“bg：3080，ed：3310”，然后根据“视频”的文本片段时间戳为“bg：3080，ed：3310”调整后面的文本时间戳，即“视频”后面的文本时间戳进行相应的后移，即可以得到目标文本数据如下：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3310，obg：830，oed：1060，text：视频}，

{bg：3310，ed：3500，obg：3080，oed：3270，text：。}

如上目标文本数据中，“视频”粘贴至“界面”后，其语音片段时间戳任然为“obg：830，oed：1060”，是固定不变的，表示“视频”对应的语音片段在原始语音数据中的位置是不变的，其在文本时间戳中的文本片段时间戳则相应更改为“bg：3080，ed：3310”。

示例3

在示例3中，编辑操作为剪切操作和粘贴操作，则对文本数据的编辑过程为：

S1，从所述文本内容中确定所述剪切操作对应的文本片段。

S2，从所述语音时间戳中获取所述文本片段对应的语音片段时间戳。

S3，从所述文本时间戳中获取所述文本片段对应的文本片段时间戳。

S4，将所述文本片段、所述文本片段时间戳和所述语音片段时间戳剪切至剪切板。

在获取文本片段、文本片段时间戳和语音片段时间戳之后，可以将文本片段、文本片段时间戳和语音片段时间戳剪切到剪切板。当然，用户也可以在文本数据中直接选择文本片段、文本片段时间戳和语音片段时间戳剪切至剪切板。

例如，文本数据为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

如果需要剪切“视频”的语音数据，则将“{bg：830，ed：1060，obg：830，oed：1060，text：视频}”剪切到剪切板。

S5，确定所述粘贴操作在所述文本内容中的粘贴位置。

S6，将所述剪切板上的所述文本片段和所述语音片段时间戳粘贴至所述粘贴位置。

确定粘贴位置之后，将剪切板中的文本片段、文本片段时间戳和语音片段时间戳粘贴至粘贴位置，例如粘贴之后，可以由S4中的文本数据变为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

即原来在“音”之后的“视频”删除，在“界面”之后增加了“视频”的文本内容、文本片段时间戳和语音片段时间戳。

S7，依据所述语音片段时间戳调整所述文本时间戳，得到目标文本数据.

具体而言，依据所述语音片段时间戳确定所述文本片段对应的时长；获取所述粘贴位置的前一文本片段的文本时间戳；依据所述前一文本片段的文本时间戳和所述时长调整所述文本片段时间戳；依据调整之后的文本片段时间戳，调整所述文本片段之后的文本时间戳。

在S6执行剪切操作和粘贴操作得到的文本数据中，可以先根据“视频”的语音片段时间戳“obg：830，oed：1060”确定文本片段对应的时长为230毫秒，然后“视频”的前一文本片段为“界面”，其文本时间戳为“bg：2670，ed：3080”，则确定“视频”的文本片段时间戳为“bg：3080，ed：3310”，然后根据“视频”的文本片段时间戳为“bg：3080，ed：3310”调整后面的文本时间戳，即“视频”后面的文本时间戳进行相应的后移，然后根据调整之后的文本时间戳，对剪切位置之后的文本时间戳进行调整，即对“音”之后的所有文本时间戳再次调整，即可以得到目标文本数据如下：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：980，obg：1060，oed：1210，text：转}，

{bg：980，ed：1550，obg：1210，oed：1780，text：文稿}，

{bg：1550，ed：1590，obg：1780，oed：1820，text：，}，

{bg：1590，ed：1880，obg：1820，oed：2110，text：点击}，

{bg：1880，ed：2120，obg：2110，oed：2350，text：进入}，

{bg：2120，ed：2440，obg：2350，oed：2670，text：编辑}，

{bg：2440，ed：2850，obg：2670，oed：3080，text：界面}，

{bg：2850，ed：3080，obg：830，oed：1060，text：视频}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

如上目标文本数据中，“视频”粘贴至“界面”后，其语音片段时间戳仍然为“obg：830，oed：1060”，是固定不变的，表示“视频”对应的语音片段在原始语音数据中的位置是不变的，其在文本时间戳中的文本片段时间戳在调整之后相应更改为“bg：2850，ed：3080”，其他文本时间戳也相应调整。

示例4

在示例4中，编辑操作为删除操作，则对文本数据的编辑过程为：

S1，从所述文本内容中确定所述删除操作对应的文本片段。

S4，删除所述文本片段、所述文本片段时间戳和所述语音片段时间戳。

本发明实施例中，可以在文本数据中删除文本片段、文本片段时间戳和所述语音片段时间戳，以便对语音数据中的语音片段进行删除。

例如，文本数据为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：1060，obg：830，oed：1060，text：视频}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

如果需要删除“视频”的语音数据，则将“{bg：830，ed：1060，obg：830，oed：1060，text：视频}”删除，得到文本数据如下：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：1060，ed：1210，obg：1060，oed：1210，text：转}，

{bg：1210，ed：1780，obg：1210，oed：1780，text：文稿}，

{bg：1780，ed：1820，obg：1780，oed：1820，text：，}，

{bg：1820，ed：2110，obg：1820，oed：2110，text：点击}，

{bg：2110，ed：2350，obg：2110，oed：2350，text：进入}，

{bg：2350，ed：2670，obg：2350，oed：2670，text：编辑}，

{bg：2670，ed：3080，obg：2670，oed：3080，text：界面}，

{bg：3080，ed：3270，obg：3080，oed：3270，text：。}

可见，原来在“音”之后的文本片段“视频”删除后，对应的文本片段时间戳bg：830，ed：1060和语音片段时间戳，obg：830，oed：1060也删除。

S5，确定所述删除操作在所述文本内容中的删除位置。

S6，调整所述删除位置之后的文本时间戳，得到目标文本数据。

本发明是实施例中，可以只调整删除位置之后的文本时间戳，具体地，可以根据删除文本片段的时长，对删除位置之后的文本时间戳进行前移，既可以得到目标文本数据，则执行S4之后的文本数据变为：

{bg：0，ed：510，obg：0，oed：510，text：|}，

{bg：510，ed：830，obg：510，oed：830，text：音}，

{bg：830，ed：980，obg：1060，oed：1210，text：转}，

{bg：980，ed：1550，obg：1210，oed：1780，text：文稿}，

{bg：1550，ed：1590，obg：1780，oed：1820，text：，}，

{bg：1590，ed：1880，obg：1820，oed：2110，text：点击}，

{bg：1880，ed：2120，obg：2110，oed：2350，text：进入}，

{bg：2120，ed：2440，obg：2350，oed：2670，text：编辑}，

{bg：2440，ed：2850，obg：2670，oed：3080，text：界面}，

{bg：2850，ed：3040，obg：3080，oed：3270，text：。}

如上目标文本数据中，“视频”删除后，对“音”之后的文本时间戳进行了调整。

以上示例1-示例4分别以复制、剪切、粘贴和删除操作为示例说明了对文本数据的编辑过程。

步骤205，依据所述目标文本数据从所述原始语音数据中提取多个语音片段。

本发明实施例中，步骤205可以包括如下子步骤：

子步骤S21，依据所述目标文本数据中的文本时间戳和语音时间戳，生成语音时序。

对文本数据进行编辑操作得到目标文本数据后，可以生成语音时序，在本发明实施例中，子步骤21可以包括如下子步骤：

S21-1，依据所述文本时间戳的顺序，读取所述目标文本数据中的所有语音片段的开始时间戳和结束时间戳；

S21-2，将所有语音片段的开始时间戳和结束时间戳作为元素添加到数组中；

S21-3，删除所述数组中相邻的相同元素，得到语音时序。

本发明实施例可以按照目标文本数据中的文本时间戳中(bg，ed)的顺序，读取语音片段的语音片段时间戳(obg，oed)中的开始时间戳和结束时间戳作为元素添加到数组中，具体而言，可以将目标文本数据中的文本片段、文本片段对应的文本片段时间戳、语音片段时间戳复制到剪切板对象中，在剪切板对象获取语音片段时间戳。剪切板对象可以是从目标文本数据中提取出语音片段时间戳的应用程序或者组件，在实际应用中可以将整个目标文本数据复制到剪切板对象中，或者是将文本数据复制到剪切板对象后在剪切板对象中直接对文本数据编辑得到目标文本数据，还可以是得到目标文本数据后，按照文本时间戳的顺序将文本片段、文本片段对应的文本片段时间戳、语音片段时间戳复制到剪切板对象中。

在得到数组后，删除相邻的相同元素即可以得到语音时序，如将编辑后的目标文本数据复制到剪切板对象后，由剪切板对象提取语音时间戳后得到的数组为：[0，510，510，830，830，1060，1060，1210，1210，1780，1780，1820，1820，2110，2110，2350，2350，2670，2670，3080，830，1060，3080，3270]，去除相邻相同的两个元素后得到的数组为：[0，3080，830，1060，3080，3270]，该数组中的元素即为语音时序。

通过删除相邻两个元素后得到语音时序，避免了提取连续的多个语音片段，减少了语音片段的数量，提高了后续语音片段的合成效率。

子步骤S22，依据所述语音时序，从所述原始语音数据中提取多个语音片段。

在本发明实施例中，子步骤S22可以包括如下步骤：

S221，以两个元素为步长将所述数组分为多个子数组；

S222，以所述子数组中的两个元素分别为语音片段的开始时间和结束时间，将所述语音数据划分为多个语音片段；

S223，提取所述多个语音片段。

具体地，语音片段包括开始时间和结束时间，因此可以以两个元素为步长，将语音时序分为多个子数组，每个子数组中包含的两个元素即为语音片段的开始时间和结束时间，则可以将语音数据划分多个语音片段，例如语音时序为[0，3080，830，1060，3080，3270]，则可以划分为[0，3080]，[830，1060]，[3080，3270]，则可以提取3个语音片段，具体如下：

第一个语音片段为[0，3080]，即语音数据中从第0毫米到第3080毫秒的语音片段，相当于从语音数据中提取“音视频转文稿，点击进入编辑界面”对应的语音片段；

第二个语音片段为[830，1060]，即语音数据中从第830毫米到第1060毫秒的语音片段，相当于从语音数据中提取“视频”对应的语音片段；

第三个语音片段为[3080，3270]，即语音数据中从第3080毫米到第3270毫秒的语音片段，相当于从语音数据中提取“。”对应的语音片段。

步骤206，采用所述多个语音片段合成目标语音数据。

在提取出多个语音片段后，可以采用语音合成技术对多个语音片段进行合成，得到目标语音数据。

在本发明的另一实施例中，生成语音时序后，可以根据语音时序对所述原始语音数据进行处理，得到目标语音数据。

具体而言，对于复制操作和粘贴操作，可以从语音时序中查找出复制操作和粘贴操作之后增加的语音时序对应的语音片段，然后从原始语音数据中复制出该语音片段增加至粘贴位置后得到目标语音数据；对于剪切操作和粘贴操作，可以从语音时序中查找出剪切操作和粘贴操作之后增加的和减少的语音时序对应的语音片段，然后从原始语音数据中删除减少了的语音时序处的语音片段，以及，在增加了的语音时序处的增加语音片段；对于删除操作，可以从语音时序中查找出删除操作之后减少的语音时序对应的语音片段，从语音数据中删除该语音片段。

本发明实施例中，文本数据包括文本内容和时间信息，时间信息包括对齐的文本时间戳和语音时间戳，用户可以对文本内容、文本时间戳和语音时间戳进行复制操作、剪切操作、删除操作和粘贴操作，然后可以根据语音时间戳生成语音时序，并从语音数据中提取相应的语音片段合成目标语音数据，对文本数据进行编辑，既可以使得用户直观感受到对语音数据的处理内容，又降低了对语音数据的处理难度，提高了语音数据的处理效率。

本发明实施例中，可以根据编辑后的目标文本数据中的语音时间戳生成语音时序，根据语音时序对原始语音数据进行处理，得到目标语音数据，减少了提取语音片段的数量，能够降低语音数据处理的数据量，提高了语音数据的处理效率。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了根据本发明的一种语音数据的处理装置实施例的结构框图，具体可以包括如下模块：

原始语音数据获取模块301，用于获取待处理的原始语音数据；

语音识别模块302，用于对所述原始语音数据进行语音识别，得到文本数据；

编辑操作接收模块303，用于接收用户对所述文本数据的编辑操作；

编辑模块304，用于依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据；

目标语音数据确定模块305，用于依据所述目标文本数据和所述原始语音数据，确定目标语音数据。

可选地，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳，所述编辑模块304包括：

可选地，所述编辑子模块包括：

可选地，所述编辑单元包括：

可选地，所述目标语音数据确定模块305包括：

可选地，所述语音片段提取子模块包括：

可选地，所述语音片段提取单元包括：

语音片段提取子单元，用于提取所述多个语音片段。

可选地，所述目标语音数据确定模块305包括：

本发明实施例公开了一种装置，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行实施例1和/或实施例2所述语音数据的处理方法。

本发明实施例公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如实施例1和/或实施例2所述语音数据的处理方法

本发明公开的语音数据的处理装置，可以将原始语音数据转换为文本数据，用户可以对文本数据进行编辑得到目标文本数据，然后根据目标文本数据和原始语音数据确定目标语音数据，由此解决了以波形图显示语音数据，用户无法感受到语音数据的处理内容增加了处理难度和降低了语音数据的处理效率的问题，一方面使得用户可以直观地感受到语音数据的处理内容，另一方面，降低了语音数据的处理难度，提高了语音数据的处理效率。

本发明实施例中，文本数据包括文本内容和时间信息，时间信息包括对齐的文本时间戳和语音时间戳，用户可以对文本内容、文本时间戳和语音时间戳进行复制、剪切、删除、粘贴等编辑操作，然后可以根据语音时间戳生成语音时序，并从原始语音数据中提取相应的语音片段合成目标语音数据，对文本数据进行复制、剪切、删除、粘贴等编辑操作既可以直观感受到语音数据的处理内容，又降低了语音数据处理的处理难度和提高了语音数据的处理效率。

本发明实施例中，可以根据编辑后的目标文本数据中的语音时间戳生成语音时序，根据语音时序对原始语音数据进行复制、剪切、粘贴和删除处理，得到目标语音数据，减少了提取语音片段的数量，能够降低语音数据处理的数据量，提高了语音数据处理效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音数据的处理方法和一种语音数据的处理装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

获取待处理的原始语音数据；

对所述原始语音数据进行语音识别，得到文本数据；

接收用户对所述文本数据的编辑操作；

2.如权利要求1所述的处理方法，其特征在于，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳，所述依据所述编辑操作对所述文本数据进行编辑，得到目标文本数据，包括：

3.如权利要求1所述的处理方法，其特征在于，所述依据所述编辑操作，对所述文本内容、所述文本时间戳和所述语音时间戳进行编辑得到目标文本数据，包括：

从所述文本内容中确定所述编辑操作对应的文本片段；

4.如权利要求3所述的处理方法，其特征在于，所述依据所述文本片段、语音片段时间戳、文本片段时间戳以及所述编辑操作对所述文本数据进行编辑，得到目标文本数据，包括：

5.如权利要求1所述的处理方法，其特征在于，所述编辑操作包括复制操作、剪切操作、粘贴操作和删除操作中的至少一项。

6.如权利要求2-5任一项所述的处理方法，其特征在于，所述依据所述目标文本数据和所述原始语音数据，确定目标语音数据，包括：

采用所述多个语音片段合成目标语音数据。

7.如权利要求6所述的处理方法，其特征在于，所述依据所述目标文本数据从所述原始语音数据中提取多个语音片段，包括：

8.如权利要求7所述的处理方法，其特征在于，所述语音时间戳包括语音片段的开始时间戳和结束时间戳，所述依据所述目标文本数据中的文本时间戳和语音时间戳，生成语音时序，包括：

删除所述数组中相邻的相同元素，得到语音时序。

9.如权利要求8所述的处理方法，其特征在于，所述依据所述语音时序，从所述原始语音数据中提取多个语音片段，包括：

以两个元素为步长将所述数组分为多个子数组；

提取所述多个语音片段。

10.如权利要求2-5任一项所述的处理方法，其特征在于，所述依据所述目标文本数据和所述原始语音数据，确定目标语音数据，包括：

11.一种语音数据的处理装置，其特征在于，包括：

原始语音数据获取模块，用于获取待处理的原始语音数据；

12.如权利要求11所述的处理装置，其特征在于，所述文本数据包括文本内容和时间信息，所述时间信息包括对齐的文本时间戳和语音时间戳，所述编辑模块包括：

13.如权利要求12所述的处理装置，其特征在于，所述编辑子模块包括：

14.如权利要求13所述的处理装置，其特征在于，所述编辑单元包括：

15.如权利要求11所述的处理装置，其特征在于，所述编辑操作包括复制操作、剪切操作、粘贴操作和删除操作中的至少一项。

16.如权利要求12-15任一项所述的处理装置，其特征在于，所述目标语音数据确定模块包括：

17.如权利要求16所述的处理装置，其特征在于，所述语音片段提取子模块包括：

18.如权利要求17所述的处理装置，其特征在于，所述语音时间戳包括语音片段的开始时间戳和结束时间戳，所述语音时序生成单元包括：

19.如权利要求18所述的处理装置，其特征在于，所述语音片段提取单元包括：

语音片段提取子单元，用于提取所述多个语音片段。

20.如权利要求12-15任一项所述的处理装置，其特征在于，所述目标语音数据确定模块包括：

21.一种装置，其特征在于，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-10所述的任一语音数据的处理方法。

22.一个或多个机器可读介质，其上存储有指令，其特征在于，当由一个或多个处理器执行时，使得装置执行如权利要求1-10所述的任一语音数据的处理方法。