CN110851564A

CN110851564A - 一种语音数据处理方法和相关装置

Info

Publication number: CN110851564A
Application number: CN201910959501.5A
Authority: CN
Inventors: 苏文畅; 王兆育; 张鹏; 蒋运霞
Original assignee: Anhui Hear Technology Co Ltd
Current assignee: Anhui Hear Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-02-28
Anticipated expiration: 2039-10-10
Also published as: CN110851564B

Abstract

本申请实施例公开了一种语音数据处理方法和相关装置，包括：在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容至少包括以下一种：至少一个词和标点符号；根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。实施本申请实施例，有利于深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

Description

一种语音数据处理方法和相关装置

技术领域

本申请涉及智能语音领域，尤其涉及一种语音数据处理方法和相关装置。

背景技术

近年随着“人工智能”和“智能语音”成为新时代科技发展的方向，整个行业的发展达到了惊人的高速度。其中，尤以语音转写技术的发展最为迅速，目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。

在日常生活中，人们会通过各种应用软件进行语音交流。在不方便接听语音信息的情况下，人们会选择将语音信息转换成文本信息以通过浏览文本信息实现相关信息的获取。

因此，在现有技术中，各种应用软件只支持语音转换文本这一过程，未深度挖掘语音与文本之间的关联关系，导致语音转换文本的转换过程单一。

发明内容

本申请实施例提供了一种语音数据处理方法和相关装置，有利于深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

第一方面，本申请实施例提供一种语音数据处理方法，包括：

在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；

在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容至少包括以下一种：至少一个词和标点符号；

根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。

第二方面，本申请实施例提供一种语音数据处理装置，包括处理单元，

所述处理单元，用于在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；以及用于在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容包括以下一种：至少一个词和标点符号；以及用于根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。

第三方面，本申请实施例提供一种语音数据处理设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被生成由所述处理器执行，以执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被所述处理器执行，以实现本申请实施例第一方面任一方法中的步骤的指令。

可以看出，本申请实施例中，在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；接着，在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容至少包括以下一种：至少一个词和标点符号；最后，根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。可以看出，通过构建目标文本与语音数据之间的对应关系，实现深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。同时，在检测到针对界面上的第一位置的播放选择操作时，根据第一位置对应的文本内容确定目标文本，并根据目标文本和目标文本与语音数据之间的对应关系执行语音播放操作，实现了文本的展示，也实现了与目标文本有关联关系的语音数据的播放。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请实施例提供的一种语音数据处理系统的示意图；

图2A是本申请实施例提供的一种语音数据处理方法的流程示意图；

图2B是本申请实施例提供的一种界面的示意图；

图3是本申请实施例提供的一种窗口示意图；

图4是本申请实施例提供的一种语音数据处理设备的结构示意图；

图5是本申请实施例中所涉及的语音数据处理装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下分别进行详细说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，参见图1，图1是本申请实施例提供的一种语音数据处理系统的示意图，该语音数据处理系统100包括：语音数据显示装置110和语音数据处理装置120。该语音数据显示装置110与语音数据处理装置120相连，语音数据显示装置110用于在界面上显示文本，语音数据处理装置120用于接收并处理语音数据。该语音数据处理系统100可以包括集成式单体设备或者多设备，为方便描述，本申请将语音数据处理系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。进一步的，本申请实施例还可以在应用软件中显示文本，该应用软件中存在插件，该插件可实现本申请所有实施例。

现有技术中，各种应用软件只支持语音转换文本这一过程，未深度挖掘语音与文本之间的关联关系，导致语音转换文本的转换过程单一。

基于此，本申请实施例提出一种语音数据处理方法以解决上述问题，下面对本申请实施例进行详细介绍。

参见图2A，图2A是本申请实施例提供的一种语音数据处理方法的流程示意图，应用于如图1所示的语音数据处理系统，如图2A所示，本语音数据处理方法包括：

201、在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；

其中，所述第一语音数据的采样率为16000，所述第一语音数据的比特率为256kbps且所述第一语音数据对应的格式为WAV。进一步的，第一方面，在一种可能的实施方式中，在所述在界面上显示第一文本之前，所述方法还包括：接收终端发送的语音数据转写请求，所述语音数据转写请求携带第二语音数据；对所述第二语音数据进行转码处理以生成所述第一语音数据，所述转码处理用于将所述第二语音数据转码为采样率为16000、比特率为256kbps和格式为WAV的所述第一语音数据。

其中，终端例如可以包括手机、平板电脑、笔记本电脑、掌上电脑、MID或其他终端设备。其中，所述第二语音数据对应的格式例如可以包括动态影像专家压缩标准音频层面3(moving picture experts group audio layer III，MP3)、WAV格式、M4A、脉冲编码调制(pulse code modulation，PCM)等。其中，WAV为微软公司(Microsoft)开发的一种声音文件格式，M4A是MPEG-4音频标准的文件的扩展名，PCM音频数据是未经压缩的音频采样数据裸流，它是由模拟信号经过采样、量化、编码转换成的标准的数字音频数据。

举例来说，用户可通过终端向语音数据处理系统发送第二语音数据，而第二语音数据对应的格式可能会是MP3、WAV、M4A或PCM等，这时候语音数据处理系统会对第二语音数据进行转码处理以生成第一语音数据，从而将语音数据的格式转成采样率为16000、比特率为256kbps的WAV文件。

可以看出，上述技术方案中，通过接收终端发送的语音数据转写请求，所述语音数据转写请求携带第二语音数据；对所述第二语音数据进行转码处理以生成所述第一语音数据，所述转码处理用于将所述第二语音数据转码为采样率为16000、比特率为256kbps和格式为WAV的所述第一语音数据，实现了将语音数据的格式统一转码为同一格式，提高后续对语音数据的处理效率。

参见图2B，图2B是本申请实施例提供的一种界面的示意图。如图2B所示，可以看出，在该界面上显示了第一文本包括的所有内容，其所有内容包括从“快乐的多少”到“并让自己更快乐！”结束。用户可以在界面上对第一文本中的任意文本内容进行播放选择操作。比如，用户针对界面上的第一位置进行播放选择操作时，第一位置对应的文本内容为：需求强度，那么，在根据第一位置对应的“需求强度”确定的目标文本和预设的映射关系执行语音播放操作时，播放目标文本。

可选的，基于第一方面，在第一种可能的实施方式中，在所述对所述第二语音数据进行转码处理以生成所述第一语音数据之后，在所述在界面上显示第一文本之前，所述方法还包括：对所述第一语音数据进行处理以得到多个第一文本内容，其中，所述多个第一文本内容包括至少一个第一目标文本内容和至少一个第二目标文本内容，所述第一目标文本内容包括至少一个词，所述第二目标文本内容为标点符号；按照时间先后顺序确定所述多个第一文本内容中的N个第二目标文本内容，其中，N为大于1的整数；获取所述N个第二目标文本内容一一对应的N个句子，其中，所述N个句子中的第i个句子包括第(i-1)个第二目标文本内容与第i个第二目标文本内容之间的所有第一目标文本内容，1≤i≤N且i为整数；根据所述N个句子和所述N个第二目标文本内容生成所述第一文本。

其中，N例如可以为2、3、4、5、6、10、20等数值。

其中，i例如可以为1、2、3、4、5、6、10、20等数值。进一步的，当i为1时，所述N个句子中的第i个句子包括在第i个第二目标文本内容之前的所有第一目标文本内容。

其中，所述多个第一文本内容还包括至少一个第一目标文本内容中每个第一目标文本内容在所述第一语音数据的语音开始时间、至少一个第一目标文本内容中每个第一目标文本内容在所述第一语音数据的语音结束时间、至少一个第二目标文本内容中每个第二目标文本内容在所述第一语音数据的语音开始时间以及至少一个第二目标文本内容中每个第二目标文本内容在所述第一语音数据的语音结束时间。

举例来说，多个第一文本内容为[{"bg":50,"ed":100,"words":"你"},{"bg":100,"ed":320,"words":"好"},{"bg":320,"ed":501,"words":"，"},{"bg":501,"ed":690,"words":"天"},{"bg":690,"ed":811,"words":"气"},{"bg":811,"ed":1011,"words":"好"},{"bg":1011,"ed":1204,"words":"。"}]。其中，bg为words在第一语音数据的语音开始时间，ed为words在第一语音数据的语音结束时间。比如，“你”在第一语音数据的语音开始时间为50ms，“你”在第一语音数据的语音结束时间为100ms。进一步的，在该多个第一文本内容中包括2个第二目标文本内容，即，“，”和“。”，2个第二目标文本内容一一对应的2个句子为：你好和天气好。可以理解的，第一文本为：你好，天气好。又举例来说，多个第一文本内容为[{"bg":50,"ed":360,"words":"你好"},{"bg":360,"ed":370,"words":"，"},{"bg":370,"ed":710,"words":"今天"},{"bg":710,"ed":790,"words":"天气"},{"bg":790,"ed":1500,"words":"不错"},{"bg":1011,"ed":1204,"words":"。"}]。其中，bg为words在第一语音数据的语音开始时间，ed为words在第一语音数据的语音结束时间。比如，“你好”在第一语音数据的语音开始时间为50ms，“你好”在第一语音数据的语音结束时间为360ms。进一步的，在该多个第一文本内容中包括2个第二目标文本内容，2个第二目标文本内容一一对应的2个句子为：你好和天气不错。可以理解的，第一文本为：你好，天气不错。又举例来说，多个第一文本内容为[[{"bg":50,"ed":100,"words":"你"},{"bg":100,"ed":360,"words":"好"},{"bg":360,"ed":370,"words":"，"},{"bg":370,"ed":710,"words":"今天"},{"bg":710,"ed":790,"words":"天气"},{"bg":790,"ed":1500,"words":"不错"},{"bg":1011,"ed":1204,"words":"。"}]。其中，bg为words在第一语音数据的语音开始时间，ed为words在第一语音数据的语音结束时间。比如，“你”在第一语音数据的语音开始时间为50ms，“你”在第一语音数据的语音结束时间为100ms。进一步的，在该多个第一文本内容中包括2个第二目标文本内容，2个第二目标文本内容一一对应的2个句子为：你好和天气不错。可以理解的，第一文本为：你好，天气不错。

可以看出，上述技术方案中，对所述第一语音数据进行处理以得到多个第一文本内容，其中，所述多个第一文本内容包括至少一个第一目标文本内容和至少一个第二目标文本内容，所述第一目标文本内容包括至少一个词，所述第二目标文本内容为标点符号；按照时间先后顺序确定所述多个第一文本内容中的N个第二目标文本内容，其中，N为大于1的整数；获取所述N个第二目标文本内容一一对应的N个句子，其中，所述N个句子中的第i个句子包括第(i-1)个第二目标文本内容与第i个第二目标文本内容之间的所有第一目标文本内容，1≤i≤N且i为整数；根据所述N个句子和所述N个第二目标文本内容生成所述第一文本，实现了语音数据转换文本，为后续构建语音数据与文本之间的映射关系做准备。

可选的，基于第一方面或第一方面的第一种可能的实施方式，在第二种可能的实施方式中，所述对所述第一语音数据进行处理以得到多个第一文本内容，包括：通过转写引擎对所述第一语音数据进行处理以生成多个第二文本内容，其中，第三文本内容为所述多个第二文本内容中的任意一个文本内容，所述第三文本内容包括所述第三文本内容的至少一个第一目标文本内容、所述第三文本内容的至少一个第二目标文本内容、所述第三文本内容的至少一个第一目标文本内容对应的至少一个第一时间偏移量和所述第三文本内容的至少一个第二目标文本内容对应的至少一个第二时间偏移量，每个第一时间偏移量为每个第一目标文本内容相对于语音开始时间的时间偏移量，每个第二时间偏移量为每个第二目标文本内容相对于所述语音开始时间的时间偏移量，所述语音开始时间为所述第三文本内容对应于所述第一语音数据的时间；

针对所述多个第二文本内容中的每个第二文本内容执行如下处理步骤：根据当前处理的第二文本内容中至少一个第一目标文本内容对应的至少一个第一时间偏移量和当前处理的第二文本内容对应于所述第一语音数据的时间确定当前处理的第二文本内容中至少一个第一目标文本内容对应的至少一个第一语音开始时间和至少一个第一语音结束时间，以及，根据当前处理的第二文本内容中至少一个第二目标文本内容对应的至少一个第二时间偏移量和当前处理的第二文本内容对应于所述第一语音数据的时间确定当前处理的第二文本内容中至少一个第二目标文本内容对应的至少一个第二语音开始时间和至少一个第二语音结束时间；根据至少一个第一目标文本内容对应的至少一个第一语音开始时间和至少一个第一语音结束时间、至少一个第二目标文本内容对应的至少一个第二语音开始时间和至少一个第二语音结束时间、至少一个第一目标文本内容、至少一个第二目标文本内容生成所述多个第一文本内容中与当前处理的第二文本内容对应的第一文本内容。

其中，所述转写引擎包括语言模型和声学模型，所述转写引擎用于将所述第一语音数据转写成所述多个第二文本内容。

举例来说，多个第二文本内容中某个第二文本内容为：{{"bg":10,"ed":1500,“ws”：[{"bg":4,"cw":[{"w":"你好"}]}，{"bg":35,"cw":[{"w":"，"}]}，{"bg":36,"cw":[{"w":"今天"}]}，{"bg":70,"cw":[{"w":"天气"}]}，{"bg":78，"cw":[{"w":"好"}]}]}}。其中，"bg":10表示该第二文本内容在所述第一语音数据的语音开始时间为10ms，"ed":1500表示该第二文本内容在所述第一语音数据的语音结束时间为1500ms。进一步的，"bg":4表示"你好"相对于该第二文本内容在所述第一语音数据的语音开始时间10ms的时间偏移量，"bg":35表示"，"相对于该第二文本内容在所述第一语音数据的语音开始时间10ms的时间偏移量，剩余的bg也都是相对于该第二文本内容在所述第一语音数据的语音开始时间10ms的时间偏移量。可以理解的，时间偏移量的单位为10ms。比如，"bg":4表示"你好"相对于该第二文本内容在所述第一语音数据的语音开始时间10ms的时间偏移量，那么，"你好"的时间偏移量是40ms。可以理解的，在该第二文本内容中第二目标文本内容例如可以包括：“你好”、“今天”等，在该第二文本内容中第二目标文本内容为“，”。

可以看出，上述技术方案中，通过将语音数据转换成带时间的第一文本内容，为后续构建语音数据与文本之间的映射关系做准备。

202、在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容至少包括以下一种：至少一个词和标点符号；

203、根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。

可选的，在一种可能的实施方式中，所述映射关系包括所述目标文本与目标文本时间标签之间的对应关系，所述根据所述目标文本和预设的映射关系执行语音播放操作，包括：根据所述映射关系确定所述目标文本对应的所述目标文本时间标签；播放所述目标文本时间标签对应的语音数据。

可以看出，上述技术方案中，根据所述映射关系确定所述目标文本对应的所述目标文本时间标签；播放所述目标文本时间标签对应的语音数据，实现了在映射关系所述目标文本与目标文本时间标签之间的对应关系时语音数据的播放，通过构建所述目标文本与目标文本时间标签之间的对应关系深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述目标文本包括的至少一个词级文本，所述至少一个词级文本中每个词级文本对应一个词级时间标签，所述词级时间标签属于所述目标文本时间标签，每个词级文本为所述目标文本中的一个词，所述根据所述映射关系确定所述目标文本对应的所述目标文本时间标签，包括：获取所述目标文本包括的所述至少一个词级文本；根据所述映射关系确定所述至少一个词级文本中的每个词级文本对应的词级时间标签。

其中，词级文本为一个字。

举例来说，目标文本为“今天下雨了”，那么，词级文本可以是“今”，也可以是“今天下雨了”中的其他词。词级时间标签也就是“今”对应于第一语音数据的语音开始时间。进一步的，可以理解的，“今天下雨了”中的每个词都对应了一个词级时间标签。

可以看出，上述技术方案中，获取所述目标文本包括的所述至少一个词级文本；根据所述映射关系确定所述至少一个词级文本中的每个词级文本对应的词级时间标签，构建了至少一个词级文本中的每个词级文本对应的词级时间标签，为后续在映射关系包括词级文本与词级时间标签之间的对应关系时语音数据的播放做准备，也丰富语音转换文本的转换过程。

可选的，在第一种可能的实施方式中，所述根据所述第一位置对应的文本内容确定目标文本，包括：若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词；或者，若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词；或者，若所述第一位置对应所述标点符号，则获取所述标点符号的相邻单词；或者，若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词。

举例来说，第一位置对应单个词为“你”，那么，目标文本也为“你”；第一位置对应多个词为“明天天”，那么，目标文本也为“明天天”；第一位置对应标点符号为“。”，且假设第一文本为“明天天气好，非常适合踏青。我们可以去看看自然风光。”，那么，目标文本可以是“青”或者“我”，目标文本也可以是“光”；第一位置对应至少一个词和标点符号为“你好！”，那么，目标文本也为“你好”。

可以看出，上述技术方案中，实现针对第一位置对应不同文本内容时目标文本的确定，从而实现深度挖掘位置与文本之间的关联关系。

可选的，在一种可能的实施方式中，所述获取所述标点符号的相邻单词，包括：若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻单词；若所述第一位置对应的所述标点符号之后包括字符，所述目标文本至少包括以下一种：在所述标点符号之前的相邻单词和在所述标点符号之后的相邻单词。

其中，字符包括标点符号和字。

举例来说，假设第一文本为“明天天气好，非常适合踏青。我们可以去看看自然风光。”，第一位置对应标点符号为“。”，那么，如果所述第一位置对应的所述标点符号之后包括字符，目标文本可以是“青”或者“我”，所述第一位置对应的所述标点符号之后不包括字符，目标文本可以是“光”。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：获取所述词级文本对应的词级时间；生成所述词级时间对应的词级时间标签；构建所述映射关系，所述映射关系包括所述词级时间标签与所述词级文本之间的对应关系。

其中，所述词级时间标签包括所述词级文本对应于所述第一语音数据的语音开始时间和所述词级文本对应于所述第一语音数据的语音结束时间，其中，所述词级文本对应于所述第一语音数据的语音结束时间包括以下一种：在所述词级文本之后的相邻词级文本对应于所述第一语音数据的语音开始时间和在所述词级文本之后的相邻标点符号对应于所述第一语音数据的语音开始时间。进一步的，所述词级时间标签的格式例如可以包括：iflyrec_begintime_endtime，其中，iflyrec用于标识所述词级时间标签，begintime用于表示所述词级文本对应于所述第一语音数据的语音开始时间，endtime用于表示所述词级文本对应于所述第一语音数据的语音结束时间。举例来说，词级时间标签为：iflyrec_250_330。

其中，所述生成所述词级时间对应的词级时间标签，包括：获取在所述词级文本之后的相邻词级文本对应于所述第一语音数据的语音开始时间；根据所述词级时间和在所述词级文本之后的相邻词级文本对应于所述第一语音数据的语音开始时间生成所述词级时间标签；或者，获取在所述词级文本之后的相邻标点符号对应于所述第一语音数据的语音开始时间；根据所述词级时间和在所述词级文本之后的相邻标点符号对应于所述第一语音数据的语音开始时间生成所述词级时间标签。

举例来说，词级文本为“天”，该词级文本“天”对应的词级时间为250ms，假设在词级文本“天”之后的相邻词级文本“气”对应的词级时间为330ms。进一步的，该词级文本“天”对应的词级时间标签为：iflyrec_250_330。

又举例来说，词级文本为“天”，该词级文本“天”对应的词级时间为250ms，假设在词级文本“天”之后的相邻标点“，”对应的词级时间为340ms，进一步的，该词级文本“天”对应的词级时间标签为：iflyrec_250_340。

可以看出，上述技术方案中，获取所述词级文本对应的词级时间；生成所述词级时间对应的词级时间标签；构建所述映射关系，所述映射关系包括所述词级时间标签与所述词级文本之间的对应关系，从而实现构建词级文本与词级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述获取所述词级文本对应的词级时间，包括：确定所述词级文本所在的预设类型文本，所述预设类型文本包括句级文本或段级文本，所述句级文本为一个句子，所述段级文本为一个段落；获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述预设类型文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间。

举例来说，词级文本为“天”，该词级文本所在的句级文本为“今天天气好。”。进一步的，“今”对应于第一语音数据的时间为150ms，该词级文本“天”对应的词级时间偏移量为20ms，同时，词级时间偏移量的单位为10ms，那么，该词级文本“天”对应的词级时间为250ms。另外，在词级文本“天”之后的相邻词级文本“气”对应的词级时间为330ms。进一步的，该词级文本“天”对应的词级时间标签为：iflyrec_250_330。如果，词级文本“气”对应的词级时间为330ms，词级文本“好”对应的词级时间为420ms，那么，词级文本“气”对应的词级时间标签为：iflyrec_330_420。如果，标点符号“。”对应于第一语音数据的语音开始时间为510ms，词级文本“好”对应的词级时间标签为：iflyrec_420_510。

又举例来说，词级文本为“天”，该词级文本所在的段级文本为“今天天气好，阳光明媚，要不，我们去海边游泳吧！”。进一步的，“今”对应于第一语音数据的时间为150ms，该词级文本“明”对应的词级时间偏移量为94ms，同时，词级时间偏移量的单位为10ms，那么，该词级文本“明”对应的词级时间为1090ms。另外，在词级文本“明”之后的相邻词级文本“媚”对应的词级时间为1214ms。进一步的，该词级文本“明”对应的词级时间标签为：iflyrec_1090_1214。如果，词级文本“媚”之后的标点符号“，”对应于第一语音数据的语音开始时间为1310ms，那么，词级文本“媚”对应的词级时间标签为：iflyrec_1214_1310。

可以看出，上述技术方案中，确定所述词级文本所在的预设类型文本，所述预设类型文本包括句级文本或段级文本，所述句级文本为一个句子，所述段级文本为一个段落；获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述预设类型文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间，从而实现基于词级文本所在的预设类型文本构建词级文本与词级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述获取所述词级文本对应的词级时间，包括：获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间。

举例来说，词级文本为“天”，第一文本为“今天天气好，阳光明媚，要不，我们去海边游泳吧！”。进一步的，“今”对应于第一语音数据的时间为150ms，该词级文本“明”对应的词级时间偏移量为94ms，同时，词级时间偏移量的单位为10ms，那么，该词级文本“明”对应的词级时间为1090ms。另外，在词级文本“明”之后的相邻词级文本“媚”对应的词级时间为1214ms。进一步的，该词级文本“明”对应的词级时间标签为：iflyrec_1090_1214。如果，词级文本“媚”之后的标点符号“，”对应于第一语音数据的语音开始时间为1310ms，那么，词级文本“媚”对应的词级时间标签为：iflyrec_1214_1310。

可以看出，上述技术方案中，获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间，从而实现基于第一文本构建词级文本与词级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述目标文本包括的至少一个句级文本，所述至少一个句级文本中每个句级文本对应一个句级时间标签，所述句级时间标签属于所述目标文本时间标签，每个句级文本为所述目标文本中的一个句子，所述根据所述映射关系确定所述目标文本对应的所述目标文本时间标签，包括：获取所述目标文本包括的所述至少一个句级文本；根据所述映射关系确定所述至少一个句级文本中的每个句级文本对应的句级时间标签。

其中，句级文本为一个句子。

举例来说，目标文本为“今天下雨了”和“记得带伞”，那么，句级文本可以是“今天下雨了”，也可以是“记得带伞”。如果句级文本是“今天下雨了”，那么，句级文本“今天下雨了”对应的句级时间标签也就是“今天下雨了”对应于第一语音数据的语音开始时间。进一步的，可以理解的，目标文本中的每个句级文本都对应了一个句级时间标签。

可以看出，上述技术方案中，获取所述目标文本包括的所述至少一个句级文本；根据所述映射关系确定所述至少一个句级文本中的每个句级文本对应的句级时间标签，构建了至少一个句级文本中的每个句级文本对应的句级时间标签，为后续在映射关系包括句级文本与句级时间标签之间的对应关系时语音数据的播放做准备，也丰富语音转换文本的转换过程。

可选的，在第一种可能的实施方式中，所述根据所述第一位置对应的文本内容确定目标文本，包括：若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词所在的句子；或者，若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词所在的句子；或者，若所述第一位置对应所述标点符号，则获取所述标点符号的相邻句子；或者，若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词所在的句子。

举例来说，第一位置对应单个词为“你”，“你”所在的句子为“你吉他学得怎么样”，那么，目标文本也为“你吉他学得怎么样”；第一位置对应多个词为“怎么样”，“怎么样”所在的句子为“你吉他学得怎么样”，那么，目标文本也为“你吉他学得怎么样”；第一位置对应标点符号为“。”，且假设第一文本为“明天天气好，非常适合踏青。我们可以去看看自然风光。”，那么，目标文本可以是“非常适合踏青”或者“我们可以去看看自然风光”，目标文本也可以是“我们可以去看看自然风光”；第一位置对应至少一个词和标点符号为“合踏青。”，至少一个词所在的句子为“非常适合踏青”那么，目标文本也为“非常适合踏青”。

可选的，在一种可能的实施方式中，所述获取所述标点符号的相邻句子，包括：若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻句子；若所述第一位置对应的所述标点符号之后包括字符，所述目标文本包括以下一种：在所述标点符号之前的相邻句子和在所述标点符号之后的相邻句子。

其中，字符包括标点符号和字。

举例来说，假设第一文本为“明天天气好，非常适合踏青。我们可以去看看自然风光。”，第一位置对应标点符号为“。”，若所述第一位置对应的所述标点符号之后包括字符，那么，目标文本可以是“非常适合踏青”或者“我们可以去看看自然风光”，若所述第一位置对应的所述标点符号之后不包括字符，目标文本是“我们可以去看看自然风光”。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：获取所述句级文本中的第一个词以及在最后一个词之后的相邻标点符号；获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号相对于语音开始时间的偏移量，所述语音开始时间为段级文本中第一个词对应于所述第一语音数据的时间，所述段级文本为所述句级文本所在的段落；根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；根据所述第一个词对应的词级时间和所述语音结束时间确定所述句级文本对应的句级时间；生成所述句级时间对应的句级时间标签；构建所述映射关系，所述映射关系包括所述句级时间标签与所述句级文本之间的对应关系。

其中，所述句级时间标签包括所述句级文本对应于所述第一语音数据的语音开始时间和所述句级文本对应于所述第一语音数据的语音结束时间，所述句级文本对应于所述第一语音数据的语音开始时间为：所述第一个词对应的词级时间，所述句级文本对应于所述第一语音数据的语音结束时间为：所述语音结束时间。也就是说，所述句级文本对应于所述第一语音数据的语音结束时间为：所述相邻标点符号对应于所述第一语音数据的语音开始时间。进一步的，所述句级时间标签的格式例如可以包括：iflyrec_begintime_endtime，其中，iflyrec用于标识所述句级时间标签，begintime用于表示所述句级文本对应于所述第一语音数据的语音开始时间，endtime用于表示所述句级文本对应于所述第一语音数据的语音结束时间。

举例来说，句级文本为“要不”，句级文本所在的段级文本为“今天天气好，阳光明媚，要不，我们去海边游泳吧！”。进一步的，段级文本中的第一个词“今”对应于第一语音数据的时间为230ms，句级文本“要不”中的第一词为“要”，“要”对应的词级时间偏移量为94ms，同时，词级时间偏移量的单位为10ms，那么，“要”对应的词级时间为1170ms。句级文本“要不”中的最后一个词为“不”，在“不”之后的相邻标点符号为“，”，相邻标点符号“，”对应的时间偏移量121ms，相邻标点符号“，”对应于所述第一语音数据的语音开始时间为1440ms，进一步的，所述语音结束时间为1440ms。因此，句级文本“要不”对应的句级时间标签为：iflyrec_1170_1440。

可以看出，上述技术方案中，实现了基于句级文本所在的段级文本构建句级文本与句级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：获取所述句级文本中的第一个词和在最后一个词之后的相邻标点符号；获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；根据所述第一个词对应的词级时间和所述语音结束时间确定所述句级文本对应的句级时间；生成所述句级时间对应的句级时间标签；构建所述映射关系，所述映射关系包括所述句级时间标签与所述句级文本之间的对应关系。

举例来说，句级文本为“要不”，第一文本为“今天天气好，阳光明媚，要不，我们去海边游泳吧！”。进一步的，第一文本中的第一个词“今”对应于第一语音数据的时间为230ms，句级文本“要不”中的第一词为“要”，“要”对应的词级时间偏移量为94ms，同时，词级时间偏移量的单位为10ms，那么，“要”对应的词级时间为1170ms。句级文本“要不”中的最后一个词为“不”，在“不”之后的相邻标点符号为“，”，相邻标点符号“，”对应的时间偏移量121ms，相邻标点符号“，”对应于所述第一语音数据的语音开始时间为1440ms，进一步的，所述语音结束时间为1440ms。因此，句级文本“要不”对应的句级时间标签为：iflyrec_1170_1440。

可以看出，上述技术方案中，实现了基于第一文本构建句级文本与句级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述目标文本包括的至少一个段级文本，所述至少一个段级文本中每个段级文本对应一个段级时间标签，所述段级时间标签属于所述目标文本时间标签，每个段级文本为所述目标文本中的一个段落，所述根据所述映射关系确定所述目标文本对应的所述目标文本时间标签，包括：获取所述目标文本包括的所述至少一个段级文本；根据所述映射关系确定所述至少一个段级文本中的每个段级文本对应的段级时间标签。

其中，段级文本为一个段落。

举例来说，目标文本为“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，那么，段级文本可以是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”，也可以是“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。如果段级文本是“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，那么，段级文本“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”对应的段级时间标签也就是“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”对应于第一语音数据的语音开始时间。进一步的，可以理解的，目标文本中的每个段级文本都对应了一个段级时间标签。

可以看出，上述技术方案中，获取所述目标文本包括的所述至少一个段级文本；根据所述映射关系确定所述至少一个段级文本中的每个段级文本对应的段级时间标签，构建了至少一个段级文本中的每个段级文本对应的段级时间标签，为后续在映射关系包括段级文本与段级时间标签之间的对应关系时语音数据的播放做准备，也丰富语音转换文本的转换过程。

可选的，在第一种可能的实施方式中，所述根据所述第一位置对应的文本内容确定目标文本，包括：若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词所在的段落；或者，若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词所在的段落；或者，若所述第一位置对应所述标点符号，则获取所述标点符号的相邻段落；或者，若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词所在的段落。

举例来说，第一位置对应单个词为“少”，而，“少”所在的段落为“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”，那么，目标文本为：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”

又举例来说，第一位置对应多个词为“满足自己”，“满足自己”所在的段落为“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”，那么，目标文本为：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”

又举例来说，第一位置对应标点符号为“。”，且假设第一文本为：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，也就是说，第一文本包括2个段落。标点符号“。”是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”中第一个“。”，那么，目标文本可以是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”标点符号“。”是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”中最后一个“。”，那么，目标文本包括以下一种：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。标点符号“。”是第一文本中的最后一个标点符号，那么，目标文本为“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。

又举例来说，第一位置对应至少一个词和标点符号为“度的大小，”，该“度的大小”所在的段落为“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，那么，目标文本也为“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。

可选的，在一种可能的实施方式中，所述获取所述标点符号的相邻段落，包括：若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻段落；若所述第一位置对应的所述标点符号之后包括字符，所述目标文本至少包括以下一种：在所述标点符号之前的相邻段落和在所述标点符号之后的相邻段落。

举例来说，第一位置对应标点符号为“。”，且假设第一文本为：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，也就是说，第一文本包括2个段落。若所述第一位置对应的所述标点符号之后包括字符，也就是说，标点符号“。”是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”中第一个“。”，那么，目标文本为“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”；标点符号“。”是“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”中最后一个“。”，那么，目标文本包括以下一种：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。若所述第一位置对应的所述标点符号之后不包括字符，那么，目标文本为“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：获取所述段级文本中的第一个词和在最后一个词之后的相邻标点符号；获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；根据所述第一个词对应的词级时间和所述语音结束时间确定所述段级文本对应的段级时间；生成所述段级时间对应的段级时间标签；构建所述映射关系，所述映射关系包括所述段级时间标签与所述段级文本之间的对应关系。

其中，所述段级时间标签包括所述段级文本对应于所述第一语音数据的语音开始时间和所述段级文本对应于所述第一语音数据的语音结束时间，其中，所述段级文本对应于所述第一语音数据的语音结束时间包括以下一种：在所述段级文本之后的相邻段级文本对应于所述第一语音数据的语音开始时间和在所述段级文本之后的相邻标点符号对应于所述第一语音数据的语音开始时间。进一步的，所述段级时间标签的格式例如可以包括：iflyrec_begintime_endtime，其中，iflyrec用于标识所述段级时间标签，begintime用于表示所述段级文本对应于所述第一语音数据的语音开始时间，endtime用于表示所述段级文本对应于所述第一语音数据的语音结束时间。

举例来说，假设第一文本为：“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”和“快乐的大小，来自所做有乐趣之事的大小。来自于需求强度的大小，一个人一辈子追求的东西被满足了，就是大快乐，此刻需求被满足了就是小快乐。”，也就是说，第一文本包括2个段落。段级文本为“快乐的多少，来自有乐趣事物的多少。来自于满足自己内心需求，愿望多少。”，第一文本中的第一个词“快”对应于第一语音数据的时间为50ms，该段级文本中第一个词“快”对应的词级时间偏移量为0ms，则该段级文本对应于第一语音数据的语音开始时间为50ms；该段级文本中在最后一个词“少”之后的相邻标点符号为“。”，相邻标点符号为“。”对应的时间偏移量为5621ms，那么，该段级文本对应于第一语音数据的语音结束时间为56260ms。进一步的，该段级文本对应的段级时间标签为：iflyrec_50_56260。

可以看出，上述技术方案中，实现基于第一文本构建段级文本与段级时间标签之间的对应关系，进而深度挖掘语音与文本之间的关联关系，丰富语音转换文本的转换过程。

可选的，在一种可能的实施方式中，所述在所述根据所述目标文本和映射关系执行语音播放操作之后，所述方法还包括：在检测到针对所述目标文本的编辑操作时，在所述界面上显示编辑后的目标文本；在检测到针对编辑后的目标文本的保存操作时，保存编辑后的目标文本。

可以看出，上述技术方案中，在检测到针对所述目标文本的编辑操作时，在所述界面上显示编辑后的目标文本；在检测到针对编辑后的目标文本的保存操作时，保存编辑后的目标文本，实现了对目标文本的编辑、保存，帮助用户在听完目标文本对应的语音数据后对目标文本的编辑、保存，提升用户体验。

举例来说，应用软件是Word软件，还可以在Word软件中显示第一文本。同时，该Word软件中存在插件，该插件可实现本申请所有实施例。进一步，当检测用户针对某个目标文本的播放选择操作时，该插件会播放该目标文本对应的语音数据。可以理解的，在Word软件中显示第一文本时，第一文本对应的文件格式例如可以包括XML格式等。举例来说，第一文本.docx。进一步的，可以将第一语音数据编码到该第一文本对应的文件中，例如可以采用对象连接与嵌入(Object Linking and Embedding，OLE)技术将第一语音数据编码到该第一文本对应的文件中。进一步，语音数据处理设备可以利用Spire.Doc组件对第一文本进行编辑、保存等操作，也可以将第一语音数据写入该Word软件中。举例来说，语音数据处理设备获取第一文本对应的文件写入流(OleStream)，利用Spire.Doc组件包括的paragraph.appendOleObjec将第一语音数据写入该Word软件中。进一步的，当用户打开Word软件时，会弹出窗口，参考图3，图3是本申请实施例提供的一种窗口示意图，可以看出，该窗口示意图中包括：插件未安装、是否安装插件、“是”按钮、“否”按钮。当用户通过Word软件打开第一文本时，如果用户未安装该插件，会在界面上弹出窗口，该窗口中显示是否安装插件的提示信息，用户可以对“是”按钮进行操作，实现安装该插件。进一步的，在弹出窗口之前，语音数据处理设备要在第一文本对应的文件中添加检测脚本，比如，doc的宏中添加检测脚本。该检测脚本用于在检测到注册表中不包括与该插件对应的字符串时弹出窗口。进一步的，在第一文本对应的文件中添加检测脚本，主要通过VBProject.VBComponents添加检测脚本。

其中，Spire.Doc for.NET是一款由E-iceblue公司开发的专业的Word.NET类库。

其中，对象连接与嵌入是微软定义的一种数据交换格式，它可以用于创建复合文档，复合文档包括文字、声音、图像、表格、应用程序中的一种或多种。

其中，文档(DOC，Document)是电脑文件常见文件扩展名的一种。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，语音数据处理设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对语音数据处理设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是本申请实施例中所涉及的语音数据处理装置500的功能单元组成框图。该语音数据处理装置500应用于语音数据处理设备400，所述语音数据处理设备包括处理单元510，其中，

所述处理单元510，用于在界面上显示第一文本，所述第一文本是根据第一语音数据生成的文本；以及用于在检测到针对所述界面上的第一位置的播放选择操作时，根据所述第一位置对应的文本内容确定目标文本，其中，所述文本内容包括以下一种：至少一个词和标点符号；以及用于根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述语音数据之间的对应关系。

可选的，在一种可能的实施方式中，所述映射关系包括所述目标文本与目标文本时间标签之间的对应关系，所述处理单元510，具体用于根据所述映射关系确定所述目标文本对应的所述目标文本时间标签；播放所述目标文本时间标签对应的语音数据。

可选的，在一种可能的实施方式中，所述目标文本包括的至少一个词级文本，所述至少一个词级文本中每个词级文本对应一个词级时间标签，所述词级时间标签属于所述目标文本时间标签，每个词级文本为所述目标文本中的一个词，所述处理单元510，具体用于获取所述目标文本包括的所述至少一个词级文本；根据所述映射关系确定所述至少一个词级文本中的每个词级文本对应的词级时间标签。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词；或者，若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词；或者，若所述第一位置对应所述标点符号，则获取所述标点符号的相邻单词；或者，若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻单词；若所述第一位置对应的所述标点符号之后包括字符，所述目标文本至少包括以下一种：在所述标点符号之前的相邻单词和在所述标点符号之后的相邻单词。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述处理单元510，还用于获取所述词级文本对应的词级时间；生成所述词级时间对应的词级时间标签；构建所述映射关系，所述映射关系包括所述词级时间标签与所述词级文本之间的对应关系。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于确定所述词级文本所在的预设类型文本，所述预设类型文本包括句级文本或段级文本，所述句级文本为一个句子，所述段级文本为一个段落；获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述预设类型文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间。

可选的，在一种可能的实施方式中，所述目标文本包括的至少一个句级文本，所述至少一个句级文本中每个句级文本对应一个句级时间标签，所述句级时间标签属于所述目标文本时间标签，每个句级文本为所述目标文本中的一个句子，所述处理单元510，具体用于获取所述目标文本包括的所述至少一个句级文本；根据所述映射关系确定所述至少一个句级文本中的每个句级文本对应的句级时间标签。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词所在的句子；或者，若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词所在的句子；或者，若所述第一位置对应所述标点符号，则获取所述标点符号的相邻句子；或者，若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词所在的句子。

可选的，在一种可能的实施方式中，所述处理单元510，具体用于若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻句子；若所述第一位置对应的所述标点符号之后包括字符，所述目标文本包括以下一种：在所述标点符号之前的相邻句子和在所述标点符号之后的相邻句子。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述处理单元510，还用于获取所述句级文本中的第一个词以及在最后一个词之后的相邻标点符号；获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号相对于语音开始时间的偏移量，所述语音开始时间为段级文本中第一个词对应于所述第一语音数据的时间，所述段级文本为所述句级文本所在的段落；根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；根据所述第一个词对应的词级时间和所述语音结束时间确定所述句级文本对应的句级时间；生成所述句级时间对应的句级时间标签；构建所述映射关系，所述映射关系包括所述句级时间标签与所述句级文本之间的对应关系。

可选的，在一种可能的实施方式中，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述处理单元510，还用于获取所述句级文本中的第一个词和在最后一个词之后的相邻标点符号；获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；根据所述第一个词对应的词级时间和所述语音结束时间确定所述句级文本对应的句级时间；生成所述句级时间对应的句级时间标签；构建所述映射关系，所述映射关系包括所述句级时间标签与所述句级文本之间的对应关系。

可选的，在一种可能的实施方式中，在所述在界面上显示第一文本之前，所述处理单元510，还用于接收终端发送的语音数据转写请求，所述语音数据转写请求携带第二语音数据；对所述第二语音数据进行转码处理以生成所述第一语音数据。

可选的，在一种可能的实施方式中，所述在所述根据所述目标文本和映射关系执行语音播放操作之后，所述处理单元510，还用于在检测到针对所述目标文本的编辑操作时，在所述界面上显示编辑后的目标文本；在检测到针对编辑后的目标文本的保存操作时，保存编辑后的目标文本。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质用于存储计算机程序，该计算机程序被所述处理器执行，以实现如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括语音数据处理设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应所述知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应所述知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应所述理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性或者其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的全部或部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

根据所述目标文本和预设的映射关系执行语音播放操作，其中，所述映射关系包括所述目标文本与所述第一语音数据之间的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述映射关系包括所述目标文本与目标文本时间标签之间的对应关系，所述根据所述目标文本和预设的映射关系执行语音播放操作，包括：

根据所述映射关系确定所述目标文本对应的所述目标文本时间标签；

播放所述目标文本时间标签对应的语音数据。

3.根据权利要求2所述的方法，其特征在于，所述目标文本包括的至少一个词级文本，所述至少一个词级文本中每个词级文本对应一个词级时间标签，所述词级时间标签属于所述目标文本时间标签，每个词级文本为所述目标文本中的一个词，所述根据所述映射关系确定所述目标文本对应的所述目标文本时间标签，包括：

获取所述目标文本包括的所述至少一个词级文本；

根据所述映射关系确定所述至少一个词级文本中的每个词级文本对应的词级时间标签。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述根据所述第一位置对应的文本内容确定目标文本，包括：

若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词；或者，

若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词；或者，

若所述第一位置对应所述标点符号，则获取所述标点符号的相邻单词；或者，

若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词。

5.根据权利要求4所述的方法，其特征在于，所述获取所述标点符号的相邻单词，包括：

若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻单词；

若所述第一位置对应的所述标点符号之后包括字符，所述目标文本至少包括以下一种：在所述标点符号之前的相邻单词和在所述标点符号之后的相邻单词。

6.根据权利要求1-4任意一项所述的方法，其特征在于，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：

获取所述词级文本对应的词级时间；

生成所述词级时间对应的词级时间标签；

构建所述映射关系，所述映射关系包括所述词级时间标签与所述词级文本之间的对应关系。

7.根据权利要求6所述的方法，其特征在于，所述获取所述词级文本对应的词级时间，包括：

确定所述词级文本所在的预设类型文本，所述预设类型文本包括句级文本或段级文本，所述句级文本为一个句子，所述段级文本为一个段落；

获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述预设类型文本中第一个词对应于所述第一语音数据的时间；

根据所述词级时间偏移量和所述语音开始时间确定所述词级文本对应的词级时间。

8.根据权利要求6所述的方法，其特征在于，所述获取所述词级文本对应的词级时间，包括：

获取所述词级文本对应的词级时间偏移量，所述词级时间偏移量为所述词级文本相对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；

9.根据权利要求2所述的方法，其特征在于，所述目标文本包括的至少一个句级文本，所述至少一个句级文本中每个句级文本对应一个句级时间标签，所述句级时间标签属于所述目标文本时间标签，每个句级文本为所述目标文本中的一个句子，所述根据所述映射关系确定所述目标文本对应的所述目标文本时间标签，包括：

获取所述目标文本包括的所述至少一个句级文本；

根据所述映射关系确定所述至少一个句级文本中的每个句级文本对应的句级时间标签。

10.根据权利要求1或9所述的方法，其特征在于，所述根据所述第一位置对应的文本内容确定目标文本，包括：

若所述第一位置对应单个词，则根据所述第一位置对应的单个词确定所述目标文本为所述单个词所在的句子；或者，

若所述第一位置对应多个词，则根据所述第一位置对应的多个词确定所述目标文本为所述多个词所在的句子；或者，

若所述第一位置对应所述标点符号，则获取所述标点符号的相邻句子；或者，

若所述第一位置对应所述至少一个词和所述标点符号，则根据所述第一位置对应的所述至少一个词和所述标点符号确定所述目标文本为所述至少一个词所在的句子。

11.根据权利要求10所述的方法，其特征在于，所述获取所述标点符号的相邻句子，包括：

若所述第一位置对应的所述标点符号之后不包括字符，所述目标文本包括：在所述标点符号之前的相邻句子；

若所述第一位置对应的所述标点符号之后包括字符，所述目标文本包括以下一种：在所述标点符号之前的相邻句子和在所述标点符号之后的相邻句子。

12.根据权利要求9-11任意一项所述的方法，其特征在于，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：

获取所述句级文本中的第一个词以及在最后一个词之后的相邻标点符号；

获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号相对于语音开始时间的偏移量，所述语音开始时间为段级文本中第一个词对应于所述第一语音数据的时间，所述段级文本为所述句级文本所在的段落；

根据所述第一个词对应的词级时间偏移量和所述语音开始时间确定所述第一个词对应的词级时间；

根据所述相邻标点符号对应的时间偏移量和所述语音开始时间确定所述最后一个词对应于所述第一语音数据的语音结束时间；

根据所述第一个词对应的词级时间和所述语音结束时间确定所述句级文本对应的句级时间；

生成所述句级时间对应的句级时间标签；

构建所述映射关系，所述映射关系包括所述句级时间标签与所述句级文本之间的对应关系。

13.根据权利要求9-11任意一项所述的方法，其特征在于，在所述根据所述目标文本和预设的映射关系执行语音播放操作之前，所述方法还包括：

获取所述句级文本中的第一个词和在最后一个词之后的相邻标点符号；

获取所述第一个词对应的词级时间偏移量，以及，所述相邻标点符号对应的时间偏移量，所述第一个词对应的词级时间偏移量为所述第一个词相对于语音开始时间的偏移量，所述相邻标点符号对应的时间偏移量为所述相邻标点符号对于语音开始时间的偏移量，所述语音开始时间为所述第一文本中第一个词对应于所述第一语音数据的时间；

生成所述句级时间对应的句级时间标签；

14.根据权利要求1所述的方法，其特征在于，在所述在界面上显示第一文本之前，所述方法还包括：

接收终端发送的语音数据转写请求，所述语音数据转写请求携带第二语音数据；

对所述第二语音数据进行转码处理以生成所述第一语音数据。

15.根据权利要求1所述的方法，其特征在于，所述在所述根据所述目标文本和映射关系执行语音播放操作之后，所述方法还包括：

在检测到针对所述目标文本的编辑操作时，在所述界面上显示编辑后的目标文本；

在检测到针对编辑后的目标文本的保存操作时，保存编辑后的目标文本。

16.一种语音数据处理装置，其特征在于，包括处理单元，

17.一种语音数据处理设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被生成由所述处理器执行，以执行权利要求1-15任一项方法中的步骤的指令。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被所述处理器执行，以实现权利要求1-15任一项所述的方法。