CN114898753A

CN114898753A - 数据处理方法及装置

Info

Publication number: CN114898753A
Application number: CN202210504264.5A
Authority: CN
Inventors: 张彦宝; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-12

Abstract

本申请提供数据处理方法及装置，其中所述数据处理方法包括：接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。本申请的数据处理方法实现了基于预设分段规则对音频字段进行分段展示，提升音频字段展示的清晰度，进而提升用户对音频字段的处理效率。

Description

数据处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法。本申请同时涉及一种数据处理装置、一种计算设备，以及一种计算机可读存储介质。

背景技术

目前，为了便于对音频进行高效利用，可以通过将实时接收到的音频或已保存的音频文件转换为文字，从而便于对音频数据的整理和查看；

然而，当前通常是将音频整体转换为文字并展示给用户，导致用户需要在大篇幅的文字中查阅所需的文字内容，从而影响对了对音频数据的处理效率。

发明内容

有鉴于此，本申请实施例提供了一种数据处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种数据处理装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种数据处理方法，包括：

接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；

接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；

基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

可选地，响应于所述语音转换请求向语音转换平台发送音频流，包括：

响应于所述语音转换请求，获取初始音频流；

基于预设音频处理规则处理所述初始音频流获得音频流，并将所述音频流发送至所述语音转换平台。

可选地，基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示，包括：

确定目标音频字段并获取当前音频字段总数；

根据所述当前音频字段总数和所述预设分段规则中的预设阈值确定字段展示位置；

基于所述目标音频字段的字段类型标识及所述字段展示位置对所述目标音频字段进行展示。

可选地，根据所述当前音频字段总数和所述预设分段规则中的预设阈值确定字段展示位置，包括：

若所述当前音频字段总数大于所述预设阈值，则确定字段展示位置为新段落；

若所述当前音频字段总数小于等于所述预设阈值，则确定字段展示位置为当前段落。

可选地，所述字段类型标识包括第一类型和第二类型：

相应的，基于所述目标音频字段的字段类型标识及所述字段展示位置对所述目标音频字段进行展示，包括：

若所述目标音频字段的字段类型标识为第一类型，则在所述字段展示位置对所述目标音频字段进行展示；

若所述目标音频字段的字段类型标识为第二类型，则删除当前段落中第一类型的音频字段，并在所述字段展示位置对所述目标音频字段进行展示。

可选地，基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示之前，还包括：

统计当前时刻的第二类型的音频字段的当前音频字段总数。

可选地，若所述当前音频字段总数大于等于所述预设阈值，则确定字段展示位置为新段落，包括：

若所述当前音频字段总数大于所述预设阈值且所述目标音频字段中包含预设标识，则对所述当前音频字段总数进行调整，并确定字段展示位置为当前段落；

若所述当前音频字段总数大于所述预设阈值且所述目标音频字段中未包含预设标识，则确定字段展示位置为新段落。

可选地，所述方法还包括：

接收音频流，并将所述音频流存储至音频数据库。

可选地，接收音频流之前，还包括：

创建目标播放器，其中，所述目标播放器用于播放所述音频数据库中的音频流以及展示所述语音转换平台基于所述音频流返回的音频字段。

可选地，播放所述音频数据库中的音频流以及展示所述语音平台基于所述音频流返回的音频字段，包括：

确定所述音频字段中的播放帧数值；

基于所述播放帧数值计算所述音频字段的目标播放时间点；

监听所述目标播放器的当前播放时间点，并基于所述当前播放时间点和所述目标播放时间点播放所述当前播放时间点对应的音频流和所述音频字段。

根据本申请实施例的第二方面，提供了一种数据处理装置，包括：

请求接收模块，被配置为接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；

音频字段接收模块，被配置为接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；

展示模块，被配置为基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述数据处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述数据处理方法的步骤。

本申请提供的数据处理方法，通过本申请的数据处理方法，接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

通过接收的语音转换请求确定待转换的音频流，便于后续语音转换平台对音频流进行转换；接收语音转换平台返回的音频字段，以便后续对音频流对应的音频字段进行展示；基于预设分段规则和字段类型标识对音频字段进行展示，使符合规则的音频字段可以分段展示，使音频字段可以更清晰的展示，进而提升用户对音频字段的处理效率。

附图说明

图1是本申请一实施例提供的一种数据处理方法的结构示意图；

图2是本申请一实施例提供的一种数据处理方法的流程图；

图3是本申请一实施例提供的一种应用于会议语音的数据处理方法的处理流程图；

图4a是本申请一实施例提供的一种播放器示意图；

图4b是本申请一实施例提供的另一种播放器示意图；

图5是本申请一实施例提供的一种数据处理装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

语音转换平台：是指可实现语音和文字双向转换的转换软件所在的终端。

音频流：是指需要转换为文字信息的音频信息。

音频字段：是指对音频流进行转换得到的文字信息。

字段类型标识：是指表示字段类型的字符，如，1、2或a、b等等。

预设分段规则：是指对音频字段进行分段的规则。

预设音频处理规则：是指对音频流进行压缩或格式转换的规则。

ElementUI：基于Vue.js 2.0的桌面组件库。

websocket：是一种在单个TCP连接上进行全双工通信的协议。

span标签：span标签是超文本标记语言(HTML)的行内标签，被用来组合文档中的行内元素。

offsetTop：是javascript中制作滚动代码的常用属性，具体是指当前对象到其上级层顶部的距离。

int类型：int是一种数据类型，在编程语言中，int是用于定义整数类型变量的标识符。

float类型：浮点型数据类型，FLOAT数据类型用于存储单精度浮点数或双精度浮点数。

ID(identity document)：是某个体系中相对唯一的编码。

在本申请中，提供了一种数据处理方法。本申请同时涉及一种数据处理装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1所示的数据处理方法的结构示意图，确定语音转换平台，建立语音转换平台与网页端的传输连接；网页端接收到基于用户点击语音转换按钮生成的语音转换请求后，根据语音转换请求中的音频流标识确定待转换的音频流；将待转换的音频流基于预先建立的传输连接发送至语音转换平台；语音转换平台接收到音频流之后，对音频流进行实时的转换，得到至少一个音频字段；将转换得到的音频字段实时返回至网页端，其中，每个返回至网页端的音频字段均包含字段类型标识；网页端在接收到目标音频字段后，统计当前第二类型的音频字段的字段总数，并基于字段总数以及预设分段规则确定目标音频字段的字段展示位置；根据目标音频字段的字段类型标识以及字段展示位置在网页端对目标音频字段进行展示。

图2出了根据本申请一实施例提供的一种数据处理方法的流程图，具体包括以下步骤：

步骤S202：接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流。

其中，语音转换请求是指将语音信息转换为文字信息的转换请求，如，将语音A转换为与语音A对应的文字的转换请求；语音转换平台是指可实现语音和文字双向转换的转换软件所在的终端；音频流是指需要转换为文字信息的音频信息，在实际应用中，音频流是指基于已有的音频文件获取到的音频流或是基于实时采集的音频数据生成的音频流。

在实际应用中，用户可通过点击网页中的语音转换按钮或采用其他触发方式触发对语音的转换，生成语音转换请求；语音转换请求中包含音频流标识，根据音频流标识可以确定将哪些音频流发送至语音转换平台，其中，音频流标识是指可唯一表示音频流的字段，例如，音频流的音频流名称、音频流的ID等等；响应于语音转换请求，对语音转换请求进行解析，获取语音转换请求中包含的音频流标识；基于音频流标识确定待转换的音频流，并将音频流发送至预先设定的用于对音频流进行转换的语音转换平台。

需要注意的是，为了将确定的音频流高效发送至对应的语音转换平台，从而实现后续语音转换平台对音频流的转换，在接收语音转换请求之前，需要创建网页端与语音转换平台之间的连接；具体的，确定目标语音转换平台，其中，目标语音转换平台为可实现语音转换的任意一个或多个平台，本申请不对语音转换平台进行限定；在确定目标语音转换平台后，确定目标语音转换平台中的转换连接接口，通过连接接口实现网页端与目标语音转换平台之间的传输连接的建立，从而便于将音频流发送至目标语音转换平台，提高数据传输效率。

例如，用户A点击网页中的语音转换按钮触发对会议音频的转换，生成语音转换请求；在生成语音转换请求之前，确定语音转换平台C，基于网页前端websocket建立网页前端与语音转换平台C的连接；解析语音转换请求，确定音频流名称a；基于音频流名称确定待转换的音频流a，将音频流a基于传输连接发送至语音转换平台C。

通过接收语音转换请求，并根据语音转换请求中的音频流标识确定待转换的音频流，并基于传输连接将音频流发送至语音转换平台，提升了数据确定和传输的效率，便于后续语音转换平台对音频流进行转换。

在实际应用中，为了进一步提高音频传输效率，提升音频流的质量，响应于所述语音转换请求向语音转换平台发送音频流的方法包括S2022至S2024：

步骤S2022，响应于所述语音转换请求，获取初始音频流；

步骤S2024，基于预设音频处理规则处理所述初始音频流获得音频流，并将所述音频流发送至所述语音转换平台。

其中，初始音频流是指未经过处理的音频流；预设音频处理规则是指对音频流进行处理的规则，例如，对音频流进行压缩的规则，对音频流进行格式转换的规则等等。

在实际应用中，音频包的大小以及音频流质量因录音设备的不同而存在较大差异，因此，在获取到初始音频流后，可以对初始音频流基于音频处理规则进行调整，得到占用内存较小以及音频中杂音较小的音频流，从而提升音频流的传输效率以及音频流的质量；例如，预设音频处理规则为压缩算法S，基于压缩算法S可以将初始音频流压缩为待传输至语音转换平台的音频流；再如，预设音频处理规则为数据格式转换规则H，基于数据转换规则H可以将float类型的初始音频流转换为int类型的音频流，再发送至语音转换平台。

具体的，基于语音转换请求确定与音频流标识对应的初始音频流；获取初始音频流，并根据预设音频处理规则对初始音频流进行处理，获得音频流；将通过处理得到的音频流发送至语音转换平台。

例如，获取用户B通过触发语音转换按钮生成的语音转换请求；解析语音转换请求获得音频流ID号，根据音频流ID号获取初始音频流；获取压缩算法S，并基于压缩算法S对待处理音频流进行压缩得到音频流；将音频流发送至预先建立了传输连接的语音转换平台E。

通过在将音频流传输至语音传输平台之前，对音频流基于预设处理规则进行处理，消除了音频流中的杂音、减小了音频文件的大小，从而提升了音频流的传输效率以及音频流的质量。

步骤S204：接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识。

音频字段是指对音频流进行转换得到的文字信息，任意可获得音频字段的语音转换方式均可，本申请不做具体限定；字段类型标识是指表示字段类型的字符，如，1、2或a、b等等；字段类型是指音频字段的类型，在将音频流转换为音频字段的过程中，会为根据每个音频字段的音频转换情况对每个音频字段添加字段类型；字段类型可以是最终类型或中间类型，在音频字段的字段类型为中间类型的情况下，表示音频字段的内容并非最终的文字内容，在音频字段的字段类型为最终类型的情况下，表示音频字段的内容为最终的文字内容；例如，为了将音频字段在客户端中实时展示，减少用户的等待时间，可以优先对中间类型的音频字段进行展示，在获取到最终类型的音频字段后，可删除当前中间类型的音频字段，对最终类型的音频字段进行展示。

为了实现用户可实时观看到音频流对应的文字信息，语音转换平台实时对音频流进行转换并实时返回音频字段；由于实时返回的音频字段的语义不够完整，即在确定整句话所对应的音频流后才可以得到语义完整的音频字段，故在语音转换平台在返回音频字段时，需要为音频字段设置字段类型标识；基于字段类型标识确定音频字段为完整语义字段，还是不完整语义字段，后续在得到完整语义字段后，可以删除当前展示的不完整语义字段，并对完整语义字段进行展示，在保证用户使用体验的同时提升了语音转换的准确性。

具体的，接收语音转换平台基于音频流返回的至少一个音频字段，音频字段的具体数量基于音频流而定，例如，可以基于音频流对应的时间区间划分音频字段，如，根据音频流对应的时间区间，将每秒钟对应的音频流转换得到音频字段，即可得到多个音频字段；接收到的每个音频字段均包含字段类型标识，后续可基于字段类型标识对每个接收到的音频字段进行展示。

例如，接收语音转换平台E基于音频流A返回的音频字段s，其中，音频字段s携带有字段类型标识“1”，其中，字段类型标识“1”表示音频字段s为中间类型的音频字段，即不完整语义的音频字段。

再如，接收语音转换平台E基于音频流A返回的音频字段j，其中，音频字段j携带有字段类型标识“0”，其中，字段类型标识“0”表示音频字段j为最终类型的音频字段，即完整语义的音频字段。

通过接收携带有字段类型标识的音频字段，便于后续基于音频字段的字段类型标识对音频字段进行展示；接收音频字段也便于对音频流对应的文字信息进行实时展示。

步骤S206：基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

在实际应用中，将接收到的每个音频字段进行展示时，若不对音频字段进行分段，而直接对接收到的每个音频字段进行拼接并展示，则得到包含较多内容的文字信息，用户不易在大篇内容中快速找到所需的内容，影响了用户处理数据的效率，因此需要对音频字段进行分段展示。

其中，预设分段规则是指对音频字段进行分段的规则，例如，预设分段规则为累计10个音频字段为同一段落中的音频字段，并将每个音频字段在一个段落中展示。

具体的，基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示的方法包括S2062-S2066：

步骤S2062，确定目标音频字段并获取当前音频字段总数；

步骤S2064，根据所述当前音频字段总数和所述预设分段规则中的预设阈值确定字段展示位置；

步骤S2066，基于所述目标音频字段的字段类型标识及所述字段展示位置对所述目标音频字段进行展示。

其中，目标音频字段是指当前基于音频流接收到的音频字段；每个音频字段存在对应的字段类型标识，其中，字段类型标识可以是第一类型或第二类型；目标音频字段可以为第一类型的音频字段或是第二类型的音频字段；第一类型是指包含不完整语义的音频字段对应的字段类型；第二类型是指包含完整语义的音频字段对应的字段类型；当前音频字段总数是指当前段落中接收到的第二类型的音频字段的总数；预设阈值是指当前段落中可展示的第二类型的音频字段的上限值；字段展示位置是指目标音频字段的展示位置，例如，在当前段落展示目标音频字段，再如，在新建的段落中展示目标音频字段。

实际应用中，在接收到语音转换平台发送的目标音频字段后，解析目标音频字段，确定目标音频字段的字段类型标识；确定当前音频字段总数以及预设分段规则中的预设阈值，并通过比较当前音频字段总数和预设阈值，确定目标音频字段的字段展示位置；再根据目标音频字段的字段展示位置和字段类型标识对目标音频字段进行展示。

例如，接收到目标音频字段Aj后，获取当前段落中第二类型音频字段的音频字段总数5；确定预设音频字段阈值为10，通过比较音频字段总数5以及预设音频字段阈值10确定目标音频字段的字段展示位置为当前段落；确定目标音频字段的字段类型标识，根据字段类型标识和字段展示位置对目标音频字段Aj进行展示。

具体的，根据所述当前音频字段总数和所述预设分段规则中的预设阈值确定字段展示位置的方法包括：

即在接收到目标音频字段后，若当前音频字段总数大于预设阈值，则需要将目标音频字段在新段落中展示，即确定目标音频字段的字段展示位置为新段落；在接收到目标音频字段后，若当前音频字段总数小于或等于预设阈值，则将目标音频字段在当前段落中展示，即确定目标音频字段的字段展示位置为当前段落。

例如，在接收到目标音频字段m1后，确定预设阈值为8、当前音频字段总数为9，比较预设阈值和当前音频字段总数，确定当前字段总数大于预设阈值，则目标音频字段m1的字段展示位置为新段落。

沿用上例，在接收到目标音频字段m2后，确定预设阈值为8、当前音频字段总数为2，比较预设阈值和当前音频字段总数，确定当前字段总数小于预设阈值，则目标音频字段m2的字段展示位置为当前段落。

通过根据当前音频字段总数和预设阈值确定字段展示位置，确定了何时对音频字段进行分段展示，便于对音频字段更清晰的展示，进而提升用户处理数据的效率。

在实际应用中，字段类型标识可以包括第一类型和第二类型；具体基于所述目标音频字段的字段类型标识及所述字段展示位置对所述目标音频字段进行展示的方法包括：

其中，第一类型是指包含不完整语义的音频字段对应的字段类型；第二类型是指包含完整语义的音频字段对应的字段类型。

具体的，基于字段类型标识确定目标音频字段为第一类型的情况下，将目标音频字段在字段展示位置直接展示即可；在确定目标音频字段为第二类型的情况下，删除当前展示的第一类型的音频字段，并在字段展示位置对目标音频字段进行展示；在确定当前段落中包含至少两个第一类型的音频字段的情况下，确定当前接收到的目标音频字段为第二类型，则删除至少两个第一类型的音频字段，并基于字段展示位置对第二类型的目标音频字段进行展示。

例如，目标音频字段n1的字段类型标识为第一类型，则将目标音频字段n1在字段展示位置进行展示。

再如，目标音频字段n2的字段类型标识为第二类型，则删除当前展示的第一类型的音频字段之后，再将目标音频字段n2在字段展示位置进行展示。

又如，确定当前段落正在展示的音频字段c1和音频字段c2均为第一类型；在接收到第二类型的音频字段c3的情况下，删除第一类型的音频字段c1和音频字段c2之后，将第二类型的音频字段c3在字段展示位置进行展示。

需要注意的是，在确定目标音频字段为第一类型的情况下，也可以删除当前已展示的第一类型的音频字段，再将第一类型的目标音频字段在字段展示位置进行展示。

在实际应用中，会统计当前段落中包含的第二类型的音频字段的数量，即在基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示之前，还包括：

统计当前时刻的第二类型的音频字段的当前音频字段总数。

例如，创建当前段落q，统计当前段落q中第二类型的音频字段的数量为0；接收第二类型的音频字段A，则将数量由0修改为1；在再次接收到第二类型的音频字段B的情况下，将数量由1修改为2；在统计到当前段落q中第二类型的音频字段数量超过预设阈值10的情况下，创建新段落u；后续再统计新段落u中的第二类型的音频字段的数量。

通过统计段落中第二类型的音频字段的数量，得到当前音频字段总数，便于基于当前音频字段总数以及预设阈值确定接收到的目标音频字段的字段展示位置。

在实际应用中，确定当前音频字段总数超过预设阈值的情况下，可以判断目标音频字段中是否包含预设标识，从而保证分段内容的完整性。

具体通过判断目标音频字段中是否存在预设标识来确定目标音频字段的展示位置的方法包括：

其中，预设标识是指可以表示音频字段内容不完整的符号，例如，逗号、顿号等等。

例如，在接收目标音频字段A后，确定当前音频字段总数11大于预设阈值10，则解析目标音频字段A，获得目标音频字段A中存在预设标识逗号，则修改当前音频字段总数，从而使当前音频字段总数小于预设阈值，如，可以将当前音频字段总数11减去5，即将当前音频字段总数修改为6，并且将目标音频字段A在当前段落中进行展示；后续再接收到第二类型的音频字段后，以当前音频字段总数6为初始值对音频字段数量进行统计。

再如，沿用上例，若确定目标音频字段A中不包含预设标识，则将目标音频字段A在新段落中展示即可。

进一步的，为了提升用户体验，本实施例实现了将每个音频字段以及每个音频字段对应的音频流进行同步展示的方法，具体如下：

在采集到用户的音频数据后，还包括：

接收音频流，并将所述音频流存储至音频数据库。

其中，音频流是指需要转换为文字信息的音频信息；音频数据库是指对音频流进行存储的数据库。

具体的，可在网页中配置语音录音设置，用于采集业务场景中产生的声音生成音频流，如，采集会议场景下的会议声音生成音频流；确定存储音频流的音频数据库，将实时生成的音频流上传至音频数据库。

通过对音频流进行存储，便于后续对音频流和对应的音频字段进行同步展示。

在实际应用中，接收音频流之前，在网页中配置语音录音设置的方法包括：

创建目标播放器，其中，所述目标播放器用于播放所述音频数据库中的音频流或实时采集到的音频流以及语音转换平台基于上述音频流返回的音频字段。

其中，目标播放器是指可以在网页中播放音频流和对应的音频字段的播放器。具体的，基于音频流得到对应的音频字段后，由播放器将音频流以及对应的音频字段同步展示，如，当前播放器播放的为3时25分时刻的音频，则同时播放3时25分时刻音频对应的音频字段。

例如，利用ElementUI引入播放器，将wav格式的播放链接嵌入播放器，即可由播放器对音频流以及对应音频字段进行播放。

具体的，播放所述音频数据库中的音频流以及展示所述语音平台基于所述音频流返回的音频字段的方法包括步骤1-步骤3：

步骤1：确定所述音频字段中的播放帧数值；

步骤2：基于所述播放帧数值计算所述音频字段的目标播放时间点；

步骤3：监听所述目标播放器的当前播放时间点，并基于所述当前播放时间点和所述目标播放时间点播放所述当前播放时间点对应的音频流和所述音频字段。

其中，播放帧数值是指播放音频字段的帧的数量，例如，音频字段A的播放帧数值为60，即60帧的画面才可以完整播放音频字段A；基于每帧画面的展示时间以及播放帧数值即可计算播放音频字段A的播放起始时间；目标播放时间点是指播放音频字段的时间点；当前播放时间点是指播放音频流的时间点。

具体的，可以将当前播放的与音频流对应的音频字段以不同于背景颜色的文字背景进行展示，例如，将正在播放的音频流对应的音频字段以蓝色文字背景进行展示；具体将音频字段进行渲染的方法包括：每隔预设时间段，例如每隔100ms，将播放器监听的当前时间点与音频字段对应的时间点进行比对，将匹配的时间点对应的音频字段进行背景渲染，例如，确定待渲染的音频字段A后，可以对音频字段A的span标签进行赋值，实现对音频字段A的背景渲染；在获得下一个匹配的音频字段后(即获得当前音频字段)，可以清除上一音频字段的背景渲染，而对当前音频字段进行渲染。

实际应用中，若用户拖动播放器中的播放进度条，或点击非当前播放时刻播放的音频字段时，为了实现音频流与音频字段的对应展示，则需要将进度条与上方的音频字段进行绑定，如在进度条跳转至a时刻时，音频字段也跳转至a时刻开始播放。

下述结合附图3以本申请提供的数据处理方法对会议语音的应用为例，对所述数据处理方法进行进一步说明。其中，图3示出了本申请一实施例提供的一种应用于会议语音的数据处理方法的处理流程图，具体包括以下步骤：

步骤S302：确定语音转换平台G，并建立网页H与语音转换平台G的传输连接。

具体的，访问语音转换平台G的服务器，利用网页H的websocket建立与服务器的传输连接。

步骤S304：网页H接收语音转换请求，并基于语音转换请求获取初始音频流。

具体的，用户点击网页H中的语音转换按钮生成语音转换请求；基于语音转换请求中的音频流标识获取初始音频流。

步骤S306：基于预设音频处理规则处理所述初始音频流获得待转换音频流。

具体的，预设音频处理规则为格式转换规则，将数据类型为float的初始音频流转换为int类型的待转换音频流。

步骤S308：将待转换音频流发送至语音转换平台G。

具体的，将int类型的待转换音频流基于预先建立的传输连接发送至语音转换平台G。

步骤S310：语音转换平台G对待转换音频流进行转换获得至少一个音频字段，并将每个音频字段发送至网页H。

步骤S312：网页H接收语音转换平台G基于音频流返回的至少一个音频字段。

步骤S314：获取预设分段规则以及每个音频字段的字段类型标识。

具体的，获取预设分段规则，在预设分段规则中包含预设阈值10；解析每个音频字段，获得每个音频字段的字段类型标识。

步骤S316：统计当前时刻的第二类型的音频字段的当前音频字段总数。

具体的，确定当前段落d，并统计当前段落d中包含的第二类型的音频字段的总数，确定当前音频字段总数为5。

步骤S318：确定目标音频字段并获取当前音频字段总数。

具体的，确定目标音频字段B，并获取当前音频字段总数5。

步骤S320：根据当前音频字段总数和预设分段规则中的预设阈值确定字段展示位置。

具体的，确定当前音频字段总数5和预设阈值10；比较当前音频字段总数和预设阈值，确定当前音频字段总数5小于预设阈值10，则确定目标音频字段B的字段展示位置为当前段落。

步骤S322：基于目标音频字段的字段类型标识及所述字段展示位置对所述目标音频字段进行展示。

具体的，根据目标音频字段B的字段类型标识确定目标音频字段B的字段类型为第二类型，则删除当前段落中第一类型的音频字段，并将目标音频字段B在当前段落中进行展示。

本申请的数据处理方法，接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

下述结合图4a和图4b以本申请提供的数据处理方法对会议语音的应用为例，对所述数据处理方法中的音频字段的展示进一步说明。其中，图4a示出了本申请一实施例提供的一种播放器示意图，图4b示出了本申请一实施例提供的另一种播放器示意图。

在本实施例中，基于ElementUI在网页端创建播放器；在确定待播放的音频流后，可以将音频流对应的播放链接嵌入至播放器中，从而使播放器可以对音频流进行播放，其中，音频流是由网页端录制的，且存储于网页端对应的音频数据库中；语音转换平台返回的每个音频字段均对应有播放帧数值，根据每帧的展示时间以及播放帧数值可以计算每个音频字段的起始播放时间，例如，音频字段A对应的播放帧数值为820，每帧展示时间为10ms，基于预设计算规则计算音频字段A的起始播放时间为：820*10ms/1000＝8.2秒；播放器监听每100ms返回的当前时间与当前展示的音频字段A的时间进行对比，确定匹配后，将匹配的音频字段A以下划线的方式进行展示；在匹配到下一个音频字段后，清除音频字段A的下划线样式，并对匹配到的音频字段进行样式赋值，例如，对音频字段的span标签进行复制为下划线样式。如图4a所示，网页端上方的音频字段与下方的播放器进度条绑定，进度条在A处播放的音频字段与音频流同步；如图4b所示，用户拖动进度条至B处时，同步播放B处对应的音频流和音频字段。若用户拖动播放器的进度条，则获取当前dom元素对span标签滚动条进行判断，如果进度条的offsetTop为负数时，跳转滚动条即可；若点击当前网页中的音频字段，则使滚动条进行跳转，即实现进度条与音频字段的双向绑定。

本申请的数据处理方法，通过对音频流以及对应的音频字段进行同步播放，便于用户快速定位到音频对应的文字信息，从而提升用户获取信息的效率。

与上述方法实施例相对应，本申请还提供了数据处理装置实施例，图5示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图5所示，该装置包括：

请求接收模块502，被配置为接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；

音频字段接收模块504，被配置为接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；

展示模块506，被配置为基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

可选地，所述请求接收模块502，进一步被配置为：

响应于所述语音转换请求，获取初始音频流；

可选地，所述展示模块506，进一步被配置为：

确定目标音频字段并获取当前音频字段总数；

可选地，所述展示模块506，进一步被配置为：

可选地，所述字段类型标识包括第一类型和第二类型；所述展示模块506，进一步被配置为：

可选地，所述装置还包括，统计模块，被配置为：

统计当前时刻的第二类型的音频字段的当前音频字段总数。

可选地，所述展示模块506，进一步被配置为：

可选地，所述装置还包括，接收子模块，被配置为：

接收音频流，并将所述音频流存储至音频数据库。

可选地，所述装置还包括，创建子模块，被配置为：

可选地，所述创建子模块，进一步被配置为：

确定所述音频字段中的播放帧数值；

基于所述播放帧数值计算所述音频字段的目标播放时间点；

本申请提供的数据处理装置，接收语音转换请求，响应于所述语音转换请求向语音转换平台发送音频流；接收所述语音转换平台基于所述音频流返回的至少一个音频字段，其中，每个音频字段携带有字段类型标识；基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行所述数据处理方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于数据处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述数据处理方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

2.如权利要求1所述的数据处理方法，其特征在于，响应于所述语音转换请求向语音转换平台发送音频流，包括：

响应于所述语音转换请求，获取初始音频流；

3.如权利要求1所述的数据处理方法，其特征在于，基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示，包括：

确定目标音频字段并获取当前音频字段总数；

4.如权利要求3所述的数据处理方法，其特征在于，根据所述当前音频字段总数和所述预设分段规则中的预设阈值确定字段展示位置，包括：

5.如权利要求3所述的数据处理方法，其特征在于，所述字段类型标识包括第一类型和第二类型：

6.如权利要求3所述的数据处理方法，其特征在于，基于预设分段规则和每个音频字段的字段类型标识对每个音频字段进行展示之前，还包括：

统计当前时刻的第二类型的音频字段的当前音频字段总数。

7.如权利要求4所述的数据处理方法，其特征在于，若所述当前音频字段总数大于等于所述预设阈值，则确定字段展示位置为新段落，包括：

8.如权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

接收音频流，并将所述音频流存储至音频数据库。

9.如权利要求8所述的数据处理方法，其特征在于，接收音频流之前，还包括：

10.如权利要求9所述的数据处理方法，其特征在于，播放所述音频数据库中的音频流以及展示所述语音平台基于所述音频流返回的音频字段，包括：

确定所述音频字段中的播放帧数值；

基于所述播放帧数值计算所述音频字段的目标播放时间点；

11.一种数据处理装置，其特征在于，包括：

12.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1至10任意一项所述数据处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至10任意一项所述数据处理方法的步骤。