CN107767871B

CN107767871B - 文本显示方法、终端及服务器

Info

Publication number: CN107767871B
Application number: CN201710947134.8A
Authority: CN
Inventors: 王玮; 苏文畅; 王兆育; 张静茵
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2021-02-02
Anticipated expiration: 2037-10-12
Also published as: CN107767871A

Abstract

本发明实施例提供一种文本显示方法、终端及服务器，属于语音识别领域。该方法包括：获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址；基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。由于在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

Description

文本显示方法、终端及服务器

技术领域

本发明实施例涉及语音识别领域，更具体地，涉及一种文本显示方法、终端及服务器。

背景技术

随着人工智能的浪潮席卷全球，越来越多的企业开始研究人工智能。在众多人工智能技术当中，语音交互技术作为最自然的人机交互技术得到了迅猛的发展，使用语音交互技术的产品层出不穷，如智能玩具、智能手表、语音助手、智能机器人等。另外，目前互联网上还存在一些提供语音转文本的服务。语音数据在转化为文本文件后，用户通常需要浏览文本文件以验证转化结果。因此，如何显示文本文件中的文本是人们关注的问题。

相关技术中通常是将语音数据对应的音频文件以及语音转文本后的文本文件发送给用户，也即将两个独立的文件发送给用户，用户直接打开文本文件以显示文本，并同时打开音频文件以播放语音数据，以验证转化结果。由于用户在关注语音播放进度的同时，还需要操作文本文件浏览语音播放进度所对应的文本内容，以实现音字对应，从而显示文本的过程不太方便，用户体验差。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本显示方法、终端及服务器。

根据本发明实施例的第一方面，提供了一种文本显示方法，该方法包括：

获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

本发明实施例提供的方法，通过获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址。基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。由于在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

另外，由于用户只需要在Web页面中输入资源文件地址，而不需要基于分别独立的文本文件及音频文件，即可实现与语音数据播放进度同步的文本显示过程，从而用户后续在互联网中传播语音及文本数据时，只需分享资源文件地址即可，而不需要分享两个独立的文件。因此，提高了语音及文本数据的传播效率，便捷了用户分享语音及文本数据，提升了用户分享体验。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，资源文件中至少包括语音数据的一组资源链接标签和文本文件的一组资源链接标签；语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，文本文件的一组资源链接标签内携带有用于获取文本文件的文本文件地址。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，基于音频文件地址下载并播放语音数据，包括：

将本地语音播放器对应的音频标签的地址更新为音频文件地址，以使得本地语音播放器按照音频文件地址下载并播放语音数据。

结合第一方面的第一种可能的实现方式，基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕，包括：

基于文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中；其中，每条字幕对应一组字幕文本标签；

按照每组字幕文本标签的标签属性，显示每组字幕文本标签对应的字幕。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，该方法还包括：

若检测到对任一条字幕的点击操作，根据任一条字幕对应的播放时间段确定任一条字幕对应的起始播放时刻，并按照任一字幕对应的起始播放时刻重新定位语音数据的播放进度，以使得语音数据从定位后的播放进度开始播放。

结合第一方面的第一种可能的实现方式，在第六种可能的实现方式中，该方法还包括：

若检测到对任一条字幕的编辑指令且任一条字幕具有编辑权限，则根据编辑指令更改任一条字幕的文本内容。

结合第一方面的第一种可能的实现方式，在第七种可能的实现方式中，该方法还包括：

若检测到语音数据的播放进度发生改变，则根据语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。

根据本发明实施例的第二方面，提供了一种文本显示方法，该方法包括：

获取终端提交的用于获取资源文件的资源文件地址；

根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，资源文件中至少包括语音数据的一组资源链接标签和文本文件的一组资源链接标签；语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，文本文件的一组资源链接标签内携带有用于获取文本文件的文本文件地址。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，该方法还包括：

基于语音数据对应的唯一标识及语音数据的存储目录，生成音频文件地址，基于文本文件的存储目录，生成文本文件地址。

结合第二方面的第一种可能的实现方式，在第四种可能的实现方式中，该方法还包括：

对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段，每一分句对应的播放时间段为每一分句在语音数据中对应的起始播放时刻与结束播放时刻；

基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段，包括：

对文本数据进行分词处理，获取分词列表，并确定分词列表中的每一词语元素在语音数据中对应的起始播放时刻及结束播放时刻，每一词语元素为分词或标点符号；

依次遍历分词列表中的每一词语元素，按照遍历结果获取文本数据对应的分句；

按照每一分句中的词语元素在语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段。

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，依次遍历分词列表中的每一词语元素，按照遍历结果获取文本数据对应的分句，包括：

若当前遍历到的词语元素为第一个词语元素，或者当前遍历到的词语元素为分词且上一个遍历到的词语元素为标点符号，则创建新的空分句，并依次将当前遍历到的词语元素及后续遍历到的词语元素添加至空分句的句末，直至添加的词语元素为标点符号，以得到对应包含有词语元素的分句，重复上述遍历及得到分句的过程，直至遍历完分词列表中的每一词语元素。

结合第二方面的第五种可能的实现方式，在第七种可能的实现方式中，按照每一分句中的词语元素在语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段，包括：

对于任一分句，将任一分句位于句首的词语元素在语音数据中对应的起始播放时刻作为任一分句在语音数据中对应的起始播放时刻，将任一分句位于句末的词语元素在语音数据中对应的结束播放时刻作为任一分句在语音数据中对应的结束播放时刻。

根据本发明实施例的第三方面，提供了一种文本显示方法，包括：

终端获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器；

服务器根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

服务器向终端返回文本显示对象以及音频文件地址，终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

根据本发明实施例的第四方面，提供了一种终端，包括：

提交模块，用于获取资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

播放模块，用于基于音频文件地址下载并播放语音数据；

显示模块，用于基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

根据本发明实施例的第五方面，提供了一种服务器，包括：

第一获取模块，用于获取终端提交的用于获取资源文件的资源文件地址；

第二获取模块，用于根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

返回模块，用于向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

根据本发明实施例的第六方面，提供了一种终端，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本显示方法。

根据本发明实施例的第七方面，提供了一种服务器，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第二方面的各种可能的实现方式中任一种可能的实现方式所提供的文本显示方法。

根据本发明的第八方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本显示方法。

根据本发明的第九方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第二方面的各种可能的实现方式中任一种可能的实现方式所提供的文本显示方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种文本显示方法的流程示意图；

图2为本发明实施例的一种文本显示方法的流程示意图；

图3为本发明实施例的一种文本显示方法的流程示意图；

图4为本发明实施例的一种终端的框图；

图5为本发明实施例的一种服务器的框图；

图6为本发明实施例的一种终端的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

在众多人工智能技术当中，语音交互技术作为最自然的人机交互技术得到了迅猛的发展，使用语音交互技术的产品层出不穷。另外，还出现了一些提供语音转文本的服务。其中，语音数据在转化为文本文件后，用户通常需要浏览文本文件以验证转化结果。因此，如何显示文本文件中的文本是人们关注的问题。

针对上述情形，本发明实施例提供了一种文本显示方法。该方法可应用于带有语音捕获功能的终端，本发明实施例对此不作具体限定。为了便于描述，本发明实施例以执行主体为终端为例。参见图1，该方法包括：101、获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址；102、基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

在执行上述步骤101之前，用户可先输入语音数据，由终端采集并生成相应的音频文件发送至服务器。或者，用户还可以直接通过终端向服务器上传音频文件。其中，音频文件的音频格式可以为目前的主流格式，如mp3、wav、m4a、pcm等，本发明实施例对此不作具体限定。由于用户可能会上传各种类型的音频格式，服务器为了实现对这些复杂多样的音频格式进行处理，可先通过转码服务对音频进行转码，即将输入的音频格式转码为采样率(每秒从连续声音模拟信号中提取并组成离散数字信号的采样个数)16000，比特率(指每秒传送的比特(bit)数)为256kbps的WAV文件输出。

服务器在转码得到音频文件后，由于存在说话风格、口音、录音质量及环境噪音等诸多影响因素，从而会导致语音转化为文本时面临诸多挑战。为了尽可能克服上述因素对转化准确率的影响，在对语音数据进行识别并转化为文本数据时，本发明实施例可采用深度全序列卷积神经网络(DFCNN，Deep Fully Convolutional Neural Network)进行建模。目前，多数语音识别系统采用的是双向长短时记忆(LSTM，Long Short Term Memory)网络进行建模。LSTM网络虽然能够对语音的长时相关性进行建模以提高识别正确率，但LSTM网络存在训练复杂度高、解码时延高的问题，尤其很难应用于工业界的实时识别系统。

而CNN使用固定长度的帧拼接作为输入，无法看到足够长的语音上下文信息。若将CNN视作一种特征提取器，所用的卷积层数很少，表达能力也很有限。与CNN不同，DFCNN是使用大量的卷积层直接对整句语音信号进行建模。首先，在输入端DFCNN直接将语谱图作为输入，相比其他以传统语音特征作为输入，其语音识别框架具有天然的优势。其次，在模型结构上借鉴了图像识别的网络配置，每个卷积层使用小卷积核，并在多个卷积层之后再加上池化层，通过累积非常多的卷积池化层对，从而可以看到非常长的历史和未来信息。这两点保证了DFCNN可以出色地表达语音的长时相关性，相比RNN结构在鲁棒性上更加出色，同时可以实现短延时的准在线解码，从而可用于工业系统中。

除了通过DFCNN消除各因素的影响之外，由于用户在讲话时存在口语化的问题，为了解决口语与书面语不匹配的问题，在对语音数据进行识别并转化为文本数据时，本发明实施例还集成了口语化和篇章级语言模型处理技术，即在书面语的基础上自动引入回读、倒装、语气词等口语“噪声”现象，从而可自动生成海量口语语料，以解决口语化的问题。首先，收集部分口语文本和书面语文本语料对。其次，使用基于Encoder-Decoder的神经网络框架，建立书面语文本与口语文本之间的对应关系，从而实现了口语文本的自动生成。篇章级语言模型处理技术主要是根据语音识别的解码结果自动进行关键信息抽取，实时进行语料搜索和后处理，用解码结果和搜索到的语料形成特定语音相关的语言模型，从而进一步提高语音转化为文本的准确率。

基于上述过程，服务器在将语音数据转化为文本数据之后，可再将文本数据转化为文本文件。服务器在得到文本文件后，可向终端返回资源文件地址，以供用户后续访问语音数据及文本文件。相应地，用户可以在Web页面中输入用于获取资源文件的资源文件地址，终端在获取到资源文件地址后，可将该资源文件地址提交至服务器。其中，资源文件中可携带用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址，本发明实施例对此不作具体限定。

服务器在接收到资源文件地址后，可返回文本显示对象以及用于获取语音数据的音频文件地址。由于文本文件中包含用户说的每一句话所对应的分句，从而可将文本文件中每一分句作为一条字幕。相应地，文本显示对象中可存储每条字幕以及每条字幕对应的播放时间段。

终端在接收到服务器返回的文本显示对象以及音频文件地址后，可基于音频文件地址从服务器侧下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。其中，上述播放语音数据以及显示文本的过程可以在同一Web页面内实现，本发明实施例对此不作具体限定。另外，Web页面对应的前端可使用HTML5技术，也即可通过HTML5实现音频播放器和文本编辑器的功能，以分别播放语音数据及显示文本，本发明实施例对此不作具体限定。需要说明的是，显示字幕的显示进度与语音数据的播放进度两者同步。

由上述实施例的内容可知，资源文件中可携带用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址，以使得服务器在根据资源文件地址获取资源文件后，可根据资源文件返回文本显示对象及音频文件地址。考虑到在第三方应用也可能需要解析资源文件以得到文本文件地址及音频文件地址，从而作为一种可选实施例，资源文件中至少包括语音数据的一组资源链接标签和文本文件的一组资源链接标签；语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，文本文件的一组资源链接标签内携带有用于获取文本文件的文本文件地址。

例如，一组资源链接标签可以为<link></link>。以音频文件的格式为wav格式为例，携带有音频文件地址的一组资源链接标签可以为<link>http://www.xxx.com/xxx.wav</link>。以文本文件的格式为srt文件为例，携带有文本文件地址的一组资源链接标签可以为<link>http://www.xxx.com/xxx.srt</link>。需要说明的是，文本文件的格式除了为字幕文件srt格式之外，还可以为smi、ssa等格式，本发明实施例对此也不作具体限定。

另外，除了上述列举的资源链接标签之外，资源文件中还可以包括其它类型的标签，如音频用途标签、音频说明标签等，且标签之间可以互相嵌套，本发明实施例对此不作具体限定。例如，一组<title></title>标签可以作为音频说明标签，该组标签内携带的内容可以为音频文件的相关说明，如“2017年6月23日周五项目周会”。一组<description></description>标签还可以作为音频用途标签，该组标签内携带的内容可以用于介绍音频是做什么的，如“会议议题”。

以上述内容为基础，通过标签可以反映音频的各种信息，相关标签说明可参考如下表1：

表1

对于表1中音频的各种信息，资源文件中不同标签对应的具体数据可如下所示：

<item>

<title>2017年6月23日周五项目周会</title>

</item>

其中，<item></item>可作为最外层的一组标签，用于将音频的各种信息与其它类型的信息隔离开。

以文本文件为srt文件，音频文件为audio文件为例，srt文件或者audio文件的各种信息，可通过表2中各个标签进行反映：

表2

对于表2中音频文件的各种信息，资源文件中不同标签对应的具体数据可如下所示：

<item>

<title>audio</title>

</item>

其中，<item></item>同样可作为最外层的一组标签，用于将音频的各种信息与其它信息隔离开。<link></link>即为音频文件的一组资源链接标签。

本发明实施例提供的方法，通过在资源文件中以标签的方式携带用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址，第三方应用可直接通过解析标签获取用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址。与此同时，通过标签的形式存储信息还具有易拓展性，后续可拓展存储不同类型的信息。因此，在为第三方应用提供了一种通用接口以方便获取信息的同时，还提高了后续第三方应用的可拓展性。

基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种语音数据的播放方法。本发明实施例不对基于音频文件地址下载并播放语音数据的方式作具体限定，包括但不限于：将本地语音播放器对应的音频标签的地址更新为音频文件地址，以使得本地语音播放器按照音频文件地址下载并播放语音数据。

其中，本地语音播放器可以为Web页面中加载的播放器，本发明实施例对此不作具体限定。例如，若本地语音播放器对应的音频标签为一组<audio></audio>标签，则可将一组<audio></audio>标签中携带的地址更新为音频文件地址“http://www.xxx.com/xxx.wav”，即得到<audio>http://www.xxx.com/xxx.wav</audio>。相应地，本地语音播放器会按照该组标签内的音频文件地址边下载边播放语音数据。

本发明实施例提供的方法，通过将本地语音播放器对应的音频标签的地址更新为待播放的语音数据所对应的音频文件地址，以此实现语音数据的下载播放。由于自动更新音频标签中的音频文件地址即可实现语音数据的下载播放，而不用做其它操作，从而提高了语音数据的播放效率。

基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种字幕的显示方法。本发明实施例不对基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕的方式作具体限定，包括但不限于：基于文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中；其中，每条字幕对应一组字幕文本标签；按照每组字幕文本标签的标签属性，显示每组字幕文本标签对应的字幕。

例如，以每条字幕对应的字幕文本标签为<Text></Text>，播放时间段由起始播放时刻和结束播放时刻组成为例。对于文本内容为“大家好”的这条字幕，若该条字幕的起始播放时刻为210，结束播放时刻为840，则该字幕对应的字幕文本标签可以为<Text start_Time＝210，end_Time＝840>大家好</Text>。其中，210表示语音数据从0毫秒开始播放并计时，播放至该条字幕对应的语音数据时所对应的累积毫秒数。840表示语音数据从0毫秒开始播放并计时，播放完该条字幕对应的语音数据时所对应的累积毫秒数。

需要说明的是，字幕文本标签对的标签属性除了包含播放时间段之外，还可以包括字体大小、字体颜色等标签属性，以实现个性化定制显示字幕，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过基于文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中。按照每组字幕文本标签的标签属性，显示每组字幕文本标签对应的字幕。由于可通过字幕文本标签承载字幕，并可按照标签属性显示每条字幕，以实现个性化定制显示字幕，从而提升了用户视觉体验。

基于上述实施例的内容，考虑到用户需要对语音数据的播放过程进行操控。作为一种可选实施例，本发明实施例还提供了一种播放过程的操控方法，包括但不限于：若检测到对任一条字幕的点击操作，根据任一条字幕对应的播放时间段确定任一条字幕对应的起始播放时刻，并按照任一字幕对应的起始播放时刻重新定位语音数据的播放进度，以使得语音数据从定位后的播放进度开始播放。

其中，点击操作可以为单击操作，也可以为双击操作，本发明实施例对此不作具体限定。另外，为了能够让检测到点击操作，以点击操作为双击操作为例，可以为每条字幕对应的字幕文本标签中添加双击事件以监听双击操作，本发明实施例对此不作具体限定。

例如，基于上述示例中的内容，若检测到用户点击了文本内容为“大家好”这条字幕，而该字幕对应的播放时间段为210毫秒至840毫秒，从而可确定该字幕对应的起始播放时刻为210毫秒，并可将语音数据定位至210毫秒处开始播放。

本发明实施例提供的方法，通过在检测到对任一条字幕的点击操作后，根据该条字幕对应的播放时间段确定任一条字幕对应的起始播放时刻，并按照任一字幕对应的起始播放时刻重新定位语音数据的播放进度，以使得语音数据从定位后的播放进度开始播放。由于用户可根据需求随时对语音数据进行回放或者快进，从而提升了用户操作体验。

基于上述实施例的内容，考虑到用户可能需要对显示的字幕进行编辑，如对字幕进行纠错，从而作为一种可选实施例，本发明实施例还提供了一种字幕的编辑方法，包括但不限于：若检测到对任一条字幕的编辑指令且任一条字幕具有编辑权限，则根据编辑指令更改任一条字幕的文本内容。

其中，字幕是否具有编辑权限，可通过在字幕文本标签中添加“contenteditable”属性来实现，本发明实施例对此不作具体限定。当该属性的值为“true”时，则对应的字幕为可编辑。当该属性的值为“false”时，则对应的字幕为不可编辑。另外，编辑指令中可以包含字幕更改后的文本内容。需要说明的是，在对字幕进行编辑时，可以基于文本框的形式手动编辑，本发明实施例不对编辑字幕的方式作具体限定。

本发明实施例提供的方法，通过在检测到对任一条字幕的编辑指令且该条字幕具有编辑权限，则根据编辑指令更改该条字幕的文本内容。由于用户可实时对显示的字幕进行修改，以便于用户对字幕进行纠错或个性化编辑，从而提升了用户操作体验。

基于上述实施例的内容，考虑到用户除了通过点击显示字幕的方式来操控语音数据的播放进度之外，还可能会直接操控语音数据的播放进度，从而作为一种可选实施例，本发明实施例在用户直接操控语音数据的播放进度后，还提供了一种字幕显示方法，包括但不限于：若检测到语音数据的播放进度发生改变，则根据语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。

其中，语音数据的播放进度可通过播放的累积毫秒数来表示。若播放进度是通过进度条的方式来展示，则用户可通过拖动进度条以实现播放进度的操控。另外，在查找改变后的播放进度所对应的字幕时，可确定改变后的播放进度处于哪条字幕所对应的播放时间段内，从而确定对应的字幕。

例如，语音数据的播放过程以从0毫秒处开始计时，若持续播放了240毫秒，则当前的播放进度为240毫秒。若检测到语音数据的播放进度由240毫秒变为了220毫秒，而“大家好”这条字幕的播放时间段为210毫秒～840毫秒，从而可确定改变后的播放进度220毫秒处于播放时间段210毫秒～840毫秒内。因此，可确定查找到的字幕为“大家好”这条字幕，并可对该字幕进行高亮显示。

本发明实施例提供的方法，通过在检测到语音数据的播放进度发生改变时，则根据语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。由于用户在操控改变播放进度的同时，可自动定位至改变后的播放进度所对应的字幕，并对字幕进行高亮显示，从而在满足音字同步的同时，方便用户快速定位至当前播放进度所匹配的字幕。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种文本显示方法。该方法可应用于服务器或系统，本发明实施例对此不作具体限定。为了便于描述，本发明实施例以执行主体为服务器为例，具体可以为使用tomcat+spring技术所搭建的Web服务器，本发明实施例对此不作具体限定。参见图2，该方法包括：201、获取终端提交的用于获取资源文件的资源文件地址；202、根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址；203、向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

由上述实施例可知，由于文本文件中包含用户说的每一句话所对应的分句，从而可将文本文件中每一分句作为一条字幕。相应地，文本显示对象中可用于存储每条字幕以及每条字幕对应的播放时间段。另外，资源文件中可携带有用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址。

基于上述内容，本发明实施例不对服务器根据资源文件，获取文本显示对象的方式作具体限定，包括但不限于：基于资源文件中文本文件的链接地址，获取文本文件；基于文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，创建文本显示对象。其中，文本显示对象可以为List对象，本发明实施例对此不作具体限定。相应地，每条字幕以及每条字幕对应的播放时间段可对应存储至List对象中。基于List对象，可便于后续以列表的形式逐条显示字幕。

服务器在获取文本显示对象以及音频文件地址后，可向终端返回文本显示对象以及音频文件地址，从而终端可基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。其中，具体播放及显示的过程可参考上述实施例的内容，此处不再赘述。

本发明实施例提供的方法，通过获取终端提交的用于获取资源文件的资源文件地址。根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址。向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。由于在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

由上述实施例的内容可知，资源文件中可携带用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址，以使得服务器在根据资源文件地址获取资源文件后，可根据资源文件返回文本显示对象及音频文件地址。考虑到在第三方应用也可能需要解析资源文件以得到文本文件地址及音频文件地址，从而作为一种可选实施例，资源文件中至少包括语音数据的一组资源链接标签和文本文件的一组资源链接标签；语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，文本文件的一组资源链接标签内携带有用于获取文本文件的文本文件地址。其中，关于标签的具体说明可参考上述实施例中的内容，此处不再赘述。

基于上述实施例的内容，本发明实施例还提供了一种文本文件地址及音频文件地址的生成方法，包括但不限于：基于语音数据对应的唯一标识及语音数据的存储目录，生成音频文件地址，基于文本文件的存储目录，生成文本文件地址。

例如，语音数据对应的唯一标识可以作为服务器的存储目录节点，从而语音数据及文本文件可存储在该存储目录节点下。相应地，可根据语音数据对应的文件名以及语音数据在该存储目录节点下对应的完整存储目录，生成音频文件地址。同理，还可生成文本文件地址。

由上述实施例的内容可知，文本文件中每一分句可作为一条字幕，且所有字幕对应的显示进度与语音数据的播放进度同步。由此可见，文本文件为字幕文件，如srt文件、smi文件或ssa文件，本发明实施例对此不作具体限定。以文本文件为srt文件为例，目前通常需要人工设置播放时间段，并在播放时间段输入相应的文本以生成srt文件，生成srt文件的过程不够方便。针对上述情形，基于上述实施例的内容，本发明实施例提供了一种文本文件的生成方法，包括但不限于：对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段；基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。

其中，预设文件格式可以为srt文件，也可以为别的字幕文件格式，本发明实施例对此不作具体限定。由上述实施例的内容可知，每一分句对应的播放时间段即为每一分句在语音数据中对应的起始播放时刻与结束播放时刻，如210毫秒～840毫秒。

本发明实施例不对服务器对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段的方式作具体限定，包括但不限于：对文本数据进行分词处理，获取分词列表，并确定分词列表中的每一词语元素在语音数据中对应的起始播放时刻及结束播放时刻，每一词语元素为分词或标点符号；依次遍历分词列表中的每一词语元素，按照遍历结果获取文本数据对应的分句；按照每一分句中的词语元素在语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段。

例如，若文本数据为{大家好，我叫张三。}，则对文本数据进行分词处理可得到分词列表。其中，分词列表由词语元素组成，每一词语元素为分词或标点符号。与此同时，还可确定每一词语元素在语音数据中对应的起始播放时刻及结束播放时刻。若将每一词语元素和每一词语元素对应的起始播放时刻及结束播放时刻通过json串表示，可如下所示：

[{text:“大家”,bg:“210”,ed:“600”}，

{text:“好”,bg:“600”,ed:“840”}，

{text:“，”,bg:“840”,ed:“840”}，

{text:“我”,bg:“840”,ed:“970”}，

{text:“叫”,bg:“970”,ed:“1340”}，

{text:“张”,bg:“1340”,ed:“1610”}，

{text:“三”,bg:“1610”,ed:“1840”}，

{text:“。”,bg:“1840”,ed:“1840”}]

在上述json串中，每一text后面即为一个词语元素，如“大家”、“好”、“，”。bg表示词语元素在语音数据中对应的起始播放时刻，ed表示词语元素在语音数据中对应的结束播放时刻。其中，起始播放时刻及结束播放时刻的单位可以均为毫秒。需要说明的是，由于标点符号并非用户讲话的内容，作为词语元素只是为了断句，从而标点符号的起始播放时刻与前面为分词的词语元素所对应的结束播放时刻相同，标点符号的结束播放时刻与起始播放时刻相同。

在确定每一词语元素在语音数据中对应的起始播放时刻及结束播放时刻后，可获取文本数据对应的分句。本发明实施例不对服务器依次遍历分词列表中的每一词语元素，按照遍历结果获取文本数据对应的分句的方式作具体限定，包括但不限于：若当前遍历到的词语元素为第一个词语元素，或者当前遍历到的词语元素为分词且上一个遍历到的词语元素为标点符号，则创建新的空分句，并依次将当前遍历到的词语元素及后续遍历到的词语元素添加至空分句的句末，直至添加的词语元素为标点符号，以得到对应包含有词语元素的分句，重复上述遍历及得到分句的过程，直至遍历完分词列表中的每一词语元素。

例如，以上述示例中的文本数据为例，若当前遍历到的词语元素为“大家”，由于该词语元素为第一个词语元素，从而可创建新的空分句，并将第一个词语元素“大家”添加至该空分句的句末。从第一个词语元素“大家”开始继续进行遍历，可遍历到的词语元素为“好”，从而可将词语元素“好”添加在该分句的句末。此时，该分句为“大家好”。继续遍历过程，由于后面遍历的词语元素为标点符号“，”，从而将标点符号添加至该分句的句末后，可得到一个完整的分句，即为“大家好，”。重复上述遍历及得到分句的过程，在遍历完分词列表中的每一词语元素后，可得到两个分句，分别为“大家好，”以及“我叫张三。”。

通过上述遍历过程在得到每一分句后，可确定每一分句对应的播放时间段。本发明实施例不对服务器按照每一分句中的词语元素在语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段的方式作具体限定，包括但不限于：对于任一分句，将任一分句位于句首的词语元素在语音数据中对应的起始播放时刻作为任一分句在语音数据中对应的起始播放时刻，将任一分句位于句末的词语元素在语音数据中对应的结束播放时刻作为任一分句在语音数据中对应的结束播放时刻。

例如，以上述示例得到的分句为例。对于第一个分句“大家好，”，该分句中位于句首的词语元素为“大家”，其对应的起始播放时刻为210毫秒。该分句中位于句末的词语元素为“，”，其对应的结束播放时刻为840毫秒。基于上述两者，即可确定第一个分句“大家好，”对应的播放时间段即为210毫秒～840毫秒。

在得到每一分句及每一分句对应的播放时间段后，可基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。例如，以预设文件格式为srt文件为例，生成的文本文件中的内容可如下所示：

00:00:00,210-->00:00:00,840

大家好，

00:00:00,840-->00:00:01,840

我叫张三。

其中，第一行为第二行中分句对应播放时间段，第三行为第四行中分句对应播放时间段。

本发明实施例提供的方法，通过对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段，每一分句对应的播放时间段为每一分句在语音数据中对应的起始播放时刻与结束播放时刻；基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。由于可自动对文本数据进行分句，并确定每一分句对应的播放时间段，以形成字幕形式的文本文件，从而可快捷生成文本文件。

基于上述实施例的内容，结合终端与服务器的交互过程，本发明实施例提供了一种文本显示方法。参见图3，该方法包括：301、终端获取用于获取资源文件的资源文件地址；302、终端将资源文件地址提交至服务器；303、服务器根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址；304、服务器向终端返回文本显示对象以及音频文件地址；305、终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

其中，终端与服务器各自的方法实现流程可参考上述以终端为执行主体的实施例以及服务器为执行主体的实施例中的内容，此处不再赘述。

本发明实施例提供的方法，终端获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器。服务器根据资源文件地址，向终端返回文本显示对象以及用于获取语音数据的音频文件地址。终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。由于终端在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

基于上述实施例的内容，本发明实施例提供了一种终端，该终端用于执行上述实施例中以终端为执行主体的文本显示方法。参见图4，该终端包括：

提交模块401，用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

第一播放模块402，用于基于音频文件地址下载并播放语音数据；

第一显示模块403，用于基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

作为一种可选实施例，资源文件中至少包括语音数据的一组资源链接标签和文本文件的一组资源链接标签；语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，文本文件的一组资源链接标签内携带有用于获取文本文件的文本文件地址。

作为一种可选实施例，第一播放模块402，用于将本地语音播放器对应的音频标签的地址更新为音频文件地址，以使得本地语音播放器按照音频文件地址下载并播放语音数据。

作为一种可选实施例，第一显示模块403，用于基于文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中；其中，每条字幕对应一组字幕文本标签；按照每组字幕文本标签的标签属性，显示每组字幕文本标签对应的字幕。

作为一种可选实施例，该终端还包括：

第二播放模块，用于当检测到对任一条字幕的点击操作时，根据任一条字幕对应的播放时间段确定任一条字幕对应的起始播放时刻，并按照任一字幕对应的起始播放时刻重新定位语音数据的播放进度，以使得语音数据从定位后的播放进度开始播放。

作为一种可选实施例，该终端还包括：

编辑模块，用于当检测到对任一条字幕的编辑指令且任一条字幕具有编辑权限时，则根据编辑指令更改任一条字幕的文本内容。

作为一种可选实施例，该终端还包括：

第二显示模块，用于当检测到语音数据的播放进度发生改变时，则根据语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。

本发明实施例提供的终端，通过获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址。基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。由于在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

第二，由于用户只需要在Web页面中输入资源文件地址，而不需要基于分别独立的文本文件及音频文件，即可实现与语音数据播放进度同步的文本显示过程，从而用户后续在互联网中传播语音及文本数据时，只需分享资源文件地址即可，而不需要分享两个独立的文件。因此，提高了语音及文本数据的传播效率，便捷了用户分享语音及文本数据，提升了用户分享体验。

第三，通过在资源文件中以标签的方式携带用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址，第三方应用可直接通过解析标签获取用于获取文本文件的文本文件地址及用于获取语音数据的音频文件地址。与此同时，通过标签的形式存储信息还具有易拓展性，后续可拓展存储不同类型的信息。因此，在为第三方应用提供了一种通用接口以方便获取信息的同时，还提高了后续第三方应用的可拓展性。

第四，通过将本地语音播放器对应的音频标签的地址更新为待播放的语音数据所对应的音频文件地址，以此实现语音数据的下载播放。由于自动更新音频标签中的音频文件地址即可实现语音数据的下载播放，而不用做其它操作，从而提高了语音数据的播放效率。

第五，通过基于文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中。按照每组字幕文本标签的标签属性，显示每组字幕文本标签对应的字幕。由于可通过字幕文本标签承载字幕，并可按照标签属性显示每条字幕，以实现个性化定制显示字幕，从而提升了用户视觉体验。

第六，通过在检测到对任一条字幕的点击操作后，根据该条字幕对应的播放时间段确定任一条字幕对应的起始播放时刻，并按照任一字幕对应的起始播放时刻重新定位语音数据的播放进度，以使得语音数据从定位后的播放进度开始播放。由于用户可根据需求随时对语音数据进行回放或者快进，从而提升了用户操作体验。

第七，通过在检测到对任一条字幕的编辑指令且该条字幕具有编辑权限，则根据编辑指令更改该条字幕的文本内容。由于用户可实时对显示的字幕进行修改，以便于用户对字幕进行纠错或个性化编辑，从而提升了用户操作体验。

第八，通过在检测到语音数据的播放进度发生改变时，则根据语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。由于用户在操控改变播放进度的同时，可自动定位至改变后的播放进度所对应的字幕，并对字幕进行高亮显示，从而在满足音字同步的同时，方便用户快速定位至当前播放进度所匹配的字幕。

基于上述实施例的内容，本发明实施例提供了一种服务器，该服务器用于执行上述实施例中以服务器为执行主体的文本显示方法。参见图5，该服务器包括：

第一获取模块501，用于获取终端提交的用于获取资源文件的资源文件地址；

第二获取模块502，用于根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；

返回模块503，用于向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

作为一种可选实施例，该服务器还包括：

第一生成模块，用于基于语音数据对应的唯一标识及语音数据的存储目录，生成音频文件地址，基于文本文件的存储目录，生成文本文件地址。

作为一种可选实施例，该服务器还包括：

第三获取模块，用于对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段，每一分句对应的播放时间段为每一分句在语音数据中对应的起始播放时刻与结束播放时刻；

第二生成模块，用于基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。

作为一种可选实施例，第三获取模块，包括：

分词单元，用于对文本数据进行分词处理，获取分词列表，并确定分词列表中的每一词语元素在语音数据中对应的起始播放时刻及结束播放时刻，每一词语元素为分词或标点符号；

遍历单元，用于依次遍历分词列表中的每一词语元素，按照遍历结果获取文本数据对应的分句；

确定单元，用于按照每一分句中的词语元素在语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段。

作为一种可选实施例，遍历单元，用于在当前遍历到的词语元素为第一个词语元素，或者当前遍历到的词语元素为分词且上一个遍历到的词语元素为标点符号时，则创建新的空分句，并依次将当前遍历到的词语元素及后续遍历到的词语元素添加至空分句的句末，直至添加的词语元素为标点符号，以得到对应包含有词语元素的分句，重复上述遍历及得到分句的过程，直至遍历完分词列表中的每一词语元素。

作为一种可选实施例，确定单元，用于对于任一分句，将任一分句位于句首的词语元素在语音数据中对应的起始播放时刻作为任一分句在语音数据中对应的起始播放时刻，将任一分句位于句末的词语元素在语音数据中对应的结束播放时刻作为任一分句在语音数据中对应的结束播放时刻。

本发明实施例提供的服务器，通过获取终端提交的用于获取资源文件的资源文件地址。根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址。向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕。由于在显示语音数据转化后的文本时，是通过字幕的形式进行显示，且字幕的显示进度与语音数据的播放进度同步，从而不需要用户手动浏览文本以实现音字同步。因此，文本显示过程比较方便，提升了用户阅读体验。

第四，通过对文本数据进行分句处理，获取分句结果，并确定分句结果中每一分句对应的播放时间段，每一分句对应的播放时间段为每一分句在语音数据中对应的起始播放时刻与结束播放时刻；基于每一分句及每一分句对应的播放时间段，按照预设文件格式生成文本文件。由于可自动对文本数据进行分句，并确定每一分句对应的播放时间段，以形成字幕形式的文本文件，从而可快捷生成文本文件。

本发明实施例提供了一种终端。参见图6，该终端包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；

处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的文本显示方法，例如包括：获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

本发明实施例提供了一种服务器，该服务器包括：处理器(processor)、存储器(memory)和总线；

其中，处理器及存储器分别通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行上述实施例所提供的文本显示方法，例如包括：获取终端提交的用于获取资源文件的资源文件地址；根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的文本显示方法，例如包括：获取用于获取资源文件的资源文件地址，并将资源文件地址提交至服务器，以使得服务器根据资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的文本显示方法，例如包括：获取终端提交的用于获取资源文件的资源文件地址；根据资源文件地址，获取资源文件，并根据资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，文本文件由文本数据转化后得到，文本数据由语音数据进行语音识别后得到；向终端返回文本显示对象以及音频文件地址，以使得终端基于音频文件地址下载并播放语音数据，并基于文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与语音数据的播放进度同步。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的信息交互设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种文本显示方法，其特征在于，包括：

获取用于获取资源文件的资源文件地址，并将所述资源文件地址提交至服务器，以使得所述服务器根据所述资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，所述文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，所述文本文件由文本数据转化后得到，所述文本数据由所述语音数据进行语音识别后得到；

基于所述音频文件地址下载并播放所述语音数据，并基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与所述语音数据的播放进度同步；

其中，所述资源文件携带用于获取所述文本文件的文本文件地址及用于获取所述语音数据的音频文件地址。

2.根据权利要求1所述的方法，其特征在于，所述资源文件中至少包括所述语音数据的一组资源链接标签和所述文本文件的一组资源链接标签；所述语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，所述文本文件的一组资源链接标签内携带有用于获取所述文本文件的文本文件地址。

3.根据权利要求1所述的方法，其特征在于，所述基于所述音频文件地址下载并播放所述语音数据，包括：

将本地语音播放器对应的音频标签的地址更新为所述音频文件地址，以使得所述本地语音播放器按照所述音频文件地址下载并播放所述语音数据。

4.根据权利要求1所述的方法，其特征在于，所述基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕，包括：

基于所述文本显示对象，创建每条字幕对应的字幕文本标签，并将每条字幕对应的播放时间段存储至每条字幕对应的字幕文本标签的标签属性中；其中，每条字幕对应一组字幕文本标签；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若检测到对任一条字幕的点击操作，根据所述任一条字幕对应的播放时间段确定所述任一条字幕对应的起始播放时刻，并按照所述任一字幕对应的起始播放时刻重新定位所述语音数据的播放进度，以使得所述语音数据从定位后的播放进度开始播放。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若检测到对任一条字幕的编辑指令且所述任一条字幕具有编辑权限，则根据所述编辑指令更改所述任一条字幕的文本内容。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若检测到所述语音数据的播放进度发生改变，则根据所述语音数据改变后的播放进度及每条字幕对应的播放时间段，查找改变后的播放进度所对应的字幕，并对查找到的字幕进行高亮显示。

8.一种文本显示方法，其特征在于，包括：

获取终端提交的用于获取资源文件的资源文件地址；

根据所述资源文件地址，获取所述资源文件，并根据所述资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，所述文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，所述文本文件由文本数据转化后得到，所述文本数据由所述语音数据进行语音识别后得到；

向所述终端返回所述文本显示对象以及所述音频文件地址，以使得所述终端基于所述音频文件地址下载并播放所述语音数据，并基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与所述语音数据的播放进度同步；

9.根据权利要求8所述的方法，其特征在于，所述资源文件中至少包括所述语音数据的一组资源链接标签和所述文本文件的一组资源链接标签；所述语音数据的一组资源链接标签内携带有用于获取语音数据的音频文件地址，所述文本文件的一组资源链接标签内携带有用于获取所述文本文件的文本文件地址。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

基于所述语音数据对应的唯一标识及所述语音数据的存储目录，生成所述音频文件地址，基于所述文本文件的存储目录，生成所述文本文件地址。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

对所述文本数据进行分句处理，获取分句结果，并确定所述分句结果中每一分句对应的播放时间段，所述每一分句对应的播放时间段为每一分句在语音数据中对应的起始播放时刻与结束播放时刻；

12.根据权利要求11所述的方法，其特征在于，所述对所述文本数据进行分句处理，获取分句结果，并确定所述分句结果中每一分句对应的播放时间段，包括：

对所述文本数据进行分词处理，获取分词列表，并确定所述分词列表中的每一词语元素在所述语音数据中对应的起始播放时刻及结束播放时刻，每一词语元素为分词或标点符号；

依次遍历所述分词列表中的每一词语元素，按照遍历结果获取所述文本数据对应的分句；

按照每一分句中的词语元素在所述语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段。

13.根据权利要求12所述的方法，其特征在于，所述依次遍历所述分词列表中的每一词语元素，按照遍历结果获取所述文本数据对应的分句，包括：

若当前遍历到的词语元素为第一个词语元素，或者当前遍历到的词语元素为分词且上一个遍历到的词语元素为标点符号，则创建新的空分句，并依次将当前遍历到的词语元素及后续遍历到的词语元素添加至所述空分句的句末，直至添加的词语元素为标点符号，以得到对应包含有词语元素的分句，重复上述遍历及得到分句的过程，直至遍历完所述分词列表中的每一词语元素。

14.根据权利要求12所述的方法，其特征在于，所述按照每一分句中的词语元素在所述语音数据中对应的起始播放时刻及结束播放时刻，确定每一分句对应的播放时间段，包括：

对于任一分句，将所述任一分句位于句首的词语元素在所述语音数据中对应的起始播放时刻作为所述任一分句在所述语音数据中对应的起始播放时刻，将所述任一分句位于句末的词语元素在所述语音数据中对应的结束播放时刻作为所述任一分句在所述语音数据中对应的结束播放时刻。

15.一种文本显示方法，其特征在于，包括：

终端获取用于获取资源文件的资源文件地址，并将所述资源文件地址提交至服务器；

所述服务器根据所述资源文件地址，获取所述资源文件，并根据所述资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，所述文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，所述文本文件由文本数据转化后得到，所述文本数据由所述语音数据进行语音识别后得到；

所述服务器向所述终端返回所述文本显示对象以及所述音频文件地址，所述终端基于所述音频文件地址下载并播放所述语音数据，并基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与所述语音数据的播放进度同步；

16.一种终端，其特征在于，包括：

提交模块，用于获取资源文件地址，并将所述资源文件地址提交至服务器，以使得所述服务器根据所述资源文件地址，返回文本显示对象以及用于获取语音数据的音频文件地址，所述文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，所述文本文件由文本数据转化后得到，所述文本数据由所述语音数据进行语音识别后得到；

第一播放模块，用于基于所述音频文件地址下载并播放所述语音数据；

显示模块，用于基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与所述语音数据的播放进度同步；

17.一种服务器，其特征在于，包括：

第二获取模块，用于根据所述资源文件地址，获取所述资源文件，并根据所述资源文件，获取文本显示对象以及用于获取语音数据的音频文件地址，所述文本显示对象中包括文本文件中每一分句对应的每条字幕以及每条字幕对应的播放时间段，所述文本文件由文本数据转化后得到，所述文本数据由所述语音数据进行语音识别后得到；

返回模块，用于向所述终端返回所述文本显示对象以及所述音频文件地址，以使得所述终端基于所述音频文件地址下载并播放所述语音数据，并基于所述文本显示对象，按照每条字幕对应的播放时间段显示每条字幕；其中，所有字幕对应的显示进度与所述语音数据的播放进度同步；

18.一种终端，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

19.一种服务器，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求8至14任一所述的方法。

20.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。

21.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求8至14任一所述的方法。