CN114582348A

CN114582348A - 语音播放系统、方法、装置及设备

Info

Publication number: CN114582348A
Application number: CN202011300616.2A
Authority: CN
Inventors: 龙舟; 周明智
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2022-06-03

Abstract

本申请公开了语音播放系统，通过在客户端识别多个语音文件是否属于同一活动，在服务端通过原子化的语音识别服务对每个语音文件进行语音识别，得到每个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，再由客户端确定每个语音识别文本中词元素相对活动起始点的全局时间信息，在语音播放控制器中自动依次打开语音文件播放列表中的多个语音文件，以连贯播放整个活动的多段语音数据，显示与整个活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息为全局时间信息。采用这种处理方式，可以有效降低服务端语音识别服务对应用的耦合性，达到用户侧无感知回放整个活动语音，并同步显示语音识别文本的良好使用体验。

Description

语音播放系统、方法、装置及设备

技术领域

本申请涉及语音处理技术领域，具体涉及语音播放系统、相关方法和装置，以及电子设备。

背景技术

在会议、审讯、面谈等多种智能语音速记场景下，会面临茶歇、中途休息等导致暂停语音录制的情况，这样就会导致整场会议下来后产生多个语音文件，后期要基于整场会议的多个语音文件，对整场会议语音进行连贯回放，并同步显示语音识别文本。

目前，一种典型的基于整场会议的多个语音文件连贯回放整场会议语音，并同步显示语音识别文本的方式是，在服务端对一个会议进行语音识别处理时，由服务端采用流式方式，不断向该会议的一个语音文件中追加因暂停语音录制产生的多段碎片化的语音数据，使得多段语音识别最终只产出一个语音文件，并识别出整场会议的完整语音识别结果。然后，将该会议的一个完整语音文件及一个完整语音识别结果发送至客户端，在客户端播放该完整语音文件，并同步显示对应文本，以便于用户对照正在播放的语音查看对应文本。

然而，在实现本发明过程中，发明人发现上述技术方案至少存在如下问题：1)语音识别服务端要感知多段语音识别数据在应用层面是否需要合并，以及处理多段语音识别数据合并的逻辑，这样就导致服务端对基于整场会议的多个语音文件连贯回放整场会议语音、并同步显示语音识别文本应用的耦合性高，因此难以向多个应用提供原子化的通用语音识别服务；2)服务端无法灵活应对不同用户的可变需求，比如有些应用系统既需要对整场会议进行多段语音及对应文本总览，又需要展示分段的子话题。综上所述，如何降低服务端语音识别服务对基于整场会议的多个语音文件连贯回放整场会议语音、并同步显示语音识别文本应用的耦合性，成为本领域技术人员迫切需要解决的问题。

发明内容

本申请提供语音播放系统，以解决现有技术存在的服务端语音识别服务对基于整场会议的多个语音文件连贯回放整场会议语音、并同步显示语音识别文本应用的耦合性较高的问题。本申请另外提供语音播放方法和装置，以及电子设备。

本申请提供一种语音播放系统，包括：

客户端，用于确定目标活动包括的多个语音文件；接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息；

服务端，用于对所述语音文件执行语音识别处理，向客户端发送所述语音识别文本及所述词元素的局部时间信息。

本申请还提供一种语音播放方法，包括：

确定目标活动包括的多个语音文件；

接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；

在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与所述多个语音文件对应的目标活动的多段语音数据，并显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

可选的，还包括：

确定目标语音文件；

在语音播放控制器中打开目标语音文件，并显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。

可选的，所述活动包括多个活动主题；

所述方法还包括：

确定所述语音文件的主题信息；

所述确定目标语音文件包括：

确定目标主题信息；

将与目标主题信息对应的语音文件作为目标语音文件。

可选的，还包括：

向服务端发送所述目标活动包括所述多个语音文件的信息、主题信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息、及所述主题信息，以便于服务端响应其它客户端发送的针对目标主题的语音播放请求，向其它客户端发送与目标主题对应的目标语音文件、与所述目标语音文件对应的目标语音识别文本及所述局部时间信息，以便于客户端播放目标主题的语音数据，显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。

可选的，还包括：

向服务端发送所述目标活动包括所述多个语音文件的信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息，以便于服务端响应其它客户端发送的针对目标活动的语音播放请求，向其它客户端发送所述目标活动包括的所述多个语音文件、所述多个语音识别文本、所述局部时间信息和全局时间信息，以便于其它客户端连贯播放目标活动的多段语音数据，显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

可选的，还包括：

在连贯播放目标活动的多段语音数据时，编辑语音识别文本；

确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息。

可选的，所述确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息，包括：

确定所述更新后的全局时间信息；

根据所述更新后的全局时间信息，确定所述更新后的局部时间信息。

可选的，还包括：

向服务端发送更新后的全局时间信息、及更新后的局部时间信息，使得服务端更新所述全局时间信息和局部时间信息。

可选的，所述编辑语音识别文本包括如下方式的至少一个：修改词元素，增加词元素，删除词元素。

本申请还提供一种语音播放方法，包括：

接收针对目标活动中多个语音文件的语音识别请求；

对所述多个语音文件执行语音识别处理；

向客户端发送多个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，以便于客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

可选的，还包括：

存储所述多个语音文件和多个语音识别文本中词元素的局部时间信息，以及存储客户端发送的所述目标活动包括所述多个语音文件的信息、全局时间信息；

接收其它客户端发送的针对目标活动的语音播放请求；

向其它客户端发送所述目标活动包括的所述多个语音文件、所述多个语音识别文本、所述全局时间信息，以便于其它客户端连贯播放目标活动的多段语音数据，显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

可选的,所述活动包括多个活动主题；

还包括：

存储客户端发送的所述语音文件的主题信息；

向其它客户端发送所述主题信息，以便于其它客户端播放目标主题的语音数据，显示与目标主题的语音文件的语音播放进度对应的目标语音识别文本，与目标语音识别文本对应的时间信息包括局部时间信息。

可选的，还包括：

根据客户端发送的词元素变更信息、更新后的局部时间信息和全局时间信息，更新所述语音识别文本、词元素的局部时间信息和全局时间信息。

本申请还提供一种语音播放装置，包括：

活动语音文件确定单元，用于确定目标活动包括的多个语音文件；

数据接收单元，用于接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

全局时间确定单元，用于根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；

同步展示单元，用于在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与所述多个语音文件对应的目标活动的多段语音数据，并显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标活动包括的多个语音文件；接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与所述多个语音文件对应的目标活动的多段语音数据，并显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

本申请还提供一种语音播放装置，包括：

请求接收单元，用于接收针对目标活动中多个语音文件的语音识别请求；

语音识别单元，用于对所述多个语音文件执行语音识别处理；

数据发送单元，用于向客户端发送多个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，以便于客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收针对目标活动中多个语音文件的语音识别请求；对所述多个语音文件执行语音识别处理；向客户端发送多个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，以便于客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

本申请还提供一种授课语音播放方法，包括：

确定授课过程包括的多个授课语音文件；

接收服务端发送的与所述授课语音文件对应的授课内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

根据所述多个授课语音文件的时间信息和所述局部时间信息，确定所述词元素相对授课过程起始点的全局时间信息；

在语音播放控制器中依次打开语音文件播放列表中的所述多个授课语音文件，以连贯播放与多个授课语音文件对应的授课过程中的多段语音数据，并显示与授课过程中的语音播放进度对应的授课内容文本，与所述授课内容文本对应的时间信息包括全局时间信息。

可选的，所述授课过程包括多个授课主题，不同授课语音文件对应不同授课主题；

所述方法还包括：

确定目标授课主题；

在语音播放控制器中打开与目标授课主题对应的目标授课语音文件，并显示与目标授课语音文件的语音播放进度对应的目标授课内容文本，与目标授课内容文本对应的时间信息包括局部时间信息。

本申请还提供一种直播语音播放方法，包括：

确定直播过程包括的多个直播语音文件；

接收服务端发送的与所述直播语音文件对应的直播内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

根据所述多个直播语音文件的时间信息和所述局部时间信息，确定所述词元素相对直播过程起始点的全局时间信息；

在语音播放控制器中依次打开语音文件播放列表中的所述多个直播语音文件，以连贯播放与多个直播语音文件对应的直播过程中的多段语音数据，并显示与直播过程中的语音播放进度对应的直播内容文本，与所述直播内容文本对应的时间信息包括全局时间信息。

可选的，所述直播过程包括多个直播主题，不同直播语音文件对应不同直播主题；

所述方法还包括：

确定目标直播主题；

在语音播放控制器中打开与目标直播主题对应的目标直播语音文件，并显示与目标直播语音文件的语音播放进度对应的目标直播内容文本，与目标直播内容文本对应的时间信息包括局部时间信息。

本申请还提供一种会议语音播放方法，包括：

确定目标会议包括的多个语音文件；

根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标会议起始点的全局时间信息；

在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标会议的多段语音数据，并显示与目标会议的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

可选的，所述目标会议包括多个子议题，不同语音文件对应不同子议题；

所述方法还包括：

确定目标子议题；

在语音播放控制器中打开与目标子议题对应的目标语音文件，并显示与目标语音文件的语音播放进度对应的目标语音识别文本，与目标语音识别文本对应的时间信息包括局部时间信息。

本申请还提供一种庭审语音播放方法，包括：

确定庭审过程包括的多个庭审语音文件；

接收服务端发送的与所述庭审语音文件对应的庭审内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

根据所述多个庭审语音文件的时间信息和所述局部时间信息，确定所述词元素相对庭审过程起始点的全局时间信息；

在语音播放控制器中依次打开语音文件播放列表中的所述多个庭审语音文件，以连贯播放与多个庭审语音文件对应的庭审过程的多段语音数据，并显示与庭审过程中的语音播放进度对应的庭审内容文本，与显示的庭审内容文本对应的时间信息包括全局时间信息。

可选的，所述庭审过程包括多个阶段主题，不同庭审语音文件对应不同阶段主题；

所述方法还包括：

确定目标阶段主题；

在语音播放控制器中打开与目标阶段主题对应的目标庭审语音文件，并显示与目标庭审语音文件的语音播放进度对应的目标庭审内容文本，与目标庭审内容文本对应的时间信息包括局部时间信息。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音播放系统，通过在前端应用侧识别多个语音文件是否属于同一活动，是否需要连贯播放这些语音文件，并同步显示与整个活动的播放进度对应的语音识别文本，以及在服务端通过原子化的语音识别服务对每个语音文件进行语音识别，得到每个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，将语音识别文本及局部时间信息发送至前端应用侧，再由前端应用侧确定每个语音文件的识别文本中词元素相对活动起始点的全局时间信息，并在语音播放控制器中自动依次打开语音文件播放列表中的多个语音文件，以连贯播放整个活动的多段语音数据，并显示与整个活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息为全局时间信息，由此实现对同一活动的多段语音数据进行合并播放、并同步突出显示与全局播放进度对应的识别文本的处理。这样，可避免通过服务端的语音识别模块对同一活动的多个语音文件进行物理上的合并处理，无需改变服务端提供的原子化的语音识别逻辑；因此，在基于整个活动的多个语音文件连贯回放整个活动语音、并同步显示语音识别文本的应用场景下，可以有效降低服务端语音识别服务对该应用的耦合性，达到用户侧无感知回放整个活动语音，并同步显示语音识别文本的良好使用体验。此外，由于这种处理方式并没有将同一活动的多个语音文件在物理上合并为一个语音文件，而是仍然独立存储多个语音文件，并独立存储各个语音文件的语音识别文本，因此为后续灵活应对该应用场景的各种贴合用户需求的可变场景提供了有效的数据基础。

附图说明

图1本申请提供的一种语音播放系统的实施例的结构示意图；

图2本申请提供的一种语音播放系统的实施例的场景示意图；

图3本申请提供的一种语音播放系统的实施例的设备交互示意图；

图4本申请提供的一种语音播放系统的实施例的分段展示的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音识别数据处理系统、方法和装置，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音播放系统的实施例的结构示意图。在本实施例中，所述系统可包括：服务端1和客户端2。

所述服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现语音识别处理的服务器，可部署在数据中心。服务器，可以是集群服务器，也可以是单台服务器。

所述客户端2，包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

请参考图2，其为本申请的语音播放系统的场景示意图。服务端和客户端间可通过网络连接，如客户端可通过WIFI等方式联网，等等。如图2所示，用户可通过客户端上装载的浏览器(如IE浏览器等)在网页中连贯播放目标活动的存储在多个语音文件中的多段语音数据，虽然这些语音数据分别存储在不同的语音文件中，但是用户侧对此并无感知，不会感知到有间断地播放多段语音数据，而是感知到在直接播放整个活动的完整语音。客户端通过浏览器在语音播放的同时，可通过浏览器内嵌的网页文本编辑器(如富文本编辑器)，根据由服务端提供的各个语音文件的语音识别文本，同步突出显示(如高亮显示)与整个活动的当前语音播放内容对应的文本，这样可以更好的关联转写文字内容与语音播放时间关系，辅助用户聚焦当前播放内容，以便于用户对照当前播放内容检查对应的识别文字是否有问题。当用户发现识别文字有问题时，可通过网页文本编辑器对该文字进行在线编辑。

所述活动，可以是会议、培训课程、直播、庭审等。所述目标活动可包括多个语音文件，所述语音文件存储含有能辨识说话内容的语音数据。这些语音文件有时间上的先后顺序，所有语音文件的数据连接在一起构成整个活动的完整语音数据。例如，教育培训场景中录制老师授课语音，由于各种原因可能导致一次授课过程中产生多个语音文件，而学生在回看该次授课内容时，可能想要无间断地播放完整授课语音，并同步显示当前播放内容的文字。再如，直播带货场景中，由于主播中途休息等原因可能导致一次直播过程中产生多个语音文件，而消费者在回看该次直播内容时，可能想要无间断地播放完整直播语音，并同步显示当前播放内容的文字。

请参考图3，其为本申请的语音播放系统的实施例的设备交互示意图。在本实施例中，客户端用于确定目标活动包括的多个语音文件；接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息；服务端用于对所述语音文件执行语音识别处理，向客户端发送所述语音识别文本及所述词元素的局部时间信息。

所述客户端要确定目标活动包括的多个语音文件，可采用如下方式实现：针对目标活动，直接采集多个语音文件，或者是预先采集多个语音文件，然后再为目标活动从预先采集的多个语音文件中指定与目标活动对应的多个语音文件。

所述客户端确定目标活动包括的多个语音文件后，可将多个语音文件上传至服务端，请求服务端对这些语音文件进行语音识别处理；相应的，服务端对各个语音文件分别执行语音识别处理，形成与各个语音文件分别对应的语音识别文本。

语音识别是将语音转化为文字的技术。语音识别算法(如语音识别模型)的输入数据可以是语音数据，算法输出识别结果，识别结果通常为字符串，并带有时间戳信息。具体实施时，可采用各种现有的语音识别算法，由于该算法属于较为成熟的现有技术，因此此处不再赘述。

语音识别处理的结果包括词元素数据，一个语音文件的语音识别文本包括多个词元素。在现有技术中，一个词元素可包括：词内容信息和时间信息。所述时间信息可包括：起始时间，结束时间。由于该时间是词元素相对其所属语音文件的起始点的时间信息，因此本申请将其称为局部时间信息。

本实施例提供的系统，要将同一活动的多段语音数据的词元素时间信息统一到一个时间轴，以便于边播放完整语音、边显示对应文字，因此可通过客户端确定词元素相对整个活动起始点的时间信息，本实施例将该时间信息称为全局时间信息。所述全局时间信息，可以是词元素的实际语音时间，如15：30：08，也可以是相对活动起始点的时长，如25分10秒。表1示出了本实施例的语音识别文本的词元素数据。

表1、语音识别文本的词元素数据

由表1可见，本申请实施例提供的系统与现有技术不同之一是，本申请实施例提供的系统既要确定各个词元素的局部时间信息，还要确定全局时间信息。其中，局部时间信息可包括词的语音片段在所属的一个语音文件中的起始时间和结束时间；全局时间信息可包括词的语音片段在整个活动的完整语音中的起始时间和结束时间。

在本实施例中，客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素的全局时间信息。一个活动的多个语音文件有时间上的先后顺序关系，所有语音文件的数据连接在一起构成整个活动的完整语音数据。所述语音文件的时间信息，可以是具体的开始时间，如15：30：00，也可以是时间顺序关系，如第2个语音文件。

例如，会议A包括n个语音文件，这些语音文件在时间上具有先后关系，如语音文件1从13：50开始，语音文件2从14：10开始，等等。在组合多个语音文件中的每句话识别文本时，不仅要考虑词元素与对应语音文件的相对时间，还要考虑该语音文件的开始时间，基于这两个信息，计算词元素对应的全局时间信息。如图2所示，由于全局时间信息为实际时间戳，回放时语音识别文本与音频播放根据实际时间戳来对齐时间轴，确保多段的识别文本与视觉上“合并”的完整会议语音回放时可以正确关联。

在本实施例中，客户端确定全局时间信息后，还可向服务端发送所述全局时间信息，使得服务端存储所述全局时间信息，形成表1所示的数据。该数据可为保证回放文本关联、文本音频定位、文本修改编辑等速记交互体验连续而提供语音识别数据基础。

如图4所示，本申请实施例提供的系统与现有技术不同之二是，本申请实施例提供的系统并不将同一活动的多个语音文件合并为一个完整语音文件，也不将各个语音文件的语音识别文本合并为一个完整语音识别文本，而是仍然存储多个语音文件及包括局部时间信息的多个语音识别文本，这样就可以为灵活应对不同用户的可变需求，比如有些应用系统既需要对整个活动的语音数据进行多段总览，又需要展示分段的子话题的需求，提供语音数据基础。

在本实施例中，客户端可通过网页浏览器播放目标活动的多段语音数据，并同步展示对应的语音识别文本，实现关联语音识别文字内容与语音播放时间关系，辅助用户聚焦当前播放内容，以便于用户对照当前播放内容检查对应的识别文字是否有问题。为此，服务端向客户端发送语音识别文本查看网页，所述网页可包括网页文本编辑器(Web编辑器)，可在编辑器中显示与播放进度对应的语音识别文本。当用户要浏览或编辑语音识别文本时，可通过客户端连贯播放该活动的多个语音文件，并接收服务端发送的语音识别文本编辑页面，用户可一边听语音，一边通过该页面上的文本编辑器对整个活动的语音识别文本进行查看。

在本实施例中，语音识别文本查看网页通过语音播放控制器按照同一活动的多个语音文件的开始时间信息，自动依次打开语音文件播放列表中同一活动的多个语音文件，即在播放完一个语音文件后，自动切换到列表中的下一个语音文件，这样就可以使得用户观看到连贯播放的完整会议语音，在播放语音时，根据所述全局时间信息，显示与语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

具体实施时，可通过网页脚本语言提供的音频应用程序接口，如javascript语言中的音频应用程序接口(JS Audio API)，以语音文件播放列表方式管理所述多个语音文件，在用户界面视觉上使用同一个播放控制器，控制目标活动的多个语音文件定位与播放。

具体实施时，客户端可采用如下步骤进行处理：

1)通过音频应用程序接口依次预载入播放列表中目标活动的所有语音文件，获取每个语音文件的播放时长，如图4中同一会议因发生中断产生的两个语音文件；并计算列表语音总时长作为播放控制器进度条的总时长展示，如图2中同一会议中两个语音文件无间断连续播放的界面；

2)通过音频应用程序接口的语音文件播放结束事件(onended)支持语音文件的自动切换，当前语音文件播放完毕事件触发时，如果列表里还有下一个语音文件，则自动切换到下一个语音文件继续播放；

3)根据正在播放语音文件的当前播放时间与其前置语音文件的总时长计算当前列表播放时间，作为播放控制器进度条的当前时间展示，同时可以用来计算列表的当前播放进度，如图2显示了与会议完整语音播放进度对应的识别文本；

4)支持列表时间定位具体语音播放位置，根据单个列表语音时长划分列表播放区间，定位区间来确定目标播放语音文件与目标语音位置；

5)接受输入识别音频的开始时间戳，播放时间变化的同时，根据正在播放语音文件的当前时间与开始时间戳，计算语音文件播放的实际时间戳，用来回放时对应文本内容具体位置。

通过上述1至5步，可将“碎片化”生成的同一会议的多个语音片段与识别文本完整的呈现给用户，实现回放体验合并，确保用户回放历史时对于音频分割无感知的效果，提供连贯的操作体验。

在本实施例中，客户端接收服务端发送的所述语音识别文本和所述局部时间信息；相应的，客户端还可用于向服务端发送所述目标活动包括所述多个语音文件的信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息，以便于服务端响应其它客户端发送的针对目标活动的语音播放请求，向其它客户端发送所述目标活动包括的所述多个语音文件、所述多个语音识别文本、所述局部时间信息和全局时间信息，以便于其它客户端连贯播放目标活动的多段语音数据，显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

例如，所述客户端的用户为活动管理人员，所述其它客户端的用户为活动关注人员，活动管理人员可通过所述系统编辑整个活动的语音识别文本，并将相关信息上传至服务端，可包括所述目标活动包括所述多个语音文件的信息、更新后的词元素、局部时间信息、全局时间信息等相关信息；活动关注人员可从服务端下载相关信息，基于这些信息回放整个活动的语音，并观看同步显示的语音识别文本。

在一个示例中，客户端还可用于在连贯播放目标活动的多段语音数据时，编辑语音识别文本；确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息。采用这种处理方式，使得还可编辑识别文本，并在服务端更新语音识别文本、局部时间信息及全局时间信息。

所述编辑语音识别文本，包括但不限于如下方式的至少一个：修改词元素，增加词元素，删除词元素。

具体实施时，所述确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息，可包括如下子步骤：确定所述更新后的全局时间信息；根据所述更新后的全局时间信息，确定所述更新后的局部时间信息。例如，根据词元素的更新后的全局时间信息和相应语音片段在整个活动语音中的位置，确定该词元素属于哪个语音文件，再根据词元素对应的语音片段在该语音文件的位置，确定所述更新后的局部时间信息。

在本实施例中，客户端接收服务端发送的所述语音识别文本和所述局部时间信息；相应的，客户端还可用于向服务端发送更新后的全局时间信息、及更新后的局部时间信息，使得服务端更新所述全局时间信息和局部时间信息。

在一个示例中，客户端还可用于确定目标语音文件；在语音播放控制器中打开目标语音文件，并显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。所述目标语音文件属于所述目标活动，可由用户指定，是用户感兴趣的活动语音片段。由于单独播放目标语音文件，因此相应的时间信息为局部时间信息，如目标语音文件中的词“阿里巴巴”在所属目标语音文件中的起始时间为第15秒，在整个活动中的为起始时间为第28分15秒。采用这种处理方式，既可满足用户对整个活动的语音进行多段总览，又可满足用户对展示分段语音的需求。

在一个示例中，所述活动包括多个活动主题；所述客户端还用于确定所述语音文件的主题信息；所述客户端要确定目标语音文件可采用如下方式：确定目标主题信息；将与目标主题信息对应的语音文件作为目标语音文件。

所述活动主题，是整个活动中多个环节的主题，可以是会议的子议题、培训课程的知识点、直播中售卖的不同商品等。

例如，教育培训场景中录制老师授课语音，并将该次完整授课过程中的不同知识点的讲解语音分别录制在不同的语音文件中，在这种情况下，活动主题为授课主题，一次完整授课过程可包括多个授课主题，授课主题可以是知识点名称。学生通过所述系统可回看该次授课的完整语音内容，也可指定播放其感兴趣的目标授课主题。当用户指定播放完整授课语音内容时，客户端在语音播放控制器中依次打开语音文件播放列表中的多个不同知识点的授课语音文件，以连贯播放与多个授课语音文件对应的整个授课过程中的多段授课语音数据，并显示与整个授课过程中的语音播放进度对应的授课内容文本，与授课内容文本对应的时间信息包括全局时间信息。当用户指定目标授课主题时，客户端相应播放目标授课主题的授课语音，并显示与目标授课语音文件的语音播放进度对应的授课内容文本，与该授课内容文本对应的时间信息为词元素在该语音文件中的局部时间信息。

例如，直播带货场景中录制主播卖货语音，并将该次完整直播卖货过程中的不同商品的描述语音分别存储在不同的语音文件中，在这种情况下，活动主题即为直播主题，一次完整直播过程可包括多个直播主题，直播主题可以是商品名称。消费者通过所述系统可回看该次直播的完整语音内容，也可指定播放其感兴趣的目标商品的语音内容。当用户指定播放完整直播语音内容时，客户端在语音播放控制器中依次打开语音文件播放列表中的多个不同商品的售卖语音文件，以连贯播放整个直播过程中的多个商品售卖语音数据，并显示与整个直播过程中的语音播放进度对应的商品售卖文本，与商品售卖文本对应的时间信息包括全局时间信息。当用户指定目标商品时，客户端相应播放目标商品的售卖语音，并显示与目标商品语音文件的语音播放进度对应的直播内容文本，与该直播内容文本对应的时间信息为词元素在该语音文件中的局部时间信息。

具体实施时，所述客户端还可用于向服务端发送所述目标活动包括所述多个语音文件的信息、主题信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息、及所述主题信息，以便于服务端响应其它客户端发送的针对目标主题的语音播放请求，向其它客户端发送与目标主题对应的目标语音文件、与所述目标语音文件对应的目标语音识别文本及所述局部时间信息，以便于客户端播放目标主题的语音数据，显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。

从上述实施例可见，本申请实施例提供的语音播放系统，通过在前端应用侧识别多个语音文件是否属于同一活动，是否需要连贯播放这些语音文件，并同步显示与整个活动的播放进度对应的语音识别文本，以及在服务端通过原子化的语音识别服务对每个语音文件进行语音识别，得到每个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，将语音识别文本及局部时间信息发送至前端应用侧，再由前端应用侧确定每个语音文件的识别文本中词元素相对活动起始点的全局时间信息，并在语音播放控制器中自动依次打开语音文件播放列表中的多个语音文件，以连贯播放整个活动的多段语音数据，并显示与整个活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息为全局时间信息，由此实现对同一活动的多段语音数据进行合并播放、并同步突出显示与全局播放进度对应的识别文本的处理。这样，可避免通过服务端的语音识别模块对同一活动的多个语音文件进行物理上的合并处理，无需改变服务端提供的原子化的语音识别逻辑；因此，在基于整个活动的多个语音文件连贯回放整个活动语音、并同步显示语音识别文本的应用场景下，可以有效降低服务端语音识别服务对该应用的耦合性，达到用户侧无感知回放整个活动语音，并同步显示语音识别文本的良好使用体验。此外，由于这种处理方式并没有将同一活动的多个语音文件在物理上合并为一个语音文件，而是仍然独立存储多个语音文件，并独立存储各个语音文件的语音识别文本，因此为后续灵活应对该应用场景的各种贴合用户需求的可变场景提供了有效的数据基础。

第二实施例

与上述的语音播放系统相对应，本申请还提供一种语音播放方法，所述方法的执行主体包括但不限于客户端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：确定目标活动包括的多个语音文件；

步骤2：接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

步骤3：根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；

步骤4：在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与所述多个语音文件对应的目标活动的多段语音数据，并显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

在一个示例中，所述方法还可包括如下步骤：向服务端发送所述目标活动包括所述多个语音文件的信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息，以便于服务端响应其它客户端发送的针对目标活动的语音播放请求，向其它客户端发送所述目标活动包括的所述多个语音文件、所述多个语音识别文本、所述局部时间信息和全局时间信息，以便于其它客户端连贯播放目标活动的多段语音数据，显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。采用这种处理方式，使得其它客户端可复用全局时间信息，连贯播放目标活动的多段语音数据，并同步突出显示与目标活动的语音播放进度对应的语音识别文本；因此，可以有效提升语音播放速度，从而提升用户体验。

在一个示例中，所述方法还可包括如下步骤：在连贯播放目标活动的多段语音数据时，编辑语音识别文本；确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息。采用这种处理方式，使得可以辅助用户聚焦当前播放内容，以便于用户对照当前播放内容检查对应的识别文字是否有问题。当用户发现识别文字有问题时，可通过网页文本编辑器对该文字进行在线编辑，因此可以有效提升语音识别文本的准确度。

所述编辑语音识别文本包括如下方式的至少一个：修改词元素，增加词元素，删除词元素。

具体实施时，所述确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息，可包括如下子步骤：确定所述更新后的全局时间信息；根据所述更新后的全局时间信息，确定所述更新后的局部时间信息。

具体实施时，所述方法还可包括如下步骤：向服务端发送更新后的全局时间信息、及更新后的局部时间信息，使得服务端更新所述全局时间信息和局部时间信息。采用这种处理方式，使得在服务端存储客户端用户编辑后的词元素信息，可以有效提升其它客户端展示语音识别文本的准确度。

在一个示例中，所述方法还可包括如下步骤：确定目标语音文件；在语音播放控制器中打开目标语音文件，并显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。采用这种处理方式，使得即可满足用户对整个活动进行多段语音及对应文本总览的需求，又可满足用户对展示分段语音及对应文本的需求。

在一个示例中，所述活动包括多个活动主题；所述方法还可包括如下步骤：确定所述语音文件的主题信息；所述确定目标语音文件包括：确定目标主题信息；将与目标主题信息对应的语音文件作为目标语音文件。采用这种处理方式，使得可满足用户对其感兴趣的活动中某个主题的语音及对应文本的展示需求。

在一个示例中，所述方法还可包括如下步骤：向服务端发送所述目标活动包括所述多个语音文件的信息、主题信息、全局时间信息，使得服务端存储所述全局时间信息、目标活动包括所述多个语音文件的信息、及所述主题信息，以便于服务端响应其它客户端发送的针对目标主题的语音播放请求，向其它客户端发送与目标主题对应的目标语音文件、与所述目标语音文件对应的目标语音识别文本及所述局部时间信息，以便于客户端播放目标主题的语音数据，显示与目标语音文件的语音播放进度对应的目标语音识别文本，与显示的目标语音识别文本对应的时间信息包括局部时间信息。采用这种处理方式，使得其它客户端可复用全局时间信息和主题信息，即可满足其它用户对整个活动进行多段语音及对应文本总览的需求，又可满足其它用户对其感兴趣的主题语音及对应文本的展示需求。

例如，所述客户端的用户为活动管理人员，所述其它客户端的用户为活动关注人员，活动管理人员可通过所述系统编辑整个活动的语音识别文本，并将相关信息(包括所述目标活动包括所述多个语音文件的信息、全局时间信息等)上传至服务端；活动关注人员可从服务端下载相关信息，基于这些信息回放整个活动的语音，并观看同步显示的语音识别文本。

从上述实施例可见，本申请实施例提供的语音播放方法，通过在前端应用侧识别多个语音文件是否属于同一活动，是否需要连贯播放这些语音文件，并同步显示与整个活动的播放进度对应的语音识别文本，以及在服务端通过原子化的语音识别服务对每个语音文件进行语音识别，得到每个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，将语音识别文本及局部时间信息发送至前端应用侧，再由前端应用侧确定每个语音文件的识别文本中词元素相对活动起始点的全局时间信息，并在语音播放控制器中自动依次打开语音文件播放列表中的多个语音文件，以连贯播放整个活动的多段语音数据，并显示与整个活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息为全局时间信息，由此实现对同一活动的多段语音数据进行合并播放、并同步突出显示与全局播放进度对应的识别文本的处理。这样，可避免通过服务端的语音识别模块对同一活动的多个语音文件进行物理上的合并处理，无需改变服务端提供的原子化的语音识别逻辑；因此，在基于整个活动的多个语音文件连贯回放整个活动语音、并同步显示语音识别文本的应用场景下，可以有效降低服务端语音识别服务对该应用的耦合性，达到用户侧无感知回放整个活动语音，并同步显示语音识别文本的良好使用体验。此外，由于这种处理方式并没有将同一活动的多个语音文件在物理上合并为一个语音文件，而是仍然独立存储多个语音文件，并独立存储各个语音文件的语音识别文本，因此为后续灵活应对该应用场景的各种贴合用户需求的可变场景提供了有效的数据基础。

第三实施例

在上述的实施例中，提供了一种语音播放方法，与之相对应的，本申请还提供一种语音播放装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音播放装置，包括：

第四实施例

在上述的实施例中，提供了一种语音播放方法，与之相对应的，本申请还提供一种电子设备。该装置是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标活动包括的多个语音文件；接收服务端发送的与所述语音文件对应的语音识别文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与所述多个语音文件对应的目标活动的多段语音数据，并显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

第五实施例

与上述的语音播放系统相对应，本申请还提供一种语音播放方法，所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：接收针对目标活动中多个语音文件的语音识别请求。

所述请求，可包括所述语音文件，也可包括所述语音文件的标识。如果所述语音文件预先存储在服务端，则所述请求可包括所述语音文件的标识；如果所述语音文件存储在客户端，则所述请求可包括所述语音文件。

步骤2：对所述多个语音文件执行语音识别处理。

所述方法可通过语音识别模型分别对每个语音文件执行语音识别处理，获得每个语音文件的语音识别文本，识别结果包括词元素的局部时间信息。

步骤3：向客户端发送多个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，以便于客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

在一个示例中，所述方法还可包括如下步骤：存储所述多个语音文件和多个语音识别文本中词元素的局部时间信息，存储客户端发送的所述目标活动包括所述多个语音文件的信息、全局时间信息；以及，接收其它客户端发送的针对目标活动的语音播放请求；向其它客户端发送所述目标活动包括的所述多个语音文件、所述多个语音识别文本、所述全局时间信息，以便于其它客户端连贯播放目标活动的多段语音数据，显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。采用这种处理方式，使得其它客户端可复用全局时间信息，连贯播放目标活动的多段语音数据，并同步突出显示与目标活动的语音播放进度对应的语音识别文本；因此，可以有效提升语音播放速度，从而提升用户体验。

在一个示例中，所述活动包括多个活动主题；所述方法还可包括如下步骤：存储客户端发送的所述语音文件的主题信息；以及，向其它客户端发送所述主题信息，以便于其它客户端播放目标主题的语音数据，显示与目标主题的语音文件的语音播放进度对应的目标语音识别文本，与目标语音识别文本对应的时间信息包括局部时间信息。采用这种处理方式，使得其它客户端可复用全局时间信息和主题信息，即可满足其它用户对整个活动进行多段语音及对应文本总览的需求，又可满足其它用户对其感兴趣的主题语音及对应文本的展示需求。

在一个示例中，所述方法还可包括如下步骤：根据客户端发送的词元素变更信息、更新后的局部时间信息和全局时间信息，更新所述语音识别文本、词元素的局部时间信息和全局时间信息。采用这种处理方式，使得存储客户端用户编辑后的词元素信息，可以有效提升语音识别文本的准确度。

第六实施例

本申请另外提供一种语音播放装置，包括：

第七实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收针对目标活动中多个语音文件的语音识别请求；对所述多个语音文件执行语音识别处理；向客户端发送多个语音识别文本中词元素相对所属语音文件的起始点的局部时间信息，以便于客户端根据多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标活动起始点的全局时间信息；以及，在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标活动的多段语音数据；显示与目标活动的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

第八实施例

与上述的语音播放系统相对应，本申请还提供一种授课语音播放方法，所述方法的执行主体包括但不限于客户端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：确定授课过程包括的多个授课语音文件；

步骤2：接收服务端发送的与所述授课语音文件对应的授课内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

步骤3：根据所述多个授课语音文件的时间信息和所述局部时间信息，确定所述词元素相对授课过程起始点的全局时间信息；

步骤4：在语音播放控制器中依次打开语音文件播放列表中的所述多个授课语音文件，以连贯播放与多个授课语音文件对应的授课过程中的多段语音数据，并显示与授课过程中的语音播放进度对应的授课内容文本，与所述授课内容文本对应的时间信息包括全局时间信息。

所述授课过程，可包括多个授课主题，不同授课语音文件可对应不同授课主题。在一个示例中，所述方法还可包括如下步骤：确定目标授课主题；在语音播放控制器中打开与目标授课主题对应的目标授课语音文件，并显示与目标授课语音文件的语音播放进度对应的目标授课内容文本，与目标授课内容文本对应的时间信息包括局部时间信息。

第九实施例

与上述的语音播放系统相对应，本申请还提供一种直播语音播放方法，所述方法的执行主体包括但不限于客户端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：确定直播过程包括的多个直播语音文件；

步骤2：接收服务端发送的与所述直播语音文件对应的直播内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

步骤3：根据所述多个直播语音文件的时间信息和所述局部时间信息，确定所述词元素相对直播过程起始点的全局时间信息；

步骤4：在语音播放控制器中依次打开语音文件播放列表中的所述多个直播语音文件，以连贯播放与多个直播语音文件对应的直播过程中的多段语音数据，并显示与直播过程中的语音播放进度对应的直播内容文本，与所述直播内容文本对应的时间信息包括全局时间信息。

所述直播过程，可包括多个直播主题，不同直播语音文件可对应不同的直播主题。在一个示例中，所述方法还可包括如下步骤：确定目标直播主题；在语音播放控制器中打开与目标直播主题对应的目标直播语音文件，并显示与目标直播语音文件的语音播放进度对应的目标直播内容文本，与目标直播内容文本对应的时间信息包括局部时间信息。

第十实施例

与上述的语音播放系统相对应，本申请还提供一种会议语音播放方法，所述方法的执行主体包括但不限于客户端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：确定目标会议包括的多个语音文件；

步骤3：根据所述多个语音文件的时间信息和所述局部时间信息，确定所述词元素相对目标会议起始点的全局时间信息；

步骤4：在语音播放控制器中依次打开语音文件播放列表中的所述多个语音文件，以连贯播放与多个语音文件对应的目标会议的多段语音数据，并显示与目标会议的语音播放进度对应的语音识别文本，与显示的语音识别文本对应的时间信息包括全局时间信息。

所述目标会议，可包括多个子议题，不同语音文件可对应不同子议题。在一个示例中，所述方法还可包括如下步骤：确定目标子议题；在语音播放控制器中打开与目标子议题对应的目标语音文件，并显示与目标语音文件的语音播放进度对应的目标语音识别文本，与目标语音识别文本对应的时间信息包括局部时间信息。

第十一实施例

与上述的语音播放系统相对应，本申请还提供一种庭审语音播放方法，所述方法的执行主体包括但不限于客户端，也可以是能够实现所述方法的任意设备。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：确定庭审过程包括的多个庭审语音文件；

步骤2：接收服务端发送的与所述庭审语音文件对应的庭审内容文本和所述文本中词元素相对所属语音文件的起始点的局部时间信息；

步骤3：根据所述多个庭审语音文件的时间信息和所述局部时间信息，确定所述词元素相对庭审过程起始点的全局时间信息；

步骤4：在语音播放控制器中依次打开语音文件播放列表中的所述多个庭审语音文件，以连贯播放与多个庭审语音文件对应的庭审过程的多段语音数据，并显示与庭审过程中的语音播放进度对应的庭审内容文本，与显示的庭审内容文本对应的时间信息包括全局时间信息。

所述庭审过程，可包括多个阶段主题，不同庭审语音文件可对应不同阶段主题。在一个示例中，所述方法还可包括如下步骤：确定目标阶段主题；在语音播放控制器中打开与目标阶段主题对应的目标庭审语音文件，并显示与目标庭审语音文件的语音播放进度对应的目标庭审内容文本，与目标庭审内容文本对应的时间信息包括局部时间信息。

第十二实施例

与上述各种方法相对应，本申请还提供一种计算机程序。由于本程序实施例基本相似于方法实施例，所以本实施例描述得比较简单，相关之处参见方法实施例中的部分说明即可。下述描述的程序实施例仅仅是示意性的。

本申请实施例提供的计算机程序，当其在计算机上运行时，使得计算机可执行上述实施例提供的各种方法。

所述程序包括但不限于：部署在服务器或者终端设备上的应用程序、部署在移动设备中的移动应用APP、APP中的小程序等等各种形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音播放系统，其特征在于，包括：

2.一种语音播放方法，其特征在于，包括：

确定目标活动包括的多个语音文件；

3.根据权利要求2的方法，其特征在于，还包括：

确定目标语音文件；

4.根据权利要求3的方法，其特征在于，

所述活动包括多个活动主题；

所述方法还包括：

确定所述语音文件的主题信息；

所述确定目标语音文件包括：

确定目标主题信息；

将与目标主题信息对应的语音文件作为目标语音文件。

5.根据权利要求4的方法，其特征在于，还包括：

6.根据权利要求2的方法，其特征在于，还包括：

7.根据权利要求2的方法，其特征在于，还包括：

8.根据权利要求7的方法，其特征在于，所述确定编辑后的语音识别文本中词元素的更新后的全局时间信息、及更新后的局部时间信息，包括：

确定所述更新后的全局时间信息；

9.根据权利要求7的方法，其特征在于，还包括：

10.根据权利要求7的方法，其特征在于，

11.一种语音播放方法，其特征在于，包括：

接收针对目标活动中多个语音文件的语音识别请求；

对所述多个语音文件执行语音识别处理；

12.根据权利要求11的方法，其特征在于，还包括：

接收其它客户端发送的针对目标活动的语音播放请求；

13.根据权利要求12的方法，其特征在于，

所述活动包括多个活动主题；

还包括：

存储客户端发送的所述语音文件的主题信息；

14.根据权利要求13的方法，其特征在于，还包括：

15.一种语音播放装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：

处理器和存储器；

17.一种语音播放装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括：

处理器和存储器；

19.一种授课语音播放方法，其特征在于，包括：

确定授课过程包括的多个授课语音文件；

20.根据权利要求19的方法，其特征在于，

所述授课过程包括多个授课主题，不同授课语音文件对应不同授课主题；

所述方法还包括：

确定目标授课主题；

21.一种直播语音播放方法，其特征在于，包括：

确定直播过程包括的多个直播语音文件；

22.根据权利要求21的方法，其特征在于，

所述直播过程包括多个直播主题，不同直播语音文件对应不同直播主题；

所述方法还包括：

确定目标直播主题；

23.一种会议语音播放方法，其特征在于，包括：

确定目标会议包括的多个语音文件；

24.根据权利要求23的方法，其特征在于，

所述目标会议包括多个子议题，不同语音文件对应不同子议题；

所述方法还包括：

确定目标子议题；

25.一种庭审语音播放方法，其特征在于，包括：

确定庭审过程包括的多个庭审语音文件；

26.根据权利要求25的方法，其特征在于，

所述庭审过程包括多个阶段主题，不同庭审语音文件对应不同阶段主题；

所述方法还包括：

确定目标阶段主题；

27.一种计算机程序，其特征在于，当其在计算机上运行时，使得计算机执行根据权利要求2至14、权利要求19至26任一项所述的方法。