CN113571061A

CN113571061A - 语音转写文本编辑系统、方法、装置及设备

Info

Publication number: CN113571061A
Application number: CN202010351686.4A
Authority: CN
Inventors: 龙舟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-29

Abstract

本申请公开了语音转写文本编辑系统、方法和装置，网页文本编辑器，网页，浏览器，以及电子设备。所述系统通过服务端对语音数据执行语音转写处理，将转写文本的词元素数据发送至客户端，并存储客户端发送的更新后的词元素数据；客户端通过文本维度的DOM节点包裹转写文本，在播放语音数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。采用这种处理方式，使得采用文本节点展示语音转写文本，词维度突出渲染不依赖DOM元素；因此，可以有效提升长语音转写文本的在线编辑性能。

Description

语音转写文本编辑系统、方法、装置及设备

技术领域

本申请涉及语音处理技术领域，具体涉及语音转写文本编辑系统、方法和装置，网页文本编辑器，网页，浏览器，以及电子设备。

背景技术

语音转写系统是一种可将语音转写为文字的语音处理系统。通过该系统可自动形成会议纪要，以提高会议效率、发挥会议功能，避免人力物力财力浪费、降低会议成本、达成人力资源效率化。

一种典型的语音转写系统，需要语音转写结果能够在线编辑，并能满足语音播放的同时，同步高亮显示与当前播放内容对应的文案，如阿里巴巴的云听产品。通过语音播放的同时对应文字高亮展示的处理方式，可以更好的关联转写文字内容与音频播放时间关系，辅助用户聚焦当前播放内容，以便于用户对照当前播放内容检查对应的转写文字是否有问题，在发现转写文字有问题时，可对该文字进行在线编辑。目前，主要采用富文本编辑器对语音转写文本进行在线编辑。按常规的富文本编辑器做法，基于词维度对与当前播放内容对应的文案进行高亮展示。也就是说，语音转写文本中的每个词需要使用一个独立的DOM元素包裹，以满足随时定位到播放位置并且高亮显示的需求。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：目前音频录音文件上传最大支持数小时的音频，对应的语音转文字结果包含约数万字以上文字，数万个以上词，而每个词拥有独立DOM元素将产生大量DOM节点，编辑操作涉及修改DOM时会触发大量重排，全选删除等操作甚至会造成浏览器假死无响应等问题，无法拥有正常编辑体验。例如，一段4小时的音频录音，其对应的语音转文字结果包含约58000以上文字，34000以上词，将产生34000以上DOM节点。综上所述，为保证长语音的转写文本结果可以正常使用在线编辑功能，需要一个高性能编辑方案处理大量语音转写文本的编辑需求。

发明内容

本申请提供语音转写文本编辑系统，以解决现有技术存在的长语音转写文本的在线编辑性能较低的问题。本申请另外提供语音转写文本编辑方法和装置，网页文本编辑器，网页，浏览器，以及电子设备。

本申请提供一种语音转写文本编辑系统，包括：

服务端，用于对多媒体数据执行语音转写处理，向客户端发送语音转写文本的词元素数据；根据客户端发送的文本更新请求，存储更新后的词元素数据；

客户端，用于通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

本申请提供一种语音转写文本编辑方法，包括：

对多媒体数据执行语音转写处理；

向客户端发送语音转写文本的词元素数据，以便于客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；

存储客户端发送的文本更新请求携带的更新的词元素数据。

本申请提供一种语音转写文本编辑方法，包括：

通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；

针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；

根据更新的词元素数据，渲染编辑后的转写文本。

可选的，还包括：

向服务端发送文本更新请求，所述请求包括更新的词元素数据。

可选的，所述通过文本维度的文档对象模型DOM节点包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，包括：

根据所述词元素数据，拼接得到所述转写文本；

通过所述DOM节点包裹所述转写文本；

所述根据更新的词元素数据，渲染编辑后的转写文本，包括：

根据更新的词元素数据，拼接得到所述编辑后的转写文本；

根据所述编辑后的转写文本，更新所述DOM节点的内容。

可选的，还包括：

若所述转写文本的长度大于长度阈值，则将所述转写文本划分为多个长度小于所述长度阈值的文本片段，并通过与多个文本片段分别对应的多个DOM节点包裹所述转写文本。

可选的，还包括：

若所述转写文本的长度小于或者等于长度阈值，则通过与所述转写文本对应的一个DOM节点包裹所述转写文本。

可选的，所述根据编辑位置信息和编辑内容信息，更新词元素数据，包括：

根据编辑位置信息和词元素数据，确定目标词元素；

根据编辑内容信息，更新目标词元素。

可选的，所述编辑操作包括：全选删除操作；

所述根据编辑位置信息和编辑内容信息，更新词元素数据，包括：

将所有词元素作为目标词元素；

删除所有词元素数据。

可选的，所述编辑操作包括：词增加操作；

根据编辑位置信息，确定新增词元素的时间信息；

根据编辑内容信息，确定新增词元素的内容信息。

可选的，所述编辑操作包括：词修改操作；

根据编辑位置信息和词元素数据，确定目标词元素的时间信息；

根据编辑内容信息，更新目标词元素的内容信息。

可选的，还包括：

禁用浏览器默认的编辑操作处理模块；

判断所述编辑操作是否为预设的编辑操作；

若所述编辑操作为预设的编辑操作，则根据编辑位置信息和编辑内容信息，更新所述词元素数据。

可选的，所述词元素包括：词内容和时间信息。

可选的，所述第一显示属性包括：第一字体颜色；

所述第二显示属性包括：第二字体颜色；

所述以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段，包括：

在所述编辑器的文字层中，以第二字体颜色显示所述转写文本；

确定与所述第一转写文本片段对应的显示区域的尺寸和位置；

根据所述尺寸，确定第三颜色的颜色层的尺寸，第三颜色是与第一字体颜色混合后得到第二字体颜色的颜色；

根据所述位置，在文字层上叠加显示颜色层。

可选的，所述第一显示属性包括：第一字体和第一字号；

所述第二显示属性包括：第二字体和第二字号；

通过与所述第一转写文本片段对应的DOM节点，以第一字体和第一字号显示所述第一转写文本片段；

通过与所述第二转写文本片段对应的DOM节点，以第二字体和第二字号显示所述第二转写文本片段。可选的，还包括：

以动画方式，显示文本编辑进度。

可选的，还包括：

确定已编辑完的第三转写文本片段；

通过与所述第三转写文本片段对应的DOM节点，显示所述第三转写文本片段；

根据编辑位置信息、编辑内容信息、和与所述第三转写文本片段以外的可编辑文本片段对应的词元素数据，更新所述词元素数据。

可选的，以第三显示属性显示已编辑完的第三转写文本片段。

可选的，还包括：

向服务端发送针对多媒体数据的语音转写请求，以使得服务端对多媒体数据执行语音转写处理。

本申请还提供一种语音转写文本编辑装置，包括：

语音转写单元，用于对多媒体数据执行语音转写处理；

词元素发送单元，用于向客户端发送语音转写文本的词元素数据，以便于客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并播放多媒体数据；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本，并以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；

词元素更新单元，用于存储客户端发送的文本更新请求携带的更新的词元素数据。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写文本编辑方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：对多媒体数据执行语音转写处理；向客户端发送语音转写文本，以便于客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；存储客户端发送的文本更新请求携带的更新的词元素数据。

本申请还提供一种支持语音转写文本在线编辑的网页文本编辑器，包括：

显示单元，用于通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；

编辑单元，用于针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；

渲染单元，用于根据更新的词元素数据，渲染编辑后的转写文本。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写文本编辑方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

本申请还提供一种浏览器，嵌入上述网页文本编辑器。

本申请还提供一种网页，包括：上述网页文本编辑器。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音转写文本编辑系统，通过对多媒体数据执行语音转写处理，向客户端发送语音转写文本的词元素数据；根据客户端发送的文本更新请求，存储更新后的词元素数据；客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；这种处理方式，使得采用文本节点展示语音转写文本，避免词与DOM元素间的一对一关系，词维度突出渲染不依赖DOM元素，避免了大量DOM创建、操作、删除时的性能损耗,这样既满足在播放较大时长的语音时，可同步突出显示与当前播放内容对应的文案的需求，又能够保证长文本在线编辑的性能，长文本输入、删除依然可以迅速响应，频繁更新播放时间的同时编辑文本，也不会有卡顿、假死的情况出现；因此，可以有效提升长语音转写文本的在线编辑性能。此外，这种处理方式还使得代理系统默认输入，文本编辑修改对应词元素的数据结构，因此不会造成数据丢失问题。再者，由于词元素数据保持最新状态，保存数据可直接获取内容，避免长文本大循环造成JS阻塞，响应慢的问题。

附图说明

图1本申请提供的一种语音转写文本编辑系统的实施例的结构示意图；

图2本申请提供的一种语音转写文本编辑系统的实施例的应用场景示意图；

图3本申请提供的一种语音转写文本编辑系统的实施例的语音文本编辑页面示意图；

图4本申请提供的一种语音转写文本编辑系统的实施例的设备交互示意图；

图5本申请提供的一种语音转写文本编辑系统的实施例的颜色叠加效果图；

图6本申请提供的一种语音转写文本编辑系统的实施例的渲染层级示意图；

图7本申请提供的一种语音转写文本编辑系统的实施例的渲染效果示意图；

图8本申请提供的一种语音转写文本编辑系统的实施例的编辑操作处理流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音转写文本编辑系统、方法和装置，网页文本编辑器，网页，浏览器，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音转写文本编辑系统的实施例的结构图。该系统包括：服务端1，客户端2。

所述服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现语音转写处理及转写文本处理的服务器，可部署在数据中心。服务器，可以是集群服务器，也可以是单台服务器。

所述客户端2，包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

请参考图2，其为本申请的语音转写文本编辑系统的场景示意图。服务端和客户端间可通过网络连接，如客户端可通过WIFI等方式联网，等等。如图3所示，用户通过客户端上装载的浏览器(如IE浏览器等)播放多媒体数据，客户端通过浏览器在语音播放的同时，可通过浏览器内嵌的网页文本编辑器(如富文本编辑器)显示由服务端提供的该多媒体数据的转写文本，并同步突出显示(如高亮显示)与当前播放内容对应的文案，这样可以更好的关联转写文字内容与音频播放时间关系，辅助用户聚焦当前播放内容，以便于用户对照当前播放内容检查对应的转写文字是否有问题。当用户发现转写文字有问题时，可通过网页文本编辑器对该文字进行在线编辑。

请参考图4，其为本申请的语音转写文本编辑系统的实施例的设备交互示意图。在本实施例中，服务端用于对多媒体数据执行语音转写处理，向客户端发送语音转写文本的词元素数据；根据客户端发送的文本更新请求，存储更新后的词元素数据；客户端用于通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

所述多媒体数据，可含有能辨识说话内容的语音数据。所述多媒体数据，可以是音频数据，如英文演讲音频；也可以是视频数据，如影视剧作品。所述多媒体数据

在本实施例中，用户将其多媒体文件上传至服务端，服务端对该多媒体数据执行语音转写处理。当用户要对转写文本进行编辑时，可通过客户端播放该多媒体数据，并接收服务端发送的语音转写文本编辑页面，用户可一边听语音，一边通过该页面上的文本编辑器边对转写文本进行编辑，然后将编辑后的语音转写文本提交至服务端，服务端可更新该多媒体数据对应的语音转写文本。

语音识别(语音转写)是将语音转化为文字的技术。语音识别算法的输入数据可以是语音音频，算法输出识别结果，识别结果通常为字符串或者带有其他额外信息(如：时间戳)的数据结构。具体实施时，可采用各种现有的语音识别算法，由于该算法属于较为成熟的现有技术，因此此处不再赘述。

在本实施例中，语音转写处理的结果为词元素数据，一个多媒体数据的语音转写文本包括多个词元素。一个词元素可包括：词内容信息和时间信息。所述时间信息可包括：起始时间，结束时间。表1示出了本实施例的语音转写文本的词元素数据。

表1、语音转写文本的词元素数据

由表1可见，语音转写文本数据不仅包括文本本身，还可包括各个转写词对应的音频片段的起始时间和结束时间。

在本实施例中，服务端向客户端发送语音转写文本编辑网页，所述网页可包括网页文本编辑器(Web编辑器)，还可包括语音转写文本的词元素数据。

所述Web编辑器指基于Web实现在浏览器上运行，可输入内容的文本编辑器。所述Web编辑器，可以是富文本编辑器(Rich Text Editor，RTE)，如CKEditor；也可以是form表单的input输入框等等。所述富文本Web编辑器，在通常Web编辑器的基础上，能够针对内容中的某一部分支持指定样式(如：文字加粗、前景色、背景色)或插入富媒体内容(如：图片、音频、视频)的编辑器。

与现有技术不同之处在于，本申请实施例提供的所述客户端为了在满足随时定位到播放位置并且突出显示的需求的前提下，提升编辑性能，并没有将转写文本中的每个词都使用一个独立的DOM元素包裹，而是通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中。也就是说，编辑页面中的文本DOM节点不仅包裹一个词，而是要包裹一段文本，甚至是整个文本。采用这种处理方式，使得编辑页面的DOM节点个数与词数量无关，这样编辑操作就几乎不会涉及修改DOM，也就不存在修改DOM时触发大量重排的问题，即使是全选删除等操作，也可以拥有正常编辑体验，不会造成浏览器假死无响应等问题。

为保证长文本编辑拥有良好性能体验，防止大量DOM渲染带来的性能损耗，词渲染需要抛弃一对一DOM的方案，使用文本节点(TextNode)来展示文本内容。所述客户端，可具体用于根据所述词元素数据，拼接得到所述转写文本；通过所述DOM节点包裹所述转写文本。带时间信息的转写文本词维度的数据格式(词元素数据)，至少包含基础时间信息与文本，如开始时间、结束时间、词内容。采用这种处理方式，使得不增加任意额外DOM结构来保存词元素的数据信息(如时间信息)，达到轻量化DOM树的目的，获得较好的渲染、更新性能。

具体实施时，可以是将其中词的文本拼接成长文本字符串组成句子、整篇转写内容，将长文本字符串作为包裹DOM元素的innerHTML赋值，以便生成TextNode节点。

在一个示例中，若所述转写文本的长度大于长度阈值，则将所述转写文本划分为多个长度小于所述长度阈值的文本片段，并通过与多个文本片段分别对应的多个DOM节点包裹所述转写文本。所述长度阈值，可以是TextNode的最大长度限制，如果转写文本过长，需要将其划分为几段，每段文本长度只要小于长度阈值即可满足浏览器要求。若所述转写文本的长度小于或者等于长度阈值，则可通过与所述转写文本对应的一个DOM节点包裹所述转写文本，也就是说，这个转写文本值对应一个DOM节点。

需要说明的是，现有技术中每个词需要使用一个独立的DOM元素包裹，这样每个DOM元素都会包括该词的播放时间信息；这种处理方式，一方面使得可利用DOM元素中的时间信息，正确更新与编辑操作对应的词元素；另一方面，可利用DOM元素中的时间信息，实现播放文本(第一转写文本片段)突出(如高亮)基于词维度展示。然而，采用本申请实施例提供的系统，所述文本维度的DOM节点不再包括词的播放时间信息，在缺少时间信息的情况下，如何对与当前播放内容对应的文案进行突出展示，如何更新与编辑操作对应的词元素，成为该方案的技术难点。下面对这两个技术难点的解决方式逐一进行说明。

首先，对如何更新与编辑操作对应的词元素进行说明。

本申请实施例提供的所述客户端，用于针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。采用这种处理方式，使得用数据驱动界面渲染，而非用词维度的DOM元素驱动界面渲染。其中，“数据”即为转写文本的词元素数据，以词维度为例，一个转写文本对应一个词数组，该数组包括多个词元素，每个词元素(数组元素)至少包含词内容、时间信息等。

在一个示例中，数据驱动渲染可采用如下方式实现：循环拼接所有词元素中的词内容，组成一个完整的长文本字符串(转写文本)，然后将文本作为innerHTML内容来创建TextNode，直接在界面显示。

所述编辑操作，包括但不限于：全选删除操作，词增加操作，词修改操作，词删除操作，回车换行操作，等等。

具体实施时，可禁用浏览器默认的编辑操作处理模块；并判断所述编辑操作是否为预设的编辑操作；若所述编辑操作为预设的编辑操作，则根据编辑位置信息和编辑内容信息，更新所述词元素数据。

所述编辑位置信息，可通过光标位置确定，如编辑器中第三行第五个字的位置。所述编辑内容信息，可以是文本变化信息，如将“他们”改成“她们”等等。

具体实施时，可以是增、删、改操作通过代理浏览器编辑默认的输入事件，使用Range获取光标操作位置来对应数据文本位置，通过事件获取对应操作类型来修改相应的数据。更新数据后再重新渲染界面，达到数据驱动渲染的目的。例如，编辑位置为第三行第五个字，根据文本起始位置至该编辑位置间的文本长度、和按时间顺序的各个词元素中词内容的长度进行计算，可确定该位置对应第52个词元素。

在一个示例中，编辑操作为全选删除操作，文本编辑器可将所有词元素作为目标词元素；删除所有词元素数据。采用这种处理方式，可以有效解决长文本时编辑响应慢，全选操作浏览器会直接假死，性能比较差的问题。

在一个示例中，编辑操作为词增加操作，文本编辑器可根据编辑位置信息和词元素数据，确定新增词元素的时间信息；根据编辑内容信息，确定新增词元素的内容信息。所述编辑操作还可以是：词修改操作；文本编辑器可根据编辑位置信息和词元素数据，确定目标词元素的时间信息；根据编辑内容信息，更新目标词元素的内容信息。采用这种处理方式，使得不会破坏原有DOM结构，因而易于还原回原数据结构。

至此，对更新与编辑操作对应的词元素的实现方式进行了说明，下面对如何对与当前播放内容对应的文案进行突出展示进行说明。

所述客户端，用于根据更新的词元素数据，渲染编辑后的转写文本，并以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段。

在一个示例中，所述第一显示属性包括：第一字体颜色；所述第二显示属性包括：第二字体颜色；所述以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段，可包括如下子步骤：1)在所述编辑器的文字层中，以第二字体颜色显示所述转写文本；2)确定与所述第一转写文本片段对应的显示区域的尺寸和位置；3)根据所述尺寸，确定第三颜色的颜色层的尺寸，第三颜色是与第一字体颜色混合后得到第二字体颜色的颜色；4)根据所述位置，在文字层上叠加显示颜色层。

本申请实施例提供的所述系统，由于避免在线编辑性能问题而放弃使用词维度的DOM结构，导致无法通过词维度的DOM节点来设置对应样式，以实现突出显示第一转写文本片段。为了在没有额外DOM节点的情况下达到突出显示第一转写文本片段的目的，可采用两层渲染的方式来满足该需求。

在本实施例中，下层为文本层(文字层)，主要展现文字与其默认状态。上层为颜色覆盖层，主要用来提供一个颜色块(第三颜色)叠加在文字层上，从而为文字着色，上层通过需要高亮文字的区域Range来获得top、left定位区域位置与大小。

根据颜色混合模式的叠加(Overlay)混合方式，以目标色(最终呈现的高亮文字颜色，如#007cd8)、基色(文字未高亮时的默认色，如#658196)为例。叠加模式可根据RGB通道分别计算，对于亮色进行滤色模式(Screen)操作，对于暗色进行正片叠底模式(Multiply)操作。

在本实施例中，下层文本层中的文字颜色#658196为暗色，文字背景白色#ffffff为亮色，为达到高亮文字#007cd8，文字背景#ffffff的效果，通过叠加模式公式(其中A为上层混合色，B为下层基色，C为目标色)：

B<＝128时，C＝A*B/255；

B>128时，C＝255-(255-A)*(255-B)

这样可以倒推出高亮文字需要的混合色为#007acf，颜色叠加效果如图5所示,渲染层级上下级关系如图6所示；混合后的呈现效果如图7所示，白色底色部分混合后消失，文字高亮部分为混合后的目标色。采用这种处理方式，可以在保证长文本编辑拥有高性能的同时，满足文本高亮与音频播放位置对应的需求，达到较长语音识别结果在线编辑拥有良好体验的目的。

在另一个示例中，所述第一显示属性包括：第一字体和第一字号；所述第二显示属性包括：第二字体和第二字号；所述客户端具体用于通过与所述第一转写文本片段对应的DOM节点，以第一字体和第一字号显示所述第一转写文本片段；通过与所述第二转写文本片段对应的DOM节点，以第二字体和第二字号显示所述第二转写文本片段。

具体实施时，至少通过两个DOM节点包裹语音转写文本，其一为包裹第一转写文本片段的DOM节点，可通过该DOM节点的属性设置第一字体和第一字号；另一个DOM节点为包裹第二转写文本片段的DOM节点，可通过该DOM节点的属性设置第二字体和第二字号。根据播放进度，可实时调整第一转写文本片段和第二转写文本片段，并相应的修改两个DOM节点各自包裹的文本内容。

采用这种处理方式，使得可以在保证长文本编辑拥有高性能的同时，满足文本突出(如字体突出，字号突出)与音频播放位置对应的需求，达到较长语音识别结果在线编辑拥有良好体验的目的。

在一个示例中，客户端还用于向服务端发送文本更新请求，所述请求包括更新的词元素数据，以使得服务端用更新的词元素数据覆盖原来的词元素数据。采用这种处理方式，使得保存文本时无需遍历DOM以获取最新数据结构，保存时间至少可以节约原来的长文本遍历等待时间。

图8示出了文本编辑器的处理流程。文本编辑器首先判断用户输入是否为有效输入，如是否为预设的编辑操作；若是有效输入，则要禁用浏览器默认操作，如禁用浏览器自身的处理全选删除操作的模块等；然后，可根据编辑位置信息和编辑内容信息，更新词元素数据，即修改词元素的数据结构；接下来，就可以根据更新的词元素数据，重新循环拼接所有更新后的词元素中的词内容，组成一个完整的编辑后的转写文本，根据该文本更新文本节点内容文本作为，并更新颜色覆盖层的位置；最后，触发历览器更新，也就是实现重新渲染，直接在界面中显示编辑后的转写文本。

在一个示例中，所述客户端还可用于以动画方式，显示文本编辑进度。例如，每当文本编辑进度增加20％，就显示相应的动画特效，以提示用户编辑进度情况。

在一个示例中，所述客户端还可用于确定已编辑完的第三转写文本片段；通过与所述第三转写文本片段对应的DOM节点，显示所述第三转写文本片段；根据编辑位置信息、编辑内容信息、和与所述第三转写文本片段以外的可编辑文本片段对应的词元素数据，更新所述词元素数据。

具体实施时，所述客户端可具体用于以第三显示属性显示已编辑完的第三转写文本片段。所述第三显示属性包括但不限于：第三字体，第三字号。

例如，正在编辑的多媒体数据的长度为1.5小时，则可将已编辑完的第三转写文本片段(如前半个小时的文本)存储至服务端，并通过一个DOM节点包裹该文本片段，可将该部分文本的字号变小，可设置该部分文本不可编辑，这样既减少该段文本所占用的显示控件，还可以减少可编辑的转写文本的长度，在可编辑的转写文本对应的词元素数据范围内进行数据更新处理，可以提升词元素查找、更新速度；因此，可以进一步提升编辑性能。

从上述实施例可见，本申请实施例提供的语音转写文本编辑系统，通过对多媒体数据执行语音转写处理，向客户端发送语音转写文本的词元素数据；根据客户端发送的文本更新请求，存储更新后的词元素数据；客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；这种处理方式，使得采用文本节点展示语音转写文本，避免词与DOM元素间的一对一关系，词维度突出渲染不依赖DOM元素，避免了大量DOM创建、操作、删除时的性能损耗,这样既满足在播放较大时长的语音时，可同步突出显示与当前播放内容对应的文案的需求，又能够保证长文本在线编辑的性能，长文本输入、删除依然可以迅速响应，频繁更新播放时间的同时编辑文本，也不会有卡顿、假死的情况出现；因此，可以有效提升长语音转写文本的在线编辑性能。此外，这种处理方式还使得代理系统默认输入，文本编辑修改对应词元素的数据结构，因此不会造成数据丢失问题。再者，由于词元素数据保持最新状态，保存数据可直接获取内容，避免长文本大循环造成JS阻塞，响应慢的问题。

第二实施例

与上述的语音转写文本编辑系统相对应，本申请还提供一种语音转写文本编辑方法，该方法的执行主体包括但不限于服务端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：对多媒体数据执行语音转写处理；

步骤2：向客户端发送语音转写文本的词元素数据，以便于客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；

步骤3：存储客户端发送的文本更新请求携带的更新的词元素数据。

第三实施例

在上述的实施例中，提供了一种语音转写文本编辑方法，与之相对应的，本申请还提供一种语音转写文本编辑装置。该装置是与上述方法的实施例相对应。

本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音转写文本编辑装置包括：

语音转写单元，用于对多媒体数据执行语音转写处理；

第四实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音转写文本编辑方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：对多媒体数据执行语音转写处理；向客户端发送语音转写文本，以便于客户端通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新词元素数据；根据更新的词元素数据，渲染编辑后的转写文本；存储客户端发送的文本更新请求携带的更新的词元素数据。

第五实施例

与上述的语音转写文本编辑系统相对应，本申请还提供一种语音转写文本编辑方法，该方法的执行主体包括但不限于客户端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述语音转写文本编辑方法包括如下步骤：

步骤1：通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；

步骤2：针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；

步骤3：根据更新的词元素数据，渲染编辑后的转写文本。

在一个示例中，所述方法还可包括如下步骤：向服务端发送文本更新请求，所述请求包括更新的词元素数据。

在一个示例中，所述通过文本维度的文档对象模型DOM节点包裹多媒体数据的转写文本，并将转写文本显示在网页文本编辑器中，可包括如下子步骤：根据所述词元素数据，拼接得到所述转写文本；通过所述DOM节点包裹所述转写文本；相应的，步骤3可包括如下子步骤：根据更新的词元素数据，拼接得到所述编辑后的转写文本；根据所述编辑后的转写文本，更新所述DOM节点的内容。

在一个示例中，所述方法还可包括如下步骤：若所述转写文本的长度大于长度阈值，则将所述转写文本划分为多个长度小于所述长度阈值的文本片段，并通过与多个文本片段分别对应的多个DOM节点包裹所述转写文本。

在一个示例中，所述方法还可包括如下步骤：若所述转写文本的长度小于或者等于长度阈值，则通过与所述转写文本对应的一个DOM节点包裹所述转写文本。

在一个示例中，步骤2可包括如下子步骤：根据编辑位置信息和词元素数据，确定目标词元素；根据编辑内容信息，更新目标词元素。

在一个示例中，所述编辑操作包括：全选删除操作；步骤2可包括如下子步骤：将所有词元素作为目标词元素；删除所有词元素数据。

在一个示例中，所述编辑操作包括：词增加操作；步骤2可包括如下子步骤：根据编辑位置信息，确定新增词元素的时间信息；根据编辑内容信息，确定新增词元素的内容信息。

在一个示例中，所述编辑操作包括：词修改操作；步骤2可包括如下子步骤：根据编辑位置信息和词元素数据，确定目标词元素的时间信息；根据编辑内容信息，更新目标词元素的内容信息。

在一个示例中，所述方法还可包括如下步骤：禁用浏览器默认的编辑操作处理模块；判断所述编辑操作是否为预设的编辑操作；若所述编辑操作为预设的编辑操作，则根据编辑位置信息和编辑内容信息，更新所述词元素数据。

所述词元素包括：词内容和时间信息。

在一个示例中，所述方法还可包括如下步骤：所述第一显示属性包括：第一字体颜色；所述第二显示属性包括：第二字体颜色；所述以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段，可包括如下步骤：在所述编辑器的文字层中，以第二字体颜色显示所述转写文本；确定与所述第一转写文本片段对应的显示区域的尺寸和位置；根据所述尺寸，确定第三颜色的颜色层的尺寸，第三颜色是与第一字体颜色混合后得到第二字体颜色的颜色；根据所述位置，在文字层上叠加显示颜色层。

在一个示例中，所述第一显示属性包括：第一字体和第一字号；所述第二显示属性包括：第二字体和第二字号；通过与所述第一转写文本片段对应的DOM节点，以第一字体和第一字号显示所述第一转写文本片段；通过与所述第二转写文本片段对应的DOM节点，以第二字体和第二字号显示所述第二转写文本片段。在一个示例中，所述方法还可包括如下步骤：以动画方式，显示文本编辑进度。

在一个示例中，所述方法还可包括如下步骤：确定已编辑完的第三转写文本片段；通过与所述第三转写文本片段对应的DOM节点，显示所述第三转写文本片段；根据编辑位置信息、编辑内容信息、和与所述第三转写文本片段以外的可编辑文本片段对应的词元素数据，更新所述词元素数据。

在一个示例中，以第三显示属性显示已编辑完的第三转写文本片段。

在一个示例中，所述方法还可包括如下步骤：向服务端发送针对多媒体数据的语音转写请求，以使得服务端对多媒体数据执行语音转写处理。

第六实施例

在上述的实施例中，提供了一种语音转写文本编辑方法，与之相对应的，本申请还提供一种语音转写文本编辑装置，又可称为支持语音转写文本在线编辑的网页文本编辑器。该装置是与上述方法的实施例相对应。

第七实施例

本申请还提供一种电子设备实施例。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音转写文本编辑方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

第八实施例

在上述的实施例中，提供了一种语音转写文本编辑系统，与之相对应的，本申请还提供一种浏览器。该装置是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本实施例的一种浏览器，该浏览器嵌入支持语音转写文本在线编辑的网页文本编辑器。所述网页文本编辑器采用如下方式支持语音转写文本在线编辑：通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

第九实施例

在上述的实施例中，提供了一种语音转写文本编辑方法，与之相对应的，本申请还提供一种网页。该网页是与上述方法的实施例相对应。本实施例与第五实施例内容相同的部分不再赘述，请参见实施例八中的相应部分。

本实施例的一种网页，该网页包括支持语音转写文本在线编辑的网页文本编辑器。所述网页文本编辑器采用如下方式支持语音转写文本在线编辑：通过文本维度的文档对象模型DOM节点，包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，并在播放多媒体数据时，以第一显示属性显示与播放进度对应的第一转写文本片段,以第二显示属性显示未播放的第二转写文本片段；针对编辑操作，根据编辑位置信息和编辑内容信息，更新所述词元素数据；根据更新的词元素数据，渲染编辑后的转写文本。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音转写文本编辑系统，其特征在于，包括：

2.一种语音转写文本编辑方法，其特征在于，包括：

对多媒体数据执行语音转写处理；

存储客户端发送的文本更新请求携带的更新的词元素数据。

3.一种语音转写文本编辑方法，其特征在于，包括：

根据更新的词元素数据，渲染编辑后的转写文本。

4.根据权利要求3所述的方法，其特征在于，

所述通过文本维度的文档对象模型DOM节点包裹多媒体数据的转写文本，将转写文本显示在网页文本编辑器中，包括：

根据所述词元素数据，拼接得到所述转写文本；

通过所述DOM节点包裹所述转写文本；

根据更新的词元素数据，拼接得到所述编辑后的转写文本；

根据所述编辑后的转写文本，更新所述DOM节点的内容。

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求3所述的方法，其特征在于，还包括：

7.根据权利要求3所述的方法，其特征在于，所述根据编辑位置信息和编辑内容信息，更新词元素数据，包括：

根据编辑位置信息和词元素数据，确定目标词元素；

根据编辑内容信息，更新目标词元素。

8.根据权利要求3所述的方法，其特征在于，

所述编辑操作包括：全选删除操作；

所述根据编辑位置信息和编辑内容信息，更新所述词元素数据，包括：

将所有词元素作为目标词元素；

删除所有词元素数据。

9.根据权利要求3所述的方法，其特征在于，

所述编辑操作包括：词增加操作；

根据编辑位置信息，确定新增词元素的时间信息；

根据编辑内容信息，确定新增词元素的内容信息。

10.根据权利要求3所述的方法，其特征在于，

所述编辑操作包括：词修改操作；

根据编辑内容信息，更新目标词元素的内容信息。

11.根据权利要求3所述的方法，其特征在于，还包括：

禁用浏览器默认的编辑操作处理模块；

判断所述编辑操作是否为预设的编辑操作；

12.根据权利要求3所述的方法，其特征在于，

所述词元素包括：词内容和时间信息。

13.根据权利要求3所述的方法，其特征在于，

所述第一显示属性包括：第一字体颜色；

所述第二显示属性包括：第二字体颜色；

根据所述位置，在文字层上叠加显示颜色层。

14.根据权利要求3或13所述的方法，其特征在于，

所述第一显示属性包括：第一字体和第一字号；

所述第二显示属性包括：第二字体和第二字号；

通过与所述第二转写文本片段对应的DOM节点，以第二字体和第二字号显示所述第二转写文本片段。

15.根据权利要求3所述的方法，其特征在于，还包括：

以动画方式，显示文本编辑进度。

16.根据权利要求3所述的方法，其特征在于，还包括：

确定已编辑完的第三转写文本片段；

17.根据权利要求16所述的方法，其特征在于，

以第三显示属性显示已编辑完的第三转写文本片段。

18.根据权利要求3所述的方法，其特征在于，还包括：

19.根据权利要求3所述的方法，其特征在于，还包括：

20.一种语音转写文本编辑装置，其特征在于，包括：

语音转写单元，用于对多媒体数据执行语音转写处理；

21.一种电子设备，其特征在于，包括：

处理器；以及

22.一种支持语音转写文本在线编辑的网页文本编辑器，其特征在于，包括：

23.一种电子设备，其特征在于，包括：

处理器；以及

24.一种浏览器，其特征在于，嵌入权利要求22所述的网页文本编辑器。

25.一种网页，其特征在于，包括：

根据权利要求22所述的网页文本编辑器。