CN114386406B

CN114386406B - 一种文本处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114386406B
Application number: CN202011115346.8A
Authority: CN
Inventors: 陈郑敏; 房上
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2024-04-09
Anticipated expiration: 2040-10-16
Also published as: CN114386406A

Abstract

本申请实施例提出一种文本处理方法、装置、计算机设备以及存储介质，该方法是：获取第一文本以及第一文本中的任一第一字符的时间戳信息；获取用户针对第一文本调整后的第二文本；确定第一文本和第二文本之间的编辑距离矩阵，编辑距离矩阵包括多个编辑距离；从编辑距离矩阵中获取从编辑距离矩阵的末尾位置至编辑距离矩阵的起始位置的最短编辑路径；根据最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。通过本申请，提高了确定文本中每个字符的时间戳信息的效率和准确性。

Description

一种文本处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种文本处理方法、装置、计算机设备及存储介质。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)技术是一种将人的语音转换为文本的技术，常常应用于音频识别处理和文本处理领域，举例来说，对音频或者视频进行自动语音识别处理后，可以生成相应的文本，进一步地，用户可以基于生成的文本进行文本编辑等操作。

为了生成语音字幕，还需要确定文本中每个字符的时间戳，现有的方式需要人工将文本中的每个字符对应到时间轴上，操作过程较为繁琐，导致操作效率低下，并且因为用户的主观延迟等因素导致当人工将文本中的每个字符对应到时间轴时，字符与时间戳之间的对应关系不准确。

发明内容

本申请实施例提出了一种文本处理方法、装置、计算机设备以及存储介质，提高了确定文本中每个字符的时间戳信息的效率和准确性。

本申请实施例一方面提供了一种文本处理方法，包括：

获取第一文本以及所述第一文本中的任一第一字符的时间戳信息；

获取用户针对所述第一文本调整后的第二文本，所述第二文本包括多个第二字符；

确定所述第一文本和所述第二文本之间的编辑距离矩阵，所述编辑距离矩阵包括多个编辑距离，所述多个编辑距离表示从所述第一文本的单位字符串转换为所述第二文本的单位字符串所需的编辑次数；

从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径；

根据所述最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。

本申请实施例一方面提供了一种文本处理装置，包括：

获取单元，用于获取第一文本以及所述第一文本中的任一第一字符的时间戳信息；

获取单元，还用于获取用户针对所述第一文本调整后的第二文本，所述第二文本包括多个第二字符；

确定单元，用于确定所述第一文本和所述第二文本之间的编辑距离矩阵，所述编辑距离矩阵包括多个编辑距离，所述多个编辑距离表示从所述第一文本的单位字符串转换为所述第二文本的单位字符串所需的编辑次数；

获取单元，还用于从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径；

处理单元，用于根据所述最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

通过本申请实施例的文本处理方法，通过对第一本文进行调整得到第二文本，并确定第一文本以及第二文本之间的编辑距离矩阵，通过编辑距离矩阵找到了最短编辑路径，进而可以确定第二文本中的每个第二字符的时间确定策略，根据时间确定策略和第一文本中任一第一字符的时间戳信息，最终确定每个第二字符的时间戳信息。相比于人工听取音频确定文本中的每个字符的时间戳信息，本申请是由计算机设备自动完成，因此处理效率比人工处理效率要高，并且可以避免人工的主观延迟等因素，提高了文本中每个字符的时间戳信息的准确性。并且，由于本申请是通过寻找到最短编辑路径之后就可以确定每个第二字符的时间确定策略，时间确定策略是根据每个第二字符在最短编辑路径中的唯一位置确定的，并按照每个第二字符的时间确定策略以及第一文本中的任一第一字符的时间戳信息，使得确定的每个第二字符的时间戳信息较为准确。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本处理系统的架构示意图；

图2a-图2f是本申请实施例提供的一种文本处理的场景示意图；

图3是本申请实施例提供的一种文本处理方法的流程示意图；

图4a-图4b是本申请实施例提供的一种文本处理的界面示意图；

图5a是本申请实施例提供的一种文本编辑的操作示意图；

图5b是本申请实施例提供的一种文本对齐的流程示意图；

图5c是本申请实施例提供的一种第二文本的文本示意图；

图6是本申请实施例提供的一种编辑距离矩阵的示意图；

图7是本申请实施例提供的一种确定时间戳信息的流程示意图；

图8是本申请实施例提供的一种自动语音识别处理的流程示意图；

图9是本申请实施例提供的一种文本处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的语音识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在本申请中，计算机设备可以采用自动语音识别技术对待处理音频进行自动语音识别处理，可以得到该待处理音频对应的第一文本以及第一文本中的任一第一字符的时间戳信息。

本申请可以应用于如下场景：当通过自动语音识别技术对待处理音频进行音频识别得到文本以及文本中每个字符的时间信息后，支持断句编辑模式，用户开启断句编辑模式后可以无视时间的起止，自由修正文本，用户对文本修正完成后，可以通过本申请的文本处理方法重新生成修正后的文本中的每一个字符对应的精确的开始时间戳和结束时间戳，后续，还可以根据修正后的文本中的每一个字符的时间信息确定用户断句后每个语句的开始时间戳和结束时间戳。

请参见图1，是本申请实施例提供的一种文本处理的系统架构图。该文本处理的系统架构图包括：服务器140以及计算机设备集群，其中，计算机设备集群可以包括：计算机设备110、计算机设备120、...、计算机设备130等。计算机设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图1所示的服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的计算机设备110、计算机设备120、计算机设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、车辆、路边设备、飞行器、可穿戴设备，例如智能手表、智能手环、计步器等，等具有文本处理功能的智能设备。

以计算机设备110为例，计算机设备110获取第一文本，并将第一文本发送至服务器140。并且，计算机设备110获取用户针对第一文本调整后的第二文本，其中，第二文本包括多个第二字符，计算机设备110将第二文本发送至服务器140。服务器140确定第一文本和第二文本之间的编辑距离矩阵；服务器140从编辑距离矩阵中获取从编辑距离矩阵的末尾位置至编辑距离矩阵的起始位置的最短编辑路径；服务器140根据最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。

服务器140可以将每个第二字符的时间戳信息发送至计算机设备110，计算机设备可以输出每个第二字符的时间戳信息。

在一种可能的实现方式中，计算机设备110响应用户针对第二文本进行的断句操作，将第二文本划分为多个文本段落；计算机设备110可以根据每个第二字符的时间戳信息确定每个文本段落的时间戳信息，任一文本段落的时间戳信息均包括起始时间戳和结束时间戳；计算机设备110将每个文本段落以及每个文本段落的时间戳信息组合为段落时间项；最后，计算机设备110展示多个段落时间项。

当然，确定第一文本和第二文本之间的编辑距离矩阵；从编辑距离矩阵中获取从编辑距离矩阵的末尾位置至编辑距离矩阵的起始位置的最短编辑路径；根据最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。也可以由计算机设备集群中任意计算机设备来执行。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图2a-图2f，图2a-图2f是本申请实施例提供的一种文本处理的场景示意图。如图2a所示，图2a为本申请实施例提供的一种计算机设备界面示意图，用户将待处理视频或者待处理音频上传至计算机设备，计算机设备内置有语音识别系统，计算机设备通过语音识别系统，可以将用户上传的待处理视频或者待处理音频进行自动语音识别处理，于是可以生成待处理音频或者待处理视频对应的文本信息(即第一文本)。

在一种可能的实现方式中，计算机设备可以通过语音识别系统生成第一文本中的每个第一字符的时间戳信息以及通过语音识别系统将第一文本划分为多个文本段落，时间戳信息包括开始时间戳以及结束时间戳。图2a所示的计算机设备的界面中展示内容包括将第一文本进行划分后的多个文本段落，计算机设备的界面中还显示有每个文本段落对应的开始时间戳以及结束时间戳。具体可以为，文本段落1是：“各位同行大家好我是刘颖老师新的学期又开始啦”，文本段落1对应的开始时间戳是“00：00：04.290”，文本段落1对应的结束时间戳是“00：00：09.149”；文本段落2是：“还是由刘老师带着大家来学习2年级的部编版教材”，文本段落2对应的开始时间戳是“00：00：09.210”，文本段落2对应的结束时间戳是“00：00：13.919”；文本段落3是：“我们今天拿到这本书之后翻看翻看明显发现难度有增加”，文本段落3对应的开始时间戳是“00：00：14.160”，文本段落3对应的结束时间戳是“00：00：19.049”，以此类推......，第一文本被语音识别系统划分为7个文本段落，每个文本段落对应的开始时间戳以及结束时间戳均由语音识别系统生成，每个文本段落的开始时间戳是文本段落中第一个字符的开始时间戳，每个文本段落的结束时间戳是文本段落中最后一个字符的结束时间戳。

如图2b所示，本申请提供的计算机设备中的界面中还可以包括供用户进行文本编辑的“文本编辑模式”按钮。用户触发“文本编辑模式”按钮之后，计算机设备开启“文本编辑模式”，用户可以针对第一文本进行调整操作，调整操作具体可以为修改、替换、删除以及断句等操作。如图2b所示，用户针对第一文本进行了修改处理以及断句处理，得到了第二文本。其中，修改处理具体为将第一文本中的“行”修改为“学”，将第一文本中的“部编版”修改为“新版”，将第一文本中的“落”修改为“咯”；其中，断句处理具体为将第一文本中的文本段落1“各位同学们大家好我是刘颖老师新的学期又开始啦”进行断句处理后，得到了三个文本段落，分别为“各位同学们大家好”、“我是刘颖老师”以及“新的学期又开始啦”，将文本段落3“我们今天拿到这本书之后翻看翻看明显发现难度有增加”进行断句处理后，得到了两个文本段落，分别为“我们今天拿到这本书之后”以及“翻看翻看明显发现难度有增加”，以此类推......，用户针对第一文本进行文本编辑后，得到了第二文本。

在一种可能的实现方式中，计算机设备通过莱文斯坦距离公式确定第一文本和第二文本之间的编辑距离矩阵。如图2c所示，计算机设备确定第一文本和第二文本之间的编辑距离矩阵具体方法可以为，计算机设备将第一文本划分为多个第一单位字符串，以及计算机设备将第二文本划分为多个第二单位字符串，其中，任意第一单位字符串之间存在重叠字符，任意第二单位字符串之间存在重叠字符，其中，任意第一单位字符串之间的重叠字符包括第一文本的起始字符，任意第二单位字符串之间的重叠字符包括第二文本的起始字符。并且，第一单位字符串或者第二单位字符串中所包含的字符的数量可以为一个或者多个。具体来说，第一单位字符串可以为“各”、“各位”、“各位同”、“各位同行”等，第二单位字符串可以为“各”、“各位”、“各位同”、“各位同学”等。然后，计算机设备通过莱文斯坦距离公式获取由任一第一单位字符串转换为任一第二单位字符串的编辑次数；计算机设备将获取到的编辑次数组合为编辑距离矩阵。

在一种可能的实现方式中，请参见图2d，计算机设备从编辑距离矩阵中获取最短编辑路径，具体的，计算机设备根据编辑距离矩阵获取最短编辑路径的方式可以为从编辑距离矩阵的末尾位置至编辑距离矩阵的起始位置进行获取，其中，末尾位置为编辑距离矩阵中右下角处对应的位置，起始位置为编辑距离矩阵中左上角处对应的位置；然后，计算机设备根据最短编辑路径，在第二文本中确定每个第二字符的时间确定策略；最后，计算机设备按照每个第二字符的时间确定策略以及第一文本中的第一字符的时间戳信息，确定每个第二字符的时间戳信息。其中，时间戳信息1、时间戳信息2、时间戳信息3以及时间戳信息4是指第一文本中相应的第一字符对应的时间戳信息，具体的，时间戳信息1是指第一文本中“各”对应的时间戳信息、时间戳信息2是指第一文本中“位”对应的时间戳信息、时间戳信息3是指第一文本中“同”对应的时间戳信息、时间戳信息4是指第一文本中“行”对应的时间戳信息。目标时间戳信息1、目标时间戳信息2、目标时间戳信息3以及目标时间戳信息4是指第二文本中相应的第二字符对应的时间戳信息，具体的，目标时间戳信息1是指第一文本中“各”对应的时间戳信息、目标时间戳信息2是指第一文本中“位”对应的时间戳信息、目标时间戳信息3是指第一文本中“同”对应的时间戳信息、目标时间戳信息4是指第一文本中“学”对应的时间戳信息。

从前述可知，第二文本已经被用户划分为了多个文本段落，确定了第二文本中每个第二字符的时间戳信息，计算机设备根据每个第二字符的时间戳信息，可以确定每个文本段落的时间戳信息，任一文本段落的时间戳信息均包括起始时间戳和结束时间戳；并且，在计算机设备的界面中将每个文本段落以及每个文本段落的时间戳信息组合为段落时间项进行展示。请参见图2e，第二文本中的文本段落1是“新的学期又开始啦”，文本段落1对应的开始时间戳是“00：00：07.405”，文本段落1对应的结束时间戳是“00：00：09.149”；第二文本中的文本段落2是“还是由刘老师带着大家来学习2年级的新版教材”，文本段落2对应的开始时间戳是“00：00：09.210”，文本段落4对应的结束时间戳是“00：00：13.919”；第二文本中的文本段落3是“我们今天拿到这本书之后”，文本段落3对应的开始时间戳是“00：00：14.160”，文本段落3对应的结束时间戳是“00：00：16.178”，以此类推......，图2f所示的计算机设备的界面示意图中可以展示用户进行文本处理后的第二文本所包含的多个文本段落以及每个文本段落对应的时间戳信息，其中，时间戳信息包括开始时间戳以及结束时间戳。进一步地，若用户在计算机设备所展示的界面中点击第二文本中的任意第二字符，则计算机设备可以显示该字符对应的时间戳信息，如图2f所示，假设用户点击第二文本中的文本段落1中的字符“始”，则计算机设备的显示界面中展示字符“始”对应的时间戳信息为，开始时间戳“00：00：07.405”以及结束时间戳“00：00：07.938”。

通过本申请，针对用户上传的待处理音频生成对应的第一文本，用户可以无视时间的起止针对第一文本进行文本编辑，然后生成第二文本，计算机设备通过本申请提供的文本处理方法，最终可以生成第二文本的每个字符的时间戳信息以及第二文本所包含的多个文本段落对应的时间戳信息。相对于现有的人工听取带出来音频进行文本处理方式而言，提高了文本处理的效率，从而提高用户的体验感，以及提高了文本中每个字符的时间戳信息的准确性。

请参见图3，图3是本申请实施例提供的一种文本处理方法的流程示意图。该方法应用于计算机设备，如图3所示，该数据处理方法可包括步骤S310～S350。其中：

步骤S310：获取第一文本以及所述第一文本中的任一第一字符的时间戳信息。

在一种可能的实现方式中，首先，计算机设备获取用户上传的待处理音频。其中，待处理音频可以是一段纯音频片段，也可以是一段包含音频片段的视频片段，只要待处理音频包含音频片段即可，本申请对此不作限定。需要说明的是，音频片段为时域信号。然后，计算机设备对待处理音频进行自动语音识别处理，得到待处理音频的音频识别结果，其中，音频识别结果包括第一文本以及第一文本中的任一第一字符的时间戳信息。需要说明的是，时间戳信息可以包括开始时间戳以及结束时间戳。

需要说明的是，第一文本包括多个第一字符，若第一文本中包括数字和英文单词，将完整的数字和完整的英文单词作为一个第一字符。例如，第一文本为：“618购物节”，该第一文本文本包括4个第一字符，分别为：“618”、“购”、“物”和“节”。又例如，第一文本为：“说一声hello”，该第一文本也包括4个第一字符，分别为：“说”、“一”、“声”和“hello”。

举例来说，第一文本假设为“各位同学大家好我是李永亮老今天呢是2018年三月14好大家知道3月14好是什么日子吗”。语音识别结果中的每个第一字符可以采用如下数据结构表示：

例如，第一字符“各”对应的数据结构可以为：

{

“word”：各；

“StartTime”：00：00：2.173；

“EndTime”：00：00：2.410。

}

又如，第一字符“位”对应的数据结构可以为：

{

“word”：位；

“StartTime”：00：00：2.613；

“EndTime”：00：00：2.946。

}

其中，“word”表示第一字符；“StartTime”表示开始时间戳；“EndTime”表示结束时间戳。

步骤S320：获取用户针对所述第一文本调整后的第二文本，所述第二文本包括多个第二字符。

在一种可能的实现方式中，请参见图4a-图4b，图4a-图4b是本申请实施例提供的一种文本处理的界面示意图，图4a所显示的界面是即时通信应用程序的主界面，该主界面包括“文本编辑”选项。计算机设备对待处理音频进行自动语音识别处理，得到第一文本之后，用户可以点击“文本编辑模式”选项，此时界面上会将所有的时间全部抹去，只保留每行一句文字的文本信息，当用户点击“文本编辑模式”按钮之后，用户可以针对第一文本进行调整操作。其中，调整操作包括但不限于修改、替换、删除以及断句等操作。

举例来说，假设第一文本为“各位同学大家好我是李永亮老今天呢是2018年三月14好大家知道3月14好是什么日子吗”。如图4b所示，用户针对第一文本进行调整后得到的第二文本为“各位同学大家好我是李永乐老师今天是2018年3月14号大家知道3月14号是什么日子吗”，因此，得到的第二文本包含多个第二字符。

在一种可能的实现方式中，用户针对第一文本进行文本编辑得到第二文本的操作流程具体可请参见图5a，图5a是本申请实施例提供的一种文本编辑的操作示意图。如图5a所示，用户将第一文本进行文本编辑，文本编辑可以包括替换、插入以及删除等操作。具体地，用户将第一文本中的字符“亮”替换为字符“乐”；用户在第一文本中的字符“老”以及字符“今”之间插入字符“师”；用户删除第一文本中的字符“呢”，以此类推，用户将第一文本中的字符“三”替换为“3”，以及将第一文本中的字符“好”替换为“号”。于是，针对第一文本，用户进行文本编辑之后，得到了如图5a所示的第二文本。

在一种可能的实现方式中，请参见图5b，图5b是本申请实施例提供的一种文本对齐的流程示意图。在用户针对第一文本进行文本编辑得到第二文本之后，将第一文本与第二文本进行文本对齐，需要说明的是，第一文本中的每个第一字符都有时间戳信息；若文本对齐后的第二文本中的第二字符与第一文本中的第一字符相同，则将第一字符的时间戳信息复制给第二字符，例如字符“位”以及字符“是”；若文本对齐后的第二文中的第二字符与第一文本中的第一字符不相同，则将替换字符的时间戳信息作为被替换字符的时间戳信息，例如第二文本中第二字符“乐”的时间戳信息使用第一文本中第一字符“亮”的时间戳信息；若文本对齐后的第二文中的第二字符是插入字符，则插入的第二字符使用与第二字符对应的第一字符以及与第一字符前向相邻的时间戳信息之间的线性差值，例如第二文本中的第二字符“师”；若第一文本中的第一字符被删除，则计算机设备直接丢弃该第一字符的时间戳信息，例如第一文本中的第一字符“呢”。

在一种可能的实现方式中，请参见图5c，图5c是本申请实施例提供的一种第二文本的文本示意图。经过上述操作后，第二文本中的每个第二字符均包含时间戳信息，并且，针对第二文本中的每个文本段落，文本段落的开始时间戳是文本段落中第一个字符的开始时间戳，每个文本段落的结束时间戳是文本段落中最后一个字符的结束时间戳，例如，如图5c所示中的文本段落“各位同学大家好”中的文本段落的开始时间戳是字符“各”的开始时间戳，文本段落的结束时间戳是字符“好”的结束时间戳。

步骤S330：确定所述第一文本和所述第二文本之间的编辑距离矩阵，所述编辑距离矩阵包括多个编辑距离，所述多个编辑距离表示从所述第一文本的单位字符串转换为所述第二文本的单位字符串所需的编辑次数。

在一种可能的实现方式中，计算机设备将第一文本划分为多个第一单位字符串，任意第一单位字符串之间存在重叠字符，任意第一单位字符串之间的重叠字符包括第一文本的起始字符；计算机设备将第二文本划分为多个第二单位字符串，任意第二单位字符串之间存在重叠字符，任意第二单位字符串之间的重叠字符包括所述第二文本的起始字符；计算机设备获取由任一第一单位字符串转换为任一第二单位字符串的编辑次数；计算机设备将获取到的编辑次数组合为编辑距离矩阵。

在一种可能的实现方式中，计算机设备通过莱文斯坦距离公式确定第一文本和第二文本之间的编辑距离矩阵。其中，莱文斯坦距离公式具体为下：

其中，a代表第二单位字符串，b代表第一单位字符串，i为第二单位字符串的下标，j为第一单位字符串的下标，lev为莱文斯坦距离。

举例来说，以第一文本为“各位同行大家好啊”，第二文本为“各位同学大家好”为例进行具体说明。lev(0，0)＝0，lev(1，0)＝1，lev(0，1)＝1，lev(1，1)＝0，lev(2，1)＝1。分析上述莱文斯坦距离公式可以知道，莱文斯坦距离的实质是基于上一个状态的莱文斯坦距离，推出下一个的莱文斯坦距离，具体为针对第i行第j列的莱文斯坦距离是由第i-1行第j-1列的莱文斯坦距离得到的，以此类推。迭代上述莱文斯坦距离公式，可以得到第一文本与第二文本之间的编辑距离矩阵。具体地，上述第一文本“各位同行大家好啊”和第二文本“各位同学大家好”之间的编辑距离矩阵请参见图6，图6为本申请实施例提供的一种编辑距离矩阵的示意图。

由编辑距离矩阵可知，“操作次数越少”则表示“保留字符的时间戳信息越多”，编辑距离矩阵中的数字代表操作次数，其中，增加、删除、修改都算1次操作。例如，编辑距离矩阵中的第5行第6列的“2”表示：从“各位同行大”到“各位同学”需要2次操作，具体操作分别为替换第一字符“行”、删除第一字符“大”。

步骤S340：从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径。

具体实现时，末尾位置为编辑距离矩阵中的右下角位置处，起始位置为编辑距离矩阵中的左上角位置处。

在一种可能的实现方式中，计算机设备在编辑距离矩阵中获取与末尾位置相邻的多个相邻位置；计算机设备从多个相邻位置对应的多个编辑距离中，选择最小编辑距离对应的目标相邻位置。需要说明的是，多个相邻位置包括左方相邻、左上角相邻以及上方相邻。

举例来说，如图6所示的编辑距离矩阵，计算机设备从编辑距离矩阵中获取到的编辑距离矩阵的末尾位置处对应的矩阵元素为“2”，则计算机设备获取与末尾位置相邻的三个相邻位置，分别为左方相邻位置、左上角相邻位置以及上方相邻位置，并且计算机设备获取三个相邻位置分别对应的三个编辑距离，具体地，左方相邻位置对应的编辑距离为“1”，左上角相邻位置对应的编辑距离为“2”，上方相邻位置对应的编辑距离为“3”，则计算机设备从这三个编辑距离中确定的最小编辑距离为“1”。那么，最小编辑距离为“1”对应位置为目标相邻位置，即目标相邻位置为编辑距离矩阵中第8行第8列。需要说明的是，本申请实施例所涉及到的编辑距离矩阵中的位置可以由坐标来表示，也可以用行与列来表示，只要能代表编辑距离矩阵中的唯一位置即可，本申请实施例对此不作限定。

在一种可能的实现方式中，计算机设备将目标相邻位置作为新的末尾位置，继续确定下一个目标相邻位置；当目标相邻位置是编辑距离矩阵的起始位置时，将末尾位置和所有目标相邻位置组合为最短编辑路径。

举例来说，当确定编辑距离矩阵中第8行第8列为目标相邻位置之后，计算机设备将第8行第8列作为新的末尾位置，进一步地，计算机设备在编辑距离矩阵中获取与新的末尾位置相邻的多个相邻位置；计算机设备从多个相邻位置对应的多个编辑距离中，选择最小编辑距离对应的下一个目标相邻位置。具体来说，如图6所示的编辑距离矩阵，编辑距离矩阵中新的末尾位置处对应的矩阵元素为“1”，计算机设备获取与新的末尾位置相邻的三个相邻位置，分别为左方相邻位置、左上角相邻位置以及上方相邻位置，并且计算机设备获取三个相邻位置分别对应的三个编辑距离，具体地，左方相邻位置对应的编辑距离为“2”，左上角相邻位置对应的编辑距离为“1”，上方相邻位置对应的编辑距离为“2”，则计算机设备从这三个编辑距离中确定的最小编辑距离为“1”。那么，最小编辑距离为“1”对应位置为新的目标相邻位置，即目标相邻位置为编辑距离矩阵中第7行第7列。以此类推，每获取一次目标相邻位置之后，将该目标相邻位置作为新的末尾位置，然后遍历与新的末尾位置相邻的多个相邻位置，进而确定下一个目标相邻位置，可以得到下一个目标相邻位置为第6行第6列，第5行第5列，第4行第4列，第3行第3列，第2行第2列，第1行第1列。由于第1行第1列是编辑距离矩阵的起始位置，因此停止遍历目标相邻位置的操作，并将末尾位置和所有目标相邻位置组合为最短编辑路径。具体地，最短编辑路径是由第8行第9列，第8行第8列，第7行第7列，第6行第6列，第5行第5列，第4行第4列，第3行第3列，第2行第2列，第1行第1列组合而成的路径。其中，最短编辑路径具体可参见由图6所示的编辑距离矩阵中的带有标记的矩阵元素对应的矩阵位置所组成的路径。

步骤S350：根据所述最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。

具体实现时，计算机设备根据最短编辑路径，可以确定第二文本中每个第二字符对应的时间确定策略。然后，计算机设备按照每个第二字符对应的时间确定策略，获取每个第二字符在第一文本中对应的第一字符的时间戳信息，从而计算机设备根据每个第二字符对应的时间确定策略和每个第二字符在第一文本中对应的第一字符的时间戳信息，就可以确定第二文本中每个第二字符的时间戳信息。其中，时间戳信息可以包括开始时间戳以及结束时间戳。需要说明的是，第二文本中的第二字符可以是从最短编辑路径中末尾位置对应的第二字符开始，也可以是从最短编辑路径中起始位置对应的第二字符开始，还可以是从最短编辑路径中任意位置对应的第二字符开始，本申请实施例对此不作限定。

举例来说，计算机设备从最短编辑路径中末尾位置对应的第二字符开始，确定该末尾位置对应的第二字符的时间确定策略；然后，计算机设备继续获取最短编辑路径中与末尾位置相邻的相邻位置对应的第二字符，并确定该第二字符对应的时间确定策略，以此类推，当确定第二文本中所有的第二字符的时间确定策略之后，计算机设备按照每个第二字符的时间确定策略以及第一文本中的与每个第二字符对应的第一字符的时间戳信息，最终确定每个第二字符的时间戳信息。后续，计算机设备还可以根据每个第二字符的时间戳信息进一步地做文本的处理。

在一种可能的实现方式中，计算机设备响应用户针对第二文本进行的断句操作，从而将第二文本划分为多个文本段落；计算机设备根据每个第二字符的时间戳信息，确定每个文本段落的时间戳信息；计算机设备将每个文本段落以及每个文本段落的时间戳信息组合为段落时间项；在计算机设备的显示界面中展示多个段落时间项。

举例来说，用户在计算机设备的显示界面中，将第二文本划分为多个文本段落，假设为文本段落1、文本段落2以及文本段落3；计算机设备获取文本段落1对应的第一个字符(假设为字符1)的时间戳信息以及最后一个字符(假设为字符2)的时间戳信息，假设时间戳信息包括开始时间戳以及结束时间戳，则计算机设备将字符1的开始时间戳作为文本段落1对应的开始时间戳，将字符2的结束时间戳作为文本段落1对应的结束时间戳。当然，时间戳信息若只包含一个时间戳，则计算机设备将文本段落中第一个字符的时间戳作为该文本段落的开始时间戳，将文本段落中最后一个字符的时间戳作为该文本段落的结束时间戳，即计算机设备将将字符1的时间戳作为文本段落1对应的开始时间戳，将字符2的时间戳作为文本段落1对应的结束时间戳。在一种可能的实现方式中，计算机设备可以将文本段落与文本段落对应的时间戳信息在计算机设备的显示界面中进行关联展示，以供用户方便浏览与阅读。具体的，计算机设备将文本段落1与文本段落1对应的时间戳信息组合为段落时间项1进行关联展示，将文本段落2与文本段落2对应的时间戳信息组合为段落时间项2进行关联展示以及文本段落3与文本段落3对应的时间戳信息组合为段落时间项3进行关联展示。并且，显示界面中显示的段落时间项按照文本段落的时间戳信息的时间先后顺序进行显示。

相比于人工听取音频确定文本的时间戳信息，本方案是由计算机设备自动完成，因此处理效率比人工处理效率要高，并且可以避免人工的主观延迟等因素，提高了文本中每个字符的时间戳信息的准确性。并且，由于本申请是通过寻找到最短编辑路径之后就可以确定每个第二字符的时间确定策略，时间确定策略是根据每个第二字符在最短编辑路径中的唯一位置确定的，并按照每个第二字符的时间确定策略以及第一文本中的任一第一字符的时间戳信息，使得确定的每个第二字符的时间戳信息较为准确。进一步地，由于本申请是通过寻找到最短编辑路径之后就可以确定每个字符对应的时间戳信息，无论后续用户进行怎样的断句操作均可以自动生成准确的时间戳信息，从而进一步提高了文本处理的时间戳信息的准确性。

请参见图7，图7是本申请实施例提供的一种确定时间戳信息的流程示意图。该方法应用于计算机设备，如图7所示，确定时间戳信息可包括步骤S710～步骤S740，且步骤S710～步骤S740是上述图3对应实施例中的步骤S350的具体实施例。其中：

步骤S710：从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径，所述最短编辑路径包括第一矩阵位置和第二矩阵位置。

具体实现时，最短编辑路径包括第一矩阵位置和第二矩阵位置，并且第一矩阵位置和第二矩阵位置在最短编辑路径中相邻。并且，多个第二字符包括与第一矩阵位置对应的目标第二字符。需要说明的是，本申请实施例涉及的计算机设备确定每个第二字符的时间戳信息的具体过程相同，本申请实施例以计算机设备确定一个第二字符(称为目标第二字符)的时间戳信息进行详细说明，其中目标第二字符是在第二文本中与第一矩阵位置对应的第二字符。

需要说明的是，计算机设备从编辑距离矩阵中获取从编辑距离矩阵的末尾位置至编辑距离矩阵的起始位置的最短编辑路径的详细过程具体可以参见上述图3实施例中步骤S340中计算机设备确定最短编辑路径的流程，本申请在此不再赘述。

步骤S720：获取所述第一矩阵位置和所述第二矩阵位置之间位置关系。

具体实现时，在最短编辑路径中，第一矩阵位置与第二矩阵位置可以是按照确定最短编辑路径的方向对应的位置依次作为第一矩阵位置以及第二矩阵位置。例如，将编辑距离矩阵中的末尾位置作为第一矩阵位置，将最短编辑路径中的与末尾位置相邻的位置作为第二矩阵位置，具体的，末尾位置是指编辑距离矩阵中右下角处对应的位置；又如，将编辑距离矩阵中的任意位置作为第一矩阵位置，将最短编辑路径中的与第一矩阵位置相邻的位置作为第二矩阵位置，其中，此处的任意位置不为编辑距离矩阵中的起始位置，具体的，起始位置是指编辑距离矩阵中左上角处对应的位置。

举例来说，如图6所示，第一矩阵位置可以为第8行第9列，第二矩阵位置为第8行第8列，第一矩阵位置可以为第8行第8列，第二矩阵位置为第7行第7列。

步骤S730：根据所述位置关系确定目标第二字符的时间确定策略。

在一种可能的实现方式中，位置关系包括纵向垂直关系、斜边对角关系以及横向垂直关系，时间确定策略包括第一策略、第二策略以及第三策略，并且，第一策略、第二策略以及第三策略互不相同。具体实现时，若第一矩阵位置和第二矩阵位置之间的位置关系为纵向垂直关系，则计算机设备将第一策略确定为目标第二字符的时间确定策略；若第一矩阵位置和第二矩阵位置之间的位置关系为斜边对角关系，则计算机设备将第二策略确定为目标第二字符的时间确定策略；若第一矩阵位置和所述第二矩阵位置之间的位置关系为横向垂直关系，则计算机设备将第三策略确定为所述目标第二字符的时间确定策略。

需要说明的是，在本申请实施例中，考虑到第一矩阵位置与第二矩阵位置是以确定最短编辑路径的方向获取到的，因此纵向垂直关系具体可以为上方相邻，斜边对角关系具体可以为左上角相邻，横向垂直关系具体可以为左方相邻。若第一矩阵位置与第二矩阵位置是以确定最短编辑路径的反方向获取的，则纵向垂直关系具体可以为下方相邻，斜边对角关系具体可以为右下角相邻，横向垂直关系具体可以为右方相邻。例如，第一矩阵位置可以为第8行第8列，第二矩阵位置可以为第8行第9列，则第一矩阵位置与第二矩阵位置之间的位置关系为右方相邻。

举例来说，假设第一策略为插入策略，第二策略为替换策略，第三策略为删除策略。如图6所示，假设第一矩阵位置为第8行第9列，第二矩阵位置为第8行第8列，则计算机设备确定第一矩阵位置和第二矩阵位置之间的位置关系为横向垂直关系，具体为左方相邻，那么，计算机设备将删除策略确定为目标第二字符的时间确定策略，此时的目标第二字符为第8行第9列对应的第二文本中的第二字符，则目标第二字符为第二文本中的“好”。又如，假设第一矩阵位置为第8行第8列，第二矩阵位置为第7行第7列，则计算机设备确定第一矩阵位置和第二矩阵位置之间的位置关系为斜边对角关系，具体为左上角相邻，那么，计算机设备将替换策略确定为目标第二字符的时间确定策略，此时的目标第二字符为第8行第8列对应的第二文本中的第二字符，则目标第二字符为第二文本中的“好”。

步骤S740：按照所述目标第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定所述目标第二字符的时间戳信息。

具体实现时，计算机设备确定了目标第二字符的时间确定策略之后，计算机设备获取第一矩阵位置在第一文本中对应的目标第一字符的时间戳信息，计算机设备根据目标第二字符的时间确定策略以及目标第一字符的时间戳信息，确定目标第二字符的时间戳信息。其中，时间确定策略包括第一策略、第二策略以及第三策略。

在一种可能的实现方式中，目标第二字符的时间确定策略是第一策略。计算机设备在第一文本中获取第一矩阵位置对应的目标第一字符，以及在第一文本中与目标第一字符前向相邻的相邻字符，其中，前向相邻是指在第一文本中所处的位置位于目标第一字符所处的位置的前面，且与目标第一字符所处的位置相邻，如图5a所示，假设目标第一字符为“位”，则在第一文本中与字符“位”前向相邻的字符为“各”；计算机设备将目标第一字符的时间戳信息与相邻字符的时间戳信息进行平均运算，将平均运算后得到的时间戳信息作为目标第二字符的时间戳信息。

举例来说，假设目标第二字符的时间确定策略是第一策略(插入策略)，计算机设备获取目标第一字符的时间戳信息假设为[2s，3s]以及在第一文本中与目标第一字符前向相邻的相邻字符的时间戳信息假设为[1s，2s]。计算机设备将[1s，2s]与[2s，3s]进行平均运算，则目标第二字符的时间戳信息为[1.5s，2.5s]。

在一种可能的实现方式中，目标第二字符的时间确定策略是第二策略。计算机设备获取第一矩阵位置对应的目标第一字符；计算机设备直接将目标第一字符的时间戳信息作为目标第二字符的时间戳信息。

举例来说，如图6所示，假设第一矩阵位置为第8行第8列，第二矩阵位置为第7行第7列，则目标第二字符为第二文本中的“好”，且目标第二字符的时间确定策略是第二策略(替换策略)。计算机设备获取第8行第8列对应的目标第一字符为第一文本中的“好”，并获取目标第一字符的时间戳信息，假设为[6s，7s]，6s代表开始时间戳，7s代表结束时间戳。则计算机设备将目标第一字符的时间戳信息[6s，7s]作为目标第二字符“好”的时间戳信息。

在一种可能的实现方式中，目标第二字符的时间确定策略是第三策略。计算机设备将目标第二字符的时间戳信息设置为空，等到下一次遍历最短编辑路径时再确定目标第二字符的时间戳信息。

举例来说，假设第一矩阵位置为第8行第9列，第二矩阵位置为第8行第8列，则目标第二字符为第二文本中的“好”，且目标第二字符的时间确定策略是第三策略(删除策略)。计算机设备获取第8行第9列对应的目标第一字符为第一文本中的“啊”，并获取目标第一字符的时间戳信息，假设为[7s，8s]。则计算机设备将目标第二字符“好”的时间戳信息设置为空。

依次类推，按照上述方法，直至遍历到最短编辑路径中的第一个元素。于是，目标第二字符“家”的时间戳信息为[5s，6s]，目标第二字符“大”的时间戳信息为[4s，5s]，目标第二字符“学”的时间戳信息为[3s，4s]，目标第二字符“同”的时间戳信息为[2s，3s]，目标第二字符“位”的时间戳信息为[1s，2s]，目标第二字符“各”的时间戳信息为[0s，1s]。当然，计算机设备可以在确定了最短编辑路径之后再依次确定目标第二字符的时间戳信息，也可以在确定最短编辑路径的过程中同时确定目标第二字符的时间戳信息，本申请在此不作限定。并且，若计算机设备是在确定了最短编辑路径之后再依次确定目标第二字符的时间戳信息的情况下，可以从最短编辑路径中任意的位置开始确定对应的目标第二字符的时间戳信息即可。

通过本方案，计算机设备按照事先设置好的规则从编辑距离矩阵中自动确定最短编辑路径，并且根据最短编辑路径和第一文本中的每个第一字符的时间戳信息可以确定第二文本中每个第二字符的时间戳信息。相较于人工进行每个第二字符的时间戳信息的确定，本方案由计算机设备自动执行，提高了处理效率，并且避免了用户的主观延迟等因素，提高了第二字符的时间戳信息的准确性。

基于上述分析，经过实验可知，本申请在1CPU 2GB虚拟机中处理典型5万字的文本，耗时8秒，在运用本申请所提供的方案的平台上近一周的72次用户使用操作后，相比现有的需要用户手动确定拆分边界的开始时间戳以及结束时间戳而言，使用本申请实施例提供的方案，用户调整字幕时间的操作次数下降92.14％。

请参见图8，图8为本申请实施例提供的一种自动语音识别处理的流程示意图。该方法应用于计算机设备，确定待处理音频的音频识别结果包括如下步骤S810～步骤S830，且步骤S810～步骤S830是上述图3对应实施例中的步骤S310的具体实施例：

步骤S810：获取待处理音频，并对所述待处理音频进行滤波处理和采样处理，得到目标音频。

在一种可能的实现方式中，计算机设备获取用户上传的待处理音频之后，计算机设备对待处理音频进行声学信号的预处理，其中，预处理包括对待处理音频进行滤波处理以及采样处理。

举例来说，为了排除非人体发声以外频率的信号与50Hz电流频率的干扰，预处理操作一般是通过带通滤波器、设定上下戒指频率对待处理音频进行滤波，再将原有待处理音频的离散信号进行量化处理。需要平滑信号的高频与低频部分的衔接段，从而可以在同一信噪比条件下对频谱进行求解，使得分析更为方便快捷。然后，计算机设备对待处理音频进行分时间帧和添加滑动窗操作，可以得到多个单位音频。分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性，即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析，此过程主要是采用预加重技术。最后，还需要进行端点检测工作，也就是计算机设备对输入的待处理音频的开始时间戳以及结束时间戳进行正确判断，这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定。

步骤S820：对所述目标音频进行特征提取，得到所述目标音频的特征向量。

在一种可能的实现方式中，计算机设备对目标音频的特征向量进行特征提取的方式具体可以为，计算机设备对目标音频进行梅尔频谱特征提取，得到梅尔频谱静态特征，以及对目标音频进行常数Q变换特征提取，得到常数Q变换频谱静态特征。然后，计算机设备将梅尔频谱静态特征和常数Q变换频谱静态特征组合为目标音频的特征向量。

在一种可能的实现方式中，计算机设备对目标音频进行梅尔频谱特征提取的过程具体可以参见如下操作。首先，计算机设备对划分得到的每个单位音频分别转换为单位频域信号。其中，计算机设备将单位音频转换为单位频域信号的方式可以为，计算机设备对单位音频进行快速傅立叶变换(Fast Fourier Transform，FFT)、短时傅里叶变换(Short-Time Fourier Transform，STFT)或者离散傅立叶变换(Discrete Fourier Transform，DFT)等方式，得到单位音频对应的每个频带点的频谱能量分布，即将单位音频从时域信号转换为频域信号。然后，计算机设备将每个取平方后的单位频域信号通过梅尔滤波器，以实现对每个单位频域信号进行滤波处理，得到每个单位频域信号的单位梅尔频谱静态特征(单位梅尔频谱静态特征是一个N维的向量)。多个单位音频都采用上述方式确定单位梅尔频谱静态特征，将多个单位梅尔频谱静态特征组合为待处理音频的梅尔频谱静态特征，梅尔频谱静态特征是一个N×K的特征矩阵，K表示有K个单位梅尔频谱静态特征，N表示每个单位梅尔频谱静态特征的特征维度。最后，计算机设备可以对得到的每个单位梅尔频谱特征进行取对数处理，即可得到每个单位音频的单位对数梅尔频谱静态特征，然后将多个单位对数梅尔频谱静态特征进行组合，得到目标音频的对数梅尔频谱静态特征。

在一种可能的实现方式中，计算机设备对目标音频进行常数Q变换特征提取的过程具体可以参见如下操作。首先，计算机设备对待处理音频进行分时间帧和添加滑动窗操作，得到多个单位音频，需要说明的是，计算机设备对每个单位音频的处理方式相同。然后，计算机设备获取品质因子Q，根据每个单位音频确定每个单位音频的窗口长度，在常数Q变换中，窗口长度会随着频率的改变而改变。继而，计算机设备根据品质因子Q以及每个单位音频的窗口长度，对每个单位音频进行时频转换处理，所谓的时频转换处理即为，对每个单位音频进行常数Q变换处理，得到每个单位音频的单位常数Q变换频谱静态特征，最后，计算机设备将多个单位音频的单位常数Q变换频谱静态特征组合为常数Q变换频谱静态特征。

在一种可能的实现方式中，进一步地，计算机设备可以将对数梅尔频谱静态特征进行差分处理，得到对数梅尔频谱动态特征，以及计算机设备可以将常数Q变换频谱静态特征进行差分处理，得到常数Q变换频谱动态特征。最后，计算机设备将对数梅尔频谱静态特征、常数Q变换频谱静态特征、对数梅尔频谱动态特征以及常数Q变换频谱动态特征组合为待处理音频的特征向量。其中，差分处理的方式可以为一阶差分处理以及二阶差分处理。当然，计算机设备也可以直接将对数梅尔频谱静态特征或者常数Q变换频谱静态特征作为目标音频的特征向量，或者，计算机设备只针对目标音频进行梅尔频谱特征提取，得到梅尔频谱静态特征，然后根据梅尔频谱静态特征获取梅尔频谱动态特征，然后将梅尔频谱静态特征与梅尔频谱动态特征组合为目标音频的特征向量，本发明对此不作限定。

步骤S830：调用音频识别模型识别所述目标音频的特征向量，得到所述待处理音频的音频识别结果，所述音频识别结果包括第一文本以及所述第一文本中的任一第一字符的时间戳信息。

具体实现时，计算机设备调用音频识别模型识别目标音频的特征向量，得到待处理音频的音频识别结果。举例来说，音频识别模型具体可以为循环神经网络模型，例如，可以具体是RNN(循环神经网络，Recurrent Neural Network,RNN)模型，LSTM(长短期记忆网络，LSTM，Long Short-Term Memory)，GRU(门控循环神经网络，Gated Recurrent Neuralnetwork)模型。由于考虑到计算效率，因此在保证检测准确率的基础上，缩小模型体积，本申请的音频识别模型可以采用GRU模型。

举例来说，以音频识别模型是GRU模型为例进行详细说明，首先，计算机设备将初始隐藏特征h0和梅尔频谱向量特征x1输入GRU模型，通过GRU模型对梅尔频谱向量特征x1进行编码处理，输出梅尔频谱向量特征的第一隐藏特征h1和第一输出特征y1；然后，计算机设备将第一隐藏特征h1和第二梅尔频谱向量特征x2输入GRU模型，通过GRU模型对第二梅尔频谱向量特征x2进行编码处理，输出第二梅尔频谱向量特征的第二隐藏特征h2和第二输出特征y2；最后，计算机设备将第一输出特征y1以及第二输出特征y2通过若干的全连接层以及激活函数的处理，输出待处理音频的音频识别结果。其中，音频识别结果第一文本以及第一文本中的任一第一字符的时间戳信息。

请参见图9，图9是本申请实施例所提供的一种文本处理装置的结构示意图。该文本处理装置可应用于图3～图8对应的方法实施例中的计算机设备。文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该文本处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该文本处理装置可包括：

获取单元910，用于获取第一文本以及所述第一文本中的任一第一字符的时间戳信息；

获取单元910，还用于获取用户针对所述第一文本调整后的第二文本，所述第二文本包括多个第二字符；

确定单元920，用于确定所述第一文本和所述第二文本之间的编辑距离矩阵，所述编辑距离矩阵包括多个编辑距离，所述多个编辑距离表示从所述第一文本的单位字符串转换为所述第二文本的单位字符串所需的编辑次数；

获取单元910，还用于从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径；

处理单元930，用于根据所述最短编辑路径，确定每个第二字符的时间确定策略，并按照每个第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定每个第二字符的时间戳信息。

在一种可能的实现方式中，获取单元910从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径，包括：

在所述编辑距离矩阵中获取与所述末尾位置相邻的多个相邻位置；

从所述多个相邻位置对应的多个编辑距离中，选择最小编辑距离对应的目标相邻位置；

将所述目标相邻位置作为新的末尾位置，继续确定下一个目标相邻位置；

当目标相邻位置是所述编辑距离矩阵的起始位置时，将所述末尾位置和所有目标相邻位置组合为所述最短编辑路径。

在一种可能的实现方式中，所述最短编辑路径包括第一矩阵位置和第二矩阵位置，所述第一矩阵位置和所述第二矩阵位置在所述最短编辑路径中相邻，所述多个第二字符包括与所述第一矩阵位置对应的目标第二字符；

处理单元930根据所述最短编辑路径，确定每个第二字符的时间确定策略，包括：

获取所述第一矩阵位置和所述第二矩阵位置在所述编辑距离矩阵中的位置关系；

根据所述位置关系确定目标第二字符的时间确定策略。

在一种可能的实现方式中，处理单元930根据所述位置关系确定目标第二字符的时间确定策略，包括：

若所述第一矩阵位置和所述第二矩阵位置之间的位置关系为纵向垂直关系，则将第一策略确定为所述目标第二字符的时间确定策略；

若所述第一矩阵位置和所述第二矩阵位置之间的位置关系为斜边对角关系，则将第二策略确定为所述目标第二字符的时间确定策略；

若所述第一矩阵位置和所述第二矩阵位置之间的位置关系为横向垂直关系，则将第三策略确定为所述目标第二字符的时间确定策略，所述第一策略、所述第二策略和所述第三策略互不相同。

在一种可能的实现方式中，目标第二字符的时间确定策略是第一策略；

处理单元930按照所述目标第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定所述目标第二字符的时间戳信息的流程包括：

获取所述第一矩阵位置对应的目标第一字符，以及在所述第一文本中与所述目标第一字符前向相邻的相邻字符；

将所述目标第一字符的时间戳信息与所述相邻字符的时间戳信息进行平均运算，将平均运算后得到的时间戳信息作为所述目标第二字符的时间戳信息。

在一种可能的实现方式中，目标第二字符的时间确定策略是第二策略；

获取所述第一矩阵位置对应的目标第一字符；

将目标第一字符的时间戳信息作为所述目标第二字符的时间戳信息。

在一种可能的实现方式中，目标第二字符的时间确定策略是第三策略；

将所述目标第二字符的时间戳信息设置为空。

在一种可能的实现方式中，确定单元920确定所述第一文本和所述第二文本之间的编辑距离矩阵，包括：

将所述第一文本划分为多个第一单位字符串，任意第一单位字符串之间存在重叠字符，任意第一单位字符串之间的重叠字符包括所述第一文本的起始字符；

将所述第二文本划分为多个第二单位字符串，任意第二单位字符串之间存在重叠字符，任意第二单位字符串之间的重叠字符包括所述第二文本的起始字符；

获取由任一第一单位字符串转换为任一第二单位字符串的编辑次数；

将获取到的编辑次数组合为编辑距离矩阵。

在一种可能的实现方式中，获取单元910获取第一文本以及所述第一文本中的任一第一字符的时间戳信息，包括：

获取待处理音频，并对所述待处理音频进行滤波处理和采样处理，得到目标音频；

对所述目标音频进行特征提取，得到所述目标音频的特征向量；

调用音频识别模型识别所述目标音频的特征向量，得到所述待处理音频的音频识别结果，所述音频识别结果包括第一文本以及所述第一文本中的任一第一字符的时间戳信息。

在一种可能的实现方式中，本申请实施例提供的文本处理装置还包括：响应单元940、展示单元950。

响应单元940，用于响应所述用户针对所述第二文本进行的断句操作，将所述第二文本划分为多个文本段落；

确定单元920根据每个第二字符的时间戳信息，确定每个文本段落的时间戳信息，任一文本段落的时间戳信息均包括起始时间戳和结束时间戳；

处理单元930将每个文本段落以及每个文本段落的时间戳信息组合为段落时间项；

展示单元950在用户界面中展示多个段落时间项。

请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。上述图3～图8对应实施例中的计算机设备可以为计算机设备1000，如图10所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图10所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

在一种可能的实现方式中，处理器1004从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径，包括：

在一种可能的实现方式中，最短编辑路径包括第一矩阵位置和第二矩阵位置，所述第一矩阵位置和所述第二矩阵位置在所述最短编辑路径中相邻，所述多个第二字符包括与所述第一矩阵位置对应的目标第二字符；

处理器1004根据所述最短编辑路径，确定每个第二字符的时间确定策略，包括：

根据所述位置关系确定目标第二字符的时间确定策略。

在一种可能的实现方式中，处理器1004根据所述位置关系确定目标第二字符的时间确定策略，包括：

处理器1004按照所述目标第二字符的时间确定策略以及所述第一文本中的任一第一字符的时间戳信息，确定所述目标第二字符的时间戳信息的流程包括：

获取所述第一矩阵位置对应的目标第一字符；

将所述目标第二字符的时间戳信息设置为空。

在一种可能的实现方式中，处理器1004确定所述第一文本和所述第二文本之间的编辑距离矩阵，包括：

将获取到的编辑次数组合为编辑距离矩阵。

在一种可能的实现方式中，处理器1004获取第一文本以及所述第一文本中的任一第一字符的时间戳信息，包括：

在一种可能的实现方式中，处理器1004还用于执行以下操作：

响应所述用户针对所述第二文本进行的断句操作，将所述第二文本划分为多个文本段落；

根据每个第二字符的时间戳信息，确定每个文本段落的时间戳信息，任一文本段落的时间戳信息均包括起始时间戳和结束时间戳；

将每个文本段落以及每个文本段落的时间戳信息组合为段落时间项；

在用户界面中展示多个段落时间项。

应当理解，本发明实施例中所描述的计算机设备1000可执行前文图3到图8所对应实施例中对文本处理方法的描述，也可执行前文图9所对应实施例中对文本处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的文本处理装置所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图3到图8所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图3到图8所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径；所述最短编辑路径包括第一矩阵位置和第二矩阵位置，所述第一矩阵位置和所述第二矩阵位置在所述最短编辑路径中相邻，所述多个第二字符包括与所述第一矩阵位置对应的目标第二字符；

获取所述第一矩阵位置和所述第二矩阵位置在所述编辑距离矩阵中的位置关系，并根据所述位置关系确定目标第二字符的时间确定策略；其中，确定出来的所述时间确定策略包括：第一策略、第二策略、第三策略；

若所述时间确定策略是第一策略，则获取所述第一矩阵位置对应的目标第一字符，以及在所述第一文本中与所述目标第一字符前向相邻的相邻字符；将所述目标第一字符的时间戳信息与所述相邻字符的时间戳信息进行平均运算，将平均运算后得到的时间戳信息作为所述目标第二字符的时间戳信息；

若所述时间确定策略是第二策略，则获取所述第一矩阵位置对应的目标第一字符；将目标第一字符的时间戳信息作为所述目标第二字符的时间戳信息；

若所述时间确定策略是第三策略，则将所述目标第二字符的时间戳信息设置为空。

2.根据权利要求1所述的方法，其特征在于，所述从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述位置关系确定目标第二字符的时间确定策略，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述第一文本和所述第二文本之间的编辑距离矩阵，包括：

将获取到的编辑次数组合为编辑距离矩阵。

5.根据权利要求1所述的方法，其特征在于，所述获取第一文本以及所述第一文本中的任一第一字符的时间戳信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在用户界面中展示多个段落时间项。

7.一种文本处理装置，其特征在于，包括：

获取单元，还用于从所述编辑距离矩阵中获取从所述编辑距离矩阵的末尾位置至所述编辑距离矩阵的起始位置的最短编辑路径；所述最短编辑路径包括第一矩阵位置和第二矩阵位置，所述第一矩阵位置和所述第二矩阵位置在所述最短编辑路径中相邻，所述多个第二字符包括与所述第一矩阵位置对应的目标第二字符；

获取单元，还用于获取所述第一矩阵位置和所述第二矩阵位置在所述编辑距离矩阵中的位置关系，并根据所述位置关系确定目标第二字符的时间确定策略；其中，确定出来的所述时间确定策略包括：第一策略、第二策略、第三策略；

处理单元，用于若所述时间确定策略是第一策略，则获取所述第一矩阵位置对应的目标第一字符，以及在所述第一文本中与所述目标第一字符前向相邻的相邻字符；将所述目标第一字符的时间戳信息与所述相邻字符的时间戳信息进行平均运算，将平均运算后得到的时间戳信息作为所述目标第二字符的时间戳信息；

处理单元，还用于若所述时间确定策略是第二策略，则获取所述第一矩阵位置对应的目标第一字符；将目标第一字符的时间戳信息作为所述目标第二字符的时间戳信息；

处理单元，还用于若所述时间确定策略是第三策略，则将所述目标第二字符的时间戳信息设置为空。

8.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器存储一组程序代码，所述处理器调用所述存储器中存储的程序代码，用于执行如权利要求1~6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1~6任一项所述的方法。