CN113129935A

CN113129935A - 音频打点数据获取方法、装置、存储介质及电子设备

Info

Publication number: CN113129935A
Application number: CN202110668121.3A
Authority: CN
Inventors: 李爽; 曲健宁; 闫智慧
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-07-16
Anticipated expiration: 2041-06-16
Also published as: CN113129935B

Abstract

本发明实施例提供了一种音频打点数据获取方法、装置、存储介质及电子设备，方法包括：获取待打点音频和对应的原始文本；根据待打点音频和原始文本获取文字级初始打点文本；获取原始文本的原始文字，以及与原始文字位置对应的打点文字；当二者一致时，确定原始文字前后的标点符号，基于标点符号的类型以及标点符号与原始文字的位置，确定合并方式，根据合并方式对标点符号与打点文字进行合并，得到符号打点文字，并将对应的起止时间打点至符号打点文字，直至完成全部原始文字的处理，得到待打点音频的音频打点数据。本发明实施例所提供的音频打点数据获取方法，可以提高对应于音频的文本中每个字的打点数据的获取效率和精度。

Description

音频打点数据获取方法、装置、存储介质及电子设备

技术领域

本发明实施例涉及计算机领域，尤其涉及一种音频打点数据获取方法、装置、存储介质及电子设备。

背景技术

随着电子产品的大量使用，越来越多的阅读功能迁移到移动设备上，为了提高阅读体验，会同时播放文本对应的音频，并且，还需要在音频播放时，高亮显示对应的文本，为此就需要通过获取与音频对应的打点数据，即音频打点数据，音频打点数据是指标识了文本在音频中的起始时间戳和终止时间戳的数据，这样在音频播放的过程中，可以根据起始时间戳和终止时间戳同时高亮显示对应的文本。

然而，为了获取音频打点数据，目前所采用的方法，或者仅能在句子维度进行时间戳数据的获取，无法对句子中每个字进行时间戳的打点标识；或者需要人工操作实现对于句子中每个字的时间戳的打点标识，这不仅效率很低，而且所得到的时间戳数据的精度有限。

因此，如何提高对应于音频的文本中每个字的打点数据的获取效率和精度，就成为亟需解决的技术问题。

发明内容

本发明实施例提供一种音频打点数据获取方法、装置、存储介质及电子设备，以提高对应于音频的文本中每个字的打点数据的获取效率和精度。

为解决上述问题，本发明实施例提供一种音频打点数据获取方法，包括：

获取待打点音频和与所述待打点音频对应的原始文本；

将所述待打点音频和所述原始文本输入文字级时间打点模型，获取文字级初始打点文本，其中，所述文字级初始打点文本包括打点文字和各个所述打点文字在所述待打点音频中的起止时间；

当在预定时间阈值内获取到所述文字级初始打点文本时，获取所述原始文本的原始文字，以及所述文字级初始打点文本中与所述原始文字位置对应的所述打点文字；

当位于同一文字位置的所述原始文字和所述打点文字一致时，确定所述原始文字前后的标点符号，基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，根据所述合并方式对所述标点符号与所述打点文字进行合并，得到符号打点文字，并将对应的所述起止时间打点至所述符号打点文字，直至完成所述原始文本全部所述原始文字与标点符号的处理，得到所述待打点音频的音频打点数据。

为解决上述问题，本发明实施例还提供一种音频打点数据获取装置，包括：

待打点音频和原始文本获取单元，适于获取待打点音频和与所述待打点音频对应的原始文本；

文字级初始打点文本获取单元，适于将所述待打点音频和所述原始文本输入文字级时间打点模型，获取文字级初始打点文本，其中，所述文字级初始打点文本包括打点文字和各个所述打点文字在所述待打点音频中的起止时间；

原始文字和打点文字获取单元，适于当在预定时间阈值内获取到所述文字级初始打点文本时，获取所述原始文本的原始文字，以及所述文字级初始打点文本中与所述原始文字位置对应的所述打点文字；

音频打点数据获取单元，当位于同一文字位置的所述原始文字和所述打点文字一致时，确定所述原始文字前后的标点符号，基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，根据所述合并方式对所述标点符号与所述打点文字进行合并，得到符号打点文字，并将对应的所述起止时间打点至所述符号打点文字，直至完成所述原始文本全部所述原始文字与标点符号的处理，得到所述待打点音频的音频打点数据。

为解决上述问题，本发明实施例提供一种存储介质，所述存储介质存储有适于音频打点数据获取的程序，以实现如前述任一实施例所述的音频打点数据获取方法。

为解决上述问题，本发明实施例提供一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述任一实施例所述的音频打点数据获取方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的音频打点数据获取方法，在对待打点音频进行音频打点数据获取时，首先将待打点音频以及与待打点音频对应的原始文本输入至文字级时间打点模型，以获取文字级别的打点文本，即文字级初始打点文本，当获取到文字级初始打点文本时，从原始文本中获取原始文字，并从文字级初始打点文本中获取对应位置的打点文字，并比较二者的一致性，如果二者一致，进一步在原始文本中确定原始文字前后的标点符号，然后根据标点符号的位置和类型，确定将标点符号与打点文字合并的具体合并方式，实现对于打点文字的标点符号的添加，直至得到全部文字的标点符号的处理，从而得到待打点音频的音频打点数据。可以看出，本发明实施例所提供的音频打点数据获取方法，可以直接利用计算机设备实现对于字级别的音频数据打点，无需人工处理，从而可以提高所获得的音频打点数据的精度，满足精度要求，并且具有较高的处理效率，成本较低；另一方面，还将标点符号与打点文字进行合并，使得所得到的音频打点数据中不仅具有文本字还具有标点符号，标点符号能够提高文本语义的准确度和情感的准确度，从而所得到的音频打点数据能够更准确地表达文本的语义和情感，提高用户体验。

可选方案中，本发明实施例所提供的音频打点数据获取方法，当在预定时间阈值内，未能获取到文本字初始打点文本时，还会进一步确定获取异常原因，并且在异常原因是未知异常时，会再次将待打点音频和原始文本再次输入文字级时间打点模型，以进一步获取文字级初始打点文本。可以看出，本发明实施例所提供的音频打点数据获取方法，通过多次利用文字级时间打点模型获取文本字初始打点文本，可以提高对于文字级初始打点文本的获取概率，并且在经过多次，仍然未能获取到文字级初始打点文本时，记录下未知异常，以便后续在输入文字级时间打点模型前，将上述异常克服，提高文字级初始打点文本的获取成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例所提供的音频打点数据获取方法的一流程示意图；

图2为本发明实施例所提供的音频打点数据获取方法的另一流程示意图；

图3是本发明实施例所提供的音频打点数据获取装置的一框图；

图4是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，进行音频打点数据的获取时，对应于音频的文本中每个字的打点数据的获取效率和精度较低。

为了提高对应于音频的文本中每个字的打点数据的获取效率和精度，本发明实施例提供了一种音频打点数据获取方法，包括：

获取待打点音频和与所述待打点音频对应的原始文本；

可见，本发明实施例所提供的音频打点数据获取方法，在对待打点音频进行音频打点数据获取时，首先将待打点音频以及与待打点音频对应的原始文本输入至文字级时间打点模型，以获取文字级别的打点文本，即文字级初始打点文本，当获取到文字级初始打点文本时，从原始文本中获取原始文字，并从文字级初始打点文本中获取对应位置的打点文字，并比较二者的一致性，如果二者一致，进一步在原始文本中确定原始文字前后的标点符号，然后根据标点符号的位置和类型，确定将标点符号与打点文字合并的具体合并方式，实现对于打点文字的标点符号的添加，直至得到全部文字的标点符号的处理，从而得到待打点音频的音频打点数据。

可以看出，本发明实施例所提供的音频打点数据获取方法，可以直接利用计算机设备实现对于字级别的音频数据打点，无需人工处理，从而可以提高所获得的音频打点数据的精度，满足精度要求，并且具有较高的处理效率，成本较低；另一方面，还将标点符号与打点文字进行合并，使得所得到的音频打点数据中不仅具有文本字还具有标点符号，标点符号能够提高文本语义的准确度和情感的准确度，从而所得到的音频打点数据能够更准确地表达文本的语义和情感，提高用户体验。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的音频打点数据获取方法的一流程示意图。

如图中所示，本发明实施例所提供的音频打点数据获取方法，包括以下步骤：

步骤S10：获取待打点音频和与所述待打点音频对应的原始文本。

容易理解的是，为了进行音频打点数据的获取，首先需要获取待打点音频，从而能够获取音频播放对应的时间戳，同时还需要获取与待打点音频对应的原始文本，从而为时间戳打点提供文本基础，当然，原始文本不仅包括具体的文字，还包括标点符号，能够更准确地标识待打点音频。

当然，在进行音频打点数据获取时，需要首先对原始音频进行处理，以获取待打点音频。

在一种具体实施方式中，为了获取待打点音频，可以包括以下步骤：

获取原始音频；

对原始音频进行格式处理，得到满足预定格式要求的待打点音频。

原始音频的格式可以为各种格式，为了方便实现音频打点数据的获取，因此，需要首先对原始音频进行格式处理，以得到满足格式要求的音频，即待打点音频。

具体可以通过多媒体视频处理工具ffmpeg进行统一转码，得到mp3格式的音频，具体参数可以根据需要进行设置：比如可以为44.1khz，96kb/s。

其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

除了对原始音频进行处理，获取待打点音频，还可以对与所述待打点音频对应的文本进行处理，去除空格等字符，得到原始文本。

当然，得到待打点音频和原始文本，可以将二者进行保存。

步骤S11：将所述待打点音频和所述原始文本输入文字级时间打点模型，获取文字级初始打点文本。

得到待打点音频和原始文本后，将二者均输入至文字级时间打点模型，通过文字级时间打点模型，获取文字级初始打点文本。

容易理解的是，文字级时间打点模型是指，经过该模型处理后，打点文本的时间戳是以一个个文字为单位的，标识了每个文本的起始时间戳和终止时间戳，而不是以一行或者一句话为单位的，从而满足对于文本的每个字的打点文本的获取。

当然，文字级初始打点文本包括具体的打点文字，以及各个打点文字在待打点音频中的起止时间，但并不包括标点符号信息。其中，打点文字来自于原始文本中的文字，起止时间来自于待打点音频，并以待打点音频的起始时间为基准。

具体地，可以采用ASR（Automatic Speech Recognition（自动语音识别））模型，实现对于文字级初始打点文本的获取。

得到文字级初始打点文本后，可以对其进行保存，以进行后续的处理。

当然，当将待打点音频和所述原始文本输入文字级时间打点模型后，文字级打点模型不一定能够正常得到文字级初始打点文本，为了能够及时对未正常获取到文字级初始打点文本的待打点音频进行进一步处理，为此，还需要进行是否获取到文字级初始打点文本的确定。

需要说明的是，在进行待打点音频和原始文本的输入时，可以同时进行大量的相互对应的待打点音频和原始文本的输入，也可以按照时间顺序，依次进行输入。为了方便后续与预定时间阈值进行比较，还可以在待打点音频和原始文本输入的同时，进行计时。

步骤S12：确定在预定时间阈值内是否获取到所述文字级初始打点文本，若是，执行步骤S13，若否执行步骤S19。

当在预定时间阈值内获取到文字级初始打点文本时，执行步骤S13，获取原始文字和打点文字，为后续的处理提供文字准备。

当在预定时间阈值内未获取到文字级初始打点文本时，则执行步骤S19，确定未能在预定时间阈值内获取到的原因，从而为采取进一步的措施提供准备，以提高最终获取到文字级初始打点文本概率。

容易理解的是，预定时间阈值可以根据需要进行确定，并且调整情况可以与待打点音频的长度正相关，比如：10min，20min等。具体地，可以从将待打点音频和原始文本输入文字级时间打点模型开始计时，如果到达预定时间阈值时，仍然未能得到对应的文字级初始打点文本，那么执行步骤S19，如果得到文字级初始打点文本（包括在达到预定时间阈值之前得到），那么执行步骤S13。

在另一种实施例中，还可以只执行步骤S13，而当未获取到文字级初始打点文本时，可以直接停止音频打点数据的获取。

步骤S13：获取所述原始文本的原始文字，以及所述文字级初始打点文本中与所述原始文字位置对应的所述打点文字。

获取位置相互对应的文字，可以为后续进行文字一致性的比较提供基础，避免通过文字级打点模型获取的文字级初始打点文本出现错误，导致最终获取的音频打点数据的错误。

得到文字级初始打点文本后，再获取原始文本的原始文字和文字级初始打点文本的打点文字，需要注意的是，原始文字与打点文字在对应文本中的位置相互对应，比如，所获取的原始文字是原始文本的第一个文字，那么所获取的打点文字也是述文字级初始打点文本的第一个文字；如果所对应的文字为英语，那么可以分别获取相应长度（wordLength）的字母。

位置对应，可以以对应文本的首部进行确定，比如：距离对应文本首部的距离相同的位置，原始文字与原始文本首部的距离，以及打点文字与文字级初始打点文本首部的距离相同的位置。

步骤S14：判断位于同一文字位置的所述原始文字和所述打点文字是否一致，若是，执行步骤S15，若否，执行步骤S16。

容易理解的是，同一文字位置，与前述的位置对应具有相同的意思，可以指距离对应文本首部的距离相同的位置，当然也可以以其他位置作为参考进行确定，比如文本尾部等。

对于中文等文字，那么文字位置可以是距离对应文本首部的字符的数量，对于英文等字母类型的文字，那么文字位置可以是距离对应文字首部的相同第一wordLength的距离，并且相同第二wordLength个字母的文字。

当确定位于同一文字位置的原始文字与打点文字一致时，说明打点文字没有出现错误，可以进行进一步的处理，因此执行步骤S15，以获取符号打点文字；当确定位于同一文字位置的原始文字与打点文字不一致时，说明打点文字在获取的过程中出现了错误，则不能继续进行音频打点数据的获取，因此执行步骤S16。

步骤S15：确定所述原始文字前后的标点符号，基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，根据所述合并方式对所述标点符号与所述打点文字进行合并，得到符号打点文字，并将对应的所述起止时间打点至所述符号打点文字。

如果确定位于同一文字位置的原始文字与打点文字一致，则进一步获取符号打点文字，由于标点符号能够辅助展示文本的语义信息，从而将标点符号与打点文字进行正确合理的合并，可以提高所得到的音频打点数据的语义准确性和情感准确性。

具体地，为了实现标点符号与打点文字的合并，首先需要确定与打点文字位置对应，且具有一致性的原始文字在原始文本中，其前后是否有标点符号，以及具体的标点符号是什么类型，然后，根据标点符号与原始文字的相对位置，以及标点符号的类型，确定具体的合并方式，然后基于合并方式对标点符号和打点文字进行合并。

具体地，在一种具体实施方式中，所述基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式的步骤，可以包括以下至少一者：

1）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的前面，所述原始文字位于所述原始文本的语句的首位时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并将所述配对标点存储于符号匹配空间；

2）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的前面，所述原始文字位于所述原始文本的语句的中位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，在确定所述配对标点未存储于所述符号匹配空间时，并将所述配对标点存储于符号匹配空间；

3）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的中位或末位，且所述符号匹配空间中存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并清除所述符号匹配空间中的所述配对标点符号；

4）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的中位或末位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，保持所述打点文字不变，并在确定所述配对标点未存储于所述符号匹配空间时，将所述配对标点存储于符号匹配空间；

5）当所述标点符号的类型为非配对标点，且所述标点符号位于所述原始文字的后面时，将所述非配对标点按照所述原始文本中的位置与所述打点文字合并。

需要说明的是，配对标点是指由两部分组成的标点，包括前半配对标点和后半配对标点，比如：双引号“”，单引号‘’，括号（），中括号【】，大括号{}，等等，为方便描述，可以将配对标点的前一半称为前半配对标点，将配对标点的后一半称为后半配对标点；非配对标点是指除了配对标点以外的标点，比如：句号。，分号；，顿号、，逗号，，感叹号！等等。

另外，为了方便确定合并方式，可以以各个原始文本的语句为单位确定原始文字的位置，具体地，语句可以以表示语句结束的标点符号作为参考，比如：句号、问号，感叹号等等。

容易理解的是，根据语义表达的要求，对于非配对标点，其应与位于其前方的文字合并，因此，当确定标点符号的类型为非配对标点时，如果标点符号位于原始文字的前面，则可以不用进行进一步的处理，如果标点符号位于原始文字的后面，则将非配对标点按照原始文本中的原始文字与非配对标点的位置关系与打点文字合并，从而可以很方便地，进行标点符号信息的添加，并保证添加后的标点符号能够提高语义的准确性，而不是对语义的理解造成障碍。

而对于配对标点，由于其类型和位置的复杂性，则需要进行更细致的处理：

当确定标点符号为配对标点时，进一步确定标点符号与原始文字的位置关系，如果位于原始文字的前面，确定原始文字在原始文本的语句中的位置：

如果是在首位，那么可以确定此处的配对标点应为前半配对标点，将配对标点按照原始文本中的位置与对应的打点文字合并即可。

然而，容易理解的是，对于配对标点，如果正确标注的标点，除了有前半配对标点，还有后半配对标点，肯定不止在文中的一个位置设置，为了方便对于后半配对标点的处理，除了将前半配对标点与打点文字合并外，还需要将前半配对标点存储于符号匹配空间，以为后续的处理提供准备。

如果是在中位，那么仍旧难以确定次数的配对标点是前半配对标点还是后半，还需要进行进一步进行确定，判断符号匹配空间中是否存储有与所述标点符号匹配的匹配标点符号，如果没有，那么说明在该语句中，该配对标点前，还未出现前半配对标点，因此，该配对标点即为前半配对标点，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，当然，也需要将所述配对标点存储于符号匹配空间，以为后续的处理提供准备。

而如果符号匹配空间中存储有与所述标点符号匹配的匹配标点符号，则说明在该语句中，该配对标点前，已经出现了前半配对标点，该配对标点应为后半配对标点，则不应于与原始文字对应的打点文字合并，而应该将其与位于其前方的打点文字合并，此时，可以将其作为对标点符号位于所述原始文字的后面的情况的验证。

具体地，在一种具体实施方式中，符号匹配空间可以为栈，当然在其他实施方式中，符号匹配空间也可以为队列等。

另外，如果确定标点符号的类型为配对标点，但标点符号位于原始文字的后面，并且原始文字位于原始文本的语句的中位或末位，此时也难以确定配对标点为前半配对标点还是后半配对标点，因此，与前述方式相同，仍需要确定符号匹配空间中是否存储有与所述标点符号相匹配的匹配标点符号：

如果有，那么配对标点应为后半配对标点，因此，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，由于符号匹配空间中的配对符号已经配对，为避免后续的处理出现错误，还需清除所述符号匹配空间中的所述配对标点符号；

如果没有，那么配对标点应为前半配对标点，位于原始文字后面的前半配对标点，应是与位于当前的原始文字后面的后一原始文字合并，才能够准确地表述语义，因此，仅需保持所述打点文字不变即可。

当然，由于配对标点为前半配对标点，因此，还需要确定此配对标点是否已经存储于符号匹配空间，并在确定所述配对标点未存储于所述符号匹配空间时，将所述配对标点存储于符号匹配空间。

容易理解的是，如果原始文字前后都没有标点符号，那么只需保持原本的打点文字和起止时间不变即可。

另外，对于文字的前后有多个标点符号的情况，只需按照每个标点符号依次分析即可。

为了方便理解上述内容，现举例如下：

她说：“你好！”

对于“她”字，其前后均没有标点符号，因此，只需保持打点文字“她”不变，并且保持其起止时间即可。

对于“说”字，其前面没有标点符号，但其后面有标点符号，冒号和引号，其中，冒号为非配对符号，且位于说字的后面，只需将其合并于“说”字的后面即可，而对于引号，进一步判断符号匹配空间中是否存储有与其匹配的匹配标点符号，经判断没有，则该配对标点为前半配对标点，保持“说”字不变，即不将引号与“说”字合并，从而，说字变成“说：”，同时将“说”字的起止时间作为“说：”的起止时间，当然，还需将引号存储于符号匹配空间。

对于“你”字，其后面没有标点符号，但其前面存在标点符号冒号和引号，冒号为非配对符号，可以不用处理，引号为配对符号，需要确定符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号，经判断未存储，则将引号与“你”字合并，并将“你“字的起止时间作为“”你“的起止时间，然后确定引号是否已经存储于符号匹配空间，此处，在对“说”字进行处理时，已经将引号存储于符号匹配空间，因此无需再进行存储。

对于“好”字，其前面没有标点符号，但其后面存在感叹号和引号，感叹号为非配对符号，直接将其与“好”字合并，引号为配对符号，进一步判断符号匹配空间中是否存储有与所述标点符号相匹配的匹配标点符号，在此案例中，有，那么将引号也与“好”字合并，得到“好！“”，并将“好“字的起止时间作为”好！““的起止时间。

可以看出，经过上述方式确定的合并方式，可以保证标点符号与文字合并的准确性，从而提高高亮显示时文本语义的准确性。

当然，为了减少运算量，在另一种具体实施方式中，可以仅获取位于原始文本的语句的首位的原始文字的前面的标点符号，对于其他原始文字，只获取位于其后面的标点符号，具体可以为：

（1）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的前面，所述原始文字位于所述原始文本的语句的首位时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并将所述配对标点存储于符号匹配空间；

（2）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的非首位，且所述符号匹配空间中存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，将所述配对标点存储于符号匹配空间；

（3）当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的非首位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，保持所述打点文字不变，按照所述原始文本中位于所述原始文字后的位置确定后一打点文字，将所述配对标点与所述后打点文字合并，将所述配对标点存储于符号匹配空间；

（4）当所述标点符号的类型为非配对标点，且所述标点符号位于所述原始文字的后面时，将所述非配对标点按照所述原始文本中的位置与所述打点文字合并。

具体的处理方式，可以参照前一实施例的描述，在此不再赘述。

在另一种具体实施方式中，还可以直接判断标点符号的类型是否为前半配对标点、后半配对标点以及非配对标点确定合并方式，从而可以提高处理效率，即所述基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式的步骤还可以包括以下至少一者：

A）所述标点符号位于所述原始文字的前面，且所述标点符号的类型为前半配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并，其中，所述前半配对标点为配对标点的前一半；

B）当所述标点符号位于所述原始文字的前面，且所述标点符号的类型为后半配对标点时，保持所述打点文字不变，其中，所述后半配对标点为配对标点符号的后一半；

C）当所述标点符号位于所述原始文字的前面，且所述标点符号的类型为非配对标点时，保持所述打点文字不变；

D)当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为前半配对标点时，保持所述打点文字不变；

E)当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为后半配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并；

F)当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为非配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并。

具体地，对于前半配对标点和后半配对标点的确定，可以预先建立前半配对标点库和后半配对标点库，然后当确定标点符号为配对标点时，与库中的标点符号进行比较就可以。

在另一种具体实施方式中，也可以按照原始文本进行分析，这样只将原始文本的第一个原始文字所处的位置作为原始文本的首位，其他原始文字的位置均为中位或者末位。

步骤S16：停止获取所述音频打点数据。

当判断位于同一文字位置的所述原始文字和所述打点文字不一致时，直接停止获取所述音频打点数据。

步骤S17：判断是否完成所述原始文本全部所述原始文字与标点符号的处理，若是执行步骤S18，若否，转向执行步骤S13。

如果已经完成了原始文本全部原始文字与标点符号的处理，那么就得到了待打点音频的音频打点数据；否则，那么重新获取当前的处理的原始文字之后的文字，并进行后续的处理，即转向步骤S13。

步骤S18：得到所述待打点音频的音频打点数据。

在另一种具体实施方式中，如果在预定时间阈值内没有获取到所述文字级初始打点文本，还可以进一步处理，以提高对于文字级初始打点文本的获取概率，为此，本发明实施例所提供的音频打点数据获取方法还可以包括：

步骤S19：确定未获取到所述文字级初始打点文本的异常原因。

当在预定时间阈值内没有获取到所述文字级初始打点文本时，进一步获取异常原因。

步骤S110：判断所述异常原因是否为未知异常，若是，执行步骤S111，若否，执行步骤S16。

得到异常原因后，基于已知的异常原因，确定异常原因为已知异常还是未知异常，如果是已知异常，那么执行步骤S16，即停止获取所述音频打点数据；如果是未知异常，那么执行步骤S111。

步骤S111：判断输入次数是否达到预定次数，若是，执行步骤S112，若否，执行步骤S11。

当确定异常原因为未知异常时，进一步判断输入次数是否达到预定次数，如果达到，那么无需再次获取了，执行步骤S112，如果未达到预定次数，那么执行步骤S11，以提高获取的可能性。

步骤S112：记录所述未知异常。

可以看出，本发明实施例所提供的音频打点数据获取方法，通过多次利用文字级时间打点模型获取文本字初始打点文本，可以提高对于文字级初始打点文本的获取概率，并且在经过多次，仍然未能获取到文字级初始打点文本时，记录下未知异常，以便后续在输入文字级时间打点模型前，将上述异常克服，提高文字级初始打点文本的获取成功率。

在另一具体实施方式中，为了方便进行打点音频数据的获取，请参考图2，图2为本发明实施例所提供的音频打点数据获取方法的另一流程示意图。

如图中所示，本发明实施例所提供的音频打点数据获取方法，还可以包括：

步骤S20：获取待打点音频和与所述待打点音频对应的原始文本。

步骤S20的具体内容可以参考图1关于步骤S10的描述，在此不再赘述。

步骤S21：将所述待打点音频和所述原始文本输入文字级时间打点模型，获取对应于所述原始文本的各个语句的文字级初始打点文本。

在获取文字级初始打点文本时，所得到的是对应于原始文本的各个语句的，即每一句话的文字级初始打点文本。

在一种具体实施例中，每个语句的切割，可以以表示语句结束的标点符号作为参考，比如：句号、问号，感叹号等等。

步骤S21的其他具体内容可以参考图1关于步骤S11的描述，在此不再赘述。

步骤S22：判断在预定时间阈值内是否获取到所述文字级初始打点文本，如果获取到，则执行步骤S23，如果未获取到，则执行步骤S213。

步骤S22的其他具体内容可以参考图1关于步骤S12的描述，在此不再赘述。

步骤S23：确定文字级初始打点文本的各个所述语句中的当前语句。

得到文字级初始打点文本时，由于文字级初始打点文本是对应于各个语句的，为了方便后续的处理，首先确定文字级初始打点文本的各个语句中的当前语句。

在一种具体实施方式中，可以根据原始文本中各个语句的前后顺序，依次确定当前语句。

步骤S24：获取与所述当前语句对应的原始语句的原始文字，以及所述当前语句中与所述原始文字位置对应的打点文字。

步骤S24的具体内容可以参考图1关于步骤S13的描述，在此不再赘述。

步骤S25：判断位于同一文字位置的所述原始文字和所述打点文字是否一致，若是，执行步骤S26，若否，执行步骤S27。

步骤S25的具体内容可以参考图1关于步骤S14的描述，在此不再赘述。

步骤S26：确定所述原始文字前后的标点符号，基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，根据所述合并方式对所述标点符号与所述打点文字进行合并，得到符号打点文字，并将对应的所述起止时间打点至所述符号打点文字。

步骤S26的具体内容可以参考图1关于步骤S15的描述，在此不再赘述。

步骤S27：停止获取所述音频打点数据。

步骤S27的具体内容可以参考图1关于步骤S16的描述，在此不再赘述。

步骤S28：判断是否完成所述当前语句中各个所述原始文字与标点符号的处理，若是，执行步骤S29，若否，执行步骤S24。

由于对于标点符号的合并是以各个语句为单位执行的，当完成一个语句的处理后，还需要更换语句，直至完成全部的原始文本的处理，因此，当完成一个原始文字的处理后，需要判断是否完成了当前语句中各个所述原始文字与标点符号的处理，如果已经完成，那么就得到了对应于当前语句的语句音频打点数据，如果未完成，那么再执行步骤S24，重新获取与所述当前语句对应的原始语句的原始文字，以及所述当前语句中与所述原始文字位置对应的打点文字。

步骤S29：得到对应于所述当前语句的语句音频打点数据。

步骤S210：判断是否得到对应于各个所述语句的语句音频打点数据，如果是，那么执行步骤S211；如果否，那么执行步骤S212。

当得到对应于当前语句的语句音频打点数据后，进一步判断是否得到了对应于各个语句的语句音频打点数据，如果是，那么完成了整个原始文本的处理，执行步骤S211，否则，需要进行当前语句的更换，即执行步骤S212。

步骤S211：根据所述待打点音频，将各个所述语句音频打点数据进行排列，得到所述音频打点数据。

得到对应于各个语句的语句音频打点数据后，根据待打点音频对其进行排列和合并，就可以得到对应于待打点音频的音频打点数据。

步骤S212：重新确定各个所述语句中的新的当前语句，并执行步骤S24。

如果还存在未进行标点合并的语句，那么重新确定新的当前语句，对于新的当前语句，进行步骤S24-步骤S28的处理。

步骤S213：确定未获取到所述文字级初始打点文本的获取异常原因。

当执行步骤S22后，确定在预定时间阈值内未获取到所述文字级初始打点文本后，执行步骤S213-步骤S216。

步骤S214：判断所述异常原因是否为未知异常，如果是，执行步骤S215，如果否，执行步骤S27。

步骤S215：判断输入次数是否达到预定次数，如果是，执行步骤S216，如果否，执行步骤S21。

步骤S216：记录所述未知异常。

步骤S213-步骤S216的具体内容可以参考图1关于步骤S19-步骤S112的描述，在此不再赘述。

可以看出，本发明实施例所提供的音频打点数据获取装置，在进行打点数据的获取时，不仅能够实现对于文字级别的文本的打点，同时打点数据中还结合有标点符号，具有更高的语义准确性，并且在进行处理的过程中，当将打点文字与标点符号合并时，以各个语句为单位，可以提高合并的准确性和效率，从而可以进一步提高所得到音频打点数据的语义准确性。

下面对本发明实施例提供的音频打点数据获取装置进行介绍，下文描述的音频打点数据获取装置可以认为是，电子设备（如：PC）为分别实现本发明实施例提供的音频打点数据获取方法所需设置的功能模块架构。下文描述的音频打点数据获取装置的内容，可与上文描述的音频打点数据获取方法的内容相互对应参照。

图3是本发明实施例所提供的音频打点数据获取装置的一框图，该音频打点数据获取装置即可应用于客户端，也可应用于服务器端，参考图3，该音频打点数据获取装置，包括：

待打点音频和原始文本获取单元100，适于获取待打点音频和与所述待打点音频对应的原始文本；

文字级初始打点文本获取单元110，适于将所述待打点音频和所述原始文本输入文字级时间打点模型，获取文字级初始打点文本，其中，所述文字级初始打点文本包括打点文字和各个所述打点文字在所述待打点音频中的起止时间；

原始文字和打点文字获取单元120，适于当在预定时间阈值内获取到所述文字级初始打点文本时，获取所述原始文本的原始文字，以及所述文字级初始打点文本中与所述原始文字位置对应的所述打点文字；

音频打点数据获取单元130，当位于同一文字位置的所述原始文字和所述打点文字一致时，确定所述原始文字前后的标点符号，基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，根据所述合并方式对所述标点符号与所述打点文字进行合并，得到符号打点文字，并将对应的所述起止时间打点至所述符号打点文字，直至完成所述原始文本全部所述原始文字与标点符号的处理，得到所述待打点音频的音频打点数据。

为了进行音频打点数据的获取，待打点音频和原始文本获取单元100，首先获取待打点音频，从而能够获取音频播放对应的时间戳，同时还需要获取与待打点音频对应的原始文本，从而为时间戳打点提供文本基础，当然，原始文本不仅包括具体的文字，还包括标点符号，能够更准确地标识待打点音频。

在一种具体实施方式中，待打点音频和原始文本获取单元100，适于获取待打点音频，可以包括：

获取原始音频；

当然，得到待打点音频和原始文本，可以将二者进行保存。

得到待打点音频和原始文本后，文字级初始打点文本获取单元110，将二者均输入至文字级时间打点模型，通过文字级时间打点模型，获取文字级初始打点文本。

文字级初始打点文本包括具体的打点文字，以及各个打点文字在待打点音频中的起止时间，但并不包括标点符号信息。其中，打点文字来自于原始文本中的文字，起止时间来自于待打点音频，并以待打点音频的起始时间为基准。

当在预定时间阈值内获取到文字级初始打点文本时，原始文字和打点文字获取单元120获取原始文字和打点文字，为后续的处理提供文字准备。

预定时间阈值可以根据需要进行确定。具体地，可以从将待打点音频和原始文本输入文字级时间打点模型开始计时。

原始文字与打点文字在对应文本中的位置相互对应，比如，所获取的原始文字是原始文本的第一个文字，那么所获取的打点文字也是所述文字级初始打点文本的第一个文字；如果所对应的文字为英语，那么可以分别获取相应长度（wordLength）的字母。

而同一文字位置，与前述的位置对应具有相同的意思，可以指距离对应文本首部的距离相同的位置，当然也可以以其他位置作为参考进行确定，比如文本尾部等。

当确定位于同一文字位置的原始文字与打点文字一致时，说明打点文字没有出现错误，可以进行进一步的处理，以获取符号打点文字，由于标点符号能够辅助展示文本的语义信息，从而通过音频打点数据获取单元130将标点符号与打点文字进行正确合理的合并，可以提高所得到的音频打点数据的语义准确性和情感准确性。

具体地，在一种具体实施方式中，所述音频打点数据获取单元130，适于基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，可以包括以下至少一者：

在另一种具体实施方式中，还可以直接判断标点符号的类型是否为前半配对标点、后半配对标点以及非配对标点确定合并方式，从而可以提高处理效率，即音频打点数据获取单元130，适于基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式，还可以包括以下至少一者：

当然，音频打点数据获取单元130，还适于当位于同一文字位置的所述原始文字和所述打点文字不一致时，停止获取所述音频打点数据。

音频打点数据获取单元130，适于判断是否完成所述原始文本全部所述原始文字与标点符号的处理，如果已经完成了原始文本全部原始文字与标点符号的处理，那么就得到了待打点音频的音频打点数据；否则，那么重新获取当前的处理的原始文字之后的文字，并继续进行处理。

可以看出，本发明实施例所提供的音频打点数据获取装置，可以直接实现对于字级别的音频数据打点，无需人工处理，从而可以提高所获得的音频打点数据的精度，满足精度要求，并且具有较高的处理效率，成本较低；另一方面，还将标点符号与打点文字进行合并，使得所得到的音频打点数据中不仅具有文本字还具有标点符号，标点符号能够提高文本语义的准确度和情感的准确度，从而所得到的音频打点数据能够更准确地表达文本的语义和情感，提高用户体验。

在另一种具体实施方式中，如果在预定时间阈值内没有获取到所述文字级初始打点文本，还可以进一步处理，以提高对于文字级初始打点文本的获取概率，为此，本发明实施例所提供的音频打点数据获取装置还可以包括：

原因获取单元140，适于确定未获取到所述文字级初始打点文本的异常原因。

当在预定时间阈值内未获取到文字级初始打点文本时，原因获取单元140确定未能在预定时间阈值内获取到的原因，从而为采取进一步的措施提供准备，以提高最终获取到文字级初始打点文本概率。

得到异常原因后，基于已知的异常原因，确定异常原因为已知异常还是未知异常，如果是已知异常，那么停止获取所述音频打点数据；如果是未知异常，那么判断输入次数是否达到预定次数，如果达到，那么无需再次获取了，记录所述未知异常，如果未达到预定次数，那么再次通过文字级初始打点文本获取单元110获取文字级初始打点文本，以提高获取的可能性。

在另一具体实施方式中，为了方便进行打点音频数据的获取，本发明实施例所提供的音频打点数据获取装置，文字级初始打点文本获取单元110，适于将所述待打点音频和所述原始文本输入文字级时间打点模型，获取对应于所述原始文本的各个语句的文字级初始打点文本，还包括：

当前语句确定单元，适于确定文字级初始打点文本的各个所述语句中的当前语句。

原始文字和打点文字获取单元120，适于获取与所述当前语句对应的原始语句的原始文字，以及所述当前语句中与所述原始文字位置对应的打点文字。

由于对于标点符号的合并是以各个语句为单位执行的，音频打点数据获取单元130，当完成一个语句的处理后，还需要更换语句，直至完成全部的原始文本的处理，因此，当完成一个原始文字的处理后，需要判断是否完成了当前语句中各个所述原始文字与标点符号的处理，如果已经完成，那么就得到了对应于当前语句的语句音频打点数据，如果未完成，那么再重新获取与所述当前语句对应的原始语句的原始文字，以及所述当前语句中与所述原始文字位置对应的打点文字。

当得到对应于当前语句的语句音频打点数据后，进一步判断是否得到了对应于各个语句的语句音频打点数据，如果是，那么完成了整个原始文本的处理，根据所述待打点音频，将各个所述语句音频打点数据进行排列，得到所述音频打点数据，否则，需要进行当前语句的更换，重新确定各个所述语句中的新的当前语句。

当然，本发明实施例还提供一种电子设备，本发明实施例提供的电子设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的音频打点数据获取方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图4示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的音频打点数据获取方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的音频打点数据获取方法。

本发明实施例中，电子设备可以是能够进行音频打点数据获取或音频打点数据获取的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图4所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

需要说明的是，上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件（未示出）；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述音频打点数据获取方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，可以直接利用计算机设备实现对于字级别的音频数据打点，无需人工处理，从而可以提高所获得的音频打点数据的精度，满足精度要求，并且具有较高的处理效率，成本较低；另一方面，还将标点符号与打点文字进行合并，使得所得到的音频打点数据中不仅具有文本字还具有标点符号，标点符号能够提高文本语义的准确度和情感的准确度，从而所得到的音频打点数据能够更准确地表达文本的语义和情感，提高用户体验。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种音频打点数据获取方法，其特征在于，包括：

获取待打点音频和与所述待打点音频对应的原始文本；

2.如权利要求1所述的音频打点数据获取方法，其特征在于，所述基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式的步骤包括以下至少一者：

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的前面，所述原始文字位于所述原始文本的语句的首位时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并将所述配对标点存储于符号匹配空间；

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的前面，所述原始文字位于所述原始文本的语句的中位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并在确定所述配对标点未存储于所述符号匹配空间时，将所述配对标点存储于符号匹配空间；

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的中位或末位，且所述符号匹配空间中存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，并清除所述符号匹配空间中的所述配对标点符号；

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的中位或末位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，保持所述打点文字不变，并在确定所述配对标点未存储于所述符号匹配空间时，将所述配对标点存储于符号匹配空间；

当所述标点符号的类型为非配对标点，且所述标点符号位于所述原始文字的后面时，将所述非配对标点按照所述原始文本中的位置与所述打点文字合并。

3.如权利要求1所述的音频打点数据获取方法，其特征在于，所述基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式的步骤包括以下至少一者：

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的非首位，且所述符号匹配空间中存储有与所述标点符号相匹配的匹配标点符号时，将所述配对标点按照所述原始文本中的位置与所述打点文字合并，将所述配对标点存储于符号匹配空间；

当所述标点符号的类型为配对标点，所述标点符号位于所述原始文字的后面，所述原始文字位于所述原始文本的语句的非首位，且所述符号匹配空间中未存储有与所述标点符号相匹配的匹配标点符号时，保持所述打点文字不变，按照所述原始文本中位于所述原始文字后的位置确定后一打点文字，将所述配对标点与所述后打点文字合并，将所述配对标点存储于符号匹配空间；

4.如权利要求1所述的音频打点数据获取方法，其特征在于，所述基于所述标点符号的类型以及所述标点符号与所述原始文字的相对位置，确定所述标点符号与所述打点文字的合并方式的步骤包括以下至少一者：

所述标点符号位于所述原始文字的前面，且所述标点符号的类型为前半配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并，其中，所述前半配对标点为配对标点的前一半；

当所述标点符号位于所述原始文字的前面，且所述标点符号的类型为后半配对标点时，保持所述打点文字不变，其中，所述后半配对标点为配对标点符号的后一半；

当所述标点符号位于所述原始文字的前面，且所述标点符号的类型为非配对标点时，保持所述打点文字不变；

当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为前半配对标点时，保持所述打点文字不变；

当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为后半配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并；

当所述标点符号位于所述原始文字的后面，且所述标点符号的类型为非配对标点时，将所述前半配对标点按照所述原始文本中的位置与所述打点文字合并。

5.如权利要求1所述的音频打点数据获取方法，其特征在于，还包括：

当在所述预定时间阈值内未获取到所述文字初始打点文本时，确定未获取到所述文字级初始打点文本的异常原因。

6.如权利要求4所述的音频打点数据获取方法，其特征在于，还包括：

当所述异常原因为未知异常时，将所述待打点音频和所述原始文本再次输入所述文字级时间打点模型，直至输入次数达到预定次数时，记录所述未知异常。

7.如权利要求4所述的音频打点数据获取方法，其特征在于，还包括：

当所述异常原因为已知异常时，停止获取所述音频打点数据，并报出所述已知异常。

8.如权利要求1所述的音频打点数据获取方法，其特征在于，还包括：

当位于同一文字位置的所述原始文字和所述打点文字不一致时，停止获取所述音频打点数据。

9.如权利要求1-7任一项所述的音频打点数据获取方法，其特征在于，所述将所述待打点音频和所述原始文本输入文字级时间打点模型，获取文字级初始打点文本的步骤包括：

将所述待打点音频和所述原始文本输入文字级时间打点模型，获取对应于所述原始文本的各个语句的文字级初始打点文本；

所述依次获取所述原始文本的各个原始文字，以及所述文字级初始打点文本中与所述原始文字的文字位置对应的各个打点文字的步骤包括：

确定文字级初始打点文本的各个所述语句中的当前语句；

获取与所述当前语句对应的原始语句的原始文字，以及所述当前语句中与所述原始文字位置对应的打点文字；

所述直至完成所述原始文本全部所述原始文字与标点符号的处理，得到所述待打点音频的音频打点数据的步骤包括：

直至完成所述当前语句中各个所述原始文字与标点符号的处理，得到对应于所述当前语句的语句音频打点数据，重新确定各个所述语句中的新的当前语句，直至得到对应于各个所述语句的语句音频打点数据，根据所述待打点音频，将各个所述语句音频打点数据进行排列，得到所述音频打点数据。

10.如权利要求1-7所述的音频打点数据获取方法，其特征在于，所述获取待打点音频的步骤包括：

获取原始音频；

对所述原始音频进行格式处理，得到满足预定格式要求的所述待打点音频。

11.一种音频打点数据获取装置，其特征在于，包括：

12.一种存储介质，其特征在于，所述存储介质存储有适于音频打点数据获取的程序，以实现如权利要求1-10任一项所述的音频打点数据获取方法。

13.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-10任一项所述的音频打点数据获取方法。