CN115775555A

CN115775555A - 标点符号生成方法、装置和存储介质

Info

Publication number: CN115775555A
Application number: CN202111039924.9A
Authority: CN
Inventors: 尹旭贤
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2023-03-10

Abstract

本申请涉及人工智能技术领域，尤其涉及一种标点符号生成方法、装置和存储介质，该方法包括：获取音频信号对应的读音信息；将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。根据本申请实施例，可以减小模型占用空间和能耗，实现更高效的在语音识别结果中生成标点的方法。

Description

标点符号生成方法、装置和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种标点符号生成方法、装置和存储介质。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。也就是说，人工智能研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自动语音识别(automatic speech recognition，ASR)作为AI中的一个重要研究方向，是一种通过计算机将语音转换为相应文字的技术，当前在进行自动语音识别的过程中，通常是直接对识别出的汉字或英文字符提取特征，生成对应的标点，导致对应的模型占用空间大、能耗大，效率低下，因此亟需更高效的在语音识别结果中生成标点的方法。

发明内容

有鉴于此，提出了一种标点符号生成方法、装置和存储介质。

第一方面，本申请的实施例提供了一种标点符号生成方法，该方法包括：获取音频信号对应的读音信息；将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

根据本申请实施例，通过对音频信号对应的读音信息进行拆分，可以减小特征维度，且减小了模型占用的空间和能耗，使得第一模型可以部署端侧，通过对拆分后的读音信息利用第一模型进行预测，得到第一标点符号指示信息，最终确定包括文字及标点符号的第二文本，可以降低模型的计算量，且可以更好的利用上下文信息，提高在语音识别结果中生成标点的预测准确度和预测效率。

根据第一方面，在所述标点符号生成方法的第一种可能的实现方式中，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，包括：根据所述第一字符和第一标点符号指示信息，确定第二标点符号指示信息，所述第二标点符号指示信息与所述读音信息中的读音一一对应，所述第二标点符号指示信息包括每个读音对应的至少一个第一字符中、最后一个第一字符对应的所述第一标点符号指示信息；根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本。

根据本申请实施例，通过在第一标点符号指示信息中确定指示有效标点位置的第二标点符号指示信息，根据第二标点符号指示信息和第一文本，确定第二文本，可以实现确定有效标点位置上文本对应的标点符号，从而更精准的确定文本中的标点位置。

根据第一方面的第一种可能的实现方式，在所述标点符号生成方法的第二种可能的实现方式中，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本，包括：根据所述第二标点符号指示信息和所述第一文本，确定第三文本，其中，所述第三文本的文字数量和所述第二标点符号指示信息中的符号数量相同；根据所述第二标点符号指示信息和所述第三文本，确定所述第二文本。

根据本申请实施例，通过使得第三文本的文字数量和第二标点符号指示信息中的符号数量相同，以确定第二文本，可以实现文本中的文字和符号的长度对齐，从而使得文字和标点符号可以正确融合，提高融合结果的准确性。

根据第一方面或第一方面的第一种或第二种可能的实现方式，在所述标点符号生成方法的第三种可能的实现方式中，所述音频信号对应的读音信息根据所述第一文本确定。

由此，可以实现第一模型根据读音信息预测标点位置，提高模型的预测准确度和预测效率。

根据第一方面或第一方面的第一种或第二种或第三种可能的实现方式，在所述标点符号生成方法的第四种可能的实现方式中，该方法还包括：获取训练数据，所述训练数据包括至少一个第二字符和第三标点符号指示信息，所述第二字符为将训练文本对应的读音信息进行拆分得到的字符，所述第三标点符号指示信息根据所述训练文本对应的标点符号确定，指示每个所述第二字符对应的实际的标点符号；将至少一个第二字符输入第一模型，得到第四标点符号指示信息，所述第四标点符号指示信息指示每个所述第二字符对应的标点符号；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

根据本申请实施例，通过利用拆分后的读音信息和指示实际标点符号的第三标点符号进行训练，根据预测结果进行迭代训练，得到训练好的第一模型，可以实现得到基于拆分后的读音信息预测标点位置的模型，该模型具有更高的预测准确度和预测效率，从而在对标点位置预测时具有更好的效果。

根据第一方面的第四种可能的实现方式，在所述标点符号生成方法的第五种可能的实现方式中，所述训练数据还包括指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型，包括：根据所述第三标点符号指示信息、和所述第四标点符号指示信息中所述位置信息指示的位置上的符号，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

根据本申请实施例，通过利用第三标点符号指示信息和第四标点符号指示信息中位置信息指示的位置上的符号对第一模型进行迭代训练，可以进一步提高模型的预测准确度和预测效率，进一步提高模型在对标点位置预测时的预测效果。

根据第一方面或第一方面的第一种或第二种或第三种或第四种或第五种可能的实现方式，在所述标点符号生成方法的第六种可能的实现方式中，所述第一字符和所述第二字符包括所述读音信息中的字母和/或数字，所述字母指示读音中的音节，所述数字指示读音中的声调。

由此，可以实现拆分后的第一字符、第二字符的字符总数小于读音的总数，减小模型的占用的空间和能耗。

第二方面，本申请的实施例提供了一种标点符号生成装置，该装置包括：第一获取模块，用于获取音频信号对应的读音信息；第一确定模块，用于将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；第二确定模块，用于根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

根据第二方面，在所述标点符号生成装置的第一种可能的实现方式中，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，包括：根据所述第一字符和第一标点符号指示信息，确定第二标点符号指示信息，所述第二标点符号指示信息与所述读音信息中的读音一一对应，所述第二标点符号指示信息包括每个读音对应的至少一个第一字符中、最后一个第一字符对应的所述第一标点符号指示信息；根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本。

根据第二方面的第一种可能的实现方式，在所述标点符号生成装置的第二种可能的实现方式中，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本，包括：根据所述第二标点符号指示信息和所述第一文本，确定第三文本，其中，所述第三文本的文字数量和所述第二标点符号指示信息中的符号数量相同；根据所述第二标点符号指示信息和所述第三文本，确定所述第二文本。

根据第二方面或第二方面的第一种或第二种可能的实现方式，在所述标点符号生成装置的第三种可能的实现方式中，所述音频信号对应的读音信息根据所述第一文本确定。

根据第二方面或第二方面的第一种或第二种或第三种可能的实现方式，在所述标点符号生成装置的第四种可能的实现方式中，该装置还包括：第二获取模块，用于获取训练数据，所述训练数据包括至少一个第二字符和第三标点符号指示信息，所述第二字符为将训练文本对应的读音信息进行拆分得到的字符，所述第三标点符号指示信息根据所述训练文本对应的标点符号确定，指示每个所述第二字符对应的实际的标点符号；第三确定模块，用于将至少一个第二字符输入第一模型，得到第四标点符号指示信息，所述第四标点符号指示信息指示每个所述第二字符对应的标点符号；迭代训练模块，用于根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

根据第二方面的第四种可能的实现方式，在所述标点符号生成装置的第五种可能的实现方式中，所述训练数据还包括指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型，包括：根据所述第三标点符号指示信息、和所述第四标点符号指示信息中所述位置信息指示的位置上的符号，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

根据第二方面或第二方面的第一种或第二种或第三种或第四种或第五种可能的实现方式，在所述标点符号生成装置的第六种可能的实现方式中，所述第一字符和所述第二字符包括所述读音信息中的字母和/或数字，所述字母指示读音中的音节，所述数字指示读音中的声调。

第三方面，本申请的实施例提供了一种标点符号生成装置，该装置包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的标点符号生成方法。

第四方面，本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的标点符号生成方法。

第五方面，本申请的实施例提供了一种终端设备，该终端设备可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的标点符号生成方法。

第六方面，本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的标点符号生成方法。

本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请一实施例的应用场景的示意图。

图2示出根据本申请一实施例的标点符号生成装置与其他装置的交互示意图。

图3示出根据本申请一实施例的标点符号生成方法的训练阶段的流程图。

图4示出根据本申请一实施例的生成训练数据的流程图。

图5示出根据本申请一实施例标点位置预测模型的输入词表的示意图。

图6示出根据本申请一实施例的拆分中英文读音的示意图。

图7示出根据本申请一实施例的标点符号生成方法的推理阶段的流程图。

图8示出根据本申请一实施例的标点预测结果的精度的示意图。

图9示出根据本申请一实施例的标点符号生成方法的流程图。

图10示出根据本申请一实施例的标点符号生成方法的流程图。

图11示出根据本申请一实施例的标点符号生成方法的流程图。

图12示出根据本申请一实施例的标点符号生成方法的流程图。

图13示出根据本申请一实施例的标点符号生成装置的结构图。

图14示出根据本申请一实施例的电子设备100的结构示意图。

图15示出根据本申请一实施例的电子设备100的软件结构框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

图1示出根据本申请一实施例的应用场景的示意图。

在一种可能的实现方式中，本申请实施例提供的标点符号生成方法可以应用在用户与终端设备中的语音助手进行交互的场景中。终端设备可以是指具有无线连接功能的设备，无线连接的功能是指可以通过2G/3G/4G/5G等移动通信技术，以及Wi-Fi、蓝牙、调频(frequency modulation，FM)、数传电台、卫星通信等无线连接方式与其他终端设备进行连接，本申请的终端设备也可以具有有线连接进行通信的功能，例如可以通过同轴电缆、双绞线和光纤等有线连接方式与其他终端设备进行连接。本申请的终端设备可以是触屏的、也可以是非触屏的、也可以是没有屏幕的，触屏的可以通过手指、触控笔等在显示屏幕上点击、滑动等方式对终端设备进行控制，非触屏的设备可以连接鼠标、键盘、触控面板等输入设备，通过输入设备对终端设备进行控制，没有屏幕的设备比如说可以是没有屏幕的蓝牙音箱等，通过将没有屏幕的设备与有屏幕的设备进行连接也可以实现本申请实施例的方法。举例来说，本申请的终端设备可以是智能手机、上网本、平板电脑、笔记本电脑、可穿戴电子设备(如智能手环、智能手表等)、TV、虚拟现实设备、音响、电子墨水，等等。语音助手可以是指终端设备中用于与用户进行智能对话与即时问答的应用，本申请对于终端设备的类型以及语音助手的类型不作限制。本申请实施例提供的标点符号生成方法也可以应用于服务器，服务器可接收终端上传的音频信号、或语音识别结果、或读音信息等，执行本申请实施例的标点符号生成方法后，将执行结果反馈给终端设备。

如图1所示，本申请实施例提供的标点符号生成方法可以应用在用户与终端设备中的语音助手进行交互的场景中。例如，在图1所示的场景中，用户可以对语音助手说：“小艺打开NBA”其中，由于用户的语音内容中不包含对应的标点符号和位置，语音助手在接收到用户的语音后可以将用户的说话内容：“小艺，打开NBA。”在屏幕上进行显示。其中，显示的内容中包括该句话中的标点符号，即语音助手可以根据用户的语音，在识别出语音文字的基础上，生成该句话相应位置上的标点符号，一并进行显示。如果语音助手显示的内容仅为“小艺打开NBA”，不包含标点符号，用户的阅读时的体验不佳，随着语音长度的增加，用户阅读文本时难度也会提升，通过本申请实施例在识别出的文本中的相应位置添加标点符号，能够提升用户阅读时的流畅性，给用户带来更流畅自然的体验。同时，语音助手还可以回答：“好的。”(显示的内容也包括相应位置的标点符号)，并控制终端设备打开有关NBA的相关内容。需要说明的是，本申请实施例也可应用在除此之外的其他应用场景，例如车载导航、智能家居、社交聊天、应用助手、娱乐游戏等等应用场景。

图2示出根据本申请一实施例的标点符号生成装置与其他装置的交互示意图。如图2所示，本申请一实施例的标点符号生成装置可以与语音识别装置进行交互，用于对语音识别装置根据音频信号识别出的读音和/或文字结果进行处理，以确定对应的标点符号位置。

其中，语音识别装置可以包括声学模型，声学模型可以用于根据输入的音频信号，输出音频信号对应的读音信息或文字信息。文字信息表示音频信号对应的文字，文字可以包括不带标点符号的中文文字、英文文字，或其他语言的文字，每一个中文文字(或称为中文字符)可以是一个中文文字信息中的一个汉字，每一个英文文字可以是英文文字信息中的一个字符串，字符串可以是一个英文单词(word)，或者一个缩写(例如NBA)，字符串中可包括一个或多个英文字符。通常，一个英文文字对应的字符串内部是不包含标点符号的，也即，标点符号通常出现在两个中文文字之间，两个英文文字之间，或者中文文字和英文文字之间。读音信息表示音频信号对应的读音，一个中文文字可以对应于一个读音，一个英文文字可以对应于一个或多个读音。对应中文文字的读音可以包括音节和声调，对应英文文字的读音可以包括音节，一个音节可以对应于一个最小语音单位。

在声学模型的输出为读音信息的情况下，语音识别装置还可以包括音转字模块，用于将声学模型输出的读音信息转化为对应的文字信息(例如字符)，音转字模块可以是神经网络模型、加权有限状态转换器(weighted finite state transducer，WFST)、字典或预定的转换矩阵等中的任意一种；在声学模型的输出为文字信息的情况下，由于本申请实施例需要对读音信息拆分后进行标点位置预测，因此需要在语音识别装置中添加字转音模块，用于将声学模型输出的文字信息(例如中文文字和英文文字)转化为对应的读音信息，字转音模块可以是神经网络模型、WFST、字典或预定的转换矩阵等中的任意一种。

标点符号生成装置可以包括读音拆分模块、标点位置预测模型和标点文字融合模块。读音拆分模块可以用于将语音识别装置中生成的读音信息拆分为细粒度字符，每个细粒度字符可以是对读音信息进行拆分后得到的更小单位的字符，例如，中文读音可以用拼音加数字表示，拼音表示音节，数字表示声调，拆分后的细粒度字符可以包括音节中的每个字母、以及声调对应的数字，英文读音也可以用拼音的方式来表示音节，拆分后的细粒度字符可以包括音节中的每个字母，标点位置预测模型可以是任一种神经网络模块，可以包括特征提取模块和标点预测模块，特征提取模块可以用于对拆分后的细粒度字符进行特征提取，得到对应的特征向量，标点预测模块可以用于根据对应的特征向量进行预测推理，确定预测结果，预测结果包括指示细粒度字符对应位置的标点符号信息的符号，标点文字融合模块可以用于根据预测结果和语音识别装置确定的文字，确定最终结果，最终结果包括带标点符号的文字。

本申请一实施例的标点符号生成方法可以分为训练阶段和推理阶段，在训练阶段中对标点位置预测模型进行训练，在推理阶段利用训练好的标点位置预测模型进行标点位置的预测推理。以下通过图3-图8，在图2所示的架构基础上对本申请一实施例的标点符号生成方法进行介绍。

图3示出根据本申请一实施例的标点符号生成方法的训练阶段的流程图。如图3所示，在训练阶段的流程可以包括：

步骤S301，读音拆分模块生成训练数据。

图4示出根据本申请一实施例的生成训练数据的流程图。如图4所示，步骤S301中的流程可以包括：

步骤S401，确定训练文本。

其中，初始的训练文本包括文字和对应的标点符号，本申请对于文字对应的语言不作限制，本申请实施例中以文字为中文文字和/或英文文字为例进行说明，例如，训练文本可以是“小艺，打开NBA。”，其中包括中文字符、英文字符串和标点符号。

步骤S402，对训练文本进行注音。

这一步是将训练文本中的文字信息转化为读音信息。例如，对于“小艺，打开NBA。”，对文字中的中文字符和英文字符串进行注音后可以得到读音信息“xiao3 yi4 da3kai1 en bi ei”。其中，“xiao3”、“yi4”、“da3”、“kai1”为中文读音，“en”、“bi”、“ei”为英文读音，每一个中文读音中的数字对应中文中的声调，中文读音中的英文字母对应音节(如一个中文读音“xiao3”中的“xiao”为一个音节)，英文读音中没有声调，每一个英文读音对应一个音节(如一个英文读音“en”对应一个音节)。

步骤S403，对读音信息进行拆分。

如果直接将上述得到的读音信息输入标点位置预测模型，进行特征提取，在构建特征向量时，以读音为单位，即以每个中文读音(例如“xiao3”)为一个单位，且以每个英文读音(例如“en”)也为一个单位，则可能存在的全部中文读音加上英文读音的数量会达到1598个，模型需要提取出特征向量的大小为1598*256＝400KB，模型的参数量会很大。同理，如果以文字中的中文字符和英文字符串为单位，即以每个中文字符(如“小”)为一个单位，且以每个英文字符串(如“NBA”)为一个单位，则可能存在的全部中文字符加上全部英文字符串的数量会达到8473个，模型需要提取出的特征向量的大小为8473*512＝4.14MB，模型的参数量更大，这样会增加空间占用和功耗，模型无法在端侧运行。

因此，本申请实施例中对读音信息进行拆分，例如对于每一个读音信息中的读音，可以将其拆分为以英文字母和/或数字为单位的细粒度字符，即每个细粒度字符对应表示音节的一个英文字母，或者表示音调的一个数字，则可能存在的全部读音对应的细粒度字符包括26个英文字母(对应音节中的每一个字母)和5个数字(分别对应5个中文声调)，由此可以得到更细粒度的字符。

图5示出根据本申请一实施例标点位置预测模型的输入词表的示意图。对读音信息进行拆分后，输入模型的字符仅有34个，如图5所示，序号3-序号28对应26个英文字母，序号29-序号33对应5个中文声调，还包括序号1对应的空缺符[NULL]、序号2对应的起始符[START]和序号34对应的空白符[BLANK]。

由此，标点位置预测模型提取的特征向量大小34*16＝544B，大大减小了模型占用的空间和模型功耗，使得模型可以部署于端侧。

图6示出根据本申请一实施例的拆分中英文读音信息的示意图。如图6所示，在读音为“xiao3 yi4 da3 kai1 en bi ei”的情况下，经过拆分，得到的细粒度字符为“xiao3yi4 da3 kai1 en bi ei”，共包括21个细粒度字符。其中，xiao3 yi4 da3 kai1是中文文字“小艺打开”的拼音+音调，en bi ei是英文字符串“NBA”的拼音。每个细粒度字符对应读音信息中的一个英文字母或一个数字。

对读音信息进行拆分后，可以根据拆分后的读音信息，生成对应的一串表示有效标点位置的标签(label)，可以称为y_pos，其中，每一个y_pos可以对应拆分后的一个细粒度字符，y_pos的值为1时，可以表示对应位置为有效的标点位置，即标点符号可能出现的位置，y_pos的值为0时，可以表示对应位置为无效的标点位置，即标点符号不可能出现的位置。由于每一个中文字符对应的中文读音中只会有一个声调，且声调出现在对应一个中文读音的最后，(例如中文字符“小”和对应的中文读音“xiao3”)，且标点只可能出现在文字中的每一个中文字符之后，因此可以确定细粒度字符中对应声调的位置的y_pos的值为1；由于在训练阶段，已知哪几个英文读音可以对应一个英文字符串(如英文读音“en bi ei”和对应英文字符串“NBA”)，因此，可以确定对应一个英文字符串的一个或多个英文读音中最后的细粒度字符的位置的y_pos的值为1。

如图3中所示，在细粒度字符为“xiao3 yi4 da3 kai1 en bi ei”的情况下，得到的一串表示有效标点位置的标签为“000010010010001000001”，每个值可以对应细粒度字符中的一个字符，示例中有5个y_pos的值为1，即有5个有效标点位置，分别对应文本中每一个声调(‘3’、‘4’、‘3’、‘1’)，以及一个英文字符串对应的一个或多个英文读音中最后一个细粒度字符(‘i’)的位置，即分别对应“小”、“艺”、“打”、“开”、“NBA”这几个字符或字符串(说明标点符号可能出现在这几个字符或字符串之后)。

根据表示有效标点位置的标签和训练文本中实际的标点符号，还可以生成表示实际的标点符号位置的标签。如图3所示，在细粒度字符为“xiao3 yi4 da3 kai1 en bi ei”的情况下，得到的一串表示实际标点位置的标签为“BBBBBBB，BBBBBBBBBBBB。”，其中，标签中每一个值指示对应位置的标点符号，符号“B”表示空白符[BLANK](参见上述词表)，可以指示对应位置没有标点符号，符号“，”指示对应位置的标点符号为逗号，符号“。”指示对应位置的标点符号为句号。标签中符号的数量与细粒度字符的数量相同，即每个细粒度字符的位置都有对应的指示标点符号信息的符号。

根据上述过程，可以确定训练数据，训练数据包括拆分后的细粒度字符、细粒度字符对应的指示有效标点位置的标签、以及细粒度字符对应的指示对应位置实际标点符号的标签。

步骤S302，读音拆分模块将训练数据中、拆分后的细粒度字符输入标点位置预测模型，确定预测结果。

其中，预测结果为模型预测推理出的每一个细粒度字符对应的符号，这一符号可以用于指示预测的每一细粒度字符对应位置上的标点符号。

步骤S303，根据预测结果计算损失优化，对标点位置预测模型进行迭代训练，直至模型的损失收敛至预定阈值，得到训练好的标点位置预测模型。

在得到预测结果后，可以利用损失函数对模型进行损失优化，并调整模型参数进行迭代训练，直至模型收敛至预定的阈值，得到训练好的标点位置预测模型。利用损失函数对模型进行损失优化的方式参见公式(1)：

其中，N表示拆分后的细粒度字符的数量，P_{y_pred}表示预测出的标点符号为实际的标点符号的概率，该概率可以根据预测结果和实际标点位置的标签确定，即P_{y_pred}可以表示预测结果中指示的标点符号为实际标点位置的标签中对应位置指示的标点符号的概率，y_true的值通常为1。

在一种可能的实现方式中，由于训练数据中包括表示有效标点位置的标签y_pos，因此，为了避免无效标点位置对模型训练过程中的影响，还可以在计算损失优化时仅考虑有效标点位置，避免因对读音信息拆分后无效标点位置对参数更新的影响。可用标签y_pos乘以原损失函数，使得y_pos为0的预测结果被排除，由此，仅考虑有效标点位置对应的预测结果，考虑y_pos对模型进行损失优化的方式可参见公式(2)：

其中，N_pos可以表示细粒度字符中、为有效标点位置的数量。

由此，可以得到训练好的标点位置预测模型。

图7示出根据本申请一实施例的标点符号生成方法的推理阶段的流程图。如图7所示，在推理阶段的流程可以包括：

步骤S701，读音拆分模块将接收到的读音信息进行拆分，得到拆分后的细粒度字符，并将细粒度字符输入标点位置预测模型，输出预测结果。

在声学模型的输出为读音信息的情况下，读音拆分模块拆分的读音信息为声学模型输出的读音信息；在声学模型的输出为文字信息的情况下，由于对应英文字符串的数量太多，一般声学模型不会直接预测文字中的英文字符串，而是会将英文字符串以读音的形式输出建模以预测标点符号，而后通过读音转为字符串，因此，对于“小艺打开NBA”，此时声学模型输出的文字一般是“小艺打开en bi ei”，需要通过字转音模块将文字中的中文字符转化为读音，读音拆分模块拆分的读音信息为字转音模块输出的读音信息。

在读音拆分模块接收到的读音信息为“xiao3 yi4 da3 kai1 en bi ei”的情况下，根据上述拆分方法，可以得到拆分后的细粒度字符“xiao3 yi4 da3 kai1 en bi ei”。

根据拆分后的细粒度字符，可以得到对应的表示有效标点位置的标签，如图所示，对应细粒度字符“xiao3 yi4 da3 kai1 en bi ei”，可以得到训练阶段中表示有效标点位置y_pos的标签“000010010010001010101”。需要说明的是，训练阶段得到的表示有效标点位置y_pos的标签和推理阶段得到的表示有效标点位置y_pos的标签可能不同，这是因为在训练阶段可以事先知道英文读音“en bi ei”对应一个英文字符串“NBA”，而在推理阶段并不知道英文读音“en bi ei”对应几个英文字符串，因此此处对应英文读音的细粒度字符中有效标点位置根据英文读音的数量确定(即可以将每个英文读音中最后一个细粒度字符的位置确定为有效标点位置，例如en、bi、ei中n、i、i的位置均对应1)，而由于中文读音中一个读音可以对应一个中文字符，因此，可以根据中文读音的数量确定对应细粒度字符中的有效标点位置(即每个声调的位置可以确定为有效标点位置)。

将细粒度字符输入标点位置预测模型后，可以得到预测结果，预测结果为模型预测推理出的每一细粒度字符对应的符号，这一符号可以用于指示预测的每一细粒度字符对应位置上的标点符号。例如，对应细粒度字符“xiao3 yi4 da3 kai1 en bi ei”，可以得到预测结果“BBBBBBB，BBBBBBBBBBBB。”。

步骤S702，标点文字融合模块根据预测结果确定有效位置的标点符号。

可以根据步骤S701中得到的表示有效标点位置的标签，例如标签“000010010010001010101”，结合预测结果，例如“BBBBBBB，BBBBBBBBBBBB。”，提取出有效位置上的符号，即，将预测结果中对应有效标点位置y_pos的值为1的位置上的符号提取出来，例如，“000010010010001010101”存在7个有效位置，则可以根据预测结果提取出7个有效位置上的符号“B，BBBB。”。

步骤S703，标点文字融合模块将有效位置的符号与文字进行对齐融合，确定最终结果。

对于文字中的英文字符串，英文字符串内部的字符之间通常是没有标点符号的，由于英文字符串的数量和英文读音的数量可能是不相等的，因此无法直接将得到的有效位置的符号与文字进行对齐融合，需要对文字中的英文字符串进行处理后，再进行对齐融合。

在声学模型的输出为文字信息的情况下，由于此时声学模型输出的文字信息一般是“小艺打开en bi ei”，此时可以根据预测结果提取出的有效位置的符号如“B，BBBB。”指示的对应位置的标点符号，与“小艺打开en bi ei”进行对齐融合，得到“小艺，打开en biei。”，例如，可以根据有效位置的符号中的每一个符号与文字中的每一个字符或读音的一一对应关系，在“B”对应的字符和/或读音后不加标点符号(此处“B”对应于“小”、“打”、“开”、“en”、“bi”)，在“，”对应的中文字符和/或读音后添加逗号(此处“，”对应于“艺”)在“。”对应的中文字符和/或英文字符后添加句号(此处“。”对应于“ei”)。可以将其中的英文读音转化为英文字符，得到最终结果“小艺，打开NBA。”。

在声学模型的输出为读音信息的情况下，需要通过音转字模块将读音转化为文字，由于在转化的过程中，不一定是一个英文读音预测文字中的一个字符串，即并非读音与文字中的英文字符串一一对应，以下以两种对应的对英文字符串处理的方式为例进行说明。

在读音与英文字符串为一一对应的情况下，此时已知三个读音“en bi ei”对应一个英文字符串“NBA”，为了使得字符串和读音的数量一致，可以通过在字符串前添加特殊字符(如‘@’)，来实现字符串和读音的数量一致。例如，可以在“NBA”前添加两个特殊字符，对应三个字符“@@NBA”，其中‘@’、‘@’、“NBA”各为一个字符串(特殊字符@表示的字符串中只有一个字符)，由此，使得“en bi ei”对应的读音数量与“@@NBA”对应的字符串数量一致，这种场景下，读音转字符后，可以得到字符“小艺打开@@NBA”，将其与根据有效位置的符号“B，BBBB。”指示的标点符号进行对齐融合，此时，有效位置上的每一个符号‘B’、‘，’、‘B’、‘B’、‘B’、‘B’、‘。’，可以分别指示字符或字符串“小”、“艺”、“打”、“开”、“@”、“@”、“NBA”之后的标点符号，将标点符号添加至“小艺打开@@NBA”中，可以得到“小艺，打开@@NBA。”，在显示最终结果时，将特殊字符去除，可以得到最终结果“小艺，打开NBA。”。

在读音与字符串并非为一一对应的情况下，此时不知道三个读音“en bi ei”对应几个英文字符串，为了使得字符串和读音的数量一致，可以通过在字符串前添加特殊字符(如‘@’)并标注一个字符串对应的读音数量，来实现字符串和读音的数量一致。例如，可以在添加特殊字符的基础上添加读音数量，例如“en bi ei”可以对应生成字符“@@NBA|3”，其中‘3’表示读音“en bi ei”对应的读音数量，由于“NBA”为一个字符串，因此可以在前面添加两个特殊字符‘@’，这种场景下，读音转字符后，可以得到字符串“小艺打开@@NBA|3”，可以根据标注的读音数量‘3’将字符串拆分为“小艺打开@@NBA”，此后同上一种场景，将其与根据有效位置的符号“B，BBBB。”指示的标点符号进行对齐融合，可以得到“小艺，打开@@NBA。”，在显示最终结果时，将特殊字符去除，可以得到最终结果“小艺，打开NBA。”。

图8示出根据本申请一实施例的标点预测结果的精度的示意图。如图8所示，其中Pr可以表示精确率，Rc可以表示召回率，F1可以表示Pr和Rc的调和平均。对于本申请实施例中的标点位置预测模型，模型的尺寸为606KB，其中，在标点符号为逗号(，)的情况下，Rr为0.745，Rc为0.486，F1为0.588；在标点符号为句号(。)的情况下，Rr为0.743，Rc为0.959，F1为0.837；标点符号为问号(？)的情况下，Rr为0.806，Rc为0.615，F1为0.698；标点符号为感叹号(！)的情况下，Rr为0.658，Rc为0.154，F1为0.250；标点符号为空(Blank)的情况下，Rr为0.970，Rc为0.969，F1为0.979。

由此，可以看出本申请的标点预测结果处理方法具有较高的精度，模型大小较小，可以运行在端侧，且由于模型的特征维度仅有[34,16],与其他方法相比在同等的计算量的条件下，本申请的标点预测结果处理方法在端侧运行时不会感受野(receptive field)受限，即卷积神经网络每一层输出可以映射输入中的更大的区域，由此可以更有效地利用上下文的信息，可以更高效地确定文本中标点符号的位置。

图9示出根据本申请一实施例的标点符号生成方法的流程图。该方法可用于终端设备或服务器，如图9所示，该方法包括：

步骤S901，获取音频信号对应的读音信息；

步骤S902，将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；

步骤S903，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

其中，音频信号对应的读音信息可以上述声学模型输出的读音信息，也可以是上述字转音模块输出的读音信息；第一字符可以例如上述推理阶段中的细粒度字符，第一标点符号指示信息可以例如上述图7中的预测结果；第一文本可以是上述声学模型输出的文字信息，也可以是上述音转字模块输出的文字信息，例如上文举例的“小艺打开NBA”，第二文本可以是上述最终结果，例如上文举例的“小艺，打开NBA。”。第一模型可以是上述标点位置预测模型。

步骤S901-S902的示例可参见上文图7中步骤S701中的相关叙述，步骤S903的示例可参见上文步骤S702-S703中的相关叙述。

图10示出根据本申请一实施例的标点符号生成方法的流程图。如图10所示，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，包括：

步骤S1001，根据所述第一字符和第一标点符号指示信息，确定第二标点符号指示信息，所述第二标点符号指示信息与所述读音信息中的读音一一对应，所述第二标点符号指示信息包括每个读音对应的至少一个第一字符中、最后一个第一字符对应的所述第一标点符号指示信息；

步骤S1002，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本。

其中，第二标点符号指示信息可以例如上述推理阶段中指示有效标点位置的标签y_pos。

步骤S1001的示例可参见上文图7中步骤S702中的相关叙述，步骤S1002的示例可参见图7中步骤S703中的相关叙述。

图11示出根据本申请一实施例的标点符号生成方法的流程图。如图11所示，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本，包括：

步骤S1101，根据所述第二标点符号指示信息和所述第一文本，确定第三文本，其中，所述第三文本的文字数量和所述第二标点符号指示信息中的符号数量相同；

步骤S1102，根据所述第二标点符号指示信息和所述第三文本，确定所述第二文本。

其中，第三文本可以例如图7中添加了特殊字符的文字，本申请中也可以通过除图7中步骤S703所示的两种处理方式以外的方式确定第三文本。

步骤S1101-步骤S1102的示例可参见图7中步骤703中的相关叙述。

在一种可能的实现方式中，所述音频信号对应的读音信息根据所述第一文本确定。

图12示出根据本申请一实施例的标点符号生成方法的流程图。如图12所示，该方法还包括：

步骤S1201，获取训练数据，所述训练数据包括至少一个第二字符和第三标点符号指示信息，所述第二字符为将训练文本对应的读音信息进行拆分得到的字符，所述第三标点符号指示信息根据所述训练文本对应的标点符号确定，指示每个所述第二字符对应的实际的标点符号；

步骤S1202，将至少一个第二字符输入第一模型，得到第四标点符号指示信息，所述第四标点符号指示信息指示每个所述第二字符对应的标点符号；

步骤S1203，根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

其中，第二字符可以是上述训练阶段中的细粒度字符，第三标点符号指示信息可以例如上述训练阶段中表示实际标点符号位置的标签y_pos，第四标点符号指示信息可以是上述训练阶段中的预测结果。

步骤S1201的示例可参见图3中步骤S301中的相关叙述，步骤S1202的示例可参见图3中步骤S302中的相关叙述，步骤S1203的示例可参见图3中步骤S303中的相关叙述。

在一种可能的实现方式中，所述训练数据还包括指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型，包括：根据所述第三标点符号指示信息和所述第四标点符号指示信息中所述位置信息指示的位置上的符号，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

其中，指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息可以是训练阶段中表示有效标点位置的标签。

上述过程的示例可参见图3中步骤S303中有关公式(2)的相关叙述。

在一种可能的实现方式中，所述第一字符和所述第二字符包括所述读音信息中的字母和/或数字，所述字母指示读音中的音节，所述数字指示读音中的声调。

图13示出根据本申请一实施例的标点符号生成装置的结构图。如图13所示，该装置包括：

第一获取模块1301，用于获取音频信号对应的读音信息；

第一确定模块1302，用于将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；

第二确定模块1303，用于根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

在一种可能的实现方式中，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，包括：根据所述第一字符和第一标点符号指示信息，确定第二标点符号指示信息，所述第二标点符号指示信息与所述读音信息中的读音一一对应，所述第二标点符号指示信息包括每个读音对应的至少一个第一字符中、最后一个第一字符对应的所述第一标点符号指示信息；根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本。

在一种可能的实现方式中，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本，包括：根据所述第二标点符号指示信息和所述第一文本，确定第三文本，其中，所述第三文本的文字数量和所述第二标点符号指示信息中的符号数量相同；根据所述第二标点符号指示信息和所述第三文本，确定所述第二文本。

在一种可能的实现方式中，该装置还包括：第二获取模块，用于获取训练数据，所述训练数据包括至少一个第二字符和第三标点符号指示信息，所述第二字符为将训练文本对应的读音信息进行拆分得到的字符，所述第三标点符号指示信息根据所述训练文本对应的标点符号确定，指示每个所述第二字符对应的实际的标点符号；第三确定模块，用于将至少一个第二字符输入第一模型，得到第四标点符号指示信息，所述第四标点符号指示信息指示每个所述第二字符对应的标点符号；迭代训练模块，用于根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

在一种可能的实现方式中，所述训练数据还包括指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型，包括：根据所述第三标点符号指示信息、和所述第四标点符号指示信息中所述位置信息指示的位置上的符号，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

图14示出根据本申请一实施例的电子设备100的结构示意图。

电子设备100可以包括手机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备、或智慧城市设备中的至少一种。本申请实施例对该电子设备100的具体类型不作特殊限制。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接头130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110用过或使用频率较高的指令或数据。如果处理器110需要使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。处理器110可以通过以上至少一种接口连接触摸传感器、音频模块、无线通信模块、显示器、摄像头等模块。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

USB接头130是一种符合USB标准规范的接口，可以用于连接电子设备100和外围设备，具体可以是Mini USB接头，Micro USB接头，USB Type C接头等。USB接头130可以用于连接充电器，实现充电器为该电子设备100充电，也可以用于连接其他电子设备，实现电子设备100与其他电子设备之间传输数据。也可以用于连接耳机，通过耳机输出电子设备中存储的音频。该接头还可以用于连接其他电子设备，例如VR设备等。在一些实施例中，通用串行总线的标准规范可以为USB1.x、USB2.0、USB3.x和USB4。

充电管理模块140用于接收充电器的充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，蓝牙低功耗(bluetooth low energy，BLE)，超宽带(ultra wide band，UWB),全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。该GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100可以通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示文字，图像，视频等。在一些实施例中，显示屏194可以用于显示上述最终结果，即带标点符号的文字信息。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或多个显示屏194。

电子设备100可以通过摄像模组193，ISP，视频编解码器，GPU，显示屏194以及应用处理器AP、神经网络处理器NPU等实现摄像功能。

数字信号处理器用于处理数字信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。或将音乐，视频等文件从电子设备传输至外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能方法或数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或输出免提通话的音频信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

在一些实施例中，处理器110中的CPU或GPU或NPU可以对音频模块170所采集的音频信号进行处理。在一些实施例中，NPU可以基于上述声学模型，来识别音频模块170所采集的音频信号，以确定上述文字信息或读音信息。CPU或GPU也基于上述声学模型以确定上述文字信息或读音信息。在一些实施例中，CPU或GPU或NPU还可用于基于上述标点位置预测模型，确定文字信息中的标点符号位置。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A

的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测该触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，控制镜头反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100根据气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。当电子设备为可折叠电子设备，磁传感器180D可以用于检测电子设备的折叠或展开，或折叠角度。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到的反射光的强度大于阈值时，可以确定电子设备100附近有物体。当检测到的反射光的强度小于阈值时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L可以用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否被遮挡，例如电子设备在口袋里。当检测到电子设备被遮挡或在口袋里，可以使部分功能(例如触控功能)处于禁用状态，以防误操作。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当通过温度传感器180J检测的温度超过阈值，电子设备100执行降低处理器的性能，以便降低电子设备的功耗以实施热保护。在另一些实施例中，当通过温度传感器180J检测的温度低于另一阈值时，电子设备100对电池142加热。在其他一些实施例中，当温度低于又一阈值时，电子设备100可以对电池142的输出电压升压。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于该骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于该骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190可以包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或多个SIM卡接口。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为五层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime，ART)和原生C/C++库，硬件抽象层(HardwareAbstract Layer，HAL)以及内核层。

应用程序层可以包括一系列应用程序包。

如图15所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图15所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，资源管理器，通知管理器,活动管理器，输入管理器等。

窗口管理器提供窗口管理服务(Window Manager Service，WMS),WMS可以用于窗口管理、窗口动画管理、surface管理以及作为输入系统的中转站。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。该数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

活动管理器可以提供活动管理服务(Activity Manager Service，AMS)，AMS可以用于系统组件(例如活动、服务、内容提供者、广播接收器)的启动、切换、调度以及应用进程的管理和调度工作。

输入管理器可以提供输入管理服务(Input Manager Service，IMS)，IMS可以用于管理系统的输入，例如触摸屏输入、按键输入、传感器输入等。IMS从输入设备节点取出事件，通过和WMS的交互，将事件分配至合适的窗口。

安卓运行时包括核心库和安卓运行时。安卓运行时负责将源代码转换为机器码。安卓运行时主要包括采用提前(ahead or time，AOT)编译技术和及时(just in time，JIT)编译技术。

核心库主要用于提供基本的Java类库的功能，例如基础数据结构、数学、IO、工具、数据库、网络等库。核心库为用户进行安卓应用开发提供了API。。

原生C/C++库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体框架(Media Framework)，libc，OpenGL ES、SQLite、Webkit等。

其中，表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体框架支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。OpenGL ES提供应用程序中2D图形和3D图形的绘制和操作。SQLite为电子设备100的应用程序提供轻量级关系型数据库。

硬件抽象层运行于用户空间(user space)，对内核层驱动进行封装，向上层提供调用接口。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

本申请的实施例提供了一种标点符号生成装置，包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。

本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种终端设备，该终端设备可以执行上述方法。

本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(WideArea Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit，专用集成电路))来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种标点符号生成方法，其特征在于，所述方法包括：

获取音频信号对应的读音信息；

将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；

根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

2.根据权利要求1所述的方法，其特征在于，根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，包括：

根据所述第一字符和第一标点符号指示信息，确定第二标点符号指示信息，所述第二标点符号指示信息与所述读音信息中的读音一一对应，所述第二标点符号指示信息包括每个读音对应的至少一个第一字符中、最后一个第一字符对应的所述第一标点符号指示信息；

根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本。

3.根据权利要求2所述的方法，其特征在于，根据所述第二标点符号指示信息和所述第一文本，确定所述第二文本，包括：

根据所述第二标点符号指示信息和所述第一文本，确定第三文本，其中，所述第三文本的文字数量和所述第二标点符号指示信息中的符号数量相同；

根据所述第二标点符号指示信息和所述第三文本，确定所述第二文本。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述音频信号对应的读音信息根据所述第一文本确定。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

获取训练数据，所述训练数据包括至少一个第二字符和第三标点符号指示信息，所述第二字符为将训练文本对应的读音信息进行拆分得到的字符，所述第三标点符号指示信息根据所述训练文本对应的标点符号确定，指示每个所述第二字符对应的实际的标点符号；

将至少一个第二字符输入第一模型，得到第四标点符号指示信息，所述第四标点符号指示信息指示每个所述第二字符对应的标点符号；

根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

6.根据权利要求5所述的方法，其特征在于，所述训练数据还包括指示所述训练文本中的每一个文字对应的至少一个第二字符中、最后一个第二字符对应的位置的位置信息；根据所述第三标点符号指示信息和所述第四标点符号指示信息，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型，包括：

根据所述第三标点符号指示信息、和所述第四标点符号指示信息中所述位置信息指示的位置上的符号，对所述第一模型进行迭代训练，直至满足预定的收敛条件，得到所述训练好的第一模型。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述第一字符和所述第二字符包括所述读音信息中的字母和/或数字，所述字母指示读音中的音节，所述数字指示读音中的声调。

8.一种标点符号生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取音频信号对应的读音信息；

第一确定模块，用于将至少一个第一字符输入第一模型，得到第一标点符号指示信息，所述第一字符为将所述音频信号对应的读音信息进行拆分得到的字符，所述第一标点符号指示信息指示每个所述第一字符对应的标点符号；

第二确定模块，用于根据所述第一字符、所述第一标点符号指示信息和第一文本，确定第二文本，所述第一文本包括音频信号对应的文字，所述第二文本包括音频信号对应的文字及标点符号。

9.一种标点符号生成装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-7任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法。

11.一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行权利要求1-7中任意一项所述的方法。