CN116956814A

CN116956814A - 标点预测方法、装置、设备及存储介质

Info

Publication number: CN116956814A
Application number: CN202211637948.9A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-10-27

Abstract

本申请提供了一种标点预测方法、装置、设备及存储介质，属于计算机技术领域，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶、语音识别等各种场景。该方法包括：融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征；基于融合特征和文本特征，确定目标文本的标点变化预测信息、分类预测信息以及标点预测信息；基于标点变化预测信息、分类预测信息以及标点预测信息，确定目标文本的标点预测结果。上述方案，能够从音频和文本两个模态来对目标文本的标点进行预测，使得标点预测的结果更加准确。

Description

标点预测方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种标点预测方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，智能语音设备越来越常见，如智能音响、智能对话机器人等。智能语音设备通常都具有语音识别功能，通过对音频数据进行语音识别能够得到该音频数据对应的文本数据。

相关技术中，为了更加准确地理解文本数据的含义，需要在该文本数据中添加对应的标点。在对文本数据添加标点的过程中，通常采用机器学习的方法对文本数据进行标点预测。首先将音频数据进行语音识别得到待预测的文本数据，然后基于标点预测模型，对文本数据进行标点预测，得到标点预测结果，进而得到添加标点后的文本数据。然而，该方案只考虑了文本数据对标点预测的作用，导致标点预测的准确率较低，标点预测效果较差。

发明内容

本申请实施例提供了一种标点预测方法、装置、设备及存储介质，能够从音频和文本两个模态来对目标文本的标点进行预测，使得标点预测的结果更加准确。所述技术方案如下：

一方面，提供了一种标点预测方法，所述方法包括：

融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征，所述目标文本通过对所述目标音频进行语音识别得到；

基于所述融合特征和所述文本特征，确定所述目标文本的标点变化预测信息、分类预测信息以及标点预测信息，所述标点变化预测信息用于指示所述目标文本中相邻语素之间是否存在标点，所述分类预测信息用于指示所述目标文本的对话类型，所述标点预测信息用于指示目标文本中每个语素对应的标点的标点类型；

基于所述标点变化预测信息、所述分类预测信息以及所述标点预测信息，确定所述目标文本的标点预测结果，所述标点预测结果用于指示所述目标文本中的标点位置以及每个标点位置的标点类型。

一方面，提供了一种标点预测模型的训练方法，所述方法包括：

获取样本音频、样本文本以及所述样本文本的样本标点结果，所述样本文本通过对所述样本音频进行语音识别得到，所述样本标点结果用于指示所述样本文本中的标点位置以及每个标点位置的标点类型；

基于标点预测模型，对所述样本文本进行标点预测，得到所述样本文本的样本标点预测结果，所述样本标点预测结果用于指示所述样本文本中的预测标点位置以及每个预测标点位置的预测标点类型；

基于所述样本标点结果和所述样本标点预测结果，确定所述标点预测模型的训练损失；

基于所述训练损失，更新所述标点预测模型的模型参数。

另一方面，提供了一种标点预测装置，所述装置包括：

特征融合模块，用于融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征，所述目标文本通过对所述目标音频进行语音识别得到；

信息确定模块，用于基于所述融合特征和所述文本特征，确定所述目标文本的标点变化预测信息、分类预测信息以及标点预测信息，所述标点变化预测信息用于指示所述目标文本中相邻语素之间是否存在标点，所述分类预测信息用于指示所述目标文本的对话类型，所述标点预测信息用于指示目标文本中每个语素对应的标点的标点类型；

结果确定模块，用于基于所述标点变化预测信息、所述分类预测信息以及所述标点预测信息，确定所述目标文本的标点预测结果，所述标点预测结果用于指示所述目标文本中的标点位置以及每个标点位置的标点类型。

在一些实施例中，所述融合特征中的多个元素与所述目标文本中的多个语素一一对应；

所述信息确定模块，包括：

第一确定单元，用于基于所述目标文本的多个差值特征，确定所述标点变化预测信息，所述差值特征用于表示所述目标文本中相邻的语素之间的差异；

第二确定单元，用于基于所述融合特征中各元素的平均特征，确定所述分类预测信息；

第三确定单元，用于基于拼接所述融合特征和所述文本特征得到的拼接特征，确定所述标点预测信息。

在一些实施例中，所述第一确定单元，用于对于所述多个语素中的任一语素，确定所述语素的后邻语素，所述后邻语素在所述目标文本中的位置与所述语素相邻且位于所述语素后方；对所述后邻语素在所述融合特征中对应的元素与所述语素在所述融合特征中对应的元素做差，得到所述语素的差值特征；对所述语素的差值特征进行全连接，得到所述语素的标点变化结果，所述标点变化结果用于指示所述语素与所述后邻语素之间是否存在标点。

在一些实施例中，所述第二确定单元，用于对所述融合特征中的多个元素进行加权平均，得到所述目标文本的中间特征；对所述目标文本的中间特征进行全连接和分类预测，得到所述分类预测信息。

在一些实施例中，所述第三确定单元，用于对于所述多个语素中的任一语素，从所述融合特征中确定所述语素对应的第一子特征；从所述文本特征中确定所述语素对应的第二子特征；拼接所述第一子特征和所述第二子特征，得到所述语素的拼接特征；基于所述语素的拼接特征，确定所述语素对应的标点的标点类型。

在一些实施例中，所述装置还包括：

添加模块，用于基于所述标点预测结果，在所述目标文本中添加标点；

执行模块，用于基于添加标点后的所述目标文本中包含的语义信息，执行所述语义信息所指示的任务。

另一方面，提供了一种标点预测模型的训练装置，所述装置包括：

获取模块，用于获取样本音频、样本文本以及所述样本文本的样本标点结果，所述样本文本通过对所述样本音频进行语音识别得到，所述样本标点结果用于指示所述样本文本中的标点位置以及每个标点位置的标点类型；

预测模块，用于基于标点预测模型，对所述样本文本进行标点预测，得到所述样本文本的样本标点预测结果，所述样本标点预测结果用于指示所述样本文本中的预测标点位置以及每个预测标点位置的预测标点类型；

损失确定模块，用于基于所述样本标点结果和所述样本标点预测结果，确定所述标点预测模型的训练损失；

更新模块，用于基于所述训练损失，更新所述标点预测模型的模型参数。

在一些实施例中，所述预测模块，包括：

特征提取单元，用于基于所述标点预测模型，从所述样本音频中提取所述样本音频中音频帧的样本音频特征，从所述样本文本中提取所述样本文本中语素的样本文本特征；

特征融合单元，用于融合所述样本音频特征和所述样本文本特征，得到样本融合特征；

信息确定单元，用于基于所述样本融合特征和所述样本文本特征，确定所述样本文本的样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，所述样本标点变化预测信息用于指示所述样本文本中相邻语素之间是否存在标点，所述样本分类预测信息用于指示所述样本文本的对话类型，所述样本标点预测信息用于指示样本文本中每个语素对应的标点的标点类型；

结果确定单元，用于基于所述样本标点变化预测信息、所述样本分类预测信息以及所述样本标点预测信息，确实所述样本标点预测结果。

在一些实施例中，所述损失确定模块，用于基于所述样本标点变化信息和所述样本标点变化预测信息，确定标点变化预测损失；基于所述样本分类信息和所述样本分类预测信息，确定分类预测损失；基于所述样本标点信息和所述样本标点预测信息，确定标点预测损失；对所述标点变化预测损失、所述分类预测损失以及所述标点预测损失进行加权求和，得到所述标点预测模型的训练损失。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的标点预测方法。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的标点预测模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中标点预测方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现本申请实施例中的标点预测模型的训练方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现本申请实施例中提供的标点预测方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现本申请实施例中的标点预测模型的训练方法。

本申请实施例提供了一种标点预测方法，通过对目标音频中音频帧的音频特征和目标音频对应的目标文本中语素的文本特征进行特征融合，能够得到融合特征。基于融合特征和文本特征，能够确定用于反映目标文本中标点情况的多种信息，也即得到了用于反映目标文本中局部标点情况的标点变化预测信息和用于反映目标文本中全局标点情况的分类预测信息。进而基于该标点变化预测信息、分类预测信息以及标点预测信息对目标文本中的标点进行预测，能够确定目标文本中的标点位置和各个标点位置的标点类型。由于从音频和文本两个模态来对目标文本的标点进行预测，使得标点预测的结果更加准确，提升了标点预测的稳定性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种标点预测方法的实施环境；

图2是根据本申请实施例提供的一种标点预测方法的流程图；

图3是根据本申请实施例提供的另一种标点预测方法的流程图；

图4是根据本申请实施例提供的一种F0变化趋势的示意图；

图5是根据本申请实施例提供的一种从音频中挖掘有效语义信息进行标点预测的流程示意图；

图6是根据本申请实施例提供的一种标点预测界面的示意图；

图7是根据本申请实施例提供的一种标点预测模型的训练方法的流程图；

图8是根据本申请实施例提供的另一种标点预测模型的训练方法的流程图；

图9是根据本申请实施例提供的一种基于标点预测模型的模型结构图；

图10是根据本申请实施例提供的一种基于标点预测模型进行标点预测的数据流向图；

图11是根据本申请实施例提供的一种标点预测装置的框图；

图12是根据本申请实施例提供的另一种标点预测装置的框图；

图13是根据本申请实施例提供的一种标点预测模型的训练装置的框图；

图14是根据本申请实施例提供的另一种标点预测模型的训练装置的框图；

图15是根据本申请实施例提供的一种终端的结构框图；

图16是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标音频和目标文本都是在充分授权的情况下获取的。

为了便于理解，以下，对本申请涉及的术语进行解释。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自动语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术，该技术是让计算机能够“听写”出不同人所说出的连续语音，是实现“声音”到“文字”转换的技术，可以将语音信息转换为文本信息。

F0(Fundamental frequency)：基本频率，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基音。

注意力机制：在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。

编码器：接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。

交叉熵(Cross Entropy)：是香农信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。

F1-score：F1分数，是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。

语素：语言学术语，是指语言中最小的音义结合体。也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素，尤其是“最小”和“有义”。

以下将基于机器学习技术和自动语音识别技术，对本申请实施例提供的标点预测方法进行说明。

本申请实施例提供的标点预测方法，能够由计算机设备执行。在一些实施例中，该计算机设备为终端或服务器。下面以计算机设备为服务器为例，介绍一下本申请实施例提供的标点预测方法的实施环境，图1是根据本申请实施例提供的一种标点预测方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端101安装和运行有支持音频录制功能和文本展示功能的应用程序。该应用程序用于收集用户的音频数据并展示与音频数据对应的文本数据。用户可以通过终端101登录该应用程序来进行音频的录制并查看识别出的文本数据是否与音频数据相符。该应用程序与服务器102关联，由服务器102提供后台服务。在一些实施例中，该应用程序还用于基于服务器102返回的文本数据进行相关任务的执行。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102接收终端101通过应用程序上传的音频数据，服务器102通过自动语音识别技术将音频数据转换成文本数据，并基于音频数据和文本数据，对文本数据进行标点预测，得到添加标点后的文本数据。服务器102向终端101返回该文本数据，由终端101通过应用程序展示该文本数据。

在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

图2是根据本申请实施例提供的一种标点预测方法的流程图，如图2所示，在本申请实施例中以由服务器执行为例进行说明。该标点预测方法包括以下步骤：

201、服务器融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征，目标文本通过对目标音频进行语音识别得到。

在本申请实施例中，该目标音频可以是音频流中的一段音频数据，也可以是完整的一段音频流数据。服务器可以通过多种方式获取该目标音频。服务器可以从本地的音频数据库中获取该目标音频，也可以从终端中获取目标音频。其中终端为具有音频录制功能的设备，终端能够对用户输出的音频数据进行实时采集，并通过与服务器之间的连接，将该音频数据发送至服务器。该目标文本为服务器基于自动语音识别技术，对目标音频进行语音识别得到的。可选地，该目标文本为人工撰写文本，即通过对该目标音频进行人工语音识别，得到该目标文本。

服务器能够从目标音频的音频特征中确定与目标文本中任一语素对应的音频特征。服务器通过将目标文本中每个语素的文本特征与目标音频的音频特征进行融合，能够得到融合特征。其中，该音频特征用于表示目标音频对应的音频信息，该文本特征用于表示目标文本对应的文本信息。该融合特征中的多个元素与目标文本中多个语素一一对应。该目标文字中的语素为最小的语法单位。

202、服务器基于融合特征和文本特征，确定目标文本的标点变化预测信息、分类预测信息以及标点预测信息，标点变化预测信息用于指示目标文本中相邻语素之间的是否存在标点，分类预测信息用于指示目标文本的对话类型，标点预测信息用于指示目标文本中每个语素对应的标点的标点类型。

在本申请实施例中，由于该融合特征中的多个元素与目标文本中的多个语素一一对应，该文本特征中的多个元素与目标文本中的多个语素也一一对应。由于该融合特征用于表示目标文本对应的音频信息，该文本特征用于表示目标文本对应的文本信息。因此，服务器基于该融合特征和文本特征，即基于目标文本对应的文本信息和目标文本对应的音频信息，能够确定用于反映目标文本中标点情况的多种信息。其中，多种信息包括标点变化预测信息，分类预测信息以及标点预测信息。

由于服务器通过比较目标文本中相邻语素对应的融合特征中的元素之间的差异，能够确定用于反映目标文本中相邻语素之间的是否存在标点的标点预测信息。因此，该标点变化预测信息能够用于表示该目标文本中的局部标点情况。

由于服务器通过对目标文本中多个语素对应的融合特征中的元素进行综合分析，能够确定用于反映目标文本的对话类型的分类预测信息。因此，该分类预测信息能够用于表示该目标文本的全局标点情况。

服务器还能够通过分析该目标文本中每个语素对应的融合特征中的元素和文本特征中的元素，确定用于反映每个语素对应的标点的标点类型的标点预测信息。

203、服务器基于标点变化预测信息、分类预测信息以及标点预测信息，确定目标文本的标点预测结果，标点预测结果用于指示目标文本中的标点位置以及每个标点位置的标点类型。

在本申请实施例中，由于该标点变化预测信息用于指示目标文本中相邻语素之间是否存在标点，因此基于该标点变化预测信息，能够基于局部的角度确定目标文本中的标点位置。由于该分类预测信息用于指示目标文本的对话类型，因此基于该分类预测信息，能够基于全局的角度确定目标文本包括的标点类型。由于该标点预测信息用于指示目标文本中每个语素对应的标点的标点类型，因此，服务器能够基于局部的标点变化预测信息和全局的分类预测信息以及标点预测信息，对目标文本的标点进行预测，确定目标文本中的标点位置以及每个标点位置的标点类型。

图3是根据本申请实施例提供的另一种标点预测方法的流程图，如图3所示，在本申请实施例中以由服务器执行为例进行说明。该标点预测方法包括以下步骤：

301、服务器融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征，目标文本通过对目标音频进行语音识别得到，融合特征中的多个元素与目标文本中的多个语素一一对应。

在本申请实施例中，服务器通过将该目标音频输入到音频编码器，可以得到目标音频中每个音频帧的音频特征。同理，服务器通过将该目标文本输入到文本编码器中，可以得到目标文本中每个语素的文本特征。由于该目标音频中的音频帧与目标文本中的语素相对应，因此，服务器可以通过将目标文本中每个语素的文本特征与目标音频的音频特征进行融合，得到融合了音频信息和文本信息的融合特征。其中，该融合特征中的多个元素与目标文本中多个语素一一对应。为了便于说明，把语素对应的融合特征中的元素称为语素的融合子特征。即该融合特征包括多个语素的融合子特征，该融合子特征用于表示每个语素对应的音频信息。

该音频编码器可以为训练好的声学模型，该文字编码器可以为训练好的语言模型。该音频特征用于表示目标音频中每个音频帧对应的音频信息，该文本特征用于表示目标文本中每个语素对应的文本信息。该目标文字中的语素作为最小的语法单位，包括三种构词方式，分别为单音节语素、双音节语素和多音节语素。其中单音节语素用于表示单个字，双音节语素和多音节语素用于表示由两个或多个字组成的词。可选地，服务器对该目标文本进行分词处理，能够得到目标文本中的每个语素。

例如，上述音频编码器为Wav2vec 2.0预训练声学模型。Wav2vec 2.0是一种基于大量无标签数据进行自监督预训练的模型，它由多层卷积的特征编码层和多层transformer(转换器)构成。通过输入原始音频信号(即目标音频)到音频编码器中，可以得到每个音频帧的音频特征。上述文本编码器为BERT(Bidirectional EncoderRepresentations from Transformer，基于转换器的双向编码器表征)模型。BERT也是一种基于大量无标签数据进行自监督训练得到的模型，通过输入一句话(即目标文本)到文本编码器中，可以得到每个语素的文本特征。

在一些实施例中，对于目标文本中的任一语素，服务器基于注意力机制，将该语素的文本特征与目标音频的音频特征进行融合，得到语素的融合子特征。其中，注意力机制可以看成一种软对齐，能够将文本与音频对应的部分进行对齐。即通过跨模态特征对齐的方式，将每一语素的文本特征与每一音频帧的音频特征进行对齐，从而实现从语音中挖掘有效的语义信息。

其中，服务器将每个语素的文本特征作为查询向量(query)；将音频特征作为键向量(key)和值向量(value)；基于查询向量、键向量和值向量，进行基于注意力机制的交叉融合处理，得到每个语素的融合子特征。换而言之，通过将每个语素的文本特征与该目标音频中的所有音频帧的音频特征进行基于注意力的交互，可以得到每个语素的对应的音频表示，即每个语素的融合子特征。

注意力机制用于建模query、key、value之间的关系，基于注意力机制进行特征融合的过程，可以通过下述公式(1)实现。

其中，Q为query向量，K为key向量，V为value向量。K和Q的向量维度为d_k。在本申请实施例中，query为每个语素的文本特征，是上述文本编码器的输出。key和value为该目标音频的音频特征，是上述音频编码器的输出。

302、服务器基于目标文本的多个差值特征，确定标点变化预测信息，差值特征用于表示目标文本中相邻的语素之间的差异，标点变化预测信息用于指示目标文本中相邻语素之间的是否存在标点。

在本申请实施例中，由于该目标文本中的多个语素与该融合特征中的多个元素一一对应，且每个语素对应的元素为该语素的融合子特征，该融合子特征用于表示语素对应的音频信息。因此，服务器通过比较目标文本中相邻语素对应的音频信息之间的差异，即基于目标文本中相邻的语素的融合子特征，能够确定目标文本中的多个差值特征。由于该差值特征能够表示目标文本中相邻的语素之间的差异，因此服务器基于多个差值特征，能够确定用于反映目标文本中相邻语素之间的是否存在标点的标点预测信息。该标点变化预测信息能够用于表示该目标文本中的局部标点情况。通过充分挖掘音频特征中对文本标点预测有效的音频信息，能够确定用于表示该目标文本中的局部标点情况标点变化预测信息，进而基于该标点变化预测信息，对目标文本的标点进行预测，提升了标点预测的精度。

在一些实施例中，对于目标文本中任一语素，服务器通过确定该语素与后邻语素之间的差值特征，确定该语素与后邻语素之间是否存在标点。相应地，对于多个语素中的任一语素，服务器确定语素的后邻语素，该后邻语素在目标文本中的位置与语素相邻且位于语素后方；服务器对后邻语素在融合特征中对应的元素与语素在融合特征中对应的元素做差，得到语素的差值特征；服务器对语素的差值特征进行全连接，得到语素的标点变化结果，标点变化结果用于指示语素与后邻语素之间是否存在标点。对于任一语素，服务器通过确定与该语素相邻且位于语素后方的后邻语素和该语素之间的差异，基于该语素的融合子特征和该后邻语素的融合子特征之间的差，能够确定用于反映该语素与后邻语素之间的差异的差值特征。为了进一步确定该语素与后邻语素之间是否存在标点，服务器对该语素的差值特征进行全连接变换，得到是否存在标点的预测结果，即上述标点变化结果。当标点变化结果为1时，表示该语素与后邻语素之间存在标点；当标点变化结果为0时，表示该语素与后邻语素之间不存在标点。通过确定每个语素的标点变化结果，能够得到目标文本的标点变化预测信息，进而基于用于表示该目标文本中的局部标点情况的标点变化预测信息，对目标文本的标点进行预测，能够提升标点预测的精度。

可选地，按照下述公式(2)，服务器基于目标文本中语素的融合子特征与后邻语素的融合子特征，确定该语素的差值特征。

其中，text^j为目标文本中的第j个语素，text^j+1为目标文本中的第j+1个语素。为目标文本中第j+1个语素在融合特征中对应的元素，即第j+1个语素的融合子特征；为目标文本中第j个语素在融合特征中对应的元素，即第j个语素的融合子特征。d(text^j,text^j+1)表示第j个语素的差值特征。

303、服务器基于融合特征中各元素的平均特征，确定分类预测信息，分类预测信息用于指示目标文本的对话类型。

在本申请实施例中，服务器通过对目标文本中每个语素对应的音频信息进行综合分析，能够确定每个语素的融合子特征的平均特征。由于该平均特征用于表示目标文本对应平均音频信息，因此服务器基于该平均特征，能够确定用于反映目标文本的对话类型的分类预测信息。该分类预测信息能够用于表示该目标文本的全局标点情况。通过充分挖掘音频特征中对文本标点预测有效的音频信息，能够确定用于表示该目标文本中的全局标点情况的分类预测信息，进而基于该分类预测信息，对目标文本的标点进行预测，提升了标点预测的精度。

在一些实施例中，服务器通过对每个语素的融合子特征进行加权平均，能够得到该分类预测信息。相应地，对融合特征中的多个元素进行加权平均，得到目标文本的中间特征；对目标文本的中间特征进行全连接和分类预测，得到分类预测信息。其中，服务器通过对目标文本中每个语素对应的元素进行加权平均，即对每个语素的融合子特征进行加权平均，能够得到该目标文本的中间特征。为了进一步确定该目标文本的对话类型，服务器可以对该中间特征进行全连接变换和分类预测，得到目标文本的分类预测信息。该分类预测信息包括多种对话类型，如陈述句、感叹句、疑问句等。例如，当分类预测信息所指示的对话类型为陈述句时，表示该目标文本的末尾位置的标点符号为句号；当分类预测信息所指示的对话类型为疑问句时，表示该目标文本的末尾位置的标点符号为问号。通过对融合特征中的多个元素进行加权平均得到的中间特征进行分类预测，能够得到目标文本的分类预测信息，进而基于用于表示该目标文本中的全局标点情况的分类预测信息，对目标文本的标点进行预测，提升了标点预测的精度。

可选地，按照下述公式(3)，服务器基于目标文本中每个语素的融合子特征，确定目标文本的中间特征。

其中，n为目标文字中语素的总个数；为目标文本中第j个语素在融合特征中对应的元素，即第j个语素的融合子特征；U为通过对目标文本中的n个语素的融合子特征进行加权平均，得到的目标文本的中间特征。

304、服务器基于拼接融合特征和文本特征得到的拼接特征，确定标点预测信息，标点预测信息用于指示目标文本中每个语素对应的标点的标点类型。

在本申请实施例中，由于该融合特征用于表示目标文本对应的音频信息，该文本特征用于表示目标文本对应的文本信息。因此，服务器通过拼接该融合特征和文本特征，能够得到用于表示目标文本对应的文本信息和音频信息的拼接特征。进而基于该拼接特征，能够通过分析目标文本中每个语素对应的文本信息和音频信息，确定用于反映目标文本中每个语素对应的标点的标点类型的标点预测信息。通过充分挖掘音频特征和文本特征中对文本标点预测有效的音频信息和文本信息，能够确定用于表示该目标文本中的标点情况的标点预测信息，进而能够基于该标点预测信息，对目标文本的标点进行预测，提升了标点预测的精度。

在一些实施例中，服务器通过确定每个语素的拼接特征，得到该语素对应的标点信息。相应地，对于多个语素中的任一语素，从融合特征中确定语素对应的第一子特征；从文本特征中确定语素对应的第二子特征；拼接第一子特征和第二子特征，得到语素的拼接特征；基于语素的拼接特征，确定语素对应的标点的标点类型。其中，由于该目标文本中的多个语素与该融合特征中的多个元素一一对应，该目标文本中多个语素与该文本特征中的多个元素也一一对应。因此服务器能够从融合特征中确定每个语素对应的第一子特征，也即每个语素的融合子特征，还能够从文本特征中确定每个语素对应的第二子特征，也即每个语素的文本子特征。进而通过拼接该第一子特征和第二子特征，能够得到语素的拼接特征。由于该拼接特征能够用于表示语素对应的文本信息和音频信息，因此，基于该拼接特征，能够确定该语素对应的标点的标点类型。通过基于每个语素的拼接特征，确定每个语素的标点信息，能够确定用于表示该目标文本中的标点情况的标点预测信息，进而能够基于该标点预测信息，对目标文本的标点进行预测，提升了标点预测的精度。

305、服务器基于标点变化预测信息、分类预测信息以及标点预测信息，确定目标文本的标点预测结果，标点预测结果用于指示目标文本中的标点位置以及每个标点位置的标点类型。

例如，图4是根据本申请实施例提供的一种F0变化趋势的示意图，如图4所示。目标音频401对应的目标文本为“what’s this new book”，对该目标文本进行标点预测后，得到添加标点后的目标文本402。通过观察目标音频401的基本频率F0的变化趋势，可以看到。在this和new出现标点变化的时候，F0突然由高处落到低处。由于New book是一个疑问句，因此整体的F0在最后呈现一个上升的趋势。通过分析F0的变化趋势，发现目标音频中的语音信息对目标文本中的标点情况有影响，因此可以通过挖掘音频中的全局和局部对标点预测有效的信息，来对文本的标点进行预测。

306、服务器基于标点预测结果，在目标文本中添加标点。

在本申请实施例中，由于该标点预测结果用于指示目标文本中的标点位置以及每个标点位置的标点类型，因此服务器基于该标点预测结果，能够在该目标文本中的相应位置添加对应的标点。

307、服务器基于添加标点后的目标文本中包含的语义信息，执行语义信息所指示的任务。

在本申请实施例中，通过对添加标点后的目标文本进行语义分析，能够确定该目标文本所表示的真实含义，即该目标文本中包含的语义信息，因此服务器基于该语义信息，能够执行相应的任务。例如，该目标文本的语义信息为“播放音乐”，则服务器基于该语义信息，启动音乐程序，为用户播放音乐。

可选地，服务器能够将添加标点后的目标文本发送至终端，终端基于添加后的目标文本中包含的语义信息，执行所指示的任务。

例如，图5是根据本申请实施例提供的一种从音频中挖掘有效语义信息进行标点预测的流程示意图，如图5所示，该流程包括：用户打开录音设备进行录音，该录音设备将实时录制的连续语音发送给多模态标点预测模块和语音识别(ASR)模块；语音识别模块将识别的文本发送给多模态标点预测模块；该多模态标点预测模块基于输入的连续语音和文本，对文本进行标点预测，得到标点预测结果；然后设备将添加标点的文本发送给下游APP；下游APP通过分析该文本的语义信息，进行相关任务的执行，然后将任务的执行结果反馈给用户。

例如，图6是根据本申请实施例提供的一种标点预测界面的示意图。如图6所示，该标点预测界面601中可以显示有录音控件602，用户点击该录音控件602，设备就可以启动录音功能进行语音的录制。标点预测界面会显示当前的录音状态，比如标点预测界面603中显示有提示信息604，表示设备正在录音。设备在完成音频录制后，可以对该音频进行语音识别，得到音频对应的文本。然后对文本进行标点添加，并将添加标点后的文本606显示在该标点预测界面605中。

在上述实施例的基础上，该标点预测方法可以基于标点预测模型实现，为了保证该标点预测模型的准确性，需要对该标点预测模型进行训练。该标点预测模型的训练过程参见下述实施例。

图7是根据本申请实施例提供的一种标点预测模型的训练方法的流程图，如图7所示，在本申请实施例中以由服务器执行为例进行说明。该标点预测模型的训练方法包括以下步骤：

701、服务器获取样本音频、样本文本以及样本文本的样本标点结果，样本文本通过对样本音频进行语音识别得到，样本标点结果用于指示样本文本中的标点位置以及每个标点位置的标点类型。

在本申请实施例中，该样本音频和样本文本与上述步骤201中的目标音频和目标文本同理，该样本文本为基于自动语音识别技术，对样本音频进行语音识别得到的。服务器可以从本地数据库中获取该样本音频、样本文本以及样本标点结果，也可以从其他服务器获取该样本音频、样本文本以及样本标点结果，还可以获取终端上传的样本音频、样本文本以及样本标点结果。其中终端为具有音频录制功能的设备，终端能够对用户输出的音频数据进行实时采集，并通过与服务器之间的连接，将该音频数据发送至服务器。

702、服务器基于标点预测模型，对样本文本进行标点预测，得到样本文本的样本标点预测结果，样本标点预测结果用于指示样本文本中的预测标点位置以及每个预测标点位置的预测标点类型。

在本申请实施例中，由于该标点预测模型用于基于输入的样本音频和样本文本对样本文本的标点进行预测。因此服务器能够将样本音频与样本音频对应的样本文本输入该标点预测模型，由标点预测模型对样本文本的标点进行预测，得到该样本标点预测结果。

703、服务器基于样本标点结果和样本标点预测结果，确定标点预测模型的训练损失。

在本申请实施例中，该样本标点结果中样本文本的多个标点位置以及每个标点位置的标点类型与样本标点预测结果中样本文本的多个预测标点位置以及每个预测标点位置的预测标点类型一一对应。由于通过确定该样本标点结果与样本标点预测结果的相似度，能够确定该标点预测模型的准确度，因此服务器基于该样本标点结果和样本标点预测结果确定的标点预测模型的训练损失，能够用于对该标点预测模型进行训练。

704、服务器基于训练损失，更新标点预测模型的模型参数。

在本申请实施例中，服务器基于该训练损失，对标点预测模型的模型参数进行更新，以使第标点预测模型的损失值减小，训练得到更新后的标点预测模型。若更新后的标点预测模型满足训练结束条件，如训练次数为目标次数，或者标点预测模型的训练损失在目标范围内，则将更新后的标点预测模型作为训练完成的标点预测模型。若更新后的标点预测模型不满足训练结束条件，则按照步骤702至步骤704的方式，再次对标点预测模型进行更新，直至更新后的标点预测模型满足训练结束条件，得到训练完成的标点预测模型。

本申请实施例提供了一种标点预测模型的训练方法，由于标点预测模型用于基于输入的样本音频和样本文本对样本文本的标点进行预测。因此，服务器可以基于该标点预测模型对样本音频的音频特征和样本音频对应的样本文本的文本特征进行特征融合，能够得到样本融合特征。并基于样本融合特征和文本特征，能够确定用于反映样本文本中标点情况的多种信息，也即得到了用于反映样本文本中局部标点情况的样本标点变化预测信息和用于反映样本文本中全局标点情况的样本分类预测信息。进而基于多种信息对样本文本中的标点进行预测，能够确定样本文本的样本标点预测结果。进而基于该样本标点预测结果和样本标点结果，确定模型的训练损失。通过训练该标点预测模型，使得标点预测模型学习到对样本文本的标点进行预测的能力，保证了标点预测模型的准确性，并且从而可以从音频和文本两个模态来对样本文本的标点进行预测，使得标点预测的结果更加准确，提升了标点预测的稳定性和准确性。

图8是根据本申请实施例提供的另一种标点预测模型的训练方法的流程图，如图8所示，在本申请实施例中以由服务器执行为例进行说明。该标点预测模型的训练方法包括以下步骤：

801、服务器获取样本音频、样本文本以及样本文本的样本标点结果，样本文本通过对样本音频进行语音识别得到，样本标点结果用于指示样本文本中的标点位置以及每个标点位置的标点类型。

在本申请实施例中，该样本音频和样本文本与上述步骤201中的目标音频和目标文本同理，该样本文本为基于自动语音识别技术，对样本音频进行语音识别得到的。服务器可以通过多种方式获取该样本音频、样本文本以及样本标点结果，具体获取方式请参见上述步骤701，此处不在赘述。

802、服务器基于标点预测模型，从样本音频中提取样本音频中音频帧的样本音频特征，从样本文本中提取样本文本中语素的样本文本特征。

在本申请实施例中，该标点预测模型具有特征提取功能，该标点预测模型能够对输入的样本音频和样本文本进行特征提取，得到样本音频的样本音频特征和样本文本的样本文本特征。

在一些实施例中，该标点预测模型包括音频编码器和文本编码器。其中，该音频编码器用于对输入的样本音频进行特征提取，得到该样本音频特征。该文本编码器用于对输入的样本文本进行特征提取，得到该样本文本特征。该音频编码器与上述步骤301中的音频编码器的结构相同，该文本编码器也与上述步骤301中的文本编码器的结构相同。

803、服务器融合样本音频特征和样本文本特征，得到样本融合特征。

在本申请实施例中，该样本音频特征用于表示样本音频中每个音频帧对应的音频信息，该样本文本特征用于表示样本文本中每个语素对应的文本信息。由于该样本音频中的多个音频帧与样本文本中的多个语素一一对应，因此服务器能够从样本音频中多个音频帧的音频特征中提取出与样本文本中任一语素对应的音频特征。即服务器能够将样本文本中每个语素的文本特征与样本音频的音频特征进行融合，得到的用于表示样本文本对应的音频信息的样本融合特征。其中，该样本融合特征中的多个元素与样本文本中多个语素一一对应。该样本融合特征与上述步骤201中的融合特征类似，但是两者对应的对象不同，样本融合特征对应于模型训练侧的样本文本，融合特征对应于模型应用侧的目标文本。

804、服务器基于样本融合特征和样本文本特征，确定样本文本的样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，样本标点变化预测信息用于指示样本文本中相邻语素之间是否存在标点，样本分类预测信息用于指示样本文本的对话类型，样本标点预测信息用于指示样本文本中每个语素对应的标点的标点类型。

在本申请实施例中，由于该样本融合特征中的多个元素与样本文本中的多个语素一一对应，该样本文本特征中的多个元素与样本文本中的多个语素也一一对应。由于该样本融合特征用于表示样本文本对应的音频信息，该样本文本特征用于表示样本文本对应的文本信息。因此，服务器基于该样本融合特征和样本文本特征，即基于样本文本对应的文本信息和样本文本对应的音频信息，能够确定用于反映样本文本中标点情况的多种信息。其中，多种信息包括样本标点变化预测信息，样本分类预测信息以及样本标点预测信息。

该样本标点变化预测信息，样本分类预测信息以及样本标点预测信息与上述步骤202中的标点变化预测信息，分类预测信息以及标点预测信息类似，但是两者对应的对象不同，样本标点变化预测信息，样本分类预测信息以及样本标点预测信息对应于模型训练侧的样本文本，标点变化预测信息，分类预测信息以及标点预测信息对应于模型应用侧的目标文本。即该样本标点变化预测信息用于表示该样本文本中的局部标点情况。该样本分类预测信息用于表示该样本文本的全局标点情况；该样本标点预测信息用于表示样本文本中每个语素的标点信息。

805、服务器基于样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，确实样本标点预测结果。

在本申请实施例中，由于该样本标点变化预测信息用于指示样本文本中相邻语素之间是否存在标点，因此基于该样本标点变化预测信息，能够基于局部的角度确定样本文本中的标点位置。由于该样本分类预测信息用于指示样本文本的对话类型，因此基于该样本分类预测信息，能够基于全局的角度确定样本文本包括的标点类型。由于该样本标点预测信息用于指示样本文本中每个语素对应的标点的标点类型，因此，服务器能够基于局部的样本标点变化预测信息和全局的样本分类预测信息以及样本标点预测信息，对样本文本的标点进行预测，确定该样本标点预测结果。该样本标点预测结果用于指示样本文本中的标点位置以及每个标点位置的标点类型。

806、服务器基于样本标点结果和样本标点预测结果，确定标点预测模型的训练损失。

在一些实施例中，服务器基于多个损失，来确定模型的总损失。相应地，服务器基于样本标点变化信息和样本标点变化预测信息，确定标点变化预测损失；基于样本分类信息和样本分类预测信息，确定分类预测损失；基于样本标点信息和样本标点预测信息，确定标点预测损失；对标点变化预测损失、分类预测损失以及标点预测损失进行加权求和，得到标点预测模型的训练损失。其中，通过分析样本标点变化信息与样本标点变化预测信息之间的相似度，能够确定模型对样本文本中相邻语素之间是否存在标点进行预测的准确度；通过分析样本分类信息与样本分类预测信息之间的相似度，能够确定模型对样本文本的对话类型进行预测的准确度；通过分析样本标点信息与样本标点预测信息之间的相似度，能够确定模型对样本文本中每个语素对应的标点的标点类型进行预测的准确度；因此，基于上述多种信息，能够确定每种信息对应的损失，进而基于多个损失，来确定模型的总损失，也即训练损失。

可选地，按照下述公式(4)，基于标点变化预测损失、分类预测损失以及标点预测损失，确定标点预测模型的训练损失。

L＝L_punch+α×L_DA+β×L_puncchange (4)

其中，L为标点预测模型的训练损失；L_punch为标点交叉熵损失，也即标点预测损失；L_DA为为分类预测损失；L_puncchange为标点变化预测损失；α和β为超参数，可以由人工预先设定，用于平衡不同损失间的权重。

807、服务器基于训练损失，更新标点预测模型的模型参数。

在本申请实施例中，服务器基于该训练损失，对标点预测模型的模型参数进行更新，以使第标点预测模型的损失值减小，训练得到更新后的标点预测模型。若更新后的标点预测模型满足训练结束条件，如训练次数为目标次数，或者标点预测模型的训练损失在目标范围内，则将更新后的标点预测模型作为训练完成的标点预测模型。若更新后的标点预测模型不满足训练结束条件，则按照步骤802至步骤807的方式，再次对标点预测模型进行更新，直至更新后的标点预测模型满足训练结束条件，得到训练完成的标点预测模型。

例如，图9是根据本申请实施例提供的一种基于标点预测模型的模型结构图。如图9所示，该标点预测模型900包括音频编码器901(Wav2vec 2.0)和文本编码器902(BERT)，目标音频903会输入至音频编码器901，目标音频903对应的目标文本904会输入至文本编码器，例如“今天天气怎么样”。音频编码器901会输出该目标音频903的音频特征905，该音频特征905包括目标音频903中每个音频帧的音频特征。文本编码器902会输出该目标文本904的文本特征906，该文本特征906包括目标文本904中每个语素的文本特征。利用注意力机制对上述音频特征905和文本特征906进行交叉融合处理，即可得到每个语素的融合子特征907，该融合子特征907用于表示语素对应的音频信息。然后将每个语素的融合子特征907进行全连接处理，即可得到目标文本904的标点变化预测信息；将每个语素的融合子特征907进行池化处理，如加权平均，得到目标文本的中间特征，然后对中间特征进行全连接处理和分类预测，即可得到目标文本的分类预测信息；将每个语素的子特征907与每个语素的文本特征进行拼接，得到每个语素的拼接特征908，然后对每个语素的拼接特征进行全连接处理，即可得到目标文本的标点预测信息。

例如，图10是根据本申请实施例提供的一种基于标点预测模型进行标点预测的数据流向图。图10示出了图9所示的标点预测模型结构中具体的流转数据。以目标文本904为“is it true”为例，该目标音频903中第一音频帧的音频特征的特征向量为[0.1,0.4,0.5…0.3]，该目标文本904中第一语素的文本特征的特征向量为[2.5,1.3,…3.0]。利用注意力机制对该音频特征和文本特征进行交叉融合处理，得到该语素的融合子特征，该融合子特征的特征向量为[0.3,0.6,…0.7]。将每个语素的融合子特征907进行全连接处理，得到上述标点变化预测信息908为“is it：0”，表示is和it之间没有标点；将每个语素的融合子特征进行池化处理，得到目标文本的中间特征，该中间特征的特征向量为[1.2,1.3…1.8]。然后对中间特征进行全连接处理和分类预测，得到上述分类预测信息909为“yes-no”；将任一语素的融合子特征与该语素的文本特征进行拼接，得到该语素的拼接特征908，该拼接特征的特征向量为[0.9,0.7…0.1]。对每个语素的拼接特征908进行全连接处理，得到上述标点预测信息为“0，0，？”，其中0为没有标点的意思。

在上述实施例的基础上，本申请实施例还基于公开数据集SWBD(Switchboard)对标点预测模型的预测效果进行了验证。SWBD数据集的分布如表1所示。基于该数据集，以标点预测的平均F1-score作为指标，对以下几种模型进行标点预测的准确率进行对比，实验结果如表2所示。

表1

表2

其中，单模态模型中包括基于文本进行标点预测的模型和基于语音进行标点预测的模型。多模态模型包括基于注意力机制融合的多模态标点预测、基于额外语音文本对齐信息，进行多模态融合、本方申请实施例提供标点预测模型分为三种情况：只添加分类预测任务、只添加标点变化预测任务和两个任务都添加。通过分析比对表2中的数据，可以看出，本申请实施例提出的考虑局部和全局音频信息的多模态标点预测方法，在逗号、句号、问号上表现有极大的提升。

图11是根据本申请实施例提供的一种标点预测装置的框图。该装置用于执行上述标点预测方法，参见图11，装置包括：特征融合模块1101、信息确定模块1102以及结果确定模块1103。

特征融合模块1101，用于融合目标音频中音频帧的音频特征和目标文本中语素的文本特征，得到融合特征，目标文本通过对目标音频进行语音识别得到；

信息确定模块1102，用于基于融合特征和文本特征，确定目标文本的标点变化预测信息、分类预测信息以及标点预测信息，标点变化预测信息用于指示目标文本中相邻语素之间是否存在标点，分类预测信息用于指示目标文本的对话类型，标点预测信息用于指示目标文本中每个语素对应的标点的标点类型；

结果确定模块1103，用于基于标点变化预测信息、分类预测信息以及标点预测信息，确定目标文本的标点预测结果，标点预测结果用于指示目标文本中的标点位置以及每个标点位置的标点类型。

在一些实施例中，融合特征中的多个元素与目标文本中的多个语素一一对应；

图12是根据本申请实施例提供的另一种标点预测装置的框图。参见图12，信息确定模块1102，包括：

第一确定单元1201，用于基于目标文本的多个差值特征，确定标点变化预测信息，差值特征用于表示目标文本中相邻的语素之间的差异；

第二确定单元1202，用于基于融合特征中各元素的平均特征，确定分类预测信息；

第三确定单元1203，用于基于拼接融合特征和文本特征得到的拼接特征，确定标点预测信息。

在一些实施例中，第一确定单元1201，用于对于多个语素中的任一语素，确定语素的后邻语素，后邻语素在目标文本中的位置与语素相邻且位于语素后方；对后邻语素在融合特征中对应的元素与语素在融合特征中对应的元素做差，得到语素的差值特征；对语素的差值特征进行全连接，得到语素的标点变化结果，标点变化结果用于指示语素与后邻语素之间是否存在标点。

在一些实施例中，第二确定单元1202，用于对融合特征中的多个元素进行加权平均，得到目标文本的中间特征；对目标文本的中间特征进行全连接和分类预测，得到分类预测信息。

在一些实施例中，第三确定单元1203，用于对于多个语素中的任一语素，从融合特征中确定语素对应的第一子特征；从文本特征中确定语素对应的第二子特征；拼接第一子特征和第二子特征，得到语素的拼接特征；基于语素的拼接特征，确定语素对应的标点的标点类型。

在一些实施例中，继续参见图12，装置还包括：

添加模块1104，用于基于标点预测结果，在目标文本中添加标点；

执行模块1105，用于基于添加标点后的目标文本中包含的语义信息，执行语义信息所指示的任务。

本申请实施例提供了一种标点预测装置，通过对目标音频中音频帧的音频特征和目标音频对应的目标文本中语素的文本特征进行特征融合，能够得到融合特征。基于融合特征和文本特征，能够确定用于反映目标文本中标点情况的多种信息，也即得到了用于反映目标文本中局部标点情况的标点变化预测信息和用于反映目标文本中全局标点情况的分类预测信息。进而基于该标点变化预测信息、分类预测信息以及标点预测信息对目标文本中的标点进行预测，能够确定目标文本中的标点位置和各个标点位置的标点类型。由于从音频和文本两个模态来对目标文本的标点进行预测，使得标点预测的结果更加准确，提升了标点预测的稳定性和准确性。

需要说明的是：上述实施例提供的标点预测装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的标点预测装置与标点预测方法实施例属于同一构思，其具体实现过程见方法实施例，这里不再赘述。

图13是根据本申请实施例提供的一种标点预测模型的训练装置的框图。该装置用于执行上述标点预测模型的训练方法，参见图13，装置包括：获取模块1301、预测模块1302、损失确定模块1303以及更新模块1304。

获取模块1301，用于获取样本音频、样本文本以及样本文本的样本标点结果，样本文本通过对样本音频进行语音识别得到，样本标点结果用于指示样本文本中的标点位置以及每个标点位置的标点类型；

预测模块1302，用于基于标点预测模型，对样本文本进行标点预测，得到样本文本的样本标点预测结果，样本标点预测结果用于指示样本文本中的预测标点位置以及每个预测标点位置的预测标点类型；

损失确定模块1303，用于基于样本标点结果和样本标点预测结果，确定标点预测模型的训练损失；

更新模块1304，用于基于训练损失，更新标点预测模型的模型参数。

在一些实施例中，图14是根据本申请实施例提供的另一种标点预测模型的训练装置的框图。参见图14，预测模块1302，包括：

特征提取单元1401，用于基于标点预测模型，从样本音频中提取样本音频中音频帧的样本音频特征，从样本文本中提取样本文本中语素的样本文本特征；

特征融合单元1402，用于融合样本音频特征和样本文本特征，得到样本融合特征；

信息确定单元1403，用于基于样本融合特征和样本文本特征，确定样本文本的样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，样本标点变化预测信息用于指示样本文本中相邻语素之间是否存在标点，样本分类预测信息用于指示样本文本的对话类型，样本标点预测信息用于指示样本文本中每个语素对应的标点的标点类型；

结果确定单元1404，用于基于样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，确实样本标点预测结果。

在一些实施例中，损失确定模块1303，用于基于样本标点变化信息和样本标点变化预测信息，确定标点变化预测损失；基于样本分类信息和样本分类预测信息，确定分类预测损失；基于样本标点信息和样本标点预测信息，确定标点预测损失；对标点变化预测损失、分类预测损失以及标点预测损失进行加权求和，得到标点预测模型的训练损失。

本申请实施例提供了一种标点预测模型的训练模型的训练装置，由于标点预测模型用于基于输入的样本音频和样本文本对样本文本的标点进行预测。因此，服务器可以基于该标点预测模型对样本音频的音频特征和样本音频对应的样本文本的文本特征进行特征融合，能够得到样本融合特征。并基于样本融合特征和文本特征，能够确定用于反映样本文本中标点情况的多种信息，也即得到了用于反映样本文本中局部标点情况的样本标点变化预测信息和用于反映样本文本中全局标点情况的样本分类预测信息。进而基于多种信息对样本文本中的标点进行预测，能够确定样本文本的样本标点预测结果。进而基于该样本标点预测结果和样本标点结果，确定模型的训练损失。通过训练该标点预测模型，使得标点预测模型学习到对样本文本的标点进行预测的能力，保证了标点预测模型的准确性，并且从而可以从音频和文本两个模态来对样本文本的标点进行预测，使得标点预测的结果更加准确，提升了标点预测的稳定性和准确性。

需要说明的是：上述实施例提供的标点预测模型的训练装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的标点预测模型的训练装置与标点预测模型的训练方法实施例属于同一构思，其具体实现过程见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图15是根据本申请实施例提供的一种终端1500的结构框图。该终端1500可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1501所执行以实现本申请中方法实施例提供的标点预测方法，或者，以实现本申请中方法实施例提供的标点预测模型的训练方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、显示屏1505、摄像头组件1506、音频电路1507和电源1508中的至少一种。

外围设备接口1503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置在终端1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端1500的不同表面或呈折叠设计；在另一些实施例中，显示屏1505可以是柔性显示屏，设置在终端1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1506用于采集图像或视频。在一些实施例中，摄像头组件1506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

电源1508用于为终端1500中的各个组件进行供电。电源1508可以是交流电、直流电、一次性电池或可充电电池。当电源1508包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1500还包括有一个或多个传感器1509。该一个或多个传感器1509包括但不限于：加速度传感器1510、陀螺仪传感器1511、压力传感器1512、光学传感器1513以及接近传感器1514。

加速度传感器1510可以检测以终端1500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1510可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1510采集的重力加速度信号，控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1510还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1511可以检测终端1500的机体方向及转动角度，陀螺仪传感器1511可以与加速度传感器1510协同采集用户对终端1500的3D动作。处理器1501根据陀螺仪传感器1511采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1512可以设置在终端1500的侧边框和/或显示屏1505的下层。当压力传感器1512设置在终端1500的侧边框时，可以检测用户对终端1500的握持信号，由处理器1501根据压力传感器1512采集的握持信号进行左右手识别或快捷操作。当压力传感器1512设置在显示屏1505的下层时，由处理器1501根据用户对显示屏1505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1513用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1513采集的环境光强度，控制显示屏1505的显示亮度。具体地，当环境光强度较高时，调高显示屏1505的显示亮度；当环境光强度较低时，调低显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1513采集的环境光强度，动态调整摄像头组件1506的拍摄参数。

接近传感器1514，也称距离传感器，通常设置在终端1500的前面板。接近传感器1514用于采集用户与终端1500的正面之间的距离。在一个实施例中，当接近传感器1514检测到用户与终端1500的正面之间的距离逐渐变小时，由处理器1501控制显示屏1505从亮屏状态切换为息屏状态；当接近传感器1514检测到用户与终端1500的正面之间的距离逐渐变大时，由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图16是根据本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1601和一个或一个以上的存储器1602，其中，该存储器1602中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1601加载并执行以实现上述各个方法实施例提供的标点预测方法，或者，以实现上述各个方法实施例提供的标点预测模型的训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由处理器加载并执行以实现上述实施例中的标点预测方法，或者，以实现上述实施例中的标点预测模型的训练方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，包括计算机程序产品，该计算机程序产品被处理器执行以实现上述实施例中的标点预测方法，或者，以实现上述实施例中的标点预测模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种标点预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述融合特征中的多个元素与所述目标文本中的多个语素一一对应；

所述基于所述融合特征和所述文本特征，确定所述目标文本的标点变化预测信息、分类预测信息以及标点预测信息，包括：

基于所述目标文本的多个差值特征，确定所述标点变化预测信息，所述差值特征用于表示所述目标文本中相邻的语素之间的差异；

基于所述融合特征中各元素的平均特征，确定所述分类预测信息；

基于拼接所述融合特征和所述文本特征得到的拼接特征，确定所述标点预测信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标文本的多个差值特征，确定所述标点变化预测信息，包括：

对于所述多个语素中的任一语素，确定所述语素的后邻语素，所述后邻语素在所述目标文本中的位置与所述语素相邻且位于所述语素后方；

对所述后邻语素在所述融合特征中对应的元素与所述语素在所述融合特征中对应的元素做差，得到所述语素的差值特征；

对所述语素的差值特征进行全连接，得到所述语素的标点变化结果，所述标点变化结果用于指示所述语素与所述后邻语素之间是否存在标点。

4.根据权利要求2所述的方法，其特征在于，所述基于所述融合特征中各元素的平均特征，确定所述分类预测信息，包括：

对所述融合特征中的多个元素进行加权平均，得到所述目标文本的中间特征；

对所述目标文本的中间特征进行全连接和分类预测，得到所述分类预测信息。

5.根据权利要求2所述的方法，其特征在于，所述基于拼接所述融合特征和所述文本特征得到的拼接特征，确定所述标点预测信息，包括：

对于所述多个语素中的任一语素，从所述融合特征中确定所述语素对应的第一子特征；

从所述文本特征中确定所述语素对应的第二子特征；

拼接所述第一子特征和所述第二子特征，得到所述语素的拼接特征；

基于所述语素的拼接特征，确定所述语素对应的标点的标点类型。

6.根据权利要求1所述的方法，其特征在于，所述基于所述标点变化预测信息、所述分类预测信息以及所述标点预测信息，确定所述目标文本的标点预测结果之后，所述方法还包括：

基于所述标点预测结果，在所述目标文本中添加标点；

基于添加标点后的所述目标文本中包含的语义信息，执行所述语义信息所指示的任务。

7.一种标点预测模型的训练方法，其特征在于，所述方法包括：

基于所述训练损失，更新所述标点预测模型的模型参数。

8.根据权利要求7所述的方法，其特征在于，所述基于标点预测模型，对所述样本文本进行标点预测，得到所述样本文本的样本标点预测结果，包括：

基于所述标点预测模型，从所述样本音频中提取所述样本音频中音频帧的样本音频特征，从所述样本文本中提取所述样本文本中语素的样本文本特征；

融合所述样本音频特征和所述样本文本特征，得到样本融合特征；

基于所述样本融合特征和所述样本文本特征，确定所述样本文本的样本标点变化预测信息、样本分类预测信息以及样本标点预测信息，所述样本标点变化预测信息用于指示所述样本文本中相邻语素之间是否存在标点，所述样本分类预测信息用于指示所述样本文本的对话类型，所述样本标点预测信息用于指示样本文本中每个语素对应的标点的标点类型；

基于所述样本标点变化预测信息、所述样本分类预测信息以及所述样本标点预测信息，确实所述样本标点预测结果。

9.根据权利要求7所述的方法，其特征在于，所述基于所述样本标点结果和所述样本标点预测结果，确定所述标点预测模型的训练损失，包括：

基于所述样本标点变化信息和所述样本标点变化预测信息，确定标点变化预测损失；

基于所述样本分类信息和所述样本分类预测信息，确定分类预测损失；

基于所述样本标点信息和所述样本标点预测信息，确定标点预测损失；

对所述标点变化预测损失、所述分类预测损失以及所述标点预测损失进行加权求和，得到所述标点预测模型的训练损失。

10.一种标点预测装置，其特征在于，所述装置包括：

11.一种标点预测模型的训练装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至6任一项权利要求所述的标点预测方法，或者权利要求7至9任一项权利要求所述的标点预测模型的训练方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至6任一项权利要求所述的标点预测方法，或者权利要求7至9任一项权利要求所述的标点预测模型的训练方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项权利要求所述的标点预测方法，或者实现如权利要求7至9任一项权利要求所述的标点预测模型的训练方法。