CN112906348B

CN112906348B - 对文本自动添加标点符号的方法、系统、设备及介质

Info

Publication number: CN112906348B
Application number: CN202110171377.3A
Authority: CN
Inventors: 邱实; 杨学锐
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-04-26
Anticipated expiration: 2041-02-04
Also published as: CN112906348A

Abstract

一种对文本自动添加标点符号的方法、系统、设备及介质，通过识别音频获取文本；将对应文本转化为多个索引值序列，并将这多个索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；基于每个索引值序列的概率分布确定该索引值序列中每个字对应的最大概率分布值，作为该字后面要添加的标点符号的索引；通过该索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到文本序列中，完成对文本的标点符号添加；若索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。本发明可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。

Description

对文本自动添加标点符号的方法、系统、设备及介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种对文本自动添加标点符号的方法、系统设备及介质。

背景技术

语音识别可以将语音转写成相应的文本，但由于标点符号本身不具有发音，语音识别的转写结果往往是不含有标点符号的文本。通过额外的工具向转写结果中添加标点符号，可以增加转写结果的可读性。尤其在长音频的转写场景中，标点符号对于人类理解长文本的内容更为关键。通常的自动标点符号工具通过训练一个深度神经网络模型来实现。

然而，现有的自动标点符号工具往往存在以下几点缺陷：

1)独立的标点符号模型往往不是针对语音识别这一单一场景，因而在口语化文本上的效果欠佳；而专门为语音识别开发的标点符号模型大多与上游的语音识别模型绑定，难以解耦。

2)作为语音识别的下游任务，标点符号模型对于效果与性能都有较高的要求。如果过度追求效果，模型过大，会影响语音识别的整体实时率；一味追求速度的话，模型过小，又难以得到满意的结果。

3)不同应用场景下，标点符号的添加规则也不相同。许多专业术语，专有名词等需要结合领域才能区分出来，例如金融场景中各种基金产品的名称。一个模型难以满足不同领域的需求。

4)有些标点符号模型选择了较为激进的算法，添加标点符号少有遗漏，但错误较多；另一些模型策略较为保守，出错较少的同时也遗漏了较多的标点。如何在准确率和召回率之间取舍也成为了标点符号工具需要考虑的一个问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种对文本自动添加标点符号的方法、系统、设备及介质，用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的，本发明提供一种对文本自动添加标点符号的方法，包括以下步骤：

识别一个或多个音频，获取对应的文本；

将所述文本转化为多个索引值序列，并将多个所述索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；

基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；

通过所述索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到所述文本中，完成对所述文本的标点符号添加；若所述索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。

可选地，所述深度神经网络模型的训练过程包括：

获取由带标点符号的文本和具有含义的字词所组成的训练数据；

将所述训练数据输入至一个或多个深度神经网络中，使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练；

根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数，并获取所述交叉熵损失函数的平均值；

基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数，训练生成所述深度神经网络模型。

可选地，在生成所述深度神经网络模型后，还包括将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。

可选地，还包括：对带标点符号的文本和具有含义的字词进行预处理，将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本；以及对具有含义的字词进行标注。

可选地，还包括：对每个索引值序列中每个字对应的概率分布值配置权重，调整所述深度神经网络模型的激进度；

其中，利用某深度神经网络模型添加的标点符号越多，该深度神经网络模型的激进度越大；利用某深度神经网络模型添加的标点符号越少，该深度神经网络模型的激进度越小。

本发明还提供一种对文本自动添加标点符号的系统，包括有：

文本采集模块，用于识别一个或多个音频，获取对应的文本；

概率分布计算模块，用于将所述文本转化为多个索引值序列，并将多个所述索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；

标点符号索引模块，用于基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；

标点符号添加模块，用于通过所述索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到所述文本中，完成对所述文本的标点符号添加；若所述索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。

可选地，所述深度神经网络模型的训练过程包括：

可选地，还包括有迁移学习模块，用于在生成所述深度神经网络模型后，将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。

可选地，还包括权重调整模块，用于对每个索引值序列中每个字对应的概率分布值配置权重，调整所述深度神经网络模型的激进度；

本发明还提供一种计算机设备，包括：

一个或多个处理器；和

存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行所述指令时，使得所述设备执行如上述中任意一项所述的方法。

本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行所述指令时，使得设备执行如上述中任意一项所述的方法。

如上所述，本发明提供一种对文本自动添加标点符号的方法、系统、设备及介质，具有以下有益效果：针对目前存在的问题，设计了一种为语音识别结果自动添加标点符号的方式通过识别一个或多个音频，获取对应的文本；将文本转化为多个索引值序列，并将多个索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；通过索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到文本中，完成对文本的标点符号添加；若索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。本发明不仅可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以与语音识别任务解耦，进行独立使用；并能兼顾效果与处理速度，不影响整体任务的实时率；同时能够通过迁移学习适应不同场景的语法要求，且在训练时还能够人工设置阈值来改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。并且本发明还可以在模型训练时加入命名实体识别任务进行联合训练。

附图说明

图1为一实施例提供的对文本自动添加标点符号的方法流程示意图；

图2为一实施例提供的对文本自动添加标点符号的系统硬件结构示意图；

图3为一实施例提供的终端设备的硬件结构示意图；

图4为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 文本采集模块

M20 概率分布计算模块

M30 标点符号索引模块

M40 标点符号添加模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 音频组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种对文本自动添加标点符号的方法，包括以下步骤：

S100，识别一个或多个音频，获取对应的文本；

S200，根据文本形成文本序列，按照预设字典将文本序列转化为多个索引值序列，并将这多个索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；

S300，基于每个索引值序列的概率分布确定该索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；

S400，通过该索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到文本序列中，完成对文本的标点符号添加；若索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。作为示例，可以预先建立标点符号索引表，例如用数字1代表逗号，数字2代表句号，数字0代表不加标点。

本方法针对目前存在的问题，设计了一种为语音识别结果自动添加标点符号的方式，不仅可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以与语音识别任务解耦，进行独立使用；并能兼顾效果与处理速度，不影响整体任务的实时率；同时能够通过迁移学习适应不同场景的语法要求，以及在训练时还能够人工设置阈值来改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。并且本方法还可以在模型训练时加入命名实体识别任务进行联合训练。

在一示例性实施例中，所述深度神经网络模型的训练过程包括：获取由带标点符号的文本和具有含义的字词所组成的训练数据；将所述训练数据输入至一个或多个深度神经网络中使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练；根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数，并获取交叉熵损失函数的平均值；基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数，训练生成所述深度神经网络模型。其中，一个深度神经网络至少包括embedding层和self attention层，作为示例，例如可以包含一个embedding层和三个self attention层。其中，embedding是深度神经网络中的一种结构，可以将一个标签ID映射成一个向量。self attention也是深度神经网络中的一种结构，可以将输入层分别映射到Q，K，V三个矩阵；例如首先根据某种操作(如向量乘法)计算Q在K上的坐标，再计算V在该坐标系下的映射，从而实现自注意力机制的效果。根据上述记载，还可以将训练好的深度神经网络模型应用于工具中，该工具可以以c++动态的形式发布，提供简单的接口。本申请实施例中的训练深度神经网络模型用到的神经网络结构有很多，包括但不限于卷积神经网络CNN，循环神经网络RNN，长短期记忆网络LSTM，GRU(Gated Recurrent Unit)，Transformer等。

作为示例，本申请进行深度神经网络模型的训练方式有：根据目标任务分为标点符号单任务训练、标点符号+命名实体识别联合训练；根据训练阶段分为原始模型训练和特定场景/领域的迁移训练。训练方式具体如下：

a)标点符号单任务训练

将输入数据转换为索引值，输入深度神经网络，经过深度神经网络的隐藏层和输出层，得到该深度神经网络的输出，基于该深度神经网络的输出和标签数据计算交叉熵，得到该深度神经网络的损失函数，再根据损失函数计算深度神经网络的梯度，更新网络中各层的参数其中，交叉熵越高，说明预测结果与标签越接近，即预测越准确。标签数据是指与输入数据长度相等的数字序列，每个数字代表对应位置上标点符号的索引，0代表无标点。

b)标点符号+命名实体识别联合训练

联合训练在网络输入一侧与标点符号单任务训练完全相同，即利用同一个或多个深度神经网络将输入数据(即标点符号和命名实体)转换为索引值后输入深度神经网络。深度神经网络的隐藏层也与标点符号单任务训练完全相同。经过深度神经网络的隐藏层后，深度神经网络连接两个输出层，分别对应标点符号和命名实体识别任务。然后两个输出层分别与各自的标签计算交叉熵，再对两个输出层的交叉熵取平均值，得到这一个或多个深度神经网络网络的损失函数，再根据损失函数计算深度神经网络的梯度，更新网络中各层的参数。其中，交叉熵越高，说明预测结果与标签越接近，即预测越准确。命名实体识别标签数据是指与输入数据长度相等的数字序列，每个数字代表对应位置上命名实体种类的索引，0代表非实体。

c)原始模型训练

从初始的深度神经网络开始训练，生成深度神经网络模型，训练数据可以选择较为通用的场景数据。

d)特定场景/领域的迁移训练

加载已有的深度神经网络模型，复用其中的网络参数，然后在指定场景的数据集下继续训练。其中，指定场景包括金融领域、安防领域等。

在一示例性实施例中，在生成所述深度神经网络模型后，还包括将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。本申请实施例通过在已有的基础模型上加入新领域场景的数据进行迁移学习，可以适应不同的领域场景。作为一示例，例如在生成基础的深度神经网络模型后，增加金融领域中的一些待标点符号的文本和具有特定含义的字词(如一些经常使用的基金名称、金融名词等，也即一些实施例中的命名实体)至训练数据中，并继续训练一个或多个深度神经网络模型，从而得到金融领域专用的深度神经学习模型。来自场景中的文本由于其场景不同，同一个词的断句方式可能不同。例如，金融领域中，对于一些基金名称按照文本的本意可能会将该名称断开理解，导致出现在名称中间出现加入标点符号的情况。但是在金融领域下，该基金名称就属于一个整体，不能进行断开，即在该名称中间不能加标点符号，所以本申请实施例可以针对不同场景训练出不同的深度神经网络模型来进行标点符号的添加。作为另一示例，例如在生成基础的深度神经网络模型后，增加安防领域中的一些待标点符号的文本和具有特定含义的字词(如一些经常使用的安防名词等，也即一些实施例中的命名实体)至训练数据中，并继续训练一个或多个深度神经网络模型，从而得到安防领域专用的深度神经学习模型。基于迁移学习，目标用户只需要更换相应的模型文件即可实现不同领域模型的切换。同时，在已有的基础模型加入新领域的数据进行迁移学习，也方便适应不同的场景。根据上述记载，还可以将训练好的深度神经网络模型应用于工具中，该工具可以以c++动态的形式发布，提供简单的接口。本申请实施例中的训练深度神经网络模型用到的神经网络结构有很多，包括但不限于卷积神经网络CNN，循环神经网络RNN，长短期记忆网络LSTM，GRU(Gated Recurrent Unit)，Transformer等。

在一示例性实施例中，还包括对带标点符号的文本和具有含义的字词进行预处理，将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本；以及对具有含义的字词进行标注。具体地，可以通过数据处理工具会将带有标点符号的训练文本语料处理成无标点的输入文本数据和有标点符号序列的标签文本数据；同时通过额外的实体识别工具对输入文本数据中的实体进行标注。在神经网络训练中，标点符号和命名实体识别都可以用序列标注的形式表示，因此在对两部分进行训练时可以共享网络结构。

在一示例性实施例中，还包括对每个索引值序列中每个字对应的概率分布值配置权重，调整所述深度神经网络模型的激进度。其中，利用某深度神经网络模型添加的标点符号越多该深度神经网络模型的激进度越大；利用某深度神经网络模型添加的标点符号越少，该深度神经网络模型的激进度越小。由于标点符号任务具有严重的样本不均衡的特点：一方面，后面带有标点符号的字与不带标点符号的字的比例相差很大，深度神经网络模型容易陷入全部预测为无标点，以减少误判的陷阱；另一方面，不同标点符号出现的频率也不同，出现频率较低的标点符号难以得到充分的训练。所以，本申请实施例对交叉熵损失函数做出了优化，为不同种类的标点符号在计算交叉熵时配置不同权重(配置的权重可以根据各标点符号出现的比例适当调整)，因此可以在正确预测标点符号时获得更高的交叉熵，从而解决样本不均衡带来的问题。在本申请实施例中，对于神经网络模型的激进度，当添加标点符号的概率值超过一定阈值时，可以认为深度神经网络模型把握较高，当前位置应该添加标点；如果添加标点符号的概率值小于阈值，可以认为深度神经网络模型没有把握，当前位置不添加标点。而这个阈值设的越高，概率超过阈值的标点符号就越少，表现出来的就是在相同数据上添加的标点更少，即深度神经网络模型模型更保守；相反，设置的阈值越低，表现出来的就是在相同数据上添加的标点就越多，即深度神经网络模型模型就越激进。作为示例，本申请实施例通过配置文件的形式不仅可以设置深度神经网络模型的激进程度，还可以在指定的测试集上测试不同激进程度下的F1值。具体地，利用准确率和召回率确定标注问题的评价指标，如表1所示。

表1样本预测结果

预测(列)/label(行)	正样本	负样本
			正样本	TP	FN
负样本	FP	FN

其中，FN(False Negative)表示被判定为负样本，但事实上是正样本。

FP(False Positive)表示被判定为正样本，但事实上是负样本。

TN(True Negative)表示被判定为负样本，事实上也是负样本。

TP(True Positive)表示被判定为正样本，事实上也是正样本。

precision＝TP/(TP+FP)；

recall＝TP/(TP+FN)；

accuracy＝(TP+FN)/(TP+FP+TN+FN)。

其中，准确率(accuracy)表示所有分类操作中正确的比例；召回率(recall)表示所有正例被正确标出的比例；精确率(precision)表示分类正确的正样本个数占分类器判定为正样本的样本个数的比例。

F1＝2*precision*recall/(precision+recall)；F1值是对标注问题的一种综合指标，F1值越接近1，表示模型效果越好。

综上所述，本发明针对目前存在的问题，设计了一种为语音识别结果自动添加标点符号的方法，通过识别一个或多个音频，获取对应的文本；将文本转化为多个索引值序列，并将这多个索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；基于每个索引值序列的概率分布确定该索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；通过该索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到文本序列中，完成对文本的标点符号添加；若索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。本发明不仅可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以与语音识别任务解耦，进行独立使用；并能兼顾效果与处理速度，不影响整体任务的实时率；同时能够通过迁移学习适应不同场景的语法要求，以及在训练时还能够人工设置阈值来改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。并且本发明还可以在模型训练时加入命名实体识别任务进行联合训练。本发明对现有技术中标点符号工具存在的几个问题都给出了各自的解决方法。本发明与对比文件相比，本发明对短文本自动添加标点符号的处理时间在毫秒以下，且深度神经网络模型的F1值可达0.85以上。

如图2所示，本发明还提供一种对文本自动添加标点符号的系统，包括有：

文本采集模块M10，用于识别一个或多个音频，获取对应的文本；

概率分布计算模块M20，用于将所述文本转化为多个索引值序列，并将多个所述索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；

标点符号索引模块M30，用于基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；

标点符号添加模块M40，用于通过所述索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到所述文本中，完成对所述文本的标点符号添加；若所述索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。作为示例，可以预先建立标点符号索引表，例如用数字1代表逗号，数字2代表句号，数字0代表不加标点。

本系统针对目前存在的问题，设计了一种为语音识别结果自动添加标点符号的方式，不仅可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以与语音识别任务解耦，进行独立使用；并能兼顾效果与处理速度，不影响整体任务的实时率；同时能够通过迁移学习适应不同场景的语法要求，以及在训练时还能够人工设置阈值来改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。并且本系统还可以在模型训练时加入命名实体识别任务进行联合训练。

在一示例性实施例中，所述深度神经网络模型的训练过程包括：获取由带标点符号的文本和具有含义的字词所组成的训练数据；将所述训练数据输入至一个或多个深度神经网络中使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练；根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数，并获取所述交叉熵损失函数的平均值；基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数，训练生成所述深度神经网络模型。其中，一个深度神经网络至少包括embedding层和self attention层，作为示例，例如可以包含一个embedding层和三个self attention层。其中，embedding是深度神经网络中的一种结构，可以将一个标签ID映射成一个向量。self attention也是深度神经网络中的一种结构，可以将输入层分别映射到Q，K，V三个矩阵；例如首先根据某种操作(如向量乘法)计算Q在K上的坐标，再计算V在该坐标系下的映射，从而实现自注意力机制的效果。根据上述记载，还可以将训练好的深度神经网络模型应用于工具中，该工具可以以c++动态的形式发布，提供简单的接口。本申请实施例中的训练深度神经网络模型用到的神经网络结构有很多，包括但不限于卷积神经网络CNN，循环神经网络RNN，长短期记忆网络LSTM，GRU(Gated Recurrent Unit)，Transformer等。

a)标点符号单任务训练

b)标点符号+命名实体识别联合训练

c)原始模型训练

d)特定场景/领域的迁移训练

在一示例性实施例中，还包括有迁徙学习模块，用于在生成所述深度神经网络模型后，将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。本申请实施例通过在已有的基础模型上加入新领域场景的数据进行迁移学习，可以适应不同的领域场景。作为一示例，例如在生成基础的深度神经网络模型后，增加金融领域中的一些待标点符号的文本和具有特定含义的字词(如一些经常使用的基金名称、金融名词等，也即一些实施例中的命名实体)至训练数据中，并继续训练一个或多个深度神经网络模型，从而得到金融领域专用的深度神经学习模型。来自场景中的文本由于其场景不同，同一个词的断句方式可能不同。例如，金融领域中，对于一些基金名称，按照文本的本意可能会将该名称断开理解，导致出现在名称中间出现加入标点符号的情况。但是在金融领域下，该基金名称就属于一个整体，不能进行断开，即在该名称中间不能加标点符号，所以本申请实施例可以针对不同场景训练出不同的深度神经网络模型来进行标点符号的添加。作为另一示例，例如在生成基础的深度神经网络模型后增加安防领域中的一些待标点符号的文本和具有特定含义的字词(如一些经常使用的安防名词等，也即一些实施例中的命名实体)至训练数据中，并继续训练一个或多个深度神经网络模型，从而得到安防领域专用的深度神经学习模型。基于迁移学习，目标用户只需要更换相应的模型文件即可实现不同领域模型的切换。同时，在已有的基础模型加入新领域的数据进行迁移学习，也方便适应不同的场景。根据上述记载，还可以将训练好的深度神经网络模型应用于工具中，该工具可以以c++动态的形式发布，提供简单的接口。本申请实施例中的训练深度神经网络模型用到的神经网络结构有很多，包括但不限于卷积神经网络CNN，循环神经网络RNN，长短期记忆网络LSTM，GRU(Gated Recurrent Unit)，Transformer等。

在一示例性实施例中，还包括有预处理模块，用于对带标点符号的文本和具有含义的字词进行预处理，将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本；以及对具有含义的字词进行标注。具体地，可以通过数据处理工具会将带有标点符号的训练文本语料处理成无标点的输入文本数据和有标点符号序列的标签文本数据；同时通过额外的实体识别工具对输入文本数据中的实体进行标注。在神经网络训练中，标点符号和命名实体识别都可以用序列标注的形式表示，因此在对两部分进行训练时可以共享网络结构。

在一示例性实施例中，还包括有权重调整模块，用于对每个索引值序列中每个字对应的概率分布值配置权重，调整所述深度神经网络模型的激进度。其中，利用某深度神经网络模型添加的标点符号越多，该深度神经网络模型的激进度越大；利用某深度神经网络模型添加的标点符号越少，该深度神经网络模型的激进度越小。由于标点符号任务具有严重的样本不均衡的特点：一方面，后面带有标点符号的字与不带标点符号的字的比例相差很大，深度神经网络模型容易陷入全部预测为无标点，以减少误判的陷阱；另一方面，不同标点符号出现的频率也不同，出现频率较低的标点符号难以得到充分的训练。所以，本申请实施例对交叉熵损失函数做出了优化，为不同种类的标点符号在计算交叉熵时配置不同权重(配置的权重可以根据各标点符号出现的比例适当调整)，因此可以在正确预测标点符号时获得更高的交叉熵，从而解决样本不均衡带来的问题。在本申请实施例中，对于神经网络模型的激进度，当添加标点符号的概率值超过一定阈值时，可以认为深度神经网络模型把握较高，当前位置应该添加标点；如果添加标点符号的概率值小于阈值，可以认为深度神经网络模型没有把握当前位置不添加标点。而这个阈值设的越高，概率超过阈值的标点符号就越少，表现出来的就是在相同数据上添加的标点更少，即深度神经网络模型模型更保守；相反，设置的阈值越低，表现出来的就是在相同数据上添加的标点就越多，即深度神经网络模型模型就越激进。作为示例，本申请实施例通过配置文件的形式不仅可以设置深度神经网络模型的激进程度，还可以在指定的测试集上测试不同激进程度下的F1值。具体地，利用准确率和召回率确定标注问题的评价指标，如表2所示。

表2样本预测结果

预测(列)/label(行)	正样本	负样本
			正样本	TP	FN
负样本	FP	FN

FP(False Positive)表示被判定为正样本，但事实上是负样本。

TN(True Negative)表示被判定为负样本，事实上也是负样本。

TP(True Positive)表示被判定为正样本，事实上也是正样本。

precision＝TP/(TP+FP)；

recall＝TP/(TP+FN)；

accuracy＝(TP+FN)/(TP+FP+TN+FN)。

综上所述，本发明针对目前存在的问题，设计了一种为语音识别结果自动添加标点符号的系统，通过识别一个或多个音频，获取对应的文本；将文本转化为多个索引值序列，并将这多个索引值序列输入至深度神经网络模型中，获取每个索引值序列的概率分布；基于每个索引值序列的概率分布确定该索引值序列中每个字对应的最大概率分布值，并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引；通过该索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到文本序列中，完成对文本的标点符号添加；若索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号。本发明不仅可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能，还可以与语音识别任务解耦，进行独立使用；并能兼顾效果与处理速度，不影响整体任务的实时率；同时能够通过迁移学习适应不同场景的语法要求，以及在训练时还能够人工设置阈值来改变深度神经网络模型的激进度，满足不同场景下对准确率和召回率的要求。并且本发明还可以在模型训练时加入命名实体识别任务进行联合训练。本发明与对比文件相比，本发明对短文本自动添加标点符号的处理时间在毫秒以下，且深度神经网络模型的F1值可达0.85以上。

本申请实施例还提供了一种计算机设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。

图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能具体功能和技术效果参照上述实施例即可，此处不再赘述。

图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，音频组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件1206被配置为输出和/或输入语音信号。例如，音频组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，音频组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图4实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种对文本自动添加标点符号的方法，其特征在于，包括以下步骤：

识别一个或多个音频，获取对应的文本；

通过所述索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到所述文本中，完成对所述文本的标点符号添加；若所述索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号；

所述深度神经网络模型的训练过程包括：

2.根据权利要求1所述的对文本自动添加标点符号的方法，其特征在于，在生成所述深度神经网络模型后，还包括将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。

3.根据权利要求1或2所述的对文本自动添加标点符号的方法，其特征在于，还包括：对带标点符号的文本和具有含义的字词进行预处理，将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本；以及对具有含义的字词进行标注。

4.根据权利要求1所述的对文本自动添加标点符号的方法，其特征在于，还包括：对每个索引值序列中每个字对应的概率分布值配置权重，从而调整所述深度神经网络模型的激进度；

5.一种对文本自动添加标点符号的系统，其特征在于，包括有：

标点符号添加模块，用于通过所述索引从预先确定的标点符号索引表中获取相应的标点符号，并自动添加到所述文本中，完成对所述文本的标点符号添加；若所述索引对应的是空白标签，则跳过当前字，不对当前字添加标点符号；

所述深度神经网络模型的训练过程包括：

6.根据权利要求5所述的对文本自动添加标点符号的系统，其特征在于，还包括有迁移学习模块，用于在生成所述深度神经网络模型后，将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习，生成适应所述一个或多个场景的深度神经网络模型。

7.根据权利要求5所述的对文本自动添加标点符号的系统，其特征在于，还包括权重调整模块，用于对每个索引值序列中每个字对应的概率分布值配置权重，调整所述深度神经网络模型的激进度；

8.一种计算机设备，其特征在于，包括：

一个或多个处理器；和

存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行所述指令时，使得所述设备执行如权利要求1-4中任意一项所述的方法。

9.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行所述指令时，使得设备执行如权利要求1-4中任意一项所述的方法。