CN109858038A

CN109858038A - 一种文本标点确定方法及装置

Info

Publication number: CN109858038A
Application number: CN201910157032.5A
Authority: CN
Inventors: 孙境廷; 戚婷; 孔常青
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-07
Anticipated expiration: 2039-03-01
Also published as: CN109858038B

Abstract

本申请公开了一种文本标点确定方法及装置，该方法包括：首先获取到目标文本的至少两种标点添加结果，然后，根据这至少两种标点添加结果，判断出目标文本中是否存在标点槽位，即，判断出这至少两种标点添加结果中是否存在标点添加不一致的位置，若存在，则进一步可以确定出该位置处唯一的标点添加结果。可见，本申请通过对目标文本中标点添加不一致的位置进行标点再确定的方式，能够提升标点断句结果的正确性。

Description

一种文本标点确定方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本标点确定方法及装置。

背景技术

标点断句预测，是指在通过自动语音识别系统对整段音频识别出大段文本的情况下，通过标点符号给出合适的语义断句，得到便于阅读和理解的文本数据。

在现有的标点预测方法中，先对需要打标点的文本数据进行分词，然后，使用该文本数据中每个分词的词向量特征，对该文本数据打标点，但实际使用中，词向量特征通常是基于大量的文本语料训练得到，其语义表述能力有限，会导致错误的标点断句结果。

发明内容

本申请实施例的主要目的在于提供一种文本标点确定方法及装置，能够提高标点断句结果的正确性。

本申请实施例提供了一种文本标点确定方法，包括：

获取目标文本的至少两种标点添加结果；

根据所述目标文本的至少两种标点添加结果，判断是否存在标点槽位，所述标点槽位为所述目标文本中存在标点添加争议的位置；

若存在，则确定所述标点槽位处唯一的标点添加结果。

可选的，所述获取目标文本的至少两种标点添加结果，包括：

生成所述目标文本的不同标点添加结果，并生成每一标点添加结果的得分；

选择得分在前的至少两种标点添加结果；或者，若所述目标文本为带标点的文本，则将所述目标文本自带的标点添加结果以及得分在前的标点添加结果组成至少两种标点添加结果。

可选的，所述生成所述目标文本的不同标点添加结果，包括：

利用预先构建的标点预测模型，预测得到所述目标文本的不同标点添加结果。

可选的，按照下述方式构建所述标点预测模型：

获取训练样本集，所述训练样本集中包括带标点的各个样本文本；

将各个样本文本进行分词处理，得到各个样本分词；

利用各个样本文本中的标点信息，对各个样本分词进行训练，得到各个样本分词各自的带有标点信息的词向量特征和/或词性向量特征；

利用各个样本分词的词向量特征和/或词性向量特征，构建所述标点预测模型。

可选的，所述利用各个样本分词的词向量特征和/或词性向量特征，构建所述标点预测模型，包括：

利用各个样本分词的词向量特征和/或词性向量特征、以及断句特征，构建所述标点预测模型。

可选的，所述根据所述目标文本的至少两种标点添加结果，判断是否存在标点槽位，包括：

根据所述目标文本的至少两种标点添加结果，确定所述目标文本中同一分词后的位置上的标点添加种类；

根据所述同一分词后的位置上的标点添加种类，判断所述同一分词后的位置是否为标点槽位。

可选的，所述确定所述标点槽位处唯一的标点添加结果，包括：

利用所述标点槽位对应的槽位特征，确定所述标点槽位处唯一的标点添加结果；其中，所述槽位特征包括以下一项或多项特征：

所述标点槽位的左右两个第一位置之间的文本语义信息，所述第一位置是与所述标点槽位相邻的另一标点槽位或非标点槽位；

所述标点槽位的左右两个第二位置与所述标点槽位之间的距离信息，所述第二位置是与所述标点槽位相邻的非标点槽位；

所述目标文本所属的说话人的断句习惯；

所述标点槽位处的各个标点添加结果的语言模型得分。

从所述标点槽位处的各个标点添加结果中，选择一个标点添加结果。

本申请实施例还提供了一种文本标点确定装置，包括：

添加结果获取单元，用于获取目标文本的至少两种标点添加结果；

标点槽位判断单元，用于根据所述目标文本的至少两种标点添加结果，判断是否存在标点槽位，所述标点槽位为所述目标文本中存在标点添加争议的位置；

添加结果确定单元，用于若根据所述目标文本的至少两种标点添加结果，判断出存在标点槽位，则确定所述标点槽位处唯一的标点添加结果。

可选的，所述添加结果获取单元包括：

添加结果生成子单元，用于生成所述目标文本的不同标点添加结果；

结果得分生成子单元，用于生成每一标点添加结果的得分；

添加结果获取子单元，用于选择得分在前的至少两种标点添加结果；或者，若所述目标文本为带标点的文本，则将所述目标文本自带的标点添加结果以及得分在前的标点添加结果组成至少两种标点添加结果。

可选的，所述添加结果生成子单元具体用于：

可选的，所述添加结果获取单元还包括：

训练样本集获取子单元，用于获取训练样本集，所述训练样本集中包括带标点的各个样本文本；

样本分词获得子单元，用于将各个样本文本进行分词处理，得到各个样本分词；

向量特征获得子单元，用于利用各个样本文本中的标点信息，对各个样本分词进行训练，得到各个样本分词各自的带有标点信息的词向量特征和/或词性向量特征；

预测模型构建子单元，用于利用各个样本分词的词向量特征和/或词性向量特征，构建所述标点预测模型。

可选的，所述预测模型构建子单元具体用于：

可选的，所述标点槽位判断单元包括：

添加种类确定子单元，用于根据所述目标文本的至少两种标点添加结果，确定所述目标文本中同一分词后的位置上的标点添加种类；

标点槽位判断子单元，用于根据所述同一分词后的位置上的标点添加种类，判断所述同一分词后的位置是否为标点槽位。

可选的，所述添加结果确定单元具体用于：

所述目标文本所属的说话人的断句习惯；

所述标点槽位处的各个标点添加结果的语言模型得分。

可选的，所述添加结果确定单元具体用于：

本申请实施例还提供了一种文本标点确定设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文本标点确定方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文本标点确定方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文本标点确定方法中的任意一种实现方式。

本申请实施例提供的一种文本标点确定方法及装置，在获取到需要进行标点断句的目标文本后，首先可以获取到目标文本的至少两种标点添加结果，然后，根据这至少两种标点添加结果，判断出该目标文本中是否存在标点槽位，其中，标点槽位指的是目标文本中存在标点添加争议的位置，即，指的是这至少两种标点添加结果中标点添加不一致的位置，若目标文本中存在这样的标点槽位，则进一步可以确定出标点槽位处唯一的标点添加结果。可见，本申请实施例先基于目标文本的至少两种标点添加结果，找出目标文本中标点添加不一致的位置，再确定出这些位置处的唯一标点添加结果，相比于仅利用目标文本中每个分词的词向量特征来对目标文本进行断句的方法，本申请实施例通过对目标文本中标点添加不一致的位置进行标点再确定的方式，能够提升标点断句结果的正确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本标点确定方法的流程示意图；

图2为本申请实施例提供的根据目标文本的至少两种标点添加结果判断是否存在标点槽位的流程示意图；

图3为本申请实施例提供的获取目标文本的至少两种标点添加结果的流程示意图；

图4为本申请实施例提供的标点预测模型的结构示意图；

图5为本申请实施例提供的一种文本标点确定装置的组成示意图。

具体实施方式

在一些文本标点预测方法中，通常是先对需要进行标点预测的文本数据进行分词处理，并将分词后得到的文本数据中每个分词的词汇特征(如语言模型 (N-Gram)特征、词性特征等)或者词向量特征作为输入数据，输入至预先构建的序列标注模型中，经过该模型的处理，即可输出带有标点的文本数据，即，完成文本的标点断句。

例如，假设需要进行标点断句的文本数据为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，在利用上述文本标点预测方法对该文本数据进行标点预测后，可以得到带有标点的文本数据为“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧。”，这种带有标点的文本数据更便于阅读和理解。

但上述利用序列标注模型进行标点预测的方法，是使用文本数据中每个分词的词向量特征，对文本数据打标点，由于在实际使用中，词向量特征通常是基于大量的文本语料训练得到，其语义表述能力有限，这将会导致文本数据的标点断句结果出现错误。例如，在上述举例中，利用序列标注模型对文本数据进行标点预测后，得到的部分文本数据的标点断句结果为结果A(“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，”)，但这部分文本数据的合理标点断句结果应该为结果B(“产品标识里，没有写明产品编号出产地、质量强制论证等相关信息。”)，尽管通过上述利用序列标注模型对这部分文本数据进行标点预测时，得到结果A的得分相比于结果B的得分更高，但实际上结果B才是正确的标点预测结果，可见，上述利用序列标注模型对文本数据进行标点预测的方法，可能会产生错误的标点断句结果。

为解决上述缺陷，本申请实施例提供了一种文本标点确定方法，在对目标文本进行标点预测时，首先获取到目标文本的至少两种标点添加结果，然后，再根据这至少两种标点添加结果，判断出目标文本中存在标点添加不一致的位置，进一步再确定出这些位置处的唯一标点添加结果，所以，相比于仅利用目标文本中每个分词的词向量特征来对目标文本进行断句的方法，本申请实施例通过对目标文本中标点添加不一致的位置进行标点再确定，能够提升标点断句结果的正确性。

举例说明：利用本申请实施例提供的文本标点确定方法，对上述举例中的文本数据进行文本标点确定时，通过对其中标点添加不一致的位置进行修改操作，可以得到优化后的标点断句结果为“产品标识里，没有写明产品编号出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”。显然，该结果更加符合正常的语言逻辑，前后文的语义表达更清晰，即，断句结果的正确性更高。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种文本标点确定方法的流程示意图，该方法包括以下步骤：

S101：获取目标文本的至少两种标点添加结果。

在本实施例中，将需要进行标点确定的文本定义为目标文本，需要说明的是，目标文本可以为未添加标点的文本，也可以为带标点的文本，本实施例对此不进行限制；并且，本实施例也不限制目标文本的语种类型，比如，目标文本可以是中文文本、或英文文本等，本实施例也不限制目标文本的长度，比如，目标文本可以是一句文本、也可以是一段文本。

在确定出需要进行标点断句的目标文本后，可以通过现有或未来出现的标点预测方法，获取到目标文本的两种或两种以上的标点添加结果，比如，可以利用预先构建的标点预测模型，确定出目标文本的两种或两种以上的标点添加结果，各个标点添加结果是不同的，可以体现在标点添加位置和/或标点添加类型的不同。

需要说明的是，本步骤S101的具体实现方式将在第二实施例中介绍。

S102：根据目标文本的至少两种标点添加结果，判断是否存在标点槽位，其中，该标点槽位为目标文本中存在标点添加争议的位置。

在本实施例中，通过步骤S101获取到目标文本的至少两种标点添加结果后，可以判断出这至少两种标点添加结果中是否存在同一分词后的位置处标点添加不一致的情况，这里，将这些标点添加不一致的位置称为具有标点添加争议的位置，并将目标文本中存在标点添加争议的位置定义为标点槽位。可以理解的是，目标文本中可能存在一个或多个标点槽位。

举例说明：假设目标文本为“产品标识里没有写明产品编号出产地质量强制论证等相关信息”，且通过步骤S101获取到的该目标文本的两种标点添加结果分别为“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，”和“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。”，可见，这两种标点添加结果中存在的标点添加不一致的位置为“产品标识里 [-|，]”、“没有写明产品编号[-|、]”、“出产地[-|、]”、“质量[-|、]”、“强制论证等相关信息[，|。]”，其中，“[]”表示的是两种标点添加结果中标点添加不一致的位置，“|”两侧分别为对应位置处的两种不同的标点结果，“-”表示不打标点，则“[]”表示的位置即为该目标文本中存在的标点槽位。

在本实施例中，一种可选的实现方式是，如图2所示，步骤S102中的“根据目标文本的至少两种标点添加结果，判断是否存在标点槽位”的实现过程具体可以包括步骤S1021-S1022：

S1021：根据目标文本的至少两种标点添加结果，确定目标文本中同一分词后的位置上的标点添加种类。

在本实现方式中，通过步骤S101获取到目标文本的至少两种标点添加结果后，可以根据这至少两种标点添加结果，确定出目标文本中同一分词后的位置上的标点添加种类，该种类可以为一种或多种，需要说明的是，“不打标点”也是一种标点添加种类。

具体来讲，若这至少两种标点添加结果中某同一分词后的位置上的标点是一致的，比如，均为逗号或均为句号，则该分词后的位置上的标点添加种类即为一种；但若这至少两种标点添加结果中某同一分词后的位置上的标点是不一致的，则该分词后的位置上的标点添加种类即为多种。

例如，假设获取到了目标文本的两种标点添加结果，在其中一种标点添加结果中，某一分词后的位置上添加的标点为分号“；”，而在另一种标点添加结果中，该分词后的位置上添加的标点为逗号“，”，则该分词后的位置上的标点添加种类即为两种。

S1022：根据同一分词后的位置上的标点添加种类，判断该同一分词后的位置是否为标点槽位。

在本实现方式中，通过步骤S1021确定出目标文本中同一分词后的位置上的标点添加种类后，可以根据该种类的个数，判断出该同一分词后的位置是否为标点槽位。具体来讲，若确定出的目标文本中同一分词后的位置上的标点添加种类为一种，即，在获取到的目标文本的这至少两种标点添加结果中，该同一分词后的位置上的标点是一致的(如均为逗号或句号)，则表明该位置处添加的标点是不存在争议的，所以，可以判断出该位置并不是标点槽位；但若确定出的目标文本中同一分词后的位置上的标点添加种类为多种，即，在获取到的目标文本的这至少两种标点添加结果中，该同一分词后的位置上的标点是不一致的(如为逗号、句号以及感叹号等多种)，则表明该位置处添加的标点是存在争议的，所以，可以将该位置判断为标点槽位。

S103：若存在标点槽位，则确定所述标点槽位处唯一的标点添加结果。

在本实施例中，若通过步骤S102判断出目标文本中存在标点槽位，即，判断出目标文本中存在标点添加有争议的位置，则为了提高目标文本的标点断句结果的正确性，进一步还需要确定出该标点槽位处唯一的标点。

在本实施例的一种实现方式中，步骤S103中“确定所述标点槽位处唯一的标点添加结果”的实现过程可以包括：从所述标点槽位处的各个标点添加结果中，选择一个标点添加结果。具体来讲，在本实现方式中，对于每一标点槽位，可以根据该标点槽位的上下文之间的语义信息，从该标点槽位处的各个标点添加结果(比如S102举例中该标点槽位的两种以上的标点添加结果)中，选择出该标点槽位处最合适的一种标点添加结果，使其更符合上下文之间的断句要求。

在本实施例的另一种实现方式中，在确定某标点槽位处唯一的标点添加结果时，该标点槽位的标点添加结果还可以是该标点槽位处的各个标点添加结果以外的标点结果。

在本实施例中，可以生成每一标点槽位的槽位特征，进而根据该槽位特征确定该标点槽位处唯一的标点添加结果，需要说明的是，本步骤S103中如何“利用标点槽位处对应的槽位特征，确定标点槽位处唯一的标点添加结果”的具体实现方式将在第三实施例中介绍。

综上，本实施例在获取到需要进行标点断句的目标文本后，首先可以获取到目标文本的至少两种标点添加结果，然后，根据这至少两种标点添加结果，判断出该目标文本中是否存在标点槽位，若目标文本中存在标点添加争议的标点槽位，则进一步可以确定出标点槽位处唯一的标点添加结果。可见，本申请实施例先基于目标文本的至少两种标点添加结果，找出目标文本中标点添加不一致的位置，再确定出这些位置处的唯一标点添加结果，相比于仅利用目标文本中每个分词的词向量特征来对目标文本进行断句的方法，本申请实施例通过对目标文本中标点添加不一致的位置进行标点再确定的方式，能够提升标点断句结果的正确性。

第二实施例

本实施例将对第一实施例中步骤S101“获取目标文本的至少两种标点添加结果”的具体实现过程进行介绍。

参见图3，其示出了本实施例提供的获取目标文本的至少两种标点添加结果的流程示意图，该流程包括以下步骤：

S301：生成目标文本的不同标点添加结果。

在本实施例中，当获取到需要进行标点断句的目标文本后，首先可以利用标点添加方法，对目标文本打标点，生成目标文本的不同标点添加结果。

一种可选的实现方式是，可以利用预先构建的标点预测模型，预测得到目标文本的不同标点添加结果。例如，本实施例预先构建的标点预测模型可以由多层神经网络构成，如图4所示，该模型结构包括输入层、隐层及输出层，其中，为了增加该模型的泛化性，隐层中各个节点之间可以采用双向连接，比如，可以在隐层中采用长短期记忆网络(LongShort-Term Memory，简称LSTM)，使得输入数据的首端至当前位置之间的前向历史信息可以被完全记录下来，以及输入数据的尾端至当前位置之间的后向未来信息也可以被完全记录下来，用以对当前位置的数据进行处理，需要说明的是，隐层可以设置为一层或多层，具体层数可根据实际情况进行设定，本申请对此不进行限制。

在其他可选的实现方式中，还可以根据语法规则或预先设定的其他规则，预测得到目标文本的不同标点添加结果。

接下来，本实施例将通过下述步骤A1-A4对标点预测模型的构建过程进行详细介绍。

步骤A1：获取训练样本集，其中，训练样本集中包括带标点的各个样本文本。

在本实现方式中，为了构建标点预测模型，需要预先进行大量的准备工作，首先，需要收集大量带标点的文本数据作为样本文本，用以构成用于训练标点预测模型的训练样本集，例如，可以在某聊天场景下收集到用户A和用户B的大量带标点的对话文本(如“今天天气不错！”等)，或者，也可以从报纸或其他电子渠道(如各新闻媒体的官方网站等)收集到带标点的文本数据，等等。

步骤A2：将各个样本文本进行分词处理，得到各个样本分词。

通过步骤A1获取到带有标点的各个样本文本后，进一步的，可以利用分词方法，对各个样本文本进行分词处理，比如，可以使用N-Gram语言模型，对各个样本文本进行分词处理，以得到各个样本文本中包含的各个样本分词。例如，假设获取到的某一样本文本为“本案提出的一种文本标点确定方法”，则对该样本文本进行分词处理后，得到该样本文本中包含的各个样本分词分别为：“本案”、“提出”、“的”、“一种”、“文本”、“标点”、“确定”、“方法”。

步骤A3：利用各个样本文本中的标点信息，对各个样本分词进行训练，得到各个样本分词各自的带有标点信息的词向量特征和/或词性向量特征。

在本实施例中，可以按照下述方式生成各个样本分词各自的带有标点信息的词向量特征：

通过步骤A2得到各个样本文本中包含的各个样本分词后，可以利用向量生成方法，先对各个样本分词的词向量进行初始化，需要说明的是，在对各个样本文本进行分词时，需要保留各个样本文本中的标点，并将各个标点作为单独的一个分词，同时对各个标点对应的词向量也进行初始化，然后可以利用各个样本文本中的各个标点对应的初始化词向量，以及词向量训练方法，对各个样本分词的初始化词向量进行训练，比如，可以利用基于神经网络的词向量训练方法进行训练，以得到各个样本分词各自的带有标点信息的词向量特征，该词向量特征表征了对应样本分词的语义信息以及该对应样本分词附近的标点信息。

在本实施例中，可以按照下述两种方式之一生成各个样本分词各自的带有标点信息的词性向量特征：

在第一种方式中，通过步骤A2得到各个样本文本中包含的各个样本分词后，可以利用向量生成方法，生成各个样本分词对应的词性向量，比如，以词性向量特征为硬标签为例，可以利用one-hot方法，将各个样本分词的词性(如名词、动词、形容词)分别人工标注为1，2，3等。并且，在对各个样本文本进行分词时，保留各个样本文本中的标点，并将各个标点作为单独的一个分词，同时生成各个标点的词性向量。特殊地，对于“不打标点”这一标点种类，也生成对应的词性向量。

这样，对于样本文本中的每一样本分词，先确定该样本分词附近的标点(如该样本分词之前的“不打标点”和/或该样本分词之后的“句号”)，然后，将该样本分词对应的词性向量及这些标点对应的词性向量进行特征融合，并将融合后的特征作为该样本分词带有标点信息的词性向量特征，该词性向量特征表征了对应样本分词的词性信息以及该对应样本分词附近的标点词性信息。

在第二种方式中，可以先对各个样本分词的词性向量进行初始化，并将各个标点作为单独的一个分词，也对各个标点对应的词性向量进行初始化，然后可以利用各个样本文本中的各个标点对应的初始化词向量，以及词性向量训练方法，对各个样本分词的初始化词性向量进行训练，比如，可以利用基于神经网络的词性向量训练方法进行训练，以得到各个样本分词各自的带有标点信息的词性向量特征，该词性向量特征表征了对应样本分词的词性信息以及该对应样本分词附近的标点词性信息。

步骤A4：利用各个样本分词的词向量特征和/或词性向量特征，构建标点预测模型。

在本实现方式中，可以构建一个初始的标点预测模型，并初始化模型参数，然后在通过步骤A3得到各个样本分词各自的带有标点信息的词向量特征和/或词性向量特征后，可以将得到的这些词向量特征和/或词性向量特征作为初始标点预测模型中输入层的输入数据，对初始构建的标点预测模型进行训练。

在本实施例中，可以依次从模型训练数据中提取一个带标点的样本文本，并通过上述步骤A2-A3获得样本文本中各个样本分词的词向量特征和/或词性向量特征进行模型训练，通过多轮训练直到满足训练结束条件为止，此时，即训练得到标点预测模型。

在本实施例的一种实现方式中，步骤A4中“利用各个样本分词的词向量特征和/或词性向量特征，构建标点预测模型”的实现过程可以包括：利用各个样本分词的词向量特征和/或词性向量特征、以及断句特征，构建标点预测模型。

具体来讲，在获取到带有标点的各个样本文本后，不仅可以通过上述步骤 A2-A3获得各个样本文本中各个样本分词的带有标点信息的词向量特征和/或词性向量特征，还可以利用声学特征获取方法，获取到各个样本文本所属的说话人对应的断句特征，其中，该断句特征包含且不仅限于韵律特征，如样本文本中各个样本分词对应的停顿特征、音素时长、单词音长、能量、基频以及说话人语速、声调等中的一个或多个特征。

例如，如图4所示，依次从模型训练数据中提取一个带标点的样本文本进行多轮训练，在本轮训练过程中，将样本文本包含的各个样本分词的向量特征以及断句特征(参见图4中的向量特征1和断句特征1、向量特征2和断句特征 2……)作为输入数据，输入标点预测模型的输入层，经过模型的隐层对其进行处理后，进而可以通过输出层输出各个样本分词后的位置处的预测标点(带标点或不带标点)，再通过判断该模型预测得到的预测标点与各个样本分词后的实际标点是否一致，来对标点预测模型的模型参数进行更新，比如采用现有的随机梯度下降方法进行模型参数更新，完成本轮的模型训练。

S302：生成目标文本的每一标点添加结果的得分。

可以理解的是，在对目标文本打标点时，可以有多种的标点打法，进而可以得到目标文本的多种标点添加结果，具体来讲，在对目标文本的标点进行预测时(如在利用标点预测模型对目标文本的标点进行预测时)，可以得到目标文本中每个样本分词后添加每种标点类型(包括逗号、句号、不打标点等标点类型)的概率，再根据概率值的大小，确定目标文本的各个标点添加结果以及各个标点添加结果的得分，得分越高，表明对应的标点添加结果越合理、正确率越高。

S303：选择得分在前的至少两种标点添加结果；或者，若目标文本为带标点的文本，则将目标文本自带的标点添加结果以及得分在前的标点添加结果组成至少两种标点添加结果。

在本实施例中，通过步骤S302生成各种标点添加结果的得分后，进一步，可以根据每种标点添加结果的得分高低，将各种标点添加结果进行排序，再从中选择出得分较高的至少两种标点添加结果，例如，可以从中选择出得分较高的前三种标点添加结果，作为目标文本的三种标点添加结果，用以进行第一实施例中的后续步骤S102-S103。

举例说明：假设目标文本为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，利用预先构建的标点预测模型生成该目标文本对应的各种标点添加结果的得分后，从中选择出得分较高的前三种标点添加结果分别可以为：(1)、“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧，”、(2)、“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”、 (3)、“产品标识里，没有写明产品编号出产地,质量强制论证等相关信息，我们怀疑，这可能并不是一个有质量保证的产品吧。”。

或者，在本实施例中，一种可选的实现方式是，若目标文本为带标点的文本，比如，已利用现有的标点预测方法对未添加标点的文本打标点，使其成为带有标点的文本，并将该打标点后的文本作为了目标文本。此时，可以将目标文本自带的标点添加结果以及通过上述步骤S303选择出的得分在前的标点添加结果共同组成目标文本的至少两种标点添加结果，用以进行第一实施例中的后续步骤S102-S103。

举例说明：基于上述举例，假设自带标点的目标文本为“产品标识里没有写明产品编号、出产地、质量强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧！”，则该目标文本对应的未添加标点的文本为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，若利用预先构建的标点预测模型生成该文本对应的各种标点添加结果的得分后，从中选择出得分较高的前三种标点添加结果分别为上述举例中的(1)、(2)、(3)，则此时可以将上述目标文本自带的标点添加结果作为第(4)种标点添加结果，与上述举例中的(1)、(2)、(3)这三种标点添加结果共同组成目标文本的至少两种标点添加结果。

综上，本实施例在确定出需要进行标点断句的目标文本后，利用预先构建的标点预测模型，能够更准确地预测出目标文本的至少两种标点添加结果，以便于后续更准确的确定出标点添加不一致的位置，进而再对这些位置的标点进行再确定，从而提高了标点断句结果的正确性。

第三实施例

需要说明的是，本实施例将对第一实施例步骤S103中“利用标点槽位处对应的槽位特征，确定标点槽位处唯一的标点添加结果”的具体实现方式进行介绍。

在本实施例中，关于目标文本中标点槽位处对应的槽位特征，除了包括标点槽位处的各个标点添加结果以外，还可以包括以下特征数据中的一项或多项：

标点槽位的左右两个第一位置之间的文本语义信息、标点槽位的左右两个第二位置之间的距离信息、目标文本所属的说话人的断句习惯、标点槽位处的各个标点添加结果的语言模型得分。

接下来，将对上述5项槽位特征进行一一介绍：

1、标点槽位处的各个标点添加结果

具体来讲，“标点槽位处的各个标点添加结果”可以采用标点向量来表示，其中，该标点向量的维度大小为所有的标点类型总数(不添加标点也作为其中的一种类型)，每一维度对应一种标点类型，并且，在该标点向量中，对于目标文本的至少两种标点添加结果中包含的该标点槽位处的每一标点类型，将该标点类型对应维度的向量元素值设为1，并将其他标点类型对应维度的向量元素值设为0。

举例说明：假设所有标点的类型为10种(如逗号、句号、问号、不添加标点等共10种类型)，则标点槽位处的标点向量的维度大小即为10。又假设目标文本为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，且获取到的该目标文本的两种标点添加结果为：(1)、“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧，”，以及，(2)、“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”。则，“产品标识里”后的标点槽位处的标点添加结果分别为“-(即不添加标点)”和“，”，再假设标点类型“-”和“，”可以用标点向量中的第2个元素和第10个元素来表征，则该标点槽位处的标点向量即为[0,1,0,0,0,0,0,0,0,1]。

2、标点槽位的左右两个第一位置之间的文本语义信息

“标点槽位的左侧第一位置”指的是该标点槽位左侧(左侧第一个)的另一标点槽位或非标点槽位，“标点槽位的右侧第一位置”指的是该标点槽位右侧(右侧第一个)的另一标点槽位或非标点槽位，其中，非标点槽位指的是目标文本中存在的无标点添加争议的位置、或者是目标文本的起始位置、再或者是目标文本的结尾位置。关于这两个第一位置之间的文本语义信息，可以采用向量的形式进行表示，比如，可以利用深度神经网络模型进行向量表示。

举例说明：假设目标文本仍为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，且获取到的该目标文本的两种标点添加结果仍为：(1)、“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧，”，以及，(2)、“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”。则，以“产品标识里”后的标点槽位为例，该标点槽位左侧的第一位置为与其相邻的非标点槽位，即，目标文本的起始位置，而该标点槽位右侧的第一位置则为与其相邻的另一标点槽位，即，“编号”后的标点槽位，进而，可以利用深度神经网络模型等方法，生成目标文本的起始位置以及“编号”后的标点槽位之间的文本语义信息。

3、标点槽位的左右两个第二位置与该标点槽位之间的距离信息

“标点槽位的左侧第二位置”指的是该标点槽位左侧(左侧第一个)的非标点槽位，“标点槽位的右侧第二位置”指的是该标点槽位右侧(右侧第一个) 的非标点槽位，其中，非标点槽位仍指的是目标文本中存在的无标点添加争议的位置、或者是目标文本的起始位置、再或者是目标文本的结尾位置。关于这两个第二位置与该标点槽位之间的距离信息，可以采用该标点槽位与这两个非标点槽位之间包含的文字个数来表示。

举例说明：假设目标文本仍为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，且获取到的该目标文本的两种标点添加结果仍为：(1)、“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧，”，以及，(2)、“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”。则仍以“产品标识里”后的标点槽位为例，该标点槽位左侧的第二位置为目标文本的起始位置，而该标点槽位右侧的第二位置则为目标文本的结尾位置，进而，可以计算该标点槽位与目标文本的起始位置之间包含的文字个数“5”以及与目标文本的结尾位置之间包含的文字个数“43”。

4、目标文本所属的说话人的断句习惯

“目标文本所属的说话人的断句习惯”指的是目标文本所属的说话人说话时的停顿习惯，其可以采用该说话人之前的语音文本中每两个标点之间的字数的平均值进行表示。需要说明的是，若该说话人在一段时间内的说话习惯(情绪、语速)不变，说话的语速慢且习惯断句，则表明该说话人在说话时停顿较为频繁，对应产生的语音文本中两个相邻标点之间的平均字数较少，因此，根据此目标文本所属的说话人这样的断句习惯，则需要对目标文本多打标点，以使得两个相邻标点之间的平均字数较少，反之，则需要对目标文本少打标点，以使得两个相邻标点之间的平均字数较多。

此外，若没有或无法得到该说话人之前的语音文本，则可以将现有的普通大众的断句习惯作为目标文本所属的说话人的断句习惯。

5、标点槽位处的各个标点添加结果的语言模型得分

“标点槽位处的各个标点添加结果的语言模型得分”指的是将获取到的目标文本的至少两种标点添加结果输入至语言模型后，目标文本的标点槽位处的各个标点添加结果对应的语言模型得分，其中，语言模型可以为N-gram语言模型，N取正整数(如N＝2)。需要说明的是，具体的语言模型得分的计算过程与现有方法一致，在此不再赘述。

举例说明：假设目标文本仍为“产品标识里没有写明产品编号出产地质量强制论证等相关信息我们怀疑这可能并不是一个有质量保证的产品吧”，且获取到的该目标文本的两种标点添加结果为：(1)、“产品标识里没有写明产品编号出产地质量、强制论证等相关信息，我们怀疑这可能并不是一个有质量保证的产品吧，”，以及，(2)、“产品标识里，没有写明产品编号、出产地、质量强制论证等相关信息。我们怀疑这可能并不是一个有质量保证的产品吧。”。则将 (1)和(2)分别输入至2-gram语言模型后，以“产品标识里”后的标点槽位为例，该标点槽位对应的2-gram语言模型得分分别是“里没”、“里，没”、中的“-(不添加标点)”以及“，”对应的2-gram语言模型得分。

进一步的，可以将目标文本中标点槽位处对应的槽位特征进行特征拼接，并利用拼接过后的特征数据，确定出该标点槽位处一个最优的标点添加结果。一种可选的实现方式是，可以利用预先构建的标点修正模型，对上述拼接过后的特征数据进行处理，确定出一个最优的标点添加结果，该标点添加结果可能为通过步骤S101获取到的该标点槽位的标点添加结果中的一种，也可能是一种新的标点添加结果。

其中，标点修正模型的构建方法与现有模型构建方法是类似的，即，可以通过预先收集的大量带有标点(正确标点)的样本文本构建得到，具体来说，在模型的构建过程中，首先，可以从收集到的大量样本文本中选取一个样本文本，采用S101的类似实现方式，获取样本文本的至少两种标点添加结果；然后，采用S102的类似实现方式，确定出该样本文本中相应的标点槽位；再然后，提取出每个标点槽位的槽位特征，作为标点修正模型的输入，使模型预测该样本文本的标点；最后，再比较该样本文本的预测标点与正确标点之间的差异，用来对标点修正模型的模型参数进行更新，从而完成本轮的模型训练，通过多轮训练后，即构建得到标点修正模型。

综上，本实施例在判断出目标文本中存在的标点槽位后，可以利用标点槽位处对应的槽位特征，从获取到的目标文本的至少两种标点添加结果中选择出一个最优的标点添加结果，或者，当这至少两种标点添加结果均不是最优选的标点添加结果时，仍可以利用标点槽位处对应的槽位特征，确定出一个新的标点添加结果，作为标点槽位处唯一的标点添加结果，实现了对目标文本中标点添加不一致的位置的标点再确定，提升了标点断句结果的正确性。

第四实施例

本实施例将对一种文本标点确定装置进行介绍，相关内容请参见上述方法实施例。

参见图5，为本实施例提供的一种文本标点确定装置的组成示意图，该装置500包括：

添加结果获取单元501，用于获取目标文本的至少两种标点添加结果；

标点槽位判断单元502，用于根据所述目标文本的至少两种标点添加结果，判断是否存在标点槽位，所述标点槽位为所述目标文本中存在标点添加争议的位置；

添加结果确定单元503，用于若根据所述目标文本的至少两种标点添加结果，判断出存在标点槽位，则确定所述标点槽位处唯一的标点添加结果。

在本实施例的一种实现方式中，所述添加结果获取单元501包括：

结果得分生成子单元，用于生成每一标点添加结果的得分；

在本实施例的一种实现方式中，所述添加结果生成子单元具体用于：

在本实施例的一种实现方式中，所述添加结果获取单元还包括：

在本实施例的一种实现方式中，所述预测模型构建子单元具体用于：

在本实施例的一种实现方式中，所述标点槽位判断单元502包括：

在本实施例的一种实现方式中，所述添加结果确定单元503具体用于：

所述目标文本所属的说话人的断句习惯；

所述标点槽位处的各个标点添加结果的语言模型得分。

进一步地，本申请实施例还提供了一种文本标点确定设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文本标点确定方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文本标点确定方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文本标点确定方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等) 执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本标点确定方法，其特征在于，包括：

获取目标文本的至少两种标点添加结果；

若存在，则确定所述标点槽位处唯一的标点添加结果。

2.根据权利要求1所述的方法，其特征在于，所述获取目标文本的至少两种标点添加结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述生成所述目标文本的不同标点添加结果，包括：

4.根据权利要求3所述的方法，其特征在于，按照下述方式构建所述标点预测模型：

将各个样本文本进行分词处理，得到各个样本分词；

5.根据权利要求4所述的方法，其特征在于，所述利用各个样本分词的词向量特征和/或词性向量特征，构建所述标点预测模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本的至少两种标点添加结果，判断是否存在标点槽位，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述标点槽位处唯一的标点添加结果，包括：

所述目标文本所属的说话人的断句习惯；

所述标点槽位处的各个标点添加结果的语言模型得分。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述确定所述标点槽位处唯一的标点添加结果，包括：

9.一种文本标点确定装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述添加结果获取单元包括：

结果得分生成子单元，用于生成每一标点添加结果的得分；

11.根据权利要求9或10所述的装置，其特征在于，所述标点槽位判断单元包括：

12.一种文本标点确定设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。