CN107247700A

CN107247700A - 一种添加文本标注的方法及装置

Info

Publication number: CN107247700A
Application number: CN201710289252.4A
Authority: CN
Inventors: 李健; 殷子墨; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2017-10-13

Abstract

本申请提供了一种添加文本标注的方法及装置，其中，所述方法包括：获取无标注文本；采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理，得到所述无标注文本的序列标注；根据所述序列标注对所述无标注文本添加文本标注。本发明通过神经网络模型训练得到的序列标注模型，将文本标注问题转换为序列标注问题，再根据序列标注就可以完成文本标注的添加。所以本发明可以不依赖任何辅助信息即可对无标注文本添加文本标注，能全面解决文本标注添加问题。

Description

一种添加文本标注的方法及装置

技术领域

本发明涉及计算机科学领域，特别是涉及一种添加文本标注的方法和一种添加文本标注的装置。

背景技术

当今社会对人工智能领域中的语音识别技术的商业需求日趋增加，但语音识别得到的文本结果中不会同时得到标点符号。因此，若要提升用户的阅读体验，需要在后期处理文本时为文本添加标点符号。除语音识别外，一些其他的场景也有可能获得没有标点符号的文本，如机器翻译等。所以，添加标点符号的技术具有研究及使用价值。

现有添加标点符号的技术常会借助一些音频本身的信息，如音频中对话的停顿、间隔等，以此作为添加标点的依据。但这一方法无法应用在机器翻译等应用场景之中，故不能全面解决标点符号添加问题。所以，不依赖其余任何辅助信息即可对无标点文本添加标点的技术是必需的。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：在不依赖任何辅助信息的前提下，如何为无标注文本添加文本标注，全面解决文本标注添加问题。

发明内容

本发明实施例所要解决的技术问题是提供一种添加文本标注的方法，用以在不依赖任何辅助信息的前提下，全面解决文本标注添加问题。

相应的，本发明实施例还提供了一种添加文本标注的装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种添加文本标注的方法，所述方法包括：

获取无标注文本；

采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理，得到所述无标注文本的序列标注；

根据所述序列标注对所述无标注文本添加文本标注。

优选地，获取所述序列标注模型的方法包括：

获取带有正确标注的文本样本；

对所述带有正确标注的文本样本进行序列化处理，得到无标注文本样本和序列标注样本；

根据所述无标注文本样本和序列标注样本对神经网络模型进行训练，得到序列标注模型。

优选地，所述对所述带有正确标注的文本样本进行序列化处理的方法,包括：

对所述带有正确标注的文本样本进行去除标注处理，得到无标注文本样本；

根据所述带有正确标注的文本样本，将无标注文本样本转换成序列标注样本。

优选地，所述神经网络模型包括LSTM神经网络模型，或GRU神经网络模型。

优选地，所述神经网络模型为LSTM神经网络模型时，所述LSTM神经网络模型为多层LSTM神经网络模型，或双向LSTM神经网络模型。

本发明还公开了一种添加文本标注的装置，所述装置包括：

无标注文本获取模块，用于获取无标注文本；

序列标注生成模块，用于采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理，得到所述无标注文本的序列标注；

文本标注添加模块，用于根据所述序列标注对所述无标注文本添加文本标注。

优选地，所述装置还包括序列标注模型训练模块，所述序列标注模型训练模块包括：

样本获取子模块，用于获取带有正确标注的文本样本；

序列化子模块，用于对所述带有正确标注的文本样本进行序列化处理，得到无标注文本样本和序列标注样本；

模型训练子模块，用于根据所述无标注文本样本和序列标注样本对神经网络模型进行训练，得到序列标注模型。

优选地，所述序列化子模块包括：

去标注处理子模块，用于对所述带有正确标注的文本样本进行去除标注处理，得到无标注文本样本；

序列标注转换子模块，用于根据所述带有正确标注的文本样本，将无标注文本样本转换成序列标注样本。

与背景技术相比，本发明具有以下优点：

本发明通过神经网络模型训练得到的序列标注模型，将文本标注问题转换为序列标注问题。具体为首先将获取到的无标注文本送入序列标注模型进行预测，得到序列标注；再根据序列标注就可以完成文本标注的添加。所以本发明可以不依赖辅助信息即可对无标注文本添加文本标注，能全面解决文本标注添加问题。

附图说明

图1是本申请一种添加文本标注的方法实施例1的流程图；

图2是本申请一种添加文本标注的方法实施例2中获取序列标注模型的流程图；

图3是本申请一种添加文本标注的方法实施例2中序列化处理的流程图；

图4是本申请一种添加文本标注的装置实施例3的结构框图；

图5是本申请一种添加文本标注的装置实施例4的结构框图；

图6是本申请一种添加文本标注的装置实施例4中序列标注模型训练模块的结构框图；

图7是本申请一种添加文本标注的装置实施例4中序列化子模块的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

参照图1，示出了本申请一种添加文本标注的方法实施例1的流程图，具体可以包括如下步骤：

步骤101、获取无标注文本。

在具体实现中，无标注文本可以是语音识别的文本或机器翻译的文本等无标点文本。语音识别技术是让机器通过识别和理解过程把语音信号转变为响应的文本或命令的技术。语音识别技术所得到的文本是没有标点符号的。合理的添加标点符号对提升用户的阅读体验、帮助用户快速理解文本内容是必需的。

步骤102、采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理，得到无标注文本的序列标注。

在具体实现中，可以首先通过将带有正确标注的文本样本进行序列化处理，然后将得到无标注文本样本和序列标注样本输入神经网络模型，对神经网络模型进行训练，得到序列标注模型。该序列标注模型可以对无标注文本进行序列标注。其中，序列标注即是对无标注文本进行短句划分，确定出文本标注的位置，并在短句与短句之间标示出该位置可添加的文本标注类型。其中，文本标注可以是对纯文本添加的辅助信息，如分词，词性，主谓语，标点符号等。

在本申请的一种优选实施例中，神经网络模型可以是LSTM神经网络模型或GRU神经网络模型。

在本申请的一种优选实施例中，所述神经网络模型为LSTM神经网络模型时，所述LSTM神经网络模型可以是多层LSTM神经网络模型，或双向LSTM神经网络模型。

LSTM(long short-term memory)神经网络模型是一种时间递归神经网络机器学习算法，常用于与序列相关的建模。输入为向量，给予一定量的数据可以获得模型完成分类、标注、预测等任务。LSTM神经网络模型在诸多序列预测相关任务和自然语言处理任务中表现良好，尤其对长距离序列问题效果尤为突出，该模型在文本标注预测问题上的表现同样值得期待。GRU神经网络模型是与LSTM类似的一种循环神经网络模型。

当然，LSTM神经网络模型可以有多种模型结构，例如双层LSTM神经网络模型，三层LSTM神经网络模型，双向LSTM神经网络模型等等，本发明实施例对此不加以限制。

此外，上述神经网络模型只是作为示例，在实施本发明实施例时，可以根据实际情况使用其他类型的神经网络模型，神经网络模型还可以进行多种模型结构和参数的调整。本发明实施例对此亦不加以限制。

步骤103、根据序列标注对无标注文本添加文本标注。

在具体实现中，根据步骤102得到的序列标注，就可以获知无标注文本中需要添加文本标注的位置以及文本标注类型，进而完成文本标注添加的过程。其中文本标注是指对纯文本添加的辅助信息，如分词，词性，主谓语，标点符号等。

本申请提供的一种添加文本标注的方法，通过将无标注文本送入预先使用神经网络模型训练好的序列标注模型进行预测，得到相应的序列标注。根据序列标注就可以确定需要添加文本标注的位置以及文本标注类型，不需要借助音频等辅助信息或技术就可以完成文本标注的添加，全面解决文本标注的添加问题。进一步地，本申请可以使用LSTM神经网络模型进行序列标注模型训练，LSTM模型在诸多序列预测相关任务和自然语言处理任务中表现良好，尤其对长距离序列问题效果尤为突出，可以解决现有技术对较长文本添加标注准确率低的问题。

实施例2

本实施例包括实施例1中的步骤101、102和103，具体实施方式与实施例1相同，此处不再赘述。本实施例中步骤102所采用序列标注模型的训练过程，参照图2，具体可以包括以下子步骤：

子步骤201、获取带有正确标注的文本样本。

在具体实现中，带有正确标注的文本可以从网络或书籍中获得。

子步骤202、对带有正确标注的文本样本进行序列化处理，得到无标注文本样本和序列标注样本。

本步骤是对带有正确标注的文本进行去除标注处理，得到无标注文本；再根据带有正确标注的文本中文本标注的位置及类型，将无标注文本转换为序列标注。具体参见后续实施例的描述。

子步骤203、根据无标注文本样本和序列标注样本对神经网络模型进行训练，得到序列标注模型。

在具体实现中，模型训练的过程还可以包括参数的调优等神经网络训练常见步骤。需要注意的是训练使用的文本样本要尽量覆盖所有的领域，并确保样本的文本标注正确，同时在多轮训练中要对文本样本进行随机排序等，这样训练得到的序列标注模型才能对各种无标注文本准确地进行序列标注预测。

在本申请的一种优选实施例中，子步骤202中的序列化处理过程，参照图3，具体可以包括以下子步骤：

子步骤301、对带有正确标注的文本样本进行去除标注处理，得到无标注文本样本。

选取一段带有正确标注的文本：

今天天气不错，我准备去跑步，希望路上人不多。

对上述文本进行去除标注处理，得到对应的无标注文本：

今天天气不错我准备去跑步希望路上人不多

子步骤302、根据带有正确标注的文本样本，将无标注文本样本转换成序列标注样本。

根据如下带有正确标注的文本，将无标注文本转换成序列标注：

带有正确标注的文本：

今天天气不错，我准备去跑步，希望路上人不多。

无标注文本：

今天天气不错我准备去跑步希望路上人不多

序列标注:

bmmmmebmmmmebmmmmmd

其中，b代表一个短句的开始；e代表一个短句的结束；m代表短句的中间部分；d代表完整句子的结束。

序列标注中，使用字母序列来标识短句的划分，也即标识出需要添加文本标注的位置，同时，在需要添加位置处用不同的字母来标识所要添加的文本标注类型，例如上例中，逗号前面的一个字用e表示，句号前面的一个字用d表示。序列标注中每个标注或字母所代表的含义在序列化处理的过程中确定。对于不同的文本标注类型可以使用不同的标注或字母表示。

在具体实施过程中，使用序列标注模型对无标注文本进行预测得到的序列标注，是由与无标注文本每个位置相对应的概率最大的标注所构成。也就是说，无标注文本中需要添加文本标注的位置以及文本标注类型是由该位置概率最大的标注所决定。所以，训练使用的文本样本需要尽可能覆盖所有的领域，同时还要丰富序列标注的种类，这样训练得到的序列标注模型才能更准确地进行序列标注预测。

在具体实施过程中，使用神经网络模型进行训练得到序列标注模型的过程(步骤201-子步骤203)可以预先独立完成。步骤102可以直接使用预先训练完成的序列标注模型，对步骤101获得的无标注文本进行序列标注预测。

为使本领域技术人员更好地理解本发明，以下用一个完整的实施例阐述本申请的实现过程：

如我们有法院庭审系统语音识别模型，该模型负责将庭审过程中的对话转写为文本。这样获得的文本不包含任何标点符号。截取片段如下：

“现在宣布法庭纪律未经法庭允许不准录像录音摄影除本院允许进入审判区的人员外其他人员一律不准进入审判区”

将该无标点文本送入我们事先训练好的序列标注模型，可得到相应的序列标注：

“bmmmmmmebmmmmmmmmmmmebmmmmmmmmmmmmebmmmmmmmmmmmd”

由序列化过程中所确定的标注含义：b代表一个短句的开始；e代表一个短句的结束；m代表短句的中间部分；d代表完整句子的结束。可知，需要在e的后面添加逗号，d的后面添加句号。根据给出的序列我们可以得知在第8个字后、在第21个字后、第35个字后应该添加逗号，在文本末尾应该添加句号。因此可以得到添加标点后的语句为：

“现在宣布法庭记录，未经法庭允许不准录像录音摄影，除本院运行进入审判区的人员外，其他人员一律不准进入审判区。”

将添加标点后的文本最终显示在用户看到的屏幕上。这样就完成了对语音识别获得的无标点文本添加标点的过程，起到提升用户阅读体验的作用。

只要我们可以对无标点文本准确地进行序列标注预测，我们就可以知道应该在什么位置添加标点以及相应的标点类型。

当然，上述添加标点符号只是作为示例，在实施本发明实施例时，可以根据实际情况添加其他文本标注类型，本发明实施例对此不加以限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例3

参照图4，示出了本申请一种添加文本标注的装置实施例3的结构框图，具体可以包括如下模块：

无标注文本获取模块401，用于获取无标注文本。

序列标注生成模块402，用于采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理，得到无标注文本的序列标注。

文本标注添加模块403，用于根据序列标注对所述无标注文本添加文本标注。

实施例4

参照图5，示出了本申请一种添加文本标注的装置实施例4的结构框图，具体可以包括如下模块：

实施例3中的模块401、402和403，具体实施方式与实施例3相同，此处不再赘述。

本实施例中模块402还包括序列标注模型训练模块500。序列标注模型训练模块500可以预先独立完成，模块402可以直接使用模块500得到的序列标注模型，对无标注文本进行序列标注预测。序列标注模型训练模块500的结构框图参照图6，具体可以包括：

样本获取子模块501，用于获取带有正确标注的文本样本；

序列化子模块502，用于对带有正确标注的文本样本进行序列化处理，得到无标注文本样本和序列标注样本；

模型训练子模块503，用于根据无标注文本样本和序列标注样本对神经网络模型进行训练，得到序列标注模型。

在本发明的一种优选实施例中，所述神经网络模型可以为LSTM神经网络模型或GRU神经网络模型。

在本发明的一种优选实施例中，所述神经网络模型可以为LSTM神经网络模型时，所述LSTM神经网络模型为多层LSTM神经网络模型，或双向LSTM神经网络模型。

在本发明的一种优选实施例中，序列化子模块502的结构框图参照图7，具体可以包括：

去标注处理子模块601，用于对带有正确标注的文本样本进行去除标注处理，得到无标注文本样本。

序列标注转换子模块602，用于根据带有正确标注的文本样本，将无标注文本样本转换成序列标注样本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种添加文本标注的方法和一种添加文本标注的装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种添加文本标注的方法，其特征在于，所述方法包括：

获取无标注文本；

根据所述序列标注对所述无标注文本添加文本标注。

2.根据权利要求1所述的方法，其特征在于，获取所述序列标注模型的方法包括：

获取带有正确标注的文本样本；

3.根据权利要求2所述的方法，其特征在于，所述对所述带有正确标注的文本样本进行序列化处理的方法，包括：

4.根据权利要求1或2或3所述的方法，其特征在于，所述神经网络模型包括LSTM神经网络模型，或GRU神经网络模型。

5.根据权利要求4所述的方法，其特征在于，所述神经网络模型为LSTM神经网络模型时，所述LSTM神经网络模型为多层LSTM神经网络模型，或双向LSTM神经网络模型。

6.一种添加文本标注的装置，其特征在于，所述装置包括：

无标注文本获取模块，用于获取无标注文本；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括序列标注模型训练模块，所述序列标注模型训练模块包括：

样本获取子模块，用于获取带有正确标注的文本样本；

8.根据权利要求7所述的装置，其特征在于，所述序列化子模块包括:

9.根据权利要求6或7或8所述的装置，其特征在于，所述神经网络模型包括LSTM神经网络模型，或GRU神经网络模型。

10.根据权利要求9所述的装置，其特征在于，所述神经网络模型为LSTM神经网络模型时，所述LSTM神经网络模型为多层LSTM神经网络模型，或双向LSTM神经网络模型。