CN111008283B

CN111008283B - 一种基于复合边界信息的序列标注方法及系统

Info

Publication number: CN111008283B
Application number: CN201911056445.0A
Authority: CN
Inventors: 孟茜; 夏天; 刘安庭
Original assignee: Zhongdian Yaoming Data Technology Chengdu Co ltd
Current assignee: Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-06-20
Anticipated expiration: 2039-10-31
Also published as: CN111008283A

Abstract

本发明公开了一种基于复合边界信息的序列标注方法及系统，该方法包括：对非结构化文本数据通过预设模型，生成复合词向量并归一化；对所述非结构化文本数据，预训练获得词边界特征向量；将所述复合词向量与所述词边界特征向量进行融合，得到复合边界特征向量；对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量；基于所述字特征向量及所述复合边界特征向量，通过联合学习，生成联合模型；通过所述联合模型，对待标注文本进行序列标注。该方法可消除因分词错误等带来的影响，提高了标注结果的准确性。

Description

一种基于复合边界信息的序列标注方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种基于复合边界信息的序列标注方法及系统。

背景技术

目前，随着文本数据量在互联网上的膨胀，越来越多的服务与应用依赖知识抽取等技术的辅助，以提供更好的服务。而在知识抽取这个具体的任务中，解析无自然分隔的文本(如中文、日文等)的技术又扮演着很重要的作用。

在现有技术领域，在处理无自然分隔的语言的文本数据时，仍然受到分词错误的影响。

当前使用以字为单位的模型，可以在一定程度上避免分词错误的影响，但是同时也无法利用到词边界的信息，从而导致识别错误的不可避免。

发明内容

鉴于上述问题，本发明提出了一种基于复合边界信息的序列标注方法，可消除因分词错误等带来的影响，提高了标注结果的准确性。

第一方面，本发明实施例提供一种基于复合边界信息的序列标注方法，包括：对非结构化文本数据通过预设模型，生成复合词向量并归一化；

对所述非结构化文本数据，预训练获得词边界特征向量；

将所述复合词向量与所述词边界特征向量进行融合，得到复合边界特征向量；

对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量；

基于所述字特征向量及所述复合边界特征向量，通过联合学习，生成联合模型；

通过所述联合模型，对待标注文本进行序列标注。

在一个实施例中，对非结构化文本数据通过预设模型，生成复合词向量并归一化，包括：

对非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；

归一化每个全分词后的词向量集合；

将所述词向量集合，通过注意力机制转换为一个复合词向量；所述复合词向量包含全分词的边界信息。

在一个实施例中，所述归一化每个全分词后的词向量集合，包括：

统一每个词向量集合的大小，选择当前句中包含词数最多的集合，作为参照集合；

所述参照集合包含词数的数量，作为参照值；当其他集合的词数少于所述参照值时，则进行padding操作。

在一个实施例中，对所述非结构化文本数据，预训练获得词边界特征向量，包括：

对所述非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；

使用BMES对所述全分词结果的各个词序列进行标注，并按照每个字对应的标签种类进行合并；

生成每个字的标签的向量表示，并转换为唯一编码表示；所述唯一编码表示包含词边界信息。

在一个实施例中，对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量，包括：

对所述非结构化文本数据进行数据清洗，生成训练数据；

根据序列标注任务的需求，使用BIO对所述训练数据进行序列标注；

将序列标注结果，输入字向量模型，预训练得到每个字的向量表示集合。

第二方面，本发明还提供一种基于复合边界信息的序列标注系统，包括：

归一化模块，用于对非结构化文本数据通过预设模型，生成复合词向量并归一化；

预训练模块，用于对所述非结构化文本数据，预训练获得词边界特征向量；

融合模块，用于将所述复合词向量与所述词边界特征向量进行融合，得到复合边界特征向量；

预处理模块，用于对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量；

生成模块，用于基于所述字特征向量及所述复合边界特征向量，通过联合学习，生成联合模型；

标注模块，用于通过所述联合模型，对待标注文本进行序列标注。

在一个实施例中，所述归一化模块，具体用于：对非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；归一化每个全分词后的词向量集合；将所述词向量集合，通过注意力机制转换为一个复合词向量；所述复合词向量包含全分词的边界信息。

在一个实施例中，所述预训练模块，包括：

生成单元，用于对所述非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；

合并单元，用于使用BMES对所述全分词结果的各个词序列进行标注，并按照每个字对应的标签种类进行合并；

转换单元，用于生成每个字的标签的向量表示，并转换为唯一编码表示；所述唯一编码表示包含词边界信息。

在一个实施例中，所述预处理模块，具体用于：对所述非结构化文本数据进行数据清洗，生成训练数据；根据序列标注任务的需求，使用BIO对所述训练数据进行序列标注；将序列标注结果，输入字向量模型，预训练得到每个字的向量表示集合。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的一种基于复合边界信息的序列标注方法，可以用来表示和学习复合的边界特征，通过联合学习，生成的联合模型；可直接应用于分词、词性标注、信息抽取等序列标注的具体任务，并可以服务更多自然语言处理的后续任务如翻译、推荐等等。其中，需要识别的序列边界信息可根据具体的任务动态学习，该方法可消除因分词错误等带来的影响，提高了标注结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于复合边界信息的序列标注方法流程图；

图2为本发明实施例提供的复合边界信息的序列标注联合模型生成步骤图；

图3为本发明实施例提供的词向量集合转换示意图；

图4为本发明实施例提供的BMES标注法示意图；

图5为本发明实施例提供的字向量模型结构图；

图6为本发明实施例提供的联合模型架构图；

图7为本发明实施例提供的基于复合边界信息的序列标注系统的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的一种基于复合边界信息的序列标注方法，包括：

S1、对非结构化文本数据通过预设模型，生成复合词向量并归一化；

S2、对所述非结构化文本数据，预训练获得词边界特征向量；

S3、将所述复合词向量与所述词边界特征向量进行融合，得到复合边界特征向量；

S4、对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量；

S5、基于所述字特征向量及所述复合边界特征向量，通过联合学习，生成联合模型；

S6、通过所述联合模型，对待标注文本进行序列标注。

本发明实施例中，步骤S1中的生成复合词向量，并归一化成可输入预设模型的表示，该复合词向量具有词边界信息。步骤S2通过预训练获得可表示词边界信息的特征向量；S3～S6中将复合词向量与词边界特征向量进行融合，得到复合边界特征向量；对非结构化文本数据进行预处理，并通过预训练以得到字特征向量；复合边界特征向量和字特征向量，通过联合学习，全局更新参数生成联合模型，基于该联合模型，对待标注文本进行序列标注。

该联合模型，可对待标注文本进行序列标注，比如直接应用于分词、词性标注、信息抽取等序列标注的具体任务，如分词，实体识别、事件检测等，并可以服务更多自然语言处理的后续任务如翻译、推荐等等。该方法采用联合学习，通过学习丰富的边界信息，可得到更好的标注效果。还可应用于多语言场景，不受语言特性所束缚。

下面对上述各个步骤进行详细说明。

参照图2所示，为复合边界信息的序列标注联合模型生成过程；原始数据是指非结构化的文本数据，比如当用于实体识别时，该原始数据可以是医生记录的病例文本数据；比如当用于分词时，该原始数据可以是诗歌或歌曲的文本数据；

以下实例以神经网络常用的LSTM模型结构为例进行说明，还可以是其他模型结构，本发明实施例对此不作限定。

S10、生成复合词向量并归一化

S101、对当前语料，以每个句子为单位，生成全分词结果。

S102、归一化每个全分词后的词向量集合。具体为统一每个词向量集合的大小。以当前句中包含词数最多的集合为标准，如词数少于标准集合中次数的数量，即：最大值，则进行padding操作，也就是超出部分的矩阵补零。

S103、通过上述步骤得到的归一化后的词向量集合，通过一个注意力机制进行转换。如图3将每个集合转换为一个新的词向量表示

S20、预训练边界特征向量；

S201、对当前语料，以每个句子为单位，生成全分词结果。

S202、使用BMES(分别代表开始、中间、结束、单独)标注方法，对步骤S201所得到的各个全分词结果的词序列进行标注，并按照每个字对应的标签种类进行合并，可参照图4所示。

S203、最后生成每个字标签的向量表示，并转换为唯一编码表示

该表示/>

包含丰富的词边界信息。

上述唯一编码转换方式比如将字标签向量通过onehot方式进行表示，再使用sigmoid函数进行归一化处理，转化为一个与样例文本紧凑表示相同维度的向量。其中编码方式可以有多种，不唯一确定，本发明实施例对此不作限定。

S30、融合复合词向量与边界特征向量，构成复合边界特征向量；

S301、融合根据步骤S10与步骤S20得到的两种类型的含有词边界信息的向量，一个是S10经过注意力机制进行编码过的词向量，另一个是S20对词边界标签向量生成的唯一编码表示。融合方式如下方公式。

S302、将上一步S301得到的复合词边界信息表示，分别输入如图5所示的神经网络结构中，获得单元状态c_q。

模型输入x′_t，进过遗忘门f_q、输入门i_q后计参数更新候选集

最终可得到单元状态c_q。(h_t-1为上一时间隐藏状态，W_f、W_i、W_C为权重矩阵，b_f、b_i、b_c为偏置量。)

f_q＝σ(W_f[h_t-1,x′_t]+b_f)

i_q＝σ(W_i[h_t-1,x′_t]+b_i)

S40、数据预处理与预训练字向量

对训练数据进行预处理，使用BIO标注方法，将原始数据转换为相应任务所需要的模型输入格式。

S401、数据清洗：需要根据具体的文本格式采用不同的方法，例如处理非格式化数据时，需要统一字符编码、去除无意义的特殊符号等噪音数据。

S402、训练数据生成：根据序列标注具体任务所需，用B开始、I连续、O其它的方式表示一个待标注序列的起始位置，并根据需要添加类别标识，如：“今天是个好天气”中需要将“今天”是一个名词N进行标识，则表示为今-B-N,天-I-N，是-O剩下字符同理为O。

S403、预训练字向量：为避免分词错误引入错误的词边界信息，本发明基于字向量模型来表示文本中所包含语义。

预训练得到每个字的向量表示集合X：

X＝{x₀,x₁…x_n}

同样利用如图5所示的神经网络结构，模型输入x_t，进过遗忘门f_p、输入门i_p后计参数更新候选集

最终可得到单元状态c_p。(h_t-1为上一时间隐藏状态，W_f、W_i、W_C为权重矩阵，b_f、b_i、b_c为偏置量。)

f_p＝σ(W_f[h_t-1,x_t]+b_f)

i_p＝σ(W_i[h_t-1,x_t]+b_i)

S50、通过联合学习，生成联合模型；

c_t为整个联合模型的单元状态，通过反向传播，S403、S302的神经网络模型与S103注意力机制模型的参数会一起被更新，最终得到联合学习模型共同输出的隐藏层状态h_f。

c_t＝c_pΘc_q

h_f＝o_t*tanh(c_t)

图6为整体联合学习的复合边界特征模型架构图。由虚线方框中三个子模型构成，右上方的为S10中的神经网络模型，用于获取文本的语义表示；左下方为S103中的注意力机制模型，加上S203中词边界向量，共同输入右下方如S302的神经网络模型中，用来获取复合词边界信息的表示，通过联合训练获得隐藏层状态h_f，最后通过输出层，即可得到输出结果。

需要说明的是，在步骤S6中，将待标注文本输入复合边界特征模型之前，需要对待标注文本进行预处理。预处理的方式，可根据具体应用任务比如实体识别、事件检测等，分别采用不同的过程。以实体识别为例，预处理过程与上述步骤S401～S403相同。

本发明实施例提供的基于复合边界信息的序列标注方法，采用联合学习，通过学习丰富的边界信息，可得到更好的效果。另外，适用范围广，可应用于所有可转换为序列标注问题的任务，如分词，实体识别、事件检测等，并服务于翻译、推荐等上层应用。还可应用于多语言场景，不受语言特性所束缚。

基于同一发明构思，本发明实施例还提供了基于复合边界信息的序列标注系统，由于该系统所解决问题的原理与基于复合边界信息的序列标注方法相似，因此该系统的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种基于复合边界信息的序列标注系统，参照图7所示，包括：

归一化模块71，用于对非结构化文本数据通过预设模型，生成复合词向量并归一化；

预训练模块72，用于对所述非结构化文本数据，预训练获得词边界特征向量；

融合模块73，用于将所述复合词向量与所述词边界特征向量进行融合，得到复合边界特征向量；

预处理模块74，用于对所述非结构化文本数据进行预处理，并通过预训练以得到字特征向量；

生成模块75，用于基于所述字特征向量及所述复合边界特征向量，通过联合学习，生成联合模型；

标注模块76，用于通过所述联合模型，对待标注文本进行序列标注。

在一个实施例中，所述归一化模块71，具体用于：对非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；归一化每个全分词后的词向量集合；将所述词向量集合，通过注意力机制转换为一个复合词向量。

在一个实施例中，所述预训练模块72，包括：

生成单元721，用于对所述非结构化文本数据的当前语料，以每个句子为单位，生成全分词结果；

合并单元722，用于使用BMES对所述全分词结果的各个词序列进行标注，并按照每个字对应的标签种类进行合并；

转换单元723，用于生成每个字的标签的向量表示，并转换为唯一编码表示；所述唯一编码表示包含词边界信息。

在一个实施例中，所述预处理模块74，具体用于：对所述非结构化文本数据进行数据清洗，生成训练数据；根据序列标注任务的需求，使用BIO对所述训练数据进行序列标注；将序列标注结果，输入字向量模型，预训练得到每个字的向量表示集合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。