CN109543153B

CN109543153B - 一种序列标注系统及方法

Info

Publication number: CN109543153B
Application number: CN201811344499.2A
Authority: CN
Inventors: 纪大胜; 崔诚煜; 刘世林; 丁国栋; 曾途; 吴桐
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2023-08-18
Anticipated expiration: 2038-11-13
Also published as: CN109543153A

Abstract

本发明涉及一种序列标注系统，包括模型标注模块、调整模块、策略库，模型标注模块的输出端与调整模块的输入端连接；模型标注模块用于对输入的文本数据进行序列标注；策略库中存储有一条或多条策略，调整模块用于从策略库中调取策略，并根据策略及输入的文本数据，对模型标注模块输出的标注结果进行调整。通过本发明系统或方法对文本序列标注，可以增强原有模型标注的准确性及适用性。

Description

一种序列标注系统及方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种序列标注系统及方法。

背景技术

人类社会的知识和信息大多以文本的形式被记录。这些知识和信息都是以人类语言文字的形式描述的，机器无法直接识别。自然语言处理就是一种处理人类自然语言文本的算法技术，其中，分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是基础任务。分词，就是将一句话由字的序列分割成词的序列；词性标注，是为每一个词赋予一个词性，如名词、动词、形容词等；命名实体识别，是提取文中特定类型的名词，如“小明”(类型：人名)，“今天早上”(类型：时间)。分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。

如图1所示，目前对于序列标注问题多采用模型+CRF的方式进行，即先利用模型进行序列标注，然后再通过CRF概率模型进行校正。例如申请号为201710828497.X、名称为“基于Bi-LSTM和CRF的文本序列标注系统及方法”的中国专利申请，就是以Bi-LSTM模型+CRF模型方式进行序列标注。现有技术是一种有监督的机器学习算法，通过大量标注语料完成模型的训练，训练好的模型可以对新数据(未标注数据)执行序列标注任务。但是由于新数据与训练数据可能存在较大的差异，比如出现一些专有名词(如人名“亚伯拉罕”，在训练数据中不存在)，或者训练数据覆盖不全，分布不均衡等，将会导致训练好的模型无法正确处理一些文本，重新标注数据训练又费时费力。

发明内容

本发明的目的在于改善现有技术中所存在的上述不足，提供一种序列标注系统及方法，以提高序列标注的准确性。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种序列标注系统，包括模型标注模块，还包括调整模块、策略库，模型标注模块的输出端与调整模块的输入端连接；

模型标注模块用于对输入的文本数据进行序列标注；

策略库中存储有一条或多条策略，调整模块用于从策略库中调取策略，并根据策略及输入的文本数据，对模型标注模块输出的标注结果进行调整。

根据本发明实施例，每条策略包括词、边界、分值这三个要素，所述调整模块具体用于：

依次从策略库中调取一条策略，当前策略执行完毕后调取下一条策略，直至遍历完所有的策略；

针对于当前策略，将当前策略中的词要素与输入的文本数据进行匹配，若匹配不成功则调取下一条策略；若匹配成功，则根据边界要素和分值要素得出需要调整的序列项和分值，调整对模型标注模块输出的标注结果中相应序列项的分值。

另一方面，本发明实施例同时提供了一种序列标注方法，包括以下步骤：

步骤1，对输入的文本数据进行初步的序列标注；

步骤2，从策略库中调取策略，并根据策略及输入的文本数据，对初步标注的结果进行调整。

根据本发明实施例，所述步骤2具体包括以下步骤：

步骤21，从策略库中调取一条策略；

步骤22，将当前策略中的词要素与输入的文本数据进行匹配，若匹配不成功，则返回步骤21；若匹配成功，则进步步骤23；

步骤23，根据当前策略中的边界要素和分值要素得出需要调整的序列项和分值，并调整对模型标注模块输出的标注结果中相应序列项的分值；

步骤24，判断是否策略库中的所有测量都已执行，若不是则返回步骤21，若是则结束。

再一方面，本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明增加了调整模块的序列标注系统，不仅成功解决了之前不能正确识别某些文本的问题，同时没有对原有的识别能力造成损害。即使在文本语料相差较多的领域，通过添加调整策略，可以解决大部分特殊实体无法识别的问题，大大提升了原有模型的复用率，有效提升了生产效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有技术中序列标注方法的流程图。

图2为采用图1所示方法处理的一个示例的流程图。

图3为实施例中所述的序列标注系统的示意框图。

图4为实施例中调整模块的工作流程图。

图5为实施例中采用图3所示系统处理的一个示例的流程图。

图6为实施例中所述的电子设备的组成框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更容易理解本申请所述的序列标注系统，此处先对现有技术中的序列标注方法进行简述。

如图1所示，序列标注通过为每一个单元(字或词)赋予一个标签，从而达到分块和分类的目的。如文本“小明今天早上迟到了。”，分词，“小(B)明(I)今(B)天(I)早(I)上(I)迟(B)到(I)了(B)。(B)”，其中的B代表开始(Begin)，I代表中间(Inside)，出现B的地方即为边界，通过对B、I标签标识出的边界，就可以提取出词：“小明”、“今天早上”、“迟到”、“了”、“。”。词性标注，“小(B-NR)明(I-NR)今(B-T)天(I-T)早(I-T)上(I-T)迟(B-VI)到(I-VI)了(B-Y)。(B-WJ)”，其中B-NR中的B代表边界，NR代表类型，这里表示人名。这种方式既区分了边界又标识了类型，即词性。实体识别，“小(B-Person)明(I-Person)今(B-Time)天(I-Time)早(I-Time)上(I-Time)迟(O)到(O)了(O)。(O)”，跟词性标注类似，只是多了一个标签O，表示Outside，表示不是任务所关注的类别。通过对标签进行处理，就可以提取出实体：“小明”(类型：Person)、“今天早上”(类型：Time)。

需要说明的是，以B、I、O来标识边界的方法不是唯一的，还有很多其他的方式。如BIESO规范，用B(Begin)、I(Inside)、E(End)、S(Single)、O(Outside)。“小明今天下午迟到了。”可以被标注成“小(B-Person)明(E-Person)今(B-Time)天(I-Time)早(I-Time)上(E-Time)迟(O)到(O)了(O)。(O)”。

序列标注任务最流行的算法是“模型+CRF”：

1)模型部分。如Bi-LSTM-CRF模型中的Bi-LSTM(指双向的LSTM)，是一种深度学习模型，其任务是为每一个单元(这里以字为例)所属的各种类别分配一个分数，相当于对每一个字执行分类任务。如图2所示，分数越高，说明这个字对应这个类别的概率越高。Bi-LSTM可以被替换成其他的模型，如Bi-GRU，多层CNN，多层Bi-LSTM等。

2)CRF部分(也可以没有这部分)，这里特指Linear Chain CRF(ConditionalRandom Field)，它是一种概率模型，主要作用是对标签之间的关系做优化，找出概率最大的一个标签序列(一般使用Viterbi算法进行解码)。如B-Person标签后面不可能跟I-Time标签，跟I-Person标签的可能性更高。经过CRF层的优化，序列标注精度得以提升，如图2所示。

请参阅图3，本实施例中提供的序列标注方法或系统，是在现有模型+CRF方式的基础上，在模型与CRF之间增加了调整模块或步骤。具体地，本实施例中提供的序列标注系统包括模型标注模块、调整模块、策略库、CRF模块，模型标注模块的输出端与调整模块的输入端连接，调整模块的输出端与CRF模块的输入端连接。

策略库中存储有可以多条策略，每条策略由三个或四个要素组成。例如本实施例中，每条策略由四个要素组成，四个要素分别为：

1)regex，用于匹配文本。最简单的是词库，如“小明”会匹配到文本中所有出现的“小明”；

2)pattern，用于指定所要调整分值的标签，如“Person”表示调整与Person相关标签的分数；如果任务不需要类别信息(如分词)，则该要素可以省略；

3)bounds，需要表示左右2个边界。作为一种举例，例如使用“！”、“？”、“+”来表示边界，“！”表示确定的边界，“+”表示不是边界，“？”表示不确定是否是边界。如“+！”表示左边不是边界，右边不是边界；

4)confidence，用于指定所要调整的分值大小。

例如：一条策略为：“小明Person！！5”，表示调整文本“小明”所对应的Person类型的分数，对应的分值+5，不同的bounds对应的修改如下。

为了灵活性，上述策略可以做很多扩展，例如：

1)regex，可以使用正则表达式，这样可以进行更灵活的文本匹配。如“张三丰？”会匹配“张三”或“张三丰”，优先匹配更长的字符串；

2)pattern，可以对标签进行组合，如用“Person|Company”表示人名或者公司类型；还可以使用特殊符号表示特殊类型，如用“*”表示所有实体类型；

3)bounds，可以将左右边界分成2个要素进行表示，比如左边为“BI”是表示调整“B”和“I”对应的标签分数；

4)confidence，可以支持负数，用来减分。数值越大，词条被识别的概率就越大，数值越小，词条不被识别出来的概率就越大。

基于不同的用途，策略之间的内容不同。例如，希望提升以“有限公司”结尾的序列被识别成Company的概率，则策略的表达式可以为：“有限公司Company+！5”。又例如希望提升“张三”被识别成Person的概率，则：策略的表达式可以为“张三Person！！10”。针对于不同的应用场景，可以动态调整修改策略库中的策略。

调整模块可以从策略库中抽取各条策略。请参阅图3，针对于每一条输入调整模块的文本数据，调整模块会依次从策略库中调取一条策略，对当前策略执行完之后再调取下一条策略，直至遍历策略库中所有的策略。针对于当前策略，先将当前策略中的regex(词要素)与输入的文本数据进行匹配，若匹配不成功，则调取下一条策略，若匹配成功，则根据当前策略得出需要调整的数据项及分值，然后对模型标注模块输出的结果进行相应数据项的分值调整。经调整模块调节分数后输出给CRF模块。

举例说明，输入的文本数据为“小明今天下午迟到了。”，策略库中有两条策略，分别为“小明Person！！5”和“有限公司Company+！5”。调整模块的处理过程如下：

(1)从策略库中调取策略“小明Person！！5”；

(2)将“小明”与文本数据“小明Person！！5”进行匹配，匹配成功；

(3)根据当前策略中的定义，得出需要调整的数据项和分值，具体的：

a.策略中的Pattern为“Person”，表示调整Person对应的分值；

b.策略中的bounds为“！！”，表示左右都为边界，左边界对应B(匹配到“小”)，右边界对应E(匹配到“明”)；

c.策略中的confidence为“5”，表示分值加5；

结合abc，依据本条策略得出的的分值调整项为：

(4)将模型标注模块的输出结果按照步骤(2)得出的调整项和分值进行调整，如图5所示；

(5)从策略库中抽取出下一条策略，即“有限公司Company+！5”；

将“有限公司”与文本数据“小明Person！！5”进行匹配，没有找到“有限公司”，匹配不成功；

(6)由于已遍历策略库中所有的策略，所以将调整之后的结果输出给CRF模块，如图5所示。

调整模块会遍历策略库中所有的策略，当regex与输入的文本数据匹配成功，该条策略就会被执行，因此，针对于同一条输入的文本数据，可能会执行一条或多条策略。

上述调整模块的调分方式是一种基于概率的温和的调整方法，这种方法的好处是不会对整个序列造成破坏，例如调整“张三”对应的分数“张(B-Person+2)”，“三(I-Person+2)”后，遇到“张三丰”时，不会影响“张三丰”被识别为人名。调整模块调整之后的分数可以经过CRF层进行解码，找出最有可能的标注序列，也可以无需经过CRF模块而直接作为输出。

经过在标注数据上进行训练测试，在测试集上的F1值达到95％。增加了调整模块的序列标注系统，不仅成功解决了之前不能正确识别某些文本的问题，同时没有对原有的识别能力造成损害。即使在文本语料相差较多的领域，通过添加调整策略，可以解决大部分特殊实体无法识别的问题，大大提升了模型的复用率，有效提升了生产效率。模型标注模块用于对输入的文本数据进行序列标注，模型标注模块中采用模型可以是Bi-LSTM模型、Bi-GRU、多层CNN、多层BI-LSTM等；策略库中存储有一条或多条策略，调整模块用于从策略库中调取策略，并根据策略及输入的文本数据，对模型标注模块输出的标注结果进行调整。

如图6所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、报告生成、通信或其他功能。

如图6所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图6中显示的所有部件。此外，电子设备还可以包括图6中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果，例如输入的文本数据、调整模块的输出结果、CRF模块的输出结果等，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种序列标注系统，包括模型标注模块，其特征在于，还包括调整模块、策略库，模型标注模块的输出端与调整模块的输入端连接；

模型标注模块用于对输入的文本数据进行序列标注；

策略库中存储有一条或多条策略，每条策略包括词、边界、分值这三个要素，所述调整模块具体用于：依次从策略库中调取一条策略，当前策略执行完毕后调取下一条策略，直至遍历完所有的策略；针对于当前策略，将当前策略中的词要素与输入的文本数据进行匹配，若匹配不成功则调取下一条策略；若匹配成功，则根据边界要素和分值要素得出需要调整的数据项和分值，调整模型标注模块输出的标注结果中相应数据项的分值。

2.根据权利要求1所述的系统，其特征在于，还包括CRF模块，调整模块的输出端与CRF模块的输入端连接，用于对调整模块的输出结果进行优化。

3.一种序列标注方法，其特征在于，包括以下步骤：

步骤1，对输入的文本数据进行初步的序列标注；

步骤2，从策略库中调取策略，并根据策略及输入的文本数据，对初步标注的结果进行调整；

策略库中存储有一条或多条策略，每条策略包括词、边界、分值这三个要素，所述步骤2具体包括以下步骤：

步骤21，从策略库中调取一条策略；

步骤22，将当前策略中的词要素与输入的文本数据进行匹配，若匹配不成功，则返回步骤21；若匹配成功，则进入步骤23；

步骤23，根据当前策略中的边界要素和分值要素得出需要调整的数据项和分值，并调整对模型标注模块输出的标注结果中相应数据项的分值；

步骤24，判断是否策略库中的所有策略都已执行，若不是则返回步骤21，若是则结束。

4.根据权利要求3所述的方法，其特征在于，还包括：

步骤3，通过CRF模型对步骤2输出的结果进行优化处理。

5.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求3-4任一所述方法中的操作。

6.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求3-4任一所述方法中的步骤。