CN112084746A

CN112084746A - 一种实体识别方法、系统、存储介质及设备

Info

Publication number: CN112084746A
Application number: CN202010953709.9A
Authority: CN
Inventors: 温柏坚; 江疆; 伍江瑶; 高尚; 吴广财; 郑杰生; 林嘉鑫; 梁哲恒; 周昉昉
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-15

Abstract

本发明公开了一种实体识别方法、系统、存储介质及设备，本发明通过采用模式匹配法以及字符串匹配法从样本数据集中匹配出第一实体，之后在对第一实体进行标注，在此过程中不再需要具有专业知识的人员来查找不同任务中对应的实体数据，提高了对实体标注的准确性以及效率；本发明通过不断将待识别文本增加至样本数据集中，对输入到BERT序列标注模型进行训练，直至BERT序列标注模型输出的实体识别标签是否与预先在待识别文本的实体上标注的标签一致为止，从而使得BERT序列标注模型能够适用于不同领域以及不同来源的文本语料，解决了不同来源的文本语料输入到训练好的实体识别模型中进行实体识别时，实体识别模型的识别准确率比较低的技术问题。

Description

一种实体识别方法、系统、存储介质及设备

技术领域

本发明涉及自然语言处理领域，尤其涉及一种实体识别方法、系统、存储介质及设备。

背景技术

实体抽取是自然语言处理领域的基础任务之一，也是信息抽取任务中一个重要的子任务。实体抽取意在提取文本中最主要的实体，具体的主要工作是从一段文本中识别出发生的实体以及实体中的各个元素。例如提取一个文本中的触发词和实体元素，实体元素包括实体主体、实体客体、时间和国别等。实体抽取的类型一般是根据任务确定的。为了进行实体抽取的任务，现有的方案是将模型回标或者人工标注的作为测试数据，然后将这些标注好的数据进行训练，得到模型。但该方案存在以下缺陷：

不同的任务往往要定义不同的实体类型，这些类型无法使用通用的训练数据，需要消耗大量的时间和精力来标注专属的数据，还需要有相关专业知识，人工标注的结果普遍存在一致性差、准确度低等问题，也限制了语料的规模和覆盖范围。当所使用的测试语料和训练语料来自于同一来源的时候，系统的效果往往较高；但当在另外一个来源不同的语料上进行测试的时候，系统的表现就会大打折扣，导致实体识别的准确率不高。

综上所述，现有技术中对不同来源的语料进行实体识别时，存在着实体的识别的准确率差的技术问题。

发明内容

本发明提供了一种事件抽取方法、系统、存储介质以及设备，用于解决现有技术中对不同来源的语料进行实体识别时，存在着实体的识别的准确率差的技术问题。

本发明提供的一种实体识别方法，所述方法包括以下步骤：

S1：获取样本数据集；

S2：设置模式匹配法的识别规则以及字符串匹配法的识别规则；

S3：基于设置好识别规则的模式匹配法以及设置好识别规则的字符串匹配法从样本数据集中匹配出第一实体；

S4：对样本数据集中的第一实体标注上相应的标签；

S5：将经过标注的样本数据集中输入到BERT序列标注模型进行训练，得到预训练的BERT序列标注模型；

S6：获取待识别文本，将待识别文本输入到预训练的BERT序列标注模型中，判断预训练的BERT序列标注模型输出的实体识别标签是否与预先在待识别文本的实体上标注的标签一致；

S7：若是，得到训练好的BERT序列标注模型；若否，将预先在实体上标注有标签的待识别文本加入到样本数据集中，重新执行步骤S5～S7。

优选的，基于设置好识别规则的模式匹配法采用正则表达式从样本数据集中匹配出第一实体。

优选的，基于设置好识别规则的字符串匹配法采用AC自动机从样本数据集中匹配出第一实体。

优选的，AC自动机根据识别规则生成。

优选的，在AC自动机中为识别规则分配权重，AC自动机在匹配过程中优先选择权重最大的识别规则进行匹配。

优选的，BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层使用BertEncoder，输出层中设置有前后指针。

一种实体识别系统，包括样本数据集获取模块、识别规则设置模块、联合规则匹配模块、标注模块、模型预训练模块、待识别文本获取模块、待识别文本识别模块以及判断模块；

样本数据集获取模块用于获取样本数据集；

识别规则设置模块用于设置模式匹配法的识别规则以及字符串匹配法的识别规则；

联合规则匹配模块用于基于设置好识别规则的模式匹配法以及设置好识别规则的字符串匹配法从样本数据集中匹配出第一实体；

标注模块用于对样本数据集中的第一实体标注上相应的标签；

模型预训练模块用于将经过标注的样本数据集中输入到BERT序列标注模型进行训练，得到预训练的BERT序列标注模型；

待识别文本获取模块用于获取待识别文本；

待识别文本识别模块用于将待识别文本输入到预训练的BERT序列标注模型中；

判断模块用于判断预训练的BERT序列标注模型输出的实体识别标签是否与预先在待识别文本的实体上标注的标签一致；若是，得到训练好的BERT序列标注模型；若否，将预先在实体上标注有标签的待识别文本加入到样本数据集中，重新执行模型预训练模块、待识别文本获取模块以及待识别文本识别模块。

优选的，模型预训练模块中的BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层为BertEncoder，输出层中设置有前后指针。

一种存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述一种实体识别方法的步骤。

一种设备，包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的一种实体识别方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例通过采用模式匹配法以及字符串匹配法从样本数据集中匹配出第一实体，之后在对第一实体进行标注，在此过程中不再需要具有专业知识的人员来查找不同任务中对应的实体数据，提高了对实体标注的准确性以及效率；本发明实施例通过不断将待识别文本增加至样本数据集中，对输入到BERT序列标注模型进行训练，直至BERT序列标注模型输出的实体识别标签是否与预先在待识别文本的实体上标注的标签一致为止，从而使得BERT序列标注模型能够适用于不同领域以及不同来源的文本语料，解决了不同来源的文本语料输入到训练好的实体识别模型中进行实体识别时，实体识别模型的识别准确率比较低的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种实体识别方法、系统、存储介质及设备的方法流程图。

图2为本发明实施例提供的一种实体识别方法、系统、存储介质及设备的BERT序列标注模型前后指针标注方式示意图。

图3为本发明实施例提供的一种实体识别方法、系统、存储介质及设备的系统框架图。

图4为本发明实施例提供的一种实体识别方法、系统、存储介质及设备的设备框架图。

具体实施方式

本发明实施例提供了一种实体识别方法、系统、存储介质及设备，用于解决现有技术中对不同来源的语料进行实体识别时，存在着实体的识别的准确率差的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种实体识别方法、系统、存储介质及设备的方法流程图。

实施例1

如图1所示，本发明实施例提供的一种实体识别方法，所述方法包括以下步骤：

S1：从服务器中获取样本数据集，样本数据集中包含有大规模语料，通过获取大规模语料有利于后续对BERT序列标注模型进行训练；

S2：设置模式匹配法的识别规则以及字符串匹配法的识别规则；需要进一步说明的是，模式匹配是数据结构中字符串的一种基本运算，给定一个子串，在某个字符串中找出与该子串相同的所有子串，从而来查找出实体，其中，子串可根据设置的识别规则来设定；字符串匹配法用于在一个大的字符串中搜索某个字符串的所有出现位置，通过定位字符串的位置从而查找出实体；

S3：基于设置好识别规则的模式匹配法以及设置好识别规则的字符串匹配法从样本数据集中匹配出第一实体；需要进一步说明的是，对样本数据集进行匹配主要是用于提取事件中的时间、国别、地点等不同领域的不同需求的实体。例如对于每一个技术领域，所需要识别的实体是存在千差万别的，分析该技术领域的实体类型，需要找出实体中规律性比较强的字符，例如时间类型大都是xxxx年xx月xx日的格式，国别类型的词是固定集合的词，时间，国别即为规律性强的实体，对于这规律性较强的实体，通过模式匹配法以及字符串匹配法从样本数据集中匹配获得；

S4：对样本数据集中的第一实体标注上相应的标签，通过标注上相应的标签以便于后续BERT序列标注模型对实体进行识别；

S5：将经过标注的样本数据集中输入到BERT序列标注模型进行训练，得到预训练的BERT序列标注模型；需要进一步说明的是，在训练的过程中，BERT序列标注模型对样本数据集的第一实体标注上相应的标签进行学习，并在每个实体上标注出实体识别标签；

S7：若是，则说明预训练的BERT序列标注模型能够在待识别文本中同样识别出实体，即得到训练好的BERT序列标注模型；若否，则说明预训练的BERT序列标注模型无法在不同来源的待识别文本中实现对实体的识别，将预先在实体上标注有标签的待识别文本加入到样本数据集中，重新执行步骤S5～S7，通过不断扩大样本数据集的规模使得BERT序列标注模型能够对不同来源的待识别样本中的实体进行识别。

实施例2

S2：设置模式匹配法的识别规则以及字符串匹配法的识别规则；需要进一步说明的是，模式匹配是数据结构中字符串的一种基本运算，给定一个子串，在某个字符串中找出与该子串相同的所有子串，从而来查找出实体，其中，子串可根据设置的识别规则来设定；在本实施例中，模式匹配法使用正则表达式，如时间正则表达式“\d{4}年\d{1,2}月\d{1,2}日”能够抽取“xxxx年xx月xx日”格式的时间，正则式表达式即可通过识别规则进行设定；字符串匹配法用于在一个大的字符串中搜索某个字符串的所有出现位置，通过定位字符串的位置从而查找出实体；

需要进一步说明的是，AC自动机根据预先设置的识别规则生成，AC自动机的底层基于Trie树，Trie树是一种多模式串匹配算法，又称单词查找树或键树，是一种树形结构，Trie树中的每个结点除了有指向子节点的指针，还有一个fail指针，它表示输入的字符与当前结点的所有子结点都不匹配时，AC自动机应转移到的状态；Trie树中每个结点的fail指针表示由根结点到该结点所组成的字符序列的所有后缀和整个目标字符串集合(也即整个Trie树)中的所有前缀两者中最长公共的部分。因此，AC自动机利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，因此能够快速查找句子中的词，例如将所有国家的名字使用AC自动机来处理构建Trie树，能够快速定位到句子中的国家名字以及国家名字所在的位置。

需要进一步说明的是，在AC自动机中为识别规则分配权重，AC自动机在匹配过程中优先选择权重最大的识别规则进行匹配。以事件元素中的时间为例，如时间的抽取规则1：xxxx年xx月xx日，但是时间又不总是有年份的，所有增加抽取规则2：xx月xx日；由于抽取规则1能抽取的范围比抽取规则2长，所以给抽取规则1设置权重为5，抽取规则2设置权重为4，目的是当遇到规则冲突的情况，选择权重最高的规则来识别。

需要进一步说明的是，BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层为BertEncoder，输出层中设置有前后指针；

嵌入层将输入的字符串在子词嵌入层、位置嵌入层和分割嵌入层中分别转换为子词嵌入、位置嵌入和分割嵌入等三个词嵌入特征；子词(WordPiece)是指将字符串划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。在子词嵌入层中，把字符串切割为单字的文本列表，将这个文本列表作为tokens，在tokens的开始([CLS])和结束([SEP])处添加额外的token，token的目的是作为分类任务的输入表示，并分隔一对输入文本；之后，将每个token转换为768维向量表示形式，例如若输入的是4个字的字符串，在加上开始和结束额外的token，则共有6个token，将6个token转换成一个形状为(6，768)的矩阵向量表示形式；位置嵌入层用于将字符串的位置信息编码成特征向量；分割嵌入层中只有两个向量表示，用于对token进行区分，第一个向量(索引0)分配给属于输入1的所有tokens，而最后一个向量(索引1)分配给属于输入2的所有tokens。如果一个输入只有一个输入语句，那么它的分割嵌入就是对应于分割嵌入中的索引为0的向量。编码层将基于嵌入层输出的每个子词的向量，为每个待分类的字符构造代表其语义的向量表示，将每个字符对应的向量表示输入到输出层中，在本实施例中，输出层使用前后指针的方式替换原有的输出层，前后指针标注方式是指通过标注实体的开始位置和终止位置，如图2所示；使用Sigmoid函数把编码层输出的向量表示映射为一个0或1的概率值，0代表不可以作为边界，1代表可以作为边界，前后指针输出时得到每个字符能否作为头尾实体边界，最后把开始的第一个1作为头部，第二个1作为尾部，……，忽略实体中间的位置的词；通过Sigmoid函数对每个字标注0或者1，从而输出实体的分类，并基于每个实体的分类为实体标注上实体识别标签；

实施例3

如图3所示，一种实体识别系统，包括样本数据集获取模块201、识别规则设置模块202、联合规则匹配模块203、标注模块204、模型预训练模块205、待识别文本获取模块206、待识别文本识别模块207以及判断模块208；

样本数据集获取模块201用于获取样本数据集；

识别规则设置模块202用于设置模式匹配法的识别规则以及字符串匹配法的识别规则；

联合规则匹配模块203用于基于设置好识别规则的模式匹配法以及设置好识别规则的字符串匹配法从样本数据集中匹配出第一实体；

标注模块204用于对样本数据集中的第一实体标注上相应的标签；

模型预训练模块205用于将经过标注的样本数据集中输入到BERT序列标注模型进行训练，得到预训练的BERT序列标注模型；

待识别文本获取模块206用于获取待识别文本；

待识别文本识别模块207用于将待识别文本输入到预训练的BERT序列标注模型中；

判断模块208用于判断预训练的BERT序列标注模型输出的实体识别标签是否与预先在待识别文本的实体上标注的标签一致；若是，得到训练好的BERT序列标注模型；若否，将预先在实体上标注有标签的待识别文本加入到样本数据集中，重新执行模型预训练模块205、待识别文本获取模块206以及待识别文本识别模块207。

作为一个优选的实施例，模型预训练模块205中的BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层为BertEncoder，输出层中设置有前后指针。

如图4所示，一种设备30，所述设备包括处理器300以及存储器301；

所述存储器301用于存储程序代码302，并将所述程序代码302传输给所述处理器；

所述处理器300用于根据所述程序代码302中的指令执行上述的一种实体识别方法中的步骤。

示例性的，所述计算机程序302可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器301中，并由所述处理器300执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序302在所述终端设备30中的执行过程。

所述终端设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器300、存储器301。本领域技术人员可以理解，图4仅仅是终端设备30的示例，并不构成对终端设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器300可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-ProgrammaBle GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器301可以是所述终端设备30的内部存储单元，例如终端设备30的硬盘或内存。所述存储器301也可以是所述终端设备30的外部存储设备，例如所述终端设备30上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器301还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器301用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器301还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种实体识别方法，其特征在于，所述方法包括以下步骤：

S1：获取样本数据集；

S4：对样本数据集中的第一实体标注上相应的标签；

2.根据权利要求1所述的一种实体识别方法，其特征在于，基于设置好识别规则的模式匹配法采用正则表达式从样本数据集中匹配出第一实体。

3.根据权利要求1所述的一种实体识别方法，其特征在于，基于设置好识别规则的字符串匹配法采用AC自动机从样本数据集中匹配出第一实体。

4.根据权利要求3所述的一种实体识别方法，其特征在于，AC自动机根据识别规则生成。

5.根据权利要求4所述的一种实体识别方法，其特征在于，在AC自动机中为识别规则分配权重，AC自动机在匹配过程中优先选择权重最大的识别规则进行匹配。

6.根据权利要求1所述的一种实体识别方法，其特征在于，BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层使用BertEncoder，输出层中设置有前后指针。

7.一种实体识别系统，其特征在于，包括样本数据集获取模块、识别规则设置模块、联合规则匹配模块、标注模块、模型预训练模块、待识别文本获取模块、待识别文本识别模块以及判断模块；

样本数据集获取模块用于获取样本数据集；

待识别文本获取模块用于获取待识别文本；

8.根据权利要求7所述的一种实体识别系统，其特征在于，模型预训练模块中的BERT序列标注模型由嵌入层、编码层、输出层组成；其中，嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层，编码层为BertEncoder，输出层中设置有前后指针。

9.一种存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6中任一项所述一种实体识别方法的步骤。

10.一种设备，其特征在于，包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1～6任一项所述的一种实体识别方法。