CN112560484B - 用于命名实体识别的改进bert训练模型及命名实体识别方法 - Google Patents
用于命名实体识别的改进bert训练模型及命名实体识别方法 Download PDFInfo
- Publication number
- CN112560484B CN112560484B CN202011240770.5A CN202011240770A CN112560484B CN 112560484 B CN112560484 B CN 112560484B CN 202011240770 A CN202011240770 A CN 202011240770A CN 112560484 B CN112560484 B CN 112560484B
- Authority
- CN
- China
- Prior art keywords
- semantic feature
- vectors
- named entity
- entity
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 160
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011426 transformation method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 244000062793 Sorghum vulgare Species 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 235000019713 millet Nutrition 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出了一种改进BERT训练模型及一种命名实体识别方法、系统,该改进BERT训练模型包括传统BERT模型、强化位置编码层、分类层。强化位置编码层用于提取各字符任务向量中的位置向量,将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;分类层,用于将得到的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。本发明强化了位置编码信息,能避免传统BERT训练模型在关系抽取、语义分析的错误。
Description
技术领域
本发明涉及自然语言处理识别技术领域,特别涉及用于命名实体识别的改进BERT训练模型及命名实体识别方法。
背景技术
随着经济的发展,各行各业的新生事物逐渐增多,例如微博中的新生词汇、化学中合成的新的物质、汽车公司新出的车系、科技公司开发的软件应用等,这些新生词汇在自然语言中的表达出现多样性、歧义性、时效性的特征,因此需要一种中文文本的数据结构化处理方法,能自动提取文本中的命名实体,让其在海量文本数据中发挥应有的价值。准确提取命名实体的前提是进行准确的命名实体识别(Named Entity Recognition,简称NER),即指识别文本中具有特定意义的实体,主要包括人名、地名、公司名、时间、专有名词等。命名实体是文本中的细粒度元素,是重要的信息表达载体,是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一,其主要任务是识别出文本中出现的名字实体和有意义的短语并加以归类,命名实体识别准确率和召回率的高低,直接决定着关系抽取、语义分析等语言理解全过程的性能。
2018年底,Google发布的论文《Pre-training of Deep BidirectionalTransformers for Language Understanding》提出了BERT(Bidirectional EncoderRepresentations from Transformers)模型,作为Word2Vec(用来产生词向量的相关模型)的替代者,其使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的双向关系,本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示。
然而实际应用中发现,经过多层的Transformer处理,基于BERT的预训练模型输出向量中的位置编码信息已经弱化,从而导致一些依赖位置特征的实体标签预测错误。例如句子“另据阿尔及利亚主要日报《祖国报》报道”,预测出的实体是<阿尔及利亚,国家>、<祖国报,游戏>,其中<祖国报>的正确标签应该是书籍而不是游戏。这个错误是因为数据集中很多游戏实体带书名号,模型过度地学习了前后书名号地特征,而没有学习到与前面国家标签的依赖关系。再如,根据BIO标注规则(B-Begin表示开始,I-Intermediate表示中间,O-other表示与标注无关),第一个位置标签应该为B或者O,但有时却被错误的标签为I。由此可见,如果不注意实体标签与句子中的相对位置、绝对位置,则容易出现关系抽取、语义分析的错误。
发明内容
鉴于上述问题,有必要提出一种用于命名实体识别的改进BERT训练模型以解决或部分解决上述问题,本发明提出的技术方案如下:
本发明提出了一种用于命名实体识别的改进BERT训练模型,所述改进BERT训练模型包括传统BERT模型、强化位置编码层,以及分别与传统BERT模型、强化位置编码层输出端连接的分类层,其中:
所述传统BERT模型包括输入层、若干Transformer层、输出层,所述输入层用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量;所述Transformer层用于训练任务向量得到第一语义特征向量,所述输出层用于输出第一语义特征向量;
所述强化位置编码层,用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;
所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。
进一步的,所述强化位置编码层用于将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,具体包括:
将每个字符对应的第二语义特征向量分别与任务句子中其它字符的第一语义特征向量进行相似度计算,得到若干相似度值αi;
对若干相似度值αi进行归一化处理得到相似度向量ɑ;
将相似度向量ɑ作为权重,分别乘以所有字符对应的第一语义特征向量,进行加权求和。
进一步的,相似度计算包括:余弦相似度法或简单神经网络法或矩阵变换法或点积缩放法。
进一步的,所述分类层用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放包括:将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加后乘以待训练参数矩阵,再加上一个偏置参数,保证生成的向量维度满足预设标注规则的标签数量。
第二方面,本发明还公开了一种命名实体识别方法,包括以下步骤:
S1,对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
S2,分别利用上述改进BERT训练模型、预设规则进行命名实体识别,其中,所述改进BERT训练模型由若干带标注实体的句子训练而成;
S3,对识别的命名实体求并集,去除重复命名实体后输出。
第三方面,本发明还公开了一种命名实体识别系统,包括预处理模块、改进BERT训练模型抽取实体模块、预设规则抽取实体模块、候选实体库模块,其中:
所述预处理模块,用于对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
所述改进BERT训练模型抽取实体模块,用于利用上述改进BERT训练模型进行命名实体识别,并输出给候选实体库模块;
所述预设规则抽取实体模块,用于利用预设规则进行命名实体识别,并输出给候选实体库模块;
所述候选实体库模块,用于对改进BERT训练模型抽取实体模块、预设规则抽取实体模块输入的命名实体求并集,去除重复命名实体后输出。
相比于现有技术,本发明的有益效果在于:本发明的改进BERT训练模型还包括强化位置编码层、分类层,强化位置编码层用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。因此改进BERT训练模型强化了位置编码信息,即更关注实体标签与句子中的相对位置、绝对位置的关联性、前后位置的依赖性,能避免传统BERT训练模型在后续应用中出行的关系抽取、语义分析的错误。
附图说明
图1是本发明实施例一中,一种用于命名实体识别的改进BERT训练模型的简单结构示意图;
图2是本发明实施例一中,一种用于命名实体识别的改进BERT训练模型内部结构详细示意图;
图3是本发明实施例一中,注意力机制的原理示意图;
图4是本发明实施例二中,一种命名实体识别方法的流程图;
图5是本发明实施例二中,句法依存结构示意图;
图6是本发明实施例三中,一种命名实体识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
本发明提出了一种用于命名实体识别的改进BERT训练模型,如图1所示,所述改进BERT训练模型包括传统BERT模型10、强化位置编码层20,以及分别与传统BERT模型10、强化位置编码层20输出端连接的分类层30,其中,传统BERT模型10包括输入层11、若干Transformer层12、输出层13。
传统BERT模型10的输入层11又可称为嵌入层,用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量,理论上还包括段落向量。比如使用随机初始化的字嵌入对语句中的每个字符进行表示,对每个字符使用768维的嵌入向量进行表示,即生成词向量。对于位置向量(在本实施例中用PE表示)的初始化是基于正弦函数,其中,pos是输入的位置,i则表示输入向量的维度,dmodel是模型输入的维度。在本实施例中,命名实体识别任务中输入的是单个句子对于段落向量,所以段落向量均相同,在不实施例中不再特殊处理。图2中PE1代表第一个字符的位置向量,PEn代表第n个字符的位置向量。
若干Transformer层12,本质上是连续相同的多头注意力,用于训练任务向量得到第一语义特征向量具体的。
注意力机制可以更直接地捕捉词与词之间的关系,从而使序列的编码更具整体性,更能代表整个序列的含义。为了更好的介绍注意力机制,可以将其高度抽象地映射为一个查询Query和一系列键值对<Key,Query>发生相互作用后,得到注意力值的过程,如图3所示。具体为分别计算Query与Keyi的相似度αi(注意力值),并与Valuei相乘。以句子“小明说,他不喜欢吃香蕉”为例,“小明”与“他”应该具有强相关性。将“他”作为Query,句子中所有字作为Key,“他”与句子每个字求出相似度,归一化后记为向量α,此时以句子中所有字作为Value,以向量α作为权重对Value加权求和,得到的向量作为“他”的注意力向量。同样地,以任意一个字为Query,都能得到另一个向量α作为权重,并与Value加权得到这个字的注意力向量。Attention机制可以被抽象为公式Attention(Q,K,V)=softmax(similar(Q,K))V。
而多头注意力就是将多个注意力合并起来,对于第i个头,使用待训练的参数矩阵Wi QWi KWi V分别对QKV进行线性变换,然后使用注意力机制得到第i个头的向量headi=Attention(QWi q,KWi K,VWi V),不同head之间的参数矩阵是相互独立的,将多个head合并起来后乘以一个参数映射矩阵MultiHead(Q,K,V)=concat(head1,head2,…)W0。在一些实施例中,BERT模型包括12个连续相同的多头注意力,大量文本数据经过该Transformer层12预训练后有输出层13输出相应的第一语义特征向量B,该传统BERT模型10具有语言泛化能力,但位置编码信息已经弱化。图2中B1代表第一个字符的第一语义特征向量,Bn代表第n个字符的第一语义特征向量。
由于位置编码信息弱化容易造成后续应用中关系抽取、语义分析的错误,因此改进BERT训练模型还包括强化位置编码层20、分类层30,其中:
强化位置编码层20用于强化位置编码信息,即更关注实体标签与句子中的相对位置、绝对位置的关联性、前后位置的依赖性。结合图2所示,具体的,由于位置向量PE的维度与传统BERT输出的第一语义特征向量B并不相同,因此强化位置编码层20需要提取各字符任务向量中的位置向量PE,并将位置向量PE与预设参数矩阵WPE相乘,得到与第一语义特征向量维度相同的第二语义特征向量。然后,强化位置编码层20还将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量。
在一些实施例中,参照传统BERT模型10的注意力机制将第二语义特征向量PE WPE作为注意力机制中的Query,即Query=PE WPE,对于Query中的第一个位置PE1WPE,以第一语义特征向量B作为Key与Value,分别与任务句子中其它字符的第一语义特征向量进行相似度计算,也即计算PE1WPE与Key=B中的每个位置Bi的相似度得到αi,然后对若干相似度值αi进行归一化处理得到相似度向量ɑ;再将相似度向量ɑ作为权重,分别乘以所有字符对应的第一语义特征向量B,即将第一语义特征向量B当作注意力机制中的Value,进行加权求和,得到第一个位置的注意力向量。可以理解的,将第二语义特征向量中的对第二个位置PE2WPE、第三个位置PE3WPE直至最后一个位置PEnWPE分别执行同样的操作,即可得到各字符的位置编码注意力向量。综上所述,位置编码注意力向量的计算可以抽象为数学公式(1):
位置编码注意力向量att=Attention(PE WPE,B,B) (1)
在一些实施例中,相似度计算可以采用的方法包括余弦相似度法简单神经网络法α=[Q,Ki]W+b、矩阵变换法α=QTWKi、点积缩放法等,在本实施例中,优选使用点积缩放/>其中d为输入向量的维度,其本质是矩阵的点积相乘,能更好的利用矩阵乘积,提高计算效率。
对若干相似度值αi进行归一化处理可以直接采用softmax函数。因为单个相似度的值可能非常大,单个数值没有什么意义,因此需要进行归一化处理,将各相似度值缩放到0-1,且和为1。比如得到相似度向量[0.09,0.67,0.24]。
命名实体识别本质是一个多分类任务,因此分类层30用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并对第三语义特征向量进行分类,确定命名实体标签。具体的:
分类层30包括全连接层31及归一化处理层32,全连接层31的输入为各字符的位置编码注意力向量与第一语义特征向量之和,可记为Bin=att+B,其维度等于BERT的输出维度,而全连接层31的输出维度应该等于预设标注规则对应的标签数量,因此需要进行维度缩放。由于全连接层31的每一个输出都可以看成前一层的每一个结点乘以一个权重系数WB,并加上一个用于增加拟合能力的偏置参数bD,因此在本实施例中可以用待训练参数矩阵WB乘以Bin,再加上一个偏置参数bD来调整待输出向量的维度。该偏置参数可以通过正态分布的随机数设置初值,并通过自学习进行优化。
另外,一般情况下,依然需要对输出向量进行归一化处理,以方便后续应用,在本实施例中归一化处理层32依然采用softmax函数。综上可知,第三语义特征向量Bout得到计算过程可以抽象为公式(2):
Bout=softmax(WDBin+bD) (2)
在一些实施例中,假设得到的第三语义特征向量为[0,0.9,0.1,0,0,…],则用预设的标注规则对其分类,比如利用BIO标注规则进行分类,则得到第二个标签B-Company,说明这个字属于公司实体。可以理解的,为了优化该改进BERT训练模型,优选利用大量已人工标注的数据训练。
现对BIO标注规则进行更详细的说明。在对句子中每个字进行标注(又称打标签)时,若不属于实体则标记“O”,若属于实体且为实体的第一个字则标记“B-实体名”,若属于实体且不为实体的第一个字标记“I-实体名”。以句子“小米发布了Note 10手机”为例,标记结果如表1所示。
字 | 类别 | 标签 |
小 | 公司 | B-COMPANY |
米 | 公司 | I-COMPANY |
发 | 无 | O |
布 | 无 | O |
了 | 无 | O |
N | 产品 | B-PRODUCTION |
t | 产品 | I-PRODUCTION |
e | 产品 | I-PRODUCTION |
o | 产品 | I-PRODUCTION |
产品 | I-PRODUCTION | |
1 | 产品 | I-PRODUCTION |
0 | 产品 | I-PRODUCTION |
手 | 产品 | I-PRODUCTION |
机 | 产品 | I-PRODUCTION |
表1
本实例公开的改进BERT训练模型还包括强化位置编码层20、分类层30,强化位置编码层20用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;所述分类层30,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设BIO标注规则对第三语义特征向量进行分类,确定命名实体标签。改进BERT训练模型强化了位置编码信息,即更关注实体标签与句子中的相对位置、绝对位置的关联性、前后位置的依赖性,能避免传统BERT训练模型在后续应用中出行的关系抽取、语义分析的错误。
实施例二
本发明还公开了一种命名实体识别方法,需要利用实施例一中的改进BERT训练模型,结合图4所示,该命名实体识别方法包括以下步骤:
S1,对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子。
具体的,预处理过程可以包括:文章切分,将一篇长文章切割为句子,之后处理均基于独立的句子;清除文本中多余的空格与生僻的标点符号、表情符号;校正并统一文本中的半角、全角字符,英文、中文标点符号;将每个句子按照字符进行切分。
S2,分别利用上述改进BERT训练模型、预设规则进行命名实体识别,其中,所述改进BERT训练模型由若干带标注实体的句子训练而成。
利用改进BERT训练模型进行命名实体识别的方法可以参考实施例一,在此不再赘述。利用预设规则进行命名实体识别可以包括:使用简单正则表达式抽取出文本中的书籍、时间、公司、产品等实体,比如找出文本中匹配出字母数字组合的部分,作为实体“专有名词”;找出文本中匹配出字母数字组合+品牌/厂家的部分,作为实体“公司”;找出文本中匹配出字母数字组合+系列/产品的部分,作为实体“产品”等等。
在一些实施例中,预设规则也可以包括根据句子的句法依存结构,找出一些特定结构的、符合某种规律的词语序列组合识别为实体。以“小米发布了Note10手机”为任务句子进行说明其句法依存结构如图5所示。显然“Note”做定语修饰手机,“10”做定语修饰手机,将此结构抽象化表示:
令i为句子中分词结果的序号,Xi为分词结果的第i个词,若Xi为英文或数字组合,且Xi+1为英文或数字组合,且Xi+2为名词,且Xi是Xi+2的定语,且Xi+1是Xi+2的定语,且Xi-1与Xi没有依存关系,且Xi+2与Xi+3没有依存关系,那么可以将Xi、Xi+1、Xi+2合并为一个词进行抽取。
S3,对识别的命名实体求并集,去除重复命名实体后输出。
本实施例利用改进BERT训练模型、预设规则进行多种策略的命名实体识别,对识别的命名实体的结果求并集,命名实体识别准确性高。
在另一些实施例中,可能存在一种情况,比如改进BERT训练模型抽取了“布了Note10”作为实体词,而预设规则抽出了“Note 10手机”作为实体,两者并未重复,因此都会输出。显然这样的结果是有问题的,因此需要判断哪一个实体的可信度更高。
优选的,本实施例的命名实体识别方法还包括:
步骤S4,使用基于统计的分词方法判断S3输出的是否是实体,并将实体输出。
在一些实施例中,基于统计的分词方法主要采用马尔可夫假设的二元句法模型,比如对于以下两种分词方案:A1=小米/发布/了/Note 10手机,A2=小米/发/布了Note10/手机,依据马尔可夫假设的二元句法模型有以下两种概率:
P(A1)=P(小米|BOS)*P(发布|小米)*P(了|发布)*P(nz|了)*P(EOS|nz)
P(A2)=P(小米|BOS)*P(发|小米)*P(nz|发)*P(手机|nz)*P(EOS|手机)
由于“发”作为单字出现的次数极少,所以P(发|小米)接近于0,于是P(A2)<P(A1),所以“布了Note 10”并不适合作为实体,因此最后将“Note 10手机”作为实体输出。
实施例三
与实施例二相对于,本发明还公开了一种命名实体识别系统,如图5所示,包括预处理模块41、改进BERT训练模型抽取实体模块42、预设规则抽取实体模块43、候选实体库模块44,其中:
所述预处理模块41,用于对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子。
所述改进BERT训练模型抽取实体模块42,用于利用上述改进BERT训练模型进行命名实体识别,并输出给候选实体库模块44。该改进BERT训练模型抽取实体模块使用的改进BERT训练模型结构可参考实施例一,其由若干带标注实体的句子训练而成。
所述预设规则抽取实体模块43,用于利用预设规则进行命名实体识别,并输出给候选实体库模块44。
所述候选实体库模块44,用于对改进BERT训练模型抽取实体模块42、预设规则抽取实体模块43输入的命名实体求并集,去除重复命名实体后输出。
优选的,所述命名实体识别系统还包括分词模块45,用于基于统计的分词方法判断候选实体库模块输出的是否是实体,将实体输出。在一些实施例中,该分词模块45主要采用马尔可夫假设的二元句法模型。
该命名实体识别系统的工作流程可以参考实施例二,在此不再赘述。本实施例的命名实体识别系统利用改进BERT训练模型抽取实体模块、预设规则抽取实体模块进行多种策略的命名实体识别,对识别的命名实体的结果求并集,命名实体识别准确性高。在使用分词模块后,还能有效避免抽取实体词过短、过长、边界错误等问题,去除模型预测结果中的鲁棒性错误,命名实体识别准确性更高。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式级似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (9)
1.一种用于命名实体识别的改进BERT训练模型,其特征在于,所述改进BERT训练模型包括传统BERT模型、强化位置编码层,以及分别与传统BERT模型、强化位置编码层输出端连接的分类层,其中:
所述传统BERT模型包括输入层、若干Transformer层、输出层,所述输入层用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量;所述Transformer层用于训练任务向量得到第一语义特征向量,所述输出层用于输出第一语义特征向量;
所述强化位置编码层,用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将每个字符对应的第二语义特征向量分别与任务句子中其它字符的第一语义特征向量进行相似度计算,得到若干相似度值;对若干相似度值进行归一化处理得到相似度向量;将相似度向量作为权重,分别乘以所有字符对应的第一语义特征向量,进行加权求和,得到各字符的位置编码注意力向量;
所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。
2.如权利要求1所述的用于命名实体识别的改进BERT训练模型,其特征在于,相似度计算包括:余弦相似度法或简单神经网络法或矩阵变换法或点积缩放法。
3.如权利要求1所述的用于命名实体识别的改进BERT训练模型,其特征在于,所述分类层用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放包括:将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加后乘以待训练参数矩阵,再加上一个偏置参数,保证生成的向量维度满足预设标注规则的标签数量。
4.一种命名实体识别方法,其特征在于,包括以下步骤:
对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
分别利用预设规则及如权利要求1至3任一项用于命名实体识别的改进BERT训练模型进行命名实体识别,该用于命名实体识别的改进BERT训练模型由若干带标注实体的句子训练而成;
对识别的命名实体求并集,去除重复命名实体后输出。
5.如权利要求4所述的命名实体识别方法,其特征在于,所述预设规则还包括根据句子的句法依存结构识别实体。
6.如权利要求4所述的命名实体识别方法,其特征在于,所述命名实体识别方法还包括:使用基于统计的分词方法判断所述对识别的命名实体求并集,去除重复命名实体后判断输出是否是实体,并将实体输出。
7.如权利要求6所述的命名实体识别方法,其特征在于,所述基于统计的分词方法采用马尔可夫假设的二元句法模型。
8.一种命名实体识别系统,其特征在于,包括预处理模块、改进BERT训练模型抽取实体模块、预设规则抽取实体模块、候选实体库模块,其中:
所述预处理模块,用于对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
所述改进BERT训练模型抽取实体模块,用于利用如权利要求1至3任一项用于命名实体识别的改进BERT训练模型进行命名实体识别,并输出给候选实体库模块;
所述预设规则抽取实体模块,用于利用预设规则进行命名实体识别,并输出给候选实体库模块;
所述候选实体库模块,用于对改进BERT训练模型抽取实体模块、预设规则抽取实体模块输入的命名实体求并集,去除重复命名实体后输出。
9.如权利要求8所述的命名实体识别系统,其特征在于,所述命名实体识别系统还包括分词模块,用于基于统计的分词方法判断候选实体库模块输出的是否是实体,将实体输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240770.5A CN112560484B (zh) | 2020-11-09 | 2020-11-09 | 用于命名实体识别的改进bert训练模型及命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240770.5A CN112560484B (zh) | 2020-11-09 | 2020-11-09 | 用于命名实体识别的改进bert训练模型及命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560484A CN112560484A (zh) | 2021-03-26 |
CN112560484B true CN112560484B (zh) | 2024-03-01 |
Family
ID=75041729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011240770.5A Active CN112560484B (zh) | 2020-11-09 | 2020-11-09 | 用于命名实体识别的改进bert训练模型及命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560484B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128238B (zh) * | 2021-04-28 | 2023-06-20 | 安徽智侒信信息技术有限公司 | 基于自然语言处理技术的金融情报语义分析方法和系统 |
CN113204967B (zh) * | 2021-05-25 | 2022-06-21 | 山东师范大学 | 简历命名实体识别方法及系统 |
CN113420822B (zh) * | 2021-06-30 | 2022-08-12 | 北京百度网讯科技有限公司 | 模型训练方法和装置、文本预测方法和装置 |
EP4120072A1 (en) * | 2021-07-15 | 2023-01-18 | Tata Consultancy Services Limited | Method and system for identifying meaningful terms from cryptic forms of variable in program code |
CN113609855A (zh) * | 2021-08-12 | 2021-11-05 | 上海金仕达软件科技有限公司 | 一种信息抽取方法及装置 |
CN113537200A (zh) * | 2021-08-30 | 2021-10-22 | 平安医疗健康管理股份有限公司 | 基于图像识别的信息回填方法、装置、设备及介质 |
CN115062118B (zh) * | 2022-07-26 | 2023-01-31 | 神州医疗科技股份有限公司 | 双通道信息抽取方法、装置、电子设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
-
2020
- 2020-11-09 CN CN202011240770.5A patent/CN112560484B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于BERT嵌入的中文命名实体识别方法;杨飘;董文永;;计算机工程;20200430(第04期);第40-45页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560484A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560484B (zh) | 用于命名实体识别的改进bert训练模型及命名实体识别方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111475617B (zh) | 事件主体抽取方法、装置及存储介质 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
KR100630886B1 (ko) | 문자 스트링 식별 | |
CN110263325B (zh) | 中文分词系统 | |
CN113221567A (zh) | 司法领域命名实体及关系联合抽取方法 | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
WO2006095853A1 (ja) | 学習処理方法、学習処理装置、および、プログラム | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN117151223B (zh) | 一种基于可学习提示的多模态实体识别和关系抽取方法 | |
Abuzaraida et al. | Recognition techniques for online arabic handwriting recognition systems | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN110956039A (zh) | 一种基于多维度向量化编码的文本相似度计算方法及装置 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN111523312A (zh) | 一种基于释义消歧的查词显示方法、装置和计算设备 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN116798417B (zh) | 语音意图识别方法、装置、电子设备及存储介质 | |
CN117131868A (zh) | 一种基于“表格-图”两阶段的面向文档级别实体关系联合抽取方法及装置 | |
CN116226357A (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN114662499A (zh) | 基于文本的情绪识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |