CN114943235A - 一种基于多类语言模型的命名实体识别方法 - Google Patents
一种基于多类语言模型的命名实体识别方法 Download PDFInfo
- Publication number
- CN114943235A CN114943235A CN202210811701.8A CN202210811701A CN114943235A CN 114943235 A CN114943235 A CN 114943235A CN 202210811701 A CN202210811701 A CN 202210811701A CN 114943235 A CN114943235 A CN 114943235A
- Authority
- CN
- China
- Prior art keywords
- word
- class
- clustering
- words
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000002372 labelling Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 80
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 14
- 101100027969 Caenorhabditis elegans old-1 gene Proteins 0.000 claims description 8
- 230000001939 inductive effect Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 25
- 238000010801 machine learning Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 239000011449 brick Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000004566 building material Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多类语言模型的命名实体识别方法,涉及实体标注技术领域,包括以下步骤:采集文本语料,构建文本语料库;获取文本语料库内所有名词词语或短语的词义/语义类别;根据语境特征,标记文本语料库内所有名词词语或短语的词义/语义类别;对文本语料库,根据上下文特征进行词语聚类;根据词语聚类结果构建各个词语类,对文本语料库内经过聚类的所有词语类,根据词性细分聚类;根据细分聚类结果构建各个词语子类,以子类为单位进行实体标注,形成实体标注的文本语料库;根据实体标注的文本语料库,计算类别间的依存概率值,并根据依存概率值,构建基于多类的语言模型;根据基于多类的语言模型,完成对句子实体的识别。
Description
技术领域
本发明涉及实体标注技术领域,具体为一种基于多类语言模型的命名实体识别方法。
背景技术
命名实体识别(named entity recognition,NER)是自然语言处理中的一项重要任务,它是对无结构化的文本数据进行结构化分析的基础手段,其任务是根据实际应用的需要识别出文本中感兴趣对象的指示词。随着计算机技术的不断发展以及人工智能技术的兴起,自然语言处理和文本分析需求也随之不断扩大。互联网上大量无结构化的自由文本中蕴藏着巨大的商业价值,要挖掘这些丰富的宝藏需要对文本语义进行分析,而命名实体作为重要的语义知识是对文本进行结构化和语义化分析的重要步骤。命名实体识别技术是信息抽取、信息检索、机器翻译、意见分析、问答系统以及网络舆情监测等多种自然语言处理应用必不可少的组成部分。
传统的命名实体一般包括实体类、时间类和数字类这三大类以及人名、地名、机构名、时间、日期、货币和百分比七小类。随着自然语言处理实际应用的不断扩大,命名实体的范围也不断扩展,通用的7小类命名实体不能满足领域不断扩大的自然语言应用的需求。扩展的命名实体多是根据具体应用需要来确定的,比如工业产品分析中的产品名称、法律案件处理中的作案工具、军事文本中的装备名称、生物医学中的蛋白质基因名等都可作为实体对待。这些不同领域及应用背景下的命名实体的内涵和外延都有差异,存在模糊分类的问题,要正确识别这些命名实体类型,常常要上下文语义层面的分析。这些不同领域的实体识别呈现弱领域相关性。不同领域具有类似特点,但是通常的实体识别方法从某个领域移植到一个新领域,遇到严重的性能下降问题,主要原因在于命名实体的标记定义不同、不同领域有着不同的形态语法特点。
目前实体识别的主要技术方案基本上可分为基于规则的方法、基于机器学习和深度学习的方法、以及半监督学习的方法三类。早期的命名实体识别研究多采用基于规则的方法。这种方法采用人工特别是语言学专家构造规则模板,然后通过规则模板在识别文本中进行正则匹配的方式完成识别任务。通常规则的制定可能不是十分完善,使得这种方法在规则覆盖范围内的识别虽然精度较高但召回率比较低。大量规则的制定也耗时费力比较笨重,且规则间冲突问题也比较难解决。由于规则对领域知识的极度依赖,使得当进入到一个不同的领域时,原来制定的规则无法进行很好的迁移,新的领域需要重新制定新的规则。规则方法的构建代价大,建设周期长且移植性差等原因使得研究者基本上已经放弃这种方法的研究转而采用新的基于统计机器学习或者深度神经网络的思路。但是规则方法依然是实际开发应用中比较容易实现且在局限范围内有较好表现的方法,这种方法不需要大量的标注训练文本,只要需要花费精力逐步构建规则就可以很快看到效果。
统计机器学习以及近年来流行的深度学习方法利用大规模人工标注的语料进行训练学习,在实体识别任务中取得了优异的成就。标注学习数据时虽然不需要广博的语言学知识,但是标记样本的数量和规模必须足够大。当语料规模不足时,这些方法并不能取得很好的性能。基于统计的方法包括:隐马尔可夫模型、支持向量机、条件随机场等方法,其中条件随机场方法在统计方法中展现出优异的性能。统计方法本质上是一种分类方法。将各个不同实体看成多个不同类别,再使用训练的模型对文本中的实体进行分类。统计方法需要预先进行特征发现和选择,然后构建特征向量并训练分类器。模型选择改进、参数调整、特征筛选、以及增加语料的思路是统计方法的技术路线。这些方法十分依赖大量平衡的语料库的质量,但是新领域的语料库但是匮乏的或者较小的,使得统计机器学习方法不能立即适用于缺少大规模语料库的应用场景。
传统的基于类语言模型方法用于命名实体识别所采用的方法与统计机器学习方法一致,也是通过大语料库样本训练得到训练好的模型,然后应用该模型在文字序列中进行实体名词的识别。基于类语言模型的方法通常预先定义一些要识别的类,然后用训练样本训练相应类别的语言模型。这种训练好的类语言模型还经常被引入了启发式信息(规则)以进一步增强识别效果。同样问题,传统方法也十分依赖大规模标注好的平衡语料库的质量,因而也使得跨领域迁移十分困难,每个新的实体类别都需要在新领域重新训练该类语言模型。
近年来,随着深度神经网络技术的发展,深度学习技术在机器翻译、情感分析、短文本分类以及对话系统等自然语言处理领域取得了成功应用。BLSTM-CRF模型框架以及和用BERT预训练词向量代替传统Skip-gram,CBOW(Continue Bag of Word)等方式训练的静态词向量,在命名实体识别应用上取得了优异的性能。这种方法通过直接对原始数据进行处理,成功地避免了人工提取特征以及特征选择的问题。但是这种方法和传统统计方法一样需要大量的标注好的训练语料。同样对于迁移到新领域,且训练语料不足时,想得到效果较好的实体识别效果是十分困难的。
目前主流的实体识别技术都是数据驱动机器学习(包括深度学习)的方法,这些方法特别是近来性能优异的基于深度学习的方法都需要大量的标记好的训练样本,而在新的领域要获得如此大量的训练样本是非常困难的。此外,这些学习的方法由于标记样本的覆盖面比较有限,而实体识别的性能完全依赖于训练样本,所以实际应用中机器学习的识别器并不好用。实际工程应用中常常采用普通实体识别叠加汉语分词词性标记以及规则编写相结合的技术,但是规则编写费时费力而且同样覆盖面有限。
发明内容
为解决上述技术中存在的问题,本发明提供了一种基于多类语言模型的命名实体识别方法,包括以下步骤:
采集文本语料,构建文本语料库。
获取文本语料库内所有名词词语或短语的词义/语义类别。
根据语境特征,标记文本语料库内所有名词词语或短语的词义/语义类别。
对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类。
根据词语聚类结果构建各个词语类,对文本语料库内经过聚类的所有词语类内的名词词语或短语,根据词性细分聚类。
根据细分聚类结果构建各个词语子类,以子类为单位进行实体标注,形成实体标注的文本语料库。
根据实体标注的文本语料库,计算类别间的依存概率值,并根据依存概率值,构建基于多类的语言模型。
根据基于多类的语言模型,完成对句子实体的识别。
进一步的,所述采集文本语料,构建文本语料库,具体包括:
采集相关领域的文本语料。
对于特定领域语料不足的情况,采集相关文本,与通用大规模语料进行合并,构建文本语料库。
进一步的,所述获取文本语料库内的所有名词词语或短语的词义/语义类别,具体包括:
对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理。
应用词义归纳推导技术,对所有名词词语或短语进行词义(语义)归纳推导,得到所有名词或名词短语的词义/语义类别,且每个名词或名词短语包括一个或多个不同的词义/语义类别。
进一步的,所述对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理,具体包括:
利用自然语言工具,识别文本语料库内的所有名词词语或短语,并将文本分割成一个个句子。
利用词语分词工具,将句子进行分词和词性标注,且每个词语都赋有一个词性。
通过短语识别工具,识别出常用的短语,并将组成短语的词语去掉替换成短语。
进一步的,所述对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类,具体包括:
对文本语料库内的所有名词词语或短语,分别构建该词语的左边向量和右边向量,其中,左边向量包括该词语在句子中出现的前序词语和前序词语的词性,右边向量包括该词语在句子中出现的后序词语和后序词语的词性。
根据词语的左边向量和右边向量,对词语进行聚类。
进一步的,所述分别构建该词语的左边向量和右边向量,具体包括:
左向量vl、右向量vr的构成为:
vl(x)=[pb(w1|x),pb(w2|x),...,pb(wV|x)],
vr(t)=[pf(w1|y),pf(w2|y),...,pf(wV|y)],
其中x为要进行聚类的单词,wi为x前面或者后面的某个词语i,vl(x)为x的左边词语的上下文马尔可夫依存向量,用于左边词语上下文类的聚类,Pb(wi|x)为从词语x到词语wi的反向(backward)的bi-gram的概率值,vr(y)为y的右边词语上下文马尔可夫依存向量,用于右边词语上下文类的聚类,pf(wi|y)为词语y到wi的前向(forward)的bigram的概率值。
进一步的,所述根据词语的左边向量和右边向量对词语进行聚类,具体包括:
根据词语间向量对应的欧氏距离作为聚类的度量,根据加权的uni-gram沃德方法进行词语聚类,其包括以下步骤:
对文本语料库中的所有词语左边词语上下文类采用马尔可夫依存向量vl(w)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(w)进行聚类。
对文本语料库中的每个词语赋一个唯一的类。
对于文本语料库中的每个类x,左边词语上下文类采用马尔可夫依存向量vl(x)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(x)进行聚类。
对于文本语料库中的所有类,通过Unew-Uold,计算合并代价costs,其中,
其中cold1和cold2分别代表合并前的词语类,cnew代表将cold1和cold2合并后的新类,w∈c表示词语w存在于类c中。p(w)代表词语w的unigram值,D(v(c(w)),v(w)代表词语w的和它所属的类c(w)的马尔可夫依存向量间的欧式距离的平方。
将最小合并代价的两个类进行合并。
对未合并的类再次确定最小合并代价的两个类、并合并,直到用户定义的类数量为止。
进一步的,所述根据基于多类的语言模型,完成对句子实体的识别,具体包括:
基于多类语言模型,计算该句子在模型中的最优路径。
利用p(cl(wi)|crN-1(wi-N+1),...,cr2(wi-2),cr1(wi-1))p(wi|cl(wi))计算出一个句子的最佳的类别序列,当该实体匹配到哪个具体的细分标注类中时,该实体就采用该类的标签进行识别和标注。
其中c的上标代表位置相关的左或右上下文马尔可夫依存,cl(wi)表示词语wi所属的左边上下文类,cri(wi)代表第i个词语wi所属的右上下文类,p(wi/cl(wi))代表wi是cl的概率。
与现有技术相比,本发明提供了一种基于多类语言模型的命名实体识别方法,其有益效果是:
1.本发明所述的方法采用基于类别的标注方式。不同于目前主流的方法,本发明不需要大量的标记样本。同样不同于规则的方法,本发明也不需要编写大量的规则。本方法需要做的仅仅是收集大量的各领域文本语料,自动构建多类语言模型,然后仅仅标记各个名词或名词短语类的标签。由于是基于类的标记,所以工作量大大缩小而且覆盖面广,领域语料的需求也无需很大。同时,采用本方法可以通过识别领域文本很快地产生大量的标记样本,可以进一步用这些样本来训练机器学习或深度学习模型,提高实体的识别性能。
2.本方法不同于现有类语言模型技术的是:本方法的类语言模型是基于多语义类的语言模型而不是传统的类别的语言模型,本方法是分别通过左、右向量进行不同反向的聚类,从而产生多类依存转移关系。通过该方法,同一个词语可以归入不同的实体类别中,可同时被标记成不同的实体类别。同时,本方法的模型构造思想也不同于基于类语言模型的实体识别技术。传统的基于类语言模型的实体识别技术是要应用大量标记样本分别构建特定类(比如:人名类、地名类)的统计方法。本方法在构造多语义类时,先要对所有名词或名词短语进行语法和多义推导处理,然后根据语法和语义上下文进行聚类构建语言模型。这样同一个词语会因为不同的使用语法和语义而出现在多个不同的词语类中。基于多类的统计语言模型是在众多类的基础上构建的,而不仅仅是构建单个特殊的模型,这样做使得模型包含众多的类别而不仅仅是几个特殊的类,模型的类别覆盖面也比较全面。
3.通过对词义类进行标注而不是对文本样本进行标注快速完成实体标注和识别任务。通过对系统进行一次训练构建多类语言模型,在语言模型的不同类别上进行快速标注,标注完成后即可进行实体的识别工作。
4.本方法是通过语法衔接关系和多词义推导构建基于多类语言模型的标注和识别系统,不同于常用的类语言模型的聚类方法,本方法是分别通过左、右向量进行不同反向的聚类,从而产生多类依存转移关系。通过该方法,同一个词语可以归入不同的实体类别中,可同时被标记成不同的实体类别。
5.本方法的实体识别通过语言模型的解码过程进行标记。对不同领域实体的标记不会发生冲突情况。
6.即使对于未在训练样本中出现的词语,由于其语法和语义特性,采用未登录词语的处理方法,本方法也可以较准确地标记出该实体来。
附图说明
图1为本发明提供的一种基于多类语言模型的命名实体识别方法的流程图。
具体实施方式
下面对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:本发明提供的一种基于多类语言模型的命名实体识别方法,包括以下步骤:采集文本语料,构建文本语料库;获取文本语料库内所有名词词语或短语的词义/语义类别;根据语境特征,标记文本语料库内所有名词词语或短语的词义/语义类别;对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类;根据词语聚类结果构建各个词语类,对文本语料库内经过聚类的所有词语类内的名词词语或短语,根据词性细分聚类;根据细分聚类结果构建各个词语子类,以子类为单位进行实体标注,形成实体标注的文本语料库;根据实体标注的文本语料库,计算类别间的依存概率值,并根据依存概率值,构建基于多类的语言模型;根据基于多类的语言模型,完成对句子实体的识别。
在本实施例中,所述采集文本语料,构建文本语料库,具体包括:采集相关领域的文本语料;对于特定领域语料不足的情况,采集相关文本,与通用大规模语料进行合并,构建文本语料库。
在本实施例中,所述获取文本语料库内的所有名词词语或短语的词义/语义类别,具体包括:对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理;应用词义归纳推导技术,对所有名词词语或短语进行词义(语义)归纳推导,得到所有名词或名词短语的词义/语义类别,且每个名词或名词短语包括一个或多个不同的词义/语义类别。
在本实施例中,所述对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理,具体包括:利用自然语言工具,识别文本语料库内的所有名词词语或短语,并将文本分割成一个个句子;利用词语分词工具,将句子进行分词和词性标注,且每个词语都赋有一个词性;通过短语识别工具,识别出常用的短语,并将组成短语的词语去掉替换成短语。
在本实施例中,所述对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类,具体包括:对文本语料库内的所有名词词语或短语,分别构建该词语的左边向量和右边向量,其中,左边向量包括该词语在句子中出现的前序词语和前序词语的词性,右边向量包括该词语在句子中出现的后序词语和后序词语的词性;根据词语的左边向量和右边向量,对词语进行聚类。
在本实施例中,所述分别构建该词语的左边向量和右边向量,具体包括:左向量vl、右向量vr的构成为:
vl(x)=[pb(w1|x),pb(w2|x),...,pb(wV|x)],
vr(y)=[pf(w1|y),pf(w2|y),...,pf(wV|y)],为要进行聚类的单词,wi为x前面或者后面的某个词语i,vl(x)为x的左边词语的上下文马尔可夫依存向量,用于左边词语上下文类的聚类,Pb(wi|x)为从词语x到词语wi的反向(backward)的bi-gram的概率值,vr(y)为y的右边词语上下文马尔可夫依存向量,用于右边词语上下文类的聚类,pf(wi|y)为词语y到wi的前向(forward)的bigram的概率值。
在本实施例中,所述根据词语的左边向量和右边向量对词语进行聚类,具体包括:根据词语间向量对应的欧氏距离作为聚类的度量,根据加权的uni-gram沃德方法进行词语聚类,其包括以下步骤:对文本语料库中的所有词语左边词语上下文类采用马尔可夫依存向量vl(w)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(w)进行聚类;对文本语料库中的每个词语赋一个唯一的类;对于文本语料库中的每个类x,左边词语上下文类采用马尔可夫依存向量vl(x)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(x)进行聚类;对于文本语料库中的所有类,通过Unew-Uold,计算合并代价costs,其中,
其中cold1和cold2分别代表合并前的词语类,cnew代表将cold1和cold2合并后的新类,w∈c表示词语w存在于类c中,p(w)代表词语w的unigram值,D(v(c(w)),v(w)代表词语w的和它所属的类c(w)的马尔可夫依存向量间的欧式距离的平方,将最小合并代价的两个类进行合并,对未合并的类再次确定最小合并代价的两个类、并合并,直到用户定义的类数量为止。
在本实施例中,所述根据基于多类的语言模型,完成对句子实体的识别,具体包括:基于多类语言模型,计算该句子在模型中的最优路径;利用p(cl(wi)|crN-1(wi-N+1),...,cr2(wi-2),cr1(wi-1))p(wi|cl(wi))计算出一个句子的最佳的类别序列,当该实体匹配到哪个具体的细分标注类中时,该实体就采用该类的标签进行识别和标注;其中,c的上标代表位置相关的左或右上下文马尔可夫依存,cl(wi)表示词语wi所属的左边上下文类,cri(wi)代表第i个词语wi所属的右上下文类,p(wi|cl(wi))代表wi是cl的概率。
在背景技术所述相关的技术中,基于规则的方法需要领域专业人员构建大量的规则模板,这种构建工作不仅费时费力而且规则模板的覆盖率还非常有限。当规则模板很多时,规则之间的矛盾冲突也难以避免。由于面对新的领域时原来构建的规则基本上都要重新改写,因而研究人员现在放弃了该方法的进一步工作。
基于统计学习和深度学习的方法目前是主流的研究方向。但是这些流行的方法都需要大量的标注好的训练数据才能完成模型的训练和构建,特别是最近很热的深度学习方法更是需要海量的训练数据才能保证模型的精度和有效性。同样训练好的模型很难迁移到其他领域。例如:“他用砖头盖房子”,在建筑领域,“砖头”可以标记为“建筑材料”实体。“他用砖头打破了那个人的头”,在法律文书方向,“砖头”则被标记为“犯罪工具”实体。通常的方法多采用建筑领域的标记样本训练建筑领域的实体识别。当迁移到法律领域时,则需要重新标记大量的法律领域的训练样本,并且重新训练模型去识别新领域的实体。
本发明旨在解决常用方法中的大规模训练样本不足或者稀少的问题,同时兼顾不同领域实体识别的迁移问题的解决。针对特定领域训练样本不足的问题,本方法将特定样本的未标记文本和通用领域的文本一同进行处理,通过训练多类语言模型完成系统的构建。这样一个可能的实体词语(名称或者名词短语),比如“砖头”,由于其前后的语法衔接关系可能会同时属于不同的建材实体和犯罪工具实体类别。通过标注相关类就可以将一个簇中的大量实体同时标注为该类别。同时,即使某个词语的出现频率低,由于其语法衔接关系也会被划分入不同的类别,从而不会受到出现频率的影响。基于多类的语言模型方法还会很好地处理未登录词语(即不在训练样本中出现的词语)的问题。即使某词语,针对不同领域实体的迁移只要将多类的类别粒度调精细点,就可以很容易对新的细分类别添加新标签,从而让某些识别该类别的实体。不同于其他机器学习和深度学习的长时间训练需求,本方法的训练过程可以一次完成,迁移到不同领域时,仅需对相关粒度的可能实体簇进行快速标记即可。本方法还可以通过自举迭代方式通过增加未标注语料,识别实体、然后再重新构练模型增加模型中多类里面各个子类所含的成员个数,从而改变未登录词语的问题。
本发明主要解决的技术问题,在于利用多类语言模型方法简单快速地标注特定领域实体,并利用标注好的模型对实际文本中的实体名词进行高效可靠的识别和抽取。针对在不同领域和场景下命名实体的外延有差异以及存在分类模糊的问题,通过多(词义)类语言模型解决外延差异的问题;针对当新领域缺乏标注语料集时常用的基于机器学习的实体识别方法失效的问题,本发明提供一种在类语言模型上进行领域实体快速标注而不是逐条标注该领域的大规模语料文本的新解决方案。这种解决方案具有快速、简单的优点,同时能很好地进行领域迁移、对标注样本的频率不做要求等诸多优点。此外,本发明的方法还可用来快速生成大规模的标注语料,以用来训练常见的机器学习实体识别分类器。
本发明所采用的方法为:1、首先对于领域无标注的大规模文本语料库进行词语切分和短语识别预处理,然后应用词义归纳推导技术对所有名词词语或短语进行词义(语义)归纳推导,得到所有名词或名词短语的词义/语义类别,每个名词或名词短语可具有一个或多个不同的词义/语义类别;2、根据每个词语的词义/语义类别的语境特征,再给原始的无标注文本语料库中的所有名词或短语标记它们的词义类别;3、将文本句子中同词不同义的词语当成不同的词语对待,根据语料库中词语的上下文特征进行词语聚类;4、根据聚类结果构建多类语言模型并进行相应的平滑处理,其中每个类中词语按照词性再进一步细分聚类,然后对需要的每一名词及短语类进行以类为单位的实体标注;5、最后应用标注过的多类语言模型进行实体识别和抽取工作。
本发明要解决的技术问题,在于通过构建多类语言模型,将实体词语根据不同的使用语境划分到多类语言模型中的不同类别中去,从而通过对细分的各个类别进行标注而不是标注单个句子文本中的实体,达到快速标注实体的过程。当标注完成后,模型就可以进行实体的识别任务而无需再进行训练。当迁移到不同领域时,只需要在模型多类别的不同粒度进行再标记。由于标记的是类别,所以不需要很大的标记工作量就可以快速完成模型的更新。当实体识别时遇到一个未登录的实体词语时,基于该词语在句子中的语法结构和前后词语的链接关系,类似于语音识别中的OOV词语推断方法,模型可依据上下文语法语义特点推断其所属的最优的类别,从而解决训练样本中没有出现过的实体词语的问题。
本发明按照如下步骤进行实现:1、首先采集一定数量的文本语料,对于特定领域语料不足的情况,尽可能多的采集相关文本,然后同通用大规模语料进行合并。2、对收集的文本语料进行句子识别分割、分词和词性标注和短语识别工作。3、对于句子中的每个词语,分别构建该词语的左边向量和右边向量。左右向量由该词语在句子中出现的前序词语和前序词语的词性、后序词语和后序词语的词性等特征分别组成。4、分别根据词语的左边向量和右边向量对词语进行聚类。5、每个类中的词语,根据该词语的语义和词性进一步聚类成更细腻的类。6、标注各个细分小类的实体标签,完成模型的标注工作。7、计算类别间的依存概率值构建基于多类的语言模型。8、对于句子实体的识别,通过计算基于多类语言模型计算该句子在模型中的最优路径,当该实体匹配到哪个具体的细分标注类中时,该实体就采用该类的标签进行识别和标注。
其中,语料库收集包括:收集相关领域的文本语料,然后和通用的大规模语料进行合并。
语料文本预处理包括:采用自然语言工具识别语料中的各个句子,将文本分割成一个个句子。词语分词工具将中文句子进行分词和词性标注,每个词语都赋有一个词性。通过短语识别工具识别出常用的短语,将组成短语的词语去掉替换成短语。
词语的左、右向量表示:模型在最开始时,将每个词语看成一个类,然后通过合并产生包含词语更多的大类。对每个类或者词语分别构建该词语的左、右向量。左向量Pt、右向量Pf的构成为:v1(x)=[pb(w1|x),pb(w2|x),...,pb(wV|x)]、vr(y)=[pf(w1|y),pf(w2|y),...,pf(wV|y)]。其中vl(x)是左边上下文马尔可夫依存向量,这个向量用来进行左上下文类的聚类任务。Pb(wi|x)是从词语x到wi的反向bi-gram的概率值。vr(x)是代表右边上下文马尔可夫依存向量,这个向量用于右上下文类的聚类任务,pf(wi|y)是词语y到wi的前向bigram的概率值。
词语类合并过程包括:模型选择词语间向量对的欧氏距离作为聚类的度量。相近向量的词语对之间同样会有相似的马尔可夫依存性。模型采用加权的uni-gram沃德方法进行,也可以采用其他层次聚类算法。
聚类方法如下:
1)对文本语料库中的所有词语,左上下文类的进行聚类采用马尔可夫依存向量vl(w),右上下文类的进行聚类采用马尔可夫依存向量vr(w)。
2)每个词语赋一个唯一的类。
3)对于每个类x,左上下文类的进行聚类采用马尔可夫依存向量vl(x),右上下文类的进行聚类采用马尔可夫依存向量vr(x)。
4)对于所有的类,通过下面公式计算合并代价costs:
cold1和cold2分别代表合并前的词语类。cnew代表将cold1和cold2合并后的新类。
w∈c表示词语w存在于类c中。p(w)代表词语w的unigram值。
D(v(c(w)),v(w))代表词语w的和它所属的类c(w)的马尔可夫依存向量间的欧式距离的平方。
5)将最小合并代价的两个类进行合并。
6)重复步骤3至步骤5,直到用户定义的类数量为止。
然后,将类内的词语根据词性和语义在进行分类。
其中,细分小类如果是实体则对该类进行实体标记。如果某个类中的实体不全是实体,可将其在分为两部分,其中一个子类则全部是实体,从而完成模型的标注工作。
接着,将模型聚类的结果,在相应类上标记该类的实体类别。不同的类采用不同的ID标识,该标识看成一个词语。将句子中的词语用该标识替代,词语在不同的句子中的标识可能不一样,这是因为该词语根据在句子中的上下文不同所属不同的类。应用语言模型工具构建基于多类的语言模型,得到各个类之间的马尔可夫转移概率。
最后,识别的过程就是在标记好的序列上进行的。根据多类语言模型进行最优路径推算,应用下面公式就可以计算出一个句子的最佳的类别序列,当要识别的词语落在标签类别上时,该词语就被识别成为标签的实体类别。p(cl(wi)|crN-1(wi-N+1),...,cr2(wi-2),cr1(wi-1))p(wi|cl(wi))。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于多类语言模型的命名实体识别方法,其特征在于,包括以下步骤:
采集文本语料,构建文本语料库;
获取文本语料库内所有名词词语或短语的词义/语义类别;
根据语境特征,标记文本语料库内所有名词词语或短语的词义/语义类别;
对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类;
根据词语聚类结果构建各个词语类,对文本语料库内经过聚类的所有词语类内的名词词语或短语,根据词性细分聚类;
根据细分聚类结果构建各个词语子类,以子类为单位进行实体标注,形成实体标注的文本语料库;
根据实体标注的文本语料库,计算类别间的依存概率值,并根据依存概率值,构建基于多类的语言模型;
根据基于多类的语言模型,完成对句子实体的识别。
2.如权利要求1所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述采集文本语料,构建文本语料库,具体包括:
采集相关领域的文本语料;
对于特定领域语料不足的情况,采集相关文本,与通用大规模语料进行合并,构建文本语料库。
3.如权利要求1所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述获取文本语料库内的所有名词词语或短语的词义/语义类别,具体包括:
对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理;
应用词义归纳推导技术,对所有名词词语或短语进行词义(语义)归纳推导,得到所有名词或名词短语的词义/语义类别,且每个名词或名词短语包括一个或多个不同的词义/语义类别。
4.如权利要求3所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述对文本语料库内的所有名词词语或短语进行词语切分和短语识别预处理,具体包括:
利用自然语言工具,识别文本语料库内的所有名词词语或短语,并将文本分割成一个个句子;
利用词语分词工具,将句子进行分词和词性标注,且每个词语都赋有一个词性;
通过短语识别工具,识别出常用的短语,并将组成短语的词语去掉替换成短语。
5.如权利要求1所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述对文本语料库内的所有名词词语或短语,根据上下文特征进行词语聚类,具体包括:
对文本语料库内的所有名词词语或短语,分别构建该词语的左边向量和右边向量,其中,左边向量包括该词语在句子中出现的前序词语和前序词语的词性,右边向量包括该词语在句子中出现的后序词语和后序词语的词性;
根据词语的左边向量和右边向量,对词语进行聚类。
6.如权利要求5所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述分别构建该词语的左边向量和右边向量,具体包括:
左向量vl、右向量vr的构成为:
vl(x)=[pb(w1|x),pb(w2|x),...,pb(wV|x)],
vr(y)=[pf(w1|y),pf(w2|y),...,pf(wV|y)],
其中x为要进行聚类的单词,wi为x前面或者后面的某个词语i,vl(x)为x的左边词语的上下文马尔可夫依存向量,用于左边词语上下文类的聚类,Pb(wi|x)为从词语x到词语wi的反向(backward)的bi-gram的概率值,vr(y)为y的右边词语上下文马尔可夫依存向量,用于右边词语上下文类的聚类,pf(wi|y)为词语y到wi的前向(forward)的bigram的概率值。
7.如权利要求5所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述根据词语的左边向量和右边向量对词语进行聚类,具体包括:
根据词语间向量对应的欧氏距离作为聚类的度量,根据加权的uni-gram沃德方法进行词语聚类,其包括以下步骤:
对文本语料库中的所有词语左边词语上下文类采用马尔可夫依存向量vl(w)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(w)进行聚类;
对文本语料库中的每个词语赋一个唯一的类;
对于文本语料库中的每个类x,左边词语上下文类采用马尔可夫依存向量vl(x)进行聚类,右边词语上下文类采用马尔可夫依存向量vr(x)进行聚类;
对于文本语料库中的所有类,通过Unew-Uold,计算合并代价costs,其中,
其中cold1和cold2分别代表合并前的词语类,cnew代表将cold1和cold2合并后的新类,w∈c表示词语w存在于类c中;p(w)代表词语w的unigram值,D(v(c(w)),v(w)代表词语w的和它所属的类c(w)的马尔可夫依存向量间的欧式距离的平方;
将最小合并代价的两个类进行合并;
对未合并的类再次确定最小合并代价的两个类、并合并,直到用户定义的类数量为止。
8.如权利要求1所述的一种基于多类语言模型的命名实体识别方法,其特征在于,所述根据基于多类的语言模型,完成对句子实体的识别,具体包括:
基于多类语言模型,计算该句子在模型中的最优路径;
利用p(cl(wi)|crN-1(wi-N+1),...,cr2(wi-2),cr1(wi-1))p(wi|c1(wi))计算出一个句子的最佳的类别序列,当该实体匹配到哪个具体的细分标注类中时,该实体就采用该类的标签进行识别和标注;
其中c的上标代表位置相关的左或右上下文马尔可夫依存,cl(wi)表示词语wi所属的左边上下文类,cri(wi)代表第i个词语wi所属的右上下文类,p(wi|cl(wi))代表wi是cl的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811701.8A CN114943235A (zh) | 2022-07-12 | 2022-07-12 | 一种基于多类语言模型的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811701.8A CN114943235A (zh) | 2022-07-12 | 2022-07-12 | 一种基于多类语言模型的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943235A true CN114943235A (zh) | 2022-08-26 |
Family
ID=82911197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210811701.8A Pending CN114943235A (zh) | 2022-07-12 | 2022-07-12 | 一种基于多类语言模型的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943235A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578673A (zh) * | 2023-07-03 | 2023-08-11 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326919A1 (en) * | 2003-11-18 | 2009-12-31 | Bean David L | Acquisition and application of contextual role knowledge for coreference resolution |
CN103365912A (zh) * | 2012-04-06 | 2013-10-23 | 富士通株式会社 | 对实体关系模式进行聚类、提取的方法和设备 |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN108268447A (zh) * | 2018-01-22 | 2018-07-10 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108763487A (zh) * | 2018-05-30 | 2018-11-06 | 华南理工大学 | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN110309515A (zh) * | 2019-07-10 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN110990532A (zh) * | 2019-11-28 | 2020-04-10 | 中国银行股份有限公司 | 一种处理文本的方法和装置 |
-
2022
- 2022-07-12 CN CN202210811701.8A patent/CN114943235A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326919A1 (en) * | 2003-11-18 | 2009-12-31 | Bean David L | Acquisition and application of contextual role knowledge for coreference resolution |
CN103365912A (zh) * | 2012-04-06 | 2013-10-23 | 富士通株式会社 | 对实体关系模式进行聚类、提取的方法和设备 |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN108268447A (zh) * | 2018-01-22 | 2018-07-10 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108763487A (zh) * | 2018-05-30 | 2018-11-06 | 华南理工大学 | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN110309515A (zh) * | 2019-07-10 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN110990532A (zh) * | 2019-11-28 | 2020-04-10 | 中国银行股份有限公司 | 一种处理文本的方法和装置 |
Non-Patent Citations (2)
Title |
---|
周康等: "基于增强BiLSTM的网络文章核心实体识别", 《计算机技术与发展》, 10 January 2021 (2021-01-10) * |
杨艺琛: "基于多义词向量的句子相似度计算", 《CNKI硕士电子期刊》, 15 March 2022 (2022-03-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578673A (zh) * | 2023-07-03 | 2023-08-11 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
CN116578673B (zh) * | 2023-07-03 | 2024-02-09 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
Peng et al. | Radical-based hierarchical embeddings for Chinese sentiment analysis at sentence level | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
CN112818118B (zh) | 基于反向翻译的中文幽默分类模型的构建方法 | |
CN110782892B (zh) | 语音文本纠错方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN113158674B (zh) | 一种人工智能领域文档关键信息抽取方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN115687634A (zh) | 一种结合先验知识的金融实体关系抽取系统及方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
CN114943235A (zh) | 一种基于多类语言模型的命名实体识别方法 | |
Mossie | Social media dark side content detection using transfer learning emphasis on hate and conflict | |
CN113779959A (zh) | 小样本文本数据混合增强方法 | |
CN117436438A (zh) | 情感分析方法、大语言模型的训练方法及装置 | |
CN116384379A (zh) | 一种基于深度学习的中文临床术语标准化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |