CN116502641A - 基于字符字形特征的中文命名实体识别方法及系统 - Google Patents
基于字符字形特征的中文命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN116502641A CN116502641A CN202310379164.9A CN202310379164A CN116502641A CN 116502641 A CN116502641 A CN 116502641A CN 202310379164 A CN202310379164 A CN 202310379164A CN 116502641 A CN116502641 A CN 116502641A
- Authority
- CN
- China
- Prior art keywords
- character
- representation
- features
- font
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 240000004282 Grewia occidentalis Species 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 230000004931 aggregating effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 6
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 6
- 238000002679 ablation Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了基于字符字形特征的中文命名实体识别方法及系统,方法包括:获取文本序列中每个字符的字符特征;获取每个字符的五笔编码和四角编码,聚合为字符的字形特征将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;获取文本序列中每个词汇包含词性信息的上下文表示;利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算;将注意力计算的输出和组合字符表示结合后,作为模型的输入。本发明利用五笔编码和四角编码技术提取字符的形状结构特征,同时使用词性信息学习输入文本的隐式词汇表示,从而更充分地利用了文本序列信息,能够学习到更丰富和复杂的信息,以增强文本序列的特征表示,从而提高了NER的整体性能。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及基于字符字形特征的中文命名实体识别方法及系统。
背景技术
汉字是一种独特的形音文字,是中文表意文字系统中不可或缺的组成部分。在汉语中,最常用的词汇构成方法是根据句法关系从词根中构建复合词,这与将单词组合成短语的语法结构基本相同。然而,在自然语言处理(Natural Language Processing,NLP)任务中适当利用字形信息和词汇信息仍然受到限制。
命名实体识别(Named Entity Recognition,NER)是自然语言处理中的关键任务之一,其涉及在文本中识别和分类命名实体,这些命名实体可以包括人物、组织机构、地点、日期等特定对象或概念。NER对于各种NLP应用程序都至关重要,例如信息检索、问答、事件提取。
在自然语言处理的背景下,命名实体识别通常被视为一种序列标记任务,其中输入序列中的每个位置被分配一个适当的标签。与英文相比,汉语的命名实体识别尤其具有挑战性,因为汉语单词之间没有像空格一样的分隔符,所以序列标记任务被分为基于字符和基于单词的方法。基于字符的方法更适合汉语的命名实体识别,但它们会丢失边界信息和语义信息。而基于单词的方法则容易出现错误传播,因为存在分词任务。现有的研究表明,在汉语命名实体识别任务中,基于字符的方法优于基于单词的方法。
现有技术的研究集中于如何通过增加额外特征来增强字符基方法学习的特征丰富性。为此,一些研究人员研究了字典并利用单词增强技术将单词相关特征融合到字符特征中,引入格子结构以利用单词信息并防止错误传播,此后其他研究人员也探索了单词信息在汉语命名实体识别中的重要性。利用汉字的结构特征增强字符表示,最常见的方法是从汉字图像中学习字符表示。然而,基于字典的增强方法通常需要先构建字典,而利用汉字图像表示进行特征提取会导致稀疏的特征表示矩阵。
发明内容
为了解决上述技术问题,本发明旨在提供一种基于字符字形特征的中文命名实体识别方法及系统,具体包括:
基于字符字形特征的中文命名实体识别方法,包括步骤:
获取文本序列中每个字符的字符特征;
获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;
将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;
获取文本序列中每个词汇包含词性信息的上下文表示;
利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算;
将注意力计算的输出和组合字符表示结合后,作为中文命名实体标签预测模型的输入,完成中文命名实体的识别。
在一些较优的实施例中,所述将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示的方法包括:
首先计算门控参数gi:
其中,Wg1和Wg2是可学习参数,是字符特征,bg是偏置项,/>是字形特征;
然后将字符特征和字形特征融合,得到组合字符表示
其中,E是一个与具有相同形状的向量,每个位的值都是1。
在一些较优的实施例中,所述获取文本序列中每个词汇包含词性信息的上下文表示的方法包括:
提取文本序列中每个词汇的词性并进行编码得到词性序列,将词性序列输入双向长短期记忆递归神经网络,得到每个词汇与词性相关的上下文表示。
在一些较优的实施例中,所述利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算的方法包括:
将上下文表示作为键Ks和值Vs,将组合字符表示作为任务相关查询Qc,根据下面的公式进行注意力计算:
其中,dk是Ks的维度。
本发明还提供了一种基于字符字形特征的中文命名实体识别系统,包括:
字符特征获取模块,用于获取文本序列中每个字符的字符特征;
字形特征获取模块,用于获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;
词性获取模块,用于获取文本序列中每个词汇包含词性信息的上下文表示;
融合模块,与字符特征获取模块和字形特征获取模块连接,用于将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;
注意力模块,用于对上下文表示和组合字符表示进行注意力计算,并将注意力计算的输出和组合字符表示结合;
标签预测模块,与注意力模块连接,用于完成中文命名实体的识别。
在一些较优的实施例中,所述字符特征获取模块内置有用于获取字符特征的预训练BERT模型。
在一些较优的实施例中,所述词性获取模块内置有用于获取上下文表示的预训练BiLSTM模型。
在一些较优的实施例中,所述标签预测模块内置有依次连接的条件随机场和标签分配器。
有益效果
1、利用五笔编码和四角编码技术提取字符的形状结构特征,同时使用词性信息学习输入文本的隐式词汇表示,从而更充分地利用了文本序列信息,能够学习到更丰富和复杂的信息,以增强文本序列的特征表示,从而提高了NER的整体性能;
2、通过应用交叉注意力机制,将词汇信息通过注意力与上下文特征结合,实现对词性信息关注程度的动态探索,减少由于词语划分而引起的误差传播,从而增强NER模型的准确性;
3、通用性强,可以将本发明的文本序列特征增强表示方法应用到其他NLP任务中。
附图说明
图1为本发明一种较优实施例中的方法流程示意图;
图2为本发明另一种较优实施例中的系统结构示意图;
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1
如图1-图2所示,本实施例提供了一种基于字符字形特征的中文命名实体识别方法,包括步骤:
S1、获取文本序列中每个字符的字符特征。本领域目前提取字符特征的方法有很多,目前最受关注的是利用Transformer结构的大规模预训练语言模型进行字符特征提取,常见的包括GPT模型BERT模型和RoBERTa模型,其中BERT是用双向Transformer编码器,使用掩码语言模型(MLM)和下一句预测(NSP)作为预训练任务。通过同时学习上下文中的词,BERT能够捕捉文本中的双向依赖关系。其具体的实现方法可以由本领域技术人员根据需要进行选择和优化,本发明不作进一步的限制。
S2、获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征。本发明将五笔编码和四角编码作为字形特征的来源。
其中,五笔输入法是王永民于1983年8月发明的一种汉字输入法。五笔编码完全基于笔画和形状特征,是一种典型的形码输入法。在五笔输入法下,一个汉字的编码长度不超过四位。在五笔编码系统中,大部分的字根都是传统的汉字部首,而一些笔画较少的结构也被用作字根。五笔使用五种笔画,每个字根或者代码元素只用前两种笔画来定位其在键盘上的位置。因此,在五笔编码中,汉字编码只用了25个字母键(Z键不用于五笔编码)。五笔编码序列的笔画数是固定的四位数,如果不足四位数,则用“z”来补足。
四角编码是一种用于查找汉字的方法。该编码方法将每个字符分成四个角,并为每个角分配一个数字。然后,根据由这四个数字组成的四位数的大小来对所有字符进行排序。它将汉字笔画分为十个类别,然后使用数字0-9来表示每个类别。每个角的笔画形状被分配一个数字,该数字基于其在左上角、右上角、左下角和右下角的位置。查找字符时,根据四位数的大小来搜索字符。因此,四角编码由四个数字对应四个角和一个附加角号组成,共五个数字。
应当理解的是,实现五笔编码和四角编码的工具有很多,例如可以使用pywubi获取汉字的五笔编码,使用JioNLP工具获得汉字的四角编码。
在一些较优的实施例中,由于后续神经网络进行处理的对象是向量,因此在此给出一种将编码进行嵌入向量转化的示例,应当理解的是,该示例仅作为编码步骤的进一步解释,不应当理解为对编码方法的具体限制:
给定长度为N的输入文本序列X={x1,x2,xi,...,xn},n∈{1,N},首先得到每个字符的五笔编码序列和四角编码序列,然后使用与特征长度相同的卷积核进行对上述序列卷积得到对应的五笔序列嵌入和四角序列嵌入/>
S3、将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示。该步骤的目的在于:本发明在字符特征之外提取了五笔编码和四角编码作为额外的字形特征,但这三种信息的来源不同,同时有主次之分,因而存在带来噪声的风险。本发明通过结合门机制的融合方法,用以降低额外信息引入带来的噪声影响。在一些较优的实施例中,给出了一种融合的具体示例:
S301、计算门控参数gi:
其中,Wg1和Wg2是可学习参数,是字符特征,bg是偏置项,/>是字形特征。
所述字符特征由前述步骤S1获得,字形特征/>根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合而成。具体的,可以采用权重计算的方式进行聚合,包括:
对于每个输入的字符xi,首先分别计算出与五笔和四角的关联度tg,tf,接着计算分配给五笔嵌入和四角嵌入的权重pg,pf,计算权重的方式如下:
其中,S是五笔序列嵌入eg和四角序列嵌入ef的集合。是五笔和四角的关联度。通过计算权重,五笔特征和四角特征可以聚合成一个字形特征向量/>
S302、将字符特征和字形特征融合,得到组合字符表示
其中,E是一个与具有相同形状的向量,每个位的值都是1。°表示按元素相乘。
S4、获取文本序列中每个词汇包含词性信息的上下文表示。该步骤主要考虑在命名实体识别(NER)模型中使用词性(POS)作为辅助特征,所述词性POS标注包含词语边界和词法信息,可以增强NER模型,本领域进行词汇上下文分析的方法有很多,比较热门的有Word2Vec模型、ELMo模型和Transformer模型,其中ELMo(Embeddings from LanguageModels)是一种基于双向LSTM的深度上下文化词嵌入方法。通过预训练一个双向语言模型,ELMo能够为输入文本中的每个词生成一个动态的词向量,该向量取决于其在特定上下文中的含义。其优点在于生成的词向量是动态的,能够捕捉多义词的不同含义,且能够捕捉长距离依赖关系。在一些较优的实施例中,给出了一种基于ELMo的结构和思路的上下文表示获取方法:
S401、提取文本序列中每个词汇的词性并进行编码得到词性序列其中,词性的提取方法有很多,现有技术中常用的分词工具都能实现对词性的提取,如Jieba、LAC等工具,本发明对词性提取所采用的方法和工具不作进一步的要求。
S402、将词性序列es输入双向长短期记忆递归神经网络BiLSTM,得到每个词汇与词性相关的上下文表示
S5、利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算。该步骤考虑的是:直接将POS添加到文本嵌入中可能会受到错误传播的影响,并退化为基于单词的方法。为了克服这个问题,本发明提出了一种注意力机制,动态地结合POS信息,减少误差传播。
具体的包括以下步骤:
将上下文表示hs作为键Ks和值Vs,以使上下文表示hs被用于计算查询与每个上下文词汇之间的相关性,并为每个上下文词汇分配权重。
将组合字符表示作为任务相关查询Qc,以使组合字符表示/>通过注意力机制将其与上下文表示相关联,以获取与当前任务相关的信息。
根据下面的公式进行注意力计算:
其中,dk是Ks的维度。该公式被用作根据组合字符表示与上下文表示之间的关系分配权重,然后计算加权和作为输出。这样可以使得输出表示更加关注于与组合字符表示相关的上下文词汇,从而为融合任务提供更有用的信息。
S6、将注意力计算的输出和组合字符表示结合后,作为中文命名实体标签预测模型的输入,完成中文命名实体的识别。所述中文命名实体标签预测模型的后续结构可以有本领域技术人员根据现有技术和实际需要进行具体的设计和设置,在一些较优的实施例中,考虑使用线性和条件随机场CRF层进行字符到标签的预测(即中文命名实体的识别)。
实施例2
本实施例是在上述实施例1的基础上展开的,本实施例给出了一种基于字符字形特征的中文命名实体识别系统,包括:
字符特征获取模块,用于获取文本序列中每个字符的字符特征;
字形特征获取模块,用于获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;
词性获取模块,用于获取文本序列中每个词汇包含词性信息的上下文表示;
融合模块,与字符特征获取模块和字形特征获取模块连接,用于将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;
注意力模块,用于对上下文表示和组合字符表示进行注意力计算,并将注意力计算的输出和组合字符表示结合;
标签预测模块,与注意力模块连接,用于完成中文命名实体的识别。
在一些较优的实施例中,所述字符特征获取模块内置有用于获取字符特征的预训练BERT模型。
在一些较优的实施例中,所述词性获取模块内置有用于获取上下文表示的预训练BiLSTM模型。
在一些较优的实施例中,所述标签预测模块内置有依次连接的条件随机场和标签分配器。
实验例
本实验例是在上述实施例1、2的基础上展开的,使用几个基准数据集对本发明所提出的方法进行实验评估,其中准确性、召回率和F1分数被用作评估指标。
实验设置
在以下主流中文NER基准数据集上进行了实验。采用来自新闻领域的主流中文NER基准数据集:OntonotesV4和MSRA。本实验例使用了为所有数据集提供的原始切割分数,还统计了每个数据集不同切割中的句子数量、实体类型数量和实体总数的分布。具体统计数据见下表1。
表1数据集统计
命名实体(Named Entity,NE)的注释模式在不同的数据集中是不同的,Ontonotes数据集使用BMEOS注释模式,而MSRA数据集则使用BIO注释模式。
BERT模型的原始权重来自HuggingFace Transformers的"bert-base-chinese"。使用jionlp工具包从文本中提取四角码和词汇码,使用pywubi获取五笔码。除了BERT之外的模型层的参数都是随机初始化的。所有嵌入的维度都相同,其中dc=dw=df=ds=768,而上下文表示为256维。对于CRF层,使用FastNLP的内置实现。在训练过程中,使用AdamW作为优化函数,并使用CRF层计算训练损失,基础学习率为0.00001。
实验结果
下面的内容展示了几种中文命名实体识别(NER)的词汇增强方法和图像表示方法的实验结果。具体来说,本实验例评估了基于格的方法Lattice-LSTM、FLAT和NFLAT,以及基于图像字形的方法Glyce和FGN。评估结果分别将下表2和表3。表中的GP-NER为本发明所提出的基于字符字形特征的中文命名实体识别方法。
Model | P | R | F |
Lattice LSTM | 76.35 | 71.56 | 73.88 |
FLAT | - | - | 76.45 |
NFLAT | 75.17 | 79.37 | 77.21 |
Glyce | 81.87 | 81.40 | 81363 |
FGN | 82.61 | 81.48 | 82.04 |
Baseline | 79.99 | 80.29 | 80.16 |
GP-NER | 81.57 | 82.99 | 82.28 |
表2 Ontonotes数据集上的结果
Model | P | R | F |
Lattice LSTM | 93.57 | 92.79 | 93.18 |
FLAT | - | - | 94.12 |
NFLAT | 94.92 | 94.19 | 94.55 |
Glyce | 95.57 | 95.51 | 95.54 |
FGN | 95.54 | 95.81 | 95.64 |
Baseline | 94.97 | 94.93 | 94.95 |
GP-NER | 95.56 | 95.80 | 95.68 |
表3 MSRA数据集上的结果
在OntonotesV4数据集上,GP-NER取得了82.28%的F1得分,比最佳基线提高了0.28%。它同时优于中文基于Lattice的方法和中文基于字符图像的字形增强方法。在MSRA数据集上也观察到类似的结果,GP-NER显示出最佳性能。这些结果证实,本发明所提出的方法可以将词性信息和字形信息较好的结合,增强模型学习到的上下文表示,从而最终提高模型的性能。
消融实验
下面介绍了进行消融实验以验证本发明所提出的方法中每个组件的贡献的实验。其目的是评估四个不同组件对模型性能的影响:字形特征(“-glyce”)、字形融合(“-fusion”)、词性标注标签(“-pos”)和注意力机制(“-attn”)。消融实验的结果见下表4。
Model | Ontonotes | MSRA |
GP-NER | 82.28 | 95.68 |
-glyce | 81.99 | 95.35 |
-fusion | 81.74 | 95.17 |
-pos | 81.67 | 94.83 |
-attn | 80.15 | 93.72 |
表4消融实验结果
表4展示了本发明所提出的方法及其每个特征类型的性能表现。性能以F1得分为指标,报告了在两个数据集(OntonotesV4和MSRA)上的性能。“-glyce”实验是从训练数据中删除所有字形特征。该实验允许评估字形特征对GP-NER模型性能的贡献。该实验的结果表明,加入字形特征使模型的性能平均提高了0.7的F1得分。
“-fusion”研究了所提出的字形融合方法在减少模型中的噪声方面的有效性。字形融合方法在模型中添加了一个字形融合层,用于将字形特征与字符特征组合起来。在这个实验中,首先从模型中删除了字形融合层,并直接将字形特征添加到字符特征中。这个实验允许评估所提出的字形融合方法是否有效地减少了模型中的噪声。结果表明,与不使用它相比,使用字形融合方法平均提高了0.3的F1得分。
"-pos"是指在模型训练过程中去除POS标签特征和注意层。这个实验能够评估POS标签对本发明所提出的方法性能的贡献。结果显示,加入POS标签后,模型的性能平均提高了0.5/F1分数。
最后,"-attn"将注意力机制从模型中移除,以研究其在避免从POS标签传播的错误方面的有效性。在这个消融中,在没有POS注意力层的情况下训练模型。结果显示,与不使用注意力机制相比,注意力机制平均提高了2.2/的F1分数。
通过上述消融实验不难看出,本发明所提出的方法的四个组成部分在不同程度上提高了实体识别的效果。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.基于字符字形特征的中文命名实体识别方法,其特征在于,包括步骤:
获取文本序列中每个字符的字符特征;
获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;
将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;
获取文本序列中每个词汇包含词性信息的上下文表示;
利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算;
将注意力计算的输出和组合字符表示结合后,作为中文命名实体标签预测模型的输入,完成中文命名实体的识别。
2.如权利要求1所述的基于字符字形特征的中文命名实体识别方法,其特征在于,所述将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示的方法包括:
首先计算门控参数gi:
其中,和/>是可学习参数,/>是字符特征,bg是偏置项,/>是字形特征;
然后将字符特征和字形特征融合,得到组合字符表示
其中,E是一个与具有相同形状的向量,每个位的值都是1。
3.如权利要求1所述的基于字符字形特征的中文命名实体识别方法,其特征在于,所述获取文本序列中每个词汇包含词性信息的上下文表示的方法包括:
提取文本序列中每个词汇的词性并进行编码得到词性序列,将词性序列输入双向长短期记忆递归神经网络,得到每个词汇与词性相关的上下文表示。
4.如权利要求4所述的基于字符字形特征的中文命名实体识别方法,其特征在于,所述利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算的方法包括:
将上下文表示作为键Ks和值Vs,将组合字符表示作为任务相关查询Qc,根据下面的公式进行注意力计算:
其中,dk是Ks的维度。
5.基于字符字形特征的中文命名实体识别系统,其特征在于,包括:
字符特征获取模块,用于获取文本序列中每个字符的字符特征;
字形特征获取模块,用于获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;
词性获取模块,用于获取文本序列中每个词汇包含词性信息的上下文表示;
融合模块,与字符特征获取模块和字形特征获取模块连接,用于将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;
注意力模块,用于对上下文表示和组合字符表示进行注意力计算,并将注意力计算的输出和组合字符表示结合;
标签预测模块,与注意力模块连接,用于完成中文命名实体的识别。
6.如权利要求5所述的基于字符字形特征的中文命名实体识别系统,其特征在于,所述字符特征获取模块内置有用于获取字符特征的预训练BERT模型。
7.如权利要求5所述的基于字符字形特征的中文命名实体识别系统,其特征在于,所述词性获取模块内置有用于获取上下文表示的预训练BiLSTM模型。
8.如权利要求5所述的基于字符字形特征的中文命名实体识别系统,其特征在于,所述标签预测模块内置有依次连接的条件随机场和标签分配器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310379164.9A CN116502641B (zh) | 2023-04-11 | 2023-04-11 | 基于字符字形特征的中文命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310379164.9A CN116502641B (zh) | 2023-04-11 | 2023-04-11 | 基于字符字形特征的中文命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116502641A true CN116502641A (zh) | 2023-07-28 |
CN116502641B CN116502641B (zh) | 2024-04-05 |
Family
ID=87327635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310379164.9A Active CN116502641B (zh) | 2023-04-11 | 2023-04-11 | 基于字符字形特征的中文命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502641B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857912A (zh) * | 2018-12-20 | 2019-06-07 | 广州企图腾科技有限公司 | 一种字形识别方法、电子设备及存储介质 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN115545033A (zh) * | 2022-10-18 | 2022-12-30 | 昆明理工大学 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
-
2023
- 2023-04-11 CN CN202310379164.9A patent/CN116502641B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857912A (zh) * | 2018-12-20 | 2019-06-07 | 广州企图腾科技有限公司 | 一种字形识别方法、电子设备及存储介质 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN115545033A (zh) * | 2022-10-18 | 2022-12-30 | 昆明理工大学 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
ZHENYU XUAN 等: "FGN: Fusion Glyph Network for Chinese Named Entity Recognition", ARXIV:2001.05272, pages 1 - 13 * |
张栋 等: "结合五笔字形与上下文相关字向量的命名实体识别", 计算机工程, vol. 47, no. 3, pages 94 - 101 * |
Also Published As
Publication number | Publication date |
---|---|
CN116502641B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112989834A (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
Alsaaran et al. | Classical Arabic named entity recognition using variant deep neural network architectures and BERT | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
Suman et al. | Why pay more? A simple and efficient named entity recognition system for tweets | |
CN107895000A (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
CN113239663B (zh) | 一种基于知网的多义词中文实体关系识别方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN112784602B (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
Zhuang et al. | Chinese language processing based on stroke representation and multidimensional representation | |
CN112231537A (zh) | 基于深度学习和网络爬虫的智能阅读系统 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
Suleiman et al. | Using part of speech tagging for improving Word2vec model | |
CN110321568A (zh) | 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |