CN114970537B - 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 - Google Patents
基于多层标注策略的跨境民族文化实体关系抽取方法及装置 Download PDFInfo
- Publication number
- CN114970537B CN114970537B CN202210733201.7A CN202210733201A CN114970537B CN 114970537 B CN114970537 B CN 114970537B CN 202210733201 A CN202210733201 A CN 202210733201A CN 114970537 B CN114970537 B CN 114970537B
- Authority
- CN
- China
- Prior art keywords
- entity
- cross
- character
- vector
- border
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 66
- 238000000605 extraction Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 93
- 238000012549 training Methods 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 15
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 12
- 235000017491 Bambusa tulda Nutrition 0.000 description 12
- 241001330002 Bambuseae Species 0.000 description 12
- 241000209094 Oryza Species 0.000 description 12
- 235000007164 Oryza sativa Nutrition 0.000 description 12
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 12
- 239000011425 bamboo Substances 0.000 description 12
- 235000009566 rice Nutrition 0.000 description 12
- 235000005911 diet Nutrition 0.000 description 7
- 230000037213 diet Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 244000099147 Ananas comosus Species 0.000 description 4
- 235000007119 Ananas comosus Nutrition 0.000 description 4
- 235000012054 meals Nutrition 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置,属于自然语言处理技术领域。跨境民族文化领域文本中实体关系特征主要体现在单个实体重叠关系、实体对重叠关系以及多个实体对关系,在文本中还存在大量的领域词语问题,本发明提出了一种多层标注策略的跨境民族文化实体关系抽取方法,包括跨境民族文化实体关系数据标注和处理、基于多层标注的实体关系标注策略方法、基于多层标注策略的跨境民族文化实体关系抽取模型构成。根据这三个功能模块化制成基于多层标注策略的跨境民族文化实体关系抽取装置,对输入的句子进行实体关系联合抽取,本发明解决了跨境民族文化中重叠实体关系的问题。
Description
技术领域
本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置,属于自然语言处理技术领域。
背景技术
实体关系抽取任务是从非结构化的自然语言文本中抽取出预定义的头实体、尾实体以及实体对之间的关系并构成{头实体,关系,尾实体}三元组,实体关系抽取任务是信息抽取技术的研究热点。跨境民族文化领域实体关系抽取任务是提取出跨境民族、饮食、文艺、建筑、节日、活动等实体和它们之间的关联关系。针对非结构化文本“坐夏节是掸族的传统节会”,通过实体关系抽取模型抽取出“坐夏节”和“掸族”两个实体,以及“民族节日”的关系,并最终得到{坐夏节,民族节日,掸族}实体关系三元组。
发明内容
本发明提供了基于多层标注策略的跨境民族文化实体关系抽取方法及装置,以用于提高对跨境民族文化实体边界模糊的实体识别和增强融入词集合信息的跨境民族文化文本表示。
本发明的技术方案是:第一方面,提供基于多层标注策略的跨境民族文化实体关系抽取方法,所述基于多层标注策略的跨境民族文化实体关系抽取的具体步骤如下:
Step1、由于缺少跨境民族文化领域上的实体关系抽取数据集,本发明结合跨境民族文化领域特点定义了17种关系类型,包括跨境节日、宗教信仰、活动、别名等关系,设计了{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系,通过人工方式标注了8000条带有实体关系三元组的数据并通过远程监督的思想构建了1万条数据,该数据集为实体关系抽取模型训练起到了很好的支撑作用;
Step2、采用融入领域词典信息的方法增强预训练模型表征后的字符向量,跨境民族文化文本种通常包含许多的领域词汇,使用常规的分词方法会错误切分领域词汇造成上下文语义信息缺失,因此本发明通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量,提出利用卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中;
Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别,因此双层标注方式分别对头实体的开始位置和结束位置进行标注;
Step4、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,采用多层标注策略标注提取实体关系三元组,多层标注方式针对每一种预先定义的关系类型下实体进行标注预测,通过符号“0”和“1”分别标注预测出每一种关系下对应尾实体的开始和结尾位置。在关系条件下通过多层标注策略标注尾实体能够很好地解决跨境民族文化领域中实体关系抽取中存在的实体关系重叠问题。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、目前的跨境民族文化关系抽取面临的问题是训练数据不足,相比通用领域的实体关系抽取任务,跨境民族文化实体关系的标注更加困难,需要标注者掌握相应的领域知识。
通过百科词条和跨境民族相关网站获取跨境民族文化数据,数据进行去重、过滤特殊字符等预处理操作,然后标注了18000条实体关系三元组的跨境民族文化句子,关系类型包含包括跨境节日、民族歌舞、宗教信仰、建筑特色、民族歌舞、民族乐器、制作材料、跨境民族、包含、民族婚姻、民族节日、伴奏乐器、民族艺术、活动、别名、民族服饰、位置、特色饮食以及民族习俗。
Step1.2、采用{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系,例如,文本“菠萝紫米饭和竹筒饭是掸族食物”标注后的三元组为{特色饮食,菠萝紫米饭,掸族}和{特色饮食,竹筒饭,掸族}。在跨境民族文化文本中实体关系抽取分为一个头实体对应一尾实体、一个头实体对应多个尾实体、多个头实体对应一个尾实体及多个头实体对应多个尾实体的情况,如表1所示。
表1跨境民族文化实体关系特征
Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到Transformer Encoder层,可以得到输入文本的每个字符的向量表示。跨境民族文化句子被视为字符序列S={c1,c2,…,cn}∈Vc,其中Vc是字符级的词汇表,ci表示在长度为n的句子S中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
Q=ci×WQ,K=ci×WK,V=ci×WV,
其中,WQ,WK,WV表示权重参数,dk为输入特征向量的维度,Softmax为归一化操作,最终得到跨境民族文化文本动态生成的字符向量。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强,利用领域词典对文本进行分词,分词后匹配预训练的词向量得到领域词向量矩阵E。例如:句子“泰族著名的香竹饭又称竹筒饭”经过领域词典分词后可以得到句子的词向量序列矩阵E={e泰族,e著名的,e香竹饭,e又称,e竹筒饭}。
Step2.2、采用CNN编码器提取领域词典信息特征编码表示,其目的是提取领域词典中词语信息的语义知识。通过CNN网络对词向量进行卷积操作提取领域词典信息特征编码,其中卷积操作是利用滑动窗口对词向量进行局部特征的编码,通过设置卷积核大小来提取文本的h-gram特征,最终得到了领域信息的表示:
ci=f(Wc·E[i:i+h]+bc),
C=[c1,c2,...,cn-h+1],
其中,为偏置向量,/>训练参数矩阵。
Step2.3在字符向量表示中融入领域词典信息保留文本中的领域信息,将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量,共同构成最终表示:
xi=[gi;zi].
其中,zi为Step2.2中得到的领域信息表示,gi为Step1.3中的字符向量。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、通过双层标注方法对头实体的位置进行标注,因为需要标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量。预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率,计算公式如下:
其中hi表示Bi-LSTM输出的特征向量,表示输入序列第i个字符为头实体开始位置概率,/>表示输入序列第i个字符为头实体结尾位置概率,Wstart,bstart,Wend,bend为训练参数矩阵和偏置向量,σ(·)为sigmoid激活函数。
Step3.2、如果句子中存在多个头实体,只有满足开始位置和结束位置自然连续性,才能被正确检测为给定的句子中实体跨度,从输入文本中标注头实体的概率如公式所示:
其中L是句子的长度,θ为训练参数。当时,则文本中第i个字符标注为1,否则为0;当/>时,则表示句子中第i个字符标注为头实体开始位置标签;当/>时,则表示句子中第i个字符标注为头实体结束位置标签。
作为本发明的优选方案,所述Step4的具体步骤为:
Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,通过多层标注方法采用多层指针网络标注对每一种预先定义的关系类型下实体进行标注,标注出每一种关系下对应尾实体的开始和结尾位置。
在通过指针网络标注出头实体位置后,将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性,更好地标注关系对应的尾实体位置。其输入是融合了已标注的头实体向量,预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率:
其中hi表示Bi-LSTM输出的特征向量,表示所有头实体向量表征,/>表示输入文本中第i个字符为尾实体开始位置的概率,/>表示输入文本中第i个字符为尾实体结尾位置的概率,/>为训练参数矩阵和偏置向量,σ(·)为sigmoid激活函数,在关系类型下对应的尾实体的概率如下式所示。
其中L是句子的长度,为训练参数。当/>时,表示当前关系类型下不存在尾实体,即不存在实体关系三元组。
第二方面,本发明实施例还提供了基于多层标注策略的跨境民族文化实体关系抽取装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
1、本发明利用领域词典信息来提升实体关系抽取正确率,将领域词典信息融入到实体关系抽取模型中对跨境民族文化文本语义信息增强,使模型能够在跨境民族文化实体识别上达到更好的效果。
2、本发明基于指针网络标注方法来解决了跨境民族文化领域中实体关系重叠的问题,缓解了基于关系标签分类面临重叠实体关系抽取不准确的问题。
附图说明
图1为本发明中领域信息特征提取网络图;
图2为本发明中多层标注策略示例图;
图3为本发明中基于多层标注策略的跨境民族文化实体关系抽取框架图;
图4为本发明中基于多层标注策略的跨境民族文化实体关系抽取整体流程图。
具体实施方式
实施例1:如图1-图4所示,第一方面,提供基于多层标注策略的跨境民族文化实体关系抽取方法,所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下:
Step1、由于缺少跨境民族文化领域上的实体关系抽取数据集,本发明结合跨境民族文化领域特点定义了17种关系类型,包括跨境节日、宗教信仰、活动、别名等关系,设计了{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系,通过人工方式标注了8000条带有实体关系三元组的数据并通过远程监督的思想构建了1万条数据,该数据集为实体关系抽取模型训练起到了很好的支撑作用。
Step2、采用融入领域词典信息的方法增强预训练模型表征后的字符向量,跨境民族文化文本种通常包含许多的领域词汇,使用常规的分词方法会错误切分领域词汇造成上下文语义信息缺失,因此本发明通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量,提出利用卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中。
Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别,因此采用指针网络标注方式分别对头实体的开始位置和结束位置进行标注。
Step4、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,采用多层标注策略标注提取实体关系三元组,多层标注方式针对每一种预先定义的关系类型下实体进行标注预测,通过符号“0”和“1”分别标注预测出每一种关系下对应尾实体的开始和结尾位置。在关系条件下通过多层标注策略标注尾实体能够很好地解决跨境民族文化领域中实体关系抽取中存在的实体关系重叠问题。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、目前的跨境民族文化关系抽取面临的问题是训练数据不足,相比通用领域的实体关系抽取任务,跨境民族文化实体关系的标注更加困难,需要标注者掌握相应的领域知识。
通过百科词条和跨境民族相关网站获取跨境民族文化数据,数据进行去重、过滤特殊字符等预处理操作,然后标注了18000条实体关系三元组的跨境民族文化句子,关系类型包含包括跨境节日、民族歌舞、宗教信仰、建筑特色、民族歌舞、民族乐器、制作材料、跨境民族、包含、民族婚姻、民族节日、伴奏乐器、民族艺术、活动、别名、民族服饰、位置、特色饮食以及民族习俗。
Step1.2、采用{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系,例如,文本“菠萝紫米饭和竹筒饭是掸族食物”标注后的三元组为{特色饮食,菠萝紫米饭,掸族}和{特色饮食,竹筒饭,掸族}。在跨境民族文化文本中实体关系抽取分为一个头实体对应一尾实体、一个头实体对应多个尾实体、多个头实体对应一个尾实体及多个头实体对应多个尾实体的情况。
Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到Transformer Encoder层,可以得到输入文本的每个字符的向量表示。跨境民族文化句子被视为字符序列S={c1,c2,…,cn}∈Vc,其中Vc是字符级的词汇表,ci表示在长度为n的句子S中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
Q=ci×WQ,K=ci×WK,V=ci×WV,
gi=Attention(Q,K,V).
其中,WQ,WK,WV表示权重参数,dk为输入特征向量的维度,Softmax为归一化操作,最终得到BERT预训练模型对跨境民族文化文本动态生成的字符向量。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强,利用领域词典对文本进行分词,分词后匹配预训练的词向量得到领域词向量矩阵E。例如:句子“泰族著名的香竹饭又称竹筒饭”经过领域词典分词后可以得到句子的词向量序列矩阵E={e泰族,e著名的,e香竹饭,e又称,e竹筒饭}。
Step2.2、采用CNN编码器提取领域词典信息特征编码表示,其目的是提取领域词典中词语信息的语义知识。通过CNN网络对词向量进行卷积操作提取领域词典信息特征编码,其中卷积操作是利用滑动窗口对词向量进行局部特征的编码,通过设置卷积核大小来提取文本的h-gram特征,最终得到了领域信息的表示:
ci=f(Wc·E[i:i+h]+bc),
C=[c1,c2,...,cn-h+1],
其中,为偏置向量,/>训练参数矩阵。
Step2.3在字符向量表示中融入领域词典信息保留文本中的领域信息,将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量,共同构成最终表示:
xi=[gi;zi].
其中,zi为Step2.2中得到的领域信息表示,gi为Step1.3中的字符向量。
Step2.5、跨境民族文化领域文本中的上下文信息对实体关系抽取模型的质量很重要,故将融合的向量表征进行编码获取上下文的语义信息。因为头实体标注的准确性决定了后续所有关系类型下的尾实体标注的质量,为了提升模型头实体标注准确度,本发明采用Bi-LSTM网络层提取上下文信息表征,将Bi-LSTM的前向和后向输出进行拼接得到该网络层的输出。LSTM包含输入门、遗忘门和输出门控机制,输入门负责新信息添加的门控,遗忘门负责长期信息的选择性遗忘,输出门负责输出长期信息,其计算公式如下所示:
it=σ(Wi·[ht-1,xt]+bf)
ft=σ(Wf·[ht-1,xt]+bf)
其中W,b为模型训练权重矩阵和偏置项,ht-1,xt表示上一个隐藏状态和输入向量。
将D={d1,d2,...,dn}输入到Bi-LSTM中提取上下文特征,在Bi-LSTM中,新的隐藏状态hi是由上一次的隐藏状态hi-1和当前的输入di计算得到,然后通过前向和后向拼接得到输出向量,如公式所示:
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、采用双层标注方法对头实体的位置进行标注,因为需要标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量。预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率,计算公式如下:
其中hi表示Bi-LSTM输出的特征向量,表示输入序列第i个字符为头实体开始位置概率,/>表示输入序列第i个字符为头实体结尾位置概率,Wstart,bstart,Wend,bend为训练参数矩阵和偏置向量,σ(·)为sigmoid激活函数。
Step3.2、如果句子中存在多个头实体,只有满足开始位置和结束位置自然连续性,才能被正确检测为给定的句子中实体跨度,从输入文本中标注头实体的概率如公式所示:
其中L是句子的长度,θ为训练参数。当时,则文本中第i个字符标注为1,否则为0;当/>时,则表示句子中第i个字符标注为头实体开始位置标签;当/>时,则表示句子中第i个字符标注为头实体结束位置标签。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,通过多层标注方法采用多层指针网络标注对每一种预先定义的关系类型下实体进行标注,标注出每一种关系下对应尾实体的开始和结尾位置。
在通过指针网络标注出头实体位置后,将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性,更好地标注关系对应的尾实体位置。其输入是融合了已标注的头实体向量,预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率:
其中hi表示Bi-LSTM输出的特征向量,表示所有头实体向量表征,/>表示输入文本中第i个字符为尾实体开始位置的概率,/>表示输入文本中第i个字符为尾实体结尾位置的概率,/>为训练参数矩阵和偏置向量,σ(·)为sigmoid激活函数,在关系类型下对应的尾实体的概率如公式(4.13)所示。
其中L是句子的长度,为训练参数。当/>时,表示当前关系类型下不存在尾实体,即不存在实体关系三元组。
Step4.2、为了说明本发明的效果,本发明进行了如下对比实验,所采用的实验数据均是民族文化人工标注数据集。
采用的评价指标是通过精确率(Precision)、召回率(Recall)和F1值来对模型进行评估。精确率、召回率和F1值的计算方法如下所示。
为了验证本发明提出的基于多层标注策略的跨境民族文化实体关系抽取模型的效果,设计了对比实验和消融实验。
实验如表2所示,相较于其他三个对比模型都有一定的提升,本发明方法将领域知识融入到字符向量表征中,得到含有领域信息的表示更好地融合到模型中进行实体关系抽取。GraphRel模型将字符向量于词性表征相融合后输入到Bi-LSTM中提取信息,通过GCN对句法依赖树编码,在效果上取决于训练过程中依赖分词的质量和词性标注的质量,在特定领域上的实体关系抽取效果相对较差。尽管TPLinker效果相对较好,但它仍然存在一些问题,该模型为了避免偏差影响模型效果,利用复杂的解码器导致稀疏的标签提取能力较弱。相比于CasRel模型效果提升了2.34%,效果优于CaseRel模型的主要原因是本发明方法在BERT生成字符向量基础之上加入了CNN编码器提取领域信息后融入到了字符向量中增强领域信息,然后加入Bi-LSTM进一步提取上下文语义信息提升了指针网络标注头实体位置的正确性。
表2不同方法对比实验
方法名称 | P(%) | R(%) | F1(%) |
GraphRel | 81.14 | 78.44 | 79.77 |
Tplinker | 83.94 | 78.22 | 80.98 |
CasRel | 84.32 | 76.40 | 80.16 |
本发明方法 | 84.58 | 80.94 | 82.50 |
表3是设计了去除领域词典融入层、去除CNN编码层以及去除LSTM特征提取层词的消融实验,其它层保持不变进行模型训练。
表3不同编码层对模型的影响
不同编码层 | P(%) | R(%) | F1(%) |
去除领域词典融入层 | 83.45 | 77.22 | 80.21 |
去除CNN编码层 | 84.17 | 79.35 | 81.69 |
去除LSTM特征提取层 | 83.24 | 78.59 | 80.84 |
本发明方法 | 84.58 | 80.94 | 82.50 |
实验结果表明去除领域词典融入层的实验相较于本发明方法实验结果F1值下降了2.29%,仅仅是字符层面的表征,没有词语层面的信息融合,模型在缺少领域词典信息的表示后,会造成模型对文本中的领域词汇编码能力下降,不能有效地编码领域特征表示。去除CNN编码层的实验相较于本发明方法实验结果F1值下降了0.81%,领域词典信息表征未通过CNN编码导致特征表示融合时无法融入重要的特征,使得模型无法有效地利用领域词典信息,表明CNN对领域词汇局部特征提取的有效性。去除LSTM特征提取层的实验相较于本发明方法实验结果F1值下降了1.66%,表明Bi-LSTM能够有效地提取特征表示中的长短期时间步的依赖信息,即提取文本上下文的语义信息。本发明方法将BERT预训练模型所表示的字符向量和领域词典信息向量进行融合,通过CNN编码器和Bi-LSTM特征提取层后得到的特征表示对模型效果有明显地提升。
根据本发明的构思,本发明还提供了一种基于多层标注策略的跨境民族文化实体关系抽取装置,该装置包括如下集成模块:
跨境民族文化实体关系抽取数据标注和处理模块:用于结合跨境民族文化领域特点定义了若干种关系类型,设计标注格式标注句子中的实体对及对应的关系;还用于对输入的跨境民族文化句子进行字符过滤,将句子切分为字符并进行字符向量表征;
融入领域词典信息的跨境民族文化文本特征表示模块:用于采用融入领域词信息的方法增强预训练模型表征后的字符向量,通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量,设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中;;
头实体和关系条件下的尾实体指针标注模块:用于先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别,利用双层标注方式分别对头实体的开始位置和结束位置进行标注;
跨境民族文化实体关系抽取模块:用于利用多层标注策略提取实体关系三元组,多层标注方式针对每一种预定义的关系类型下实体进行标注预测,通过符号“0”和“1”分别预测每一种关系下对应尾实体的开始位置与终止位置。
在一种可行的实施方式中,跨境民族文化实体关系抽取模块还包括将所述装置形成的模型部署到本地服务器端通过Sanic技术将模型转换为应用接口,通过网页端直接调用模型,将预测的实体关系三元组输出到前端界面显示。
在一种可行的实施方式中,所述融入领域词典信息的跨境民族文化文本特征表示模块,还用于:
通过百科词条和跨境民族相关网站获取跨境民族文化数据,数据进行预处理操作;然后标注了包含实体关系三元组的跨境民族文化句子,关系类型包含若干种关系类型;
采用{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系;
采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到预训练语言模型中得到输入文本的每个字符的向量表示;跨境民族文化句子被视为字符序列S={c1,c2,…,cn}∈Vc,其中Vc是字符级的词汇表,ci表示在长度为n的句子S中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
Q=ci×WQ,K=ci×WK,V=ci×WV,
其中,WQ,WK,WV表示权重参数,dk为输入特征向量的维度,Softmax为归一化操作,gi表示跨境民族文化字符文本向量表征。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于多层标注策略的跨境民族文化实体关系抽取方法,其特征在于:
所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下:
Step1、结合跨境民族文化领域特点定义了若干种关系类型,设计标注格式标注句子中的实体对及对应的关系;
Step2、采用融入领域词信息的方法增强预训练模型表征后的字符向量,通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量,设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中;
Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别,利用双层标注方式分别对头实体的开始位置和结束位置进行标注;
Step4、利用多层标注策略提取实体关系三元组,多层标注方式针对每一种预定义的关系类型下实体进行标注预测,预测每一种关系下对应尾实体的开始位置与终止位置,最终缓解跨境民族文化实体关系抽取中存在的实体关系重叠问题;
所述Step1的具体步骤为:
Step1.1、通过百科词条和跨境民族相关网站获取跨境民族文化数据,数据进行预处理操作;然后标注了包含实体关系三元组的跨境民族文化句子,关系类型包含若干种关系类型;
Step1.2、采用{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系;
Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到预训练语言模型中得到输入文本的每个字符的向量表示;跨境民族文化句子被视为字符序列S={c1,c2,…,cn}∈Vc,其中Vc是字符级的词汇表,ci表示在长度为n的句子S中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
Q=ci×WQ,K=ci×WK,V=ci×WV,
其中,WQ,WK,WV表示权重参数,dk为输入特征向量的维度,Softmax为归一化操作,gi表示跨境民族文化字符文本向量表征;
所述Step2的具体步骤为:
Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强,利用领域词典对文本进行分词,分词后匹配预训练的词向量得到领域词向量矩阵E;
Step2.2、设计了多层卷积编码器提取领域词典信息特征编码表示,其目的是提取领域词典中词语信息的语义知识;通过卷积编码器对词向量进行卷积操作提取领域词典信息特征编码,其中卷积操作是利用滑动窗口对词向量进行局部特征的编码,通过设置卷积核大小来提取文本的h-gram特征,最终得到了领域信息的表示:
ci=f(Wc.E[i:i+h]+bc),
C=[c1,c2,...,cn-h+1],
其中,为偏置向量,/>为训练参数矩阵,E为词向量矩阵;
Step2.3、在字符向量表示中融入领域词典信息保留文本中的领域信息,将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量,共同构成最终表示:
xi=[gi;zi].
其中,zi为Step2.2中得到的领域信息表示,gi为字符向量;
所述Step3的具体步骤为:
Step3.1、通过双层标注方法对头实体的位置进行标注,标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量;预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率,计算公式如下:
其中hi表示Bi-LSTM输出的特征向量,表示输入序列第i个字符为头实体开始位置概率,/>表示输入序列第i个字符为头实体结尾位置概率,Wstart,bstart,Wend,bend为训练参数矩阵和偏置向量,σ(.)为sigmoid激活函数;
Step3.2、如果句子中存在多个头实体,只有满足开始位置和结束位置自然连续性,才能被正确检测为给定的句子中实体跨度,从输入文本中标注头实体的概率如公式所示:
其中L是句子的长度,θ为训练参数;当时,则文本中第i个字符标注为1,否则为0;当/>时,则表示句子中第i个字符标注为头实体开始位置标签;当/>时,则表示句子中第i个字符标注为头实体结束位置标签;
所述Step4的具体步骤为:
Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,通过多层标注方法将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性,更好地标注关系对应的尾实体位置;输入向量融合了已标注出的头实体向量,预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率:
其中hi表示Bi-LSTM输出的特征向量,表示所有头实体向量表征,/>表示输入文本中第i个字符为尾实体开始位置的概率,/>表示输入文本中第i个字符为尾实体结尾位置的概率,/>为训练参数矩阵和偏置向量,σ(.)为sigmoid激活函数。
2.基于多层标注策略的跨境民族文化实体关系抽取装置,其特征在于,包括用于执行如权利要求1所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733201.7A CN114970537B (zh) | 2022-06-27 | 2022-06-27 | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733201.7A CN114970537B (zh) | 2022-06-27 | 2022-06-27 | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970537A CN114970537A (zh) | 2022-08-30 |
CN114970537B true CN114970537B (zh) | 2024-04-23 |
Family
ID=82964930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210733201.7A Active CN114970537B (zh) | 2022-06-27 | 2022-06-27 | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970537B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151243B (zh) * | 2023-04-23 | 2023-06-23 | 昆明理工大学 | 一种基于类型相关性表征的实体关系抽取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN113821589A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本标签的确定方法及装置、计算机设备和存储介质 |
CN113901228A (zh) * | 2021-09-13 | 2022-01-07 | 昆明理工大学 | 融合领域知识图谱的跨境民族文本分类方法及装置 |
CN113935324A (zh) * | 2021-09-13 | 2022-01-14 | 昆明理工大学 | 基于词集合特征加权的跨境民族文化实体识别方法及装置 |
CN114064931A (zh) * | 2021-11-29 | 2022-02-18 | 新疆大学 | 一种基于多模态知识图谱的急救知识问答方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
-
2022
- 2022-06-27 CN CN202210733201.7A patent/CN114970537B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN113821589A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本标签的确定方法及装置、计算机设备和存储介质 |
CN113901228A (zh) * | 2021-09-13 | 2022-01-07 | 昆明理工大学 | 融合领域知识图谱的跨境民族文本分类方法及装置 |
CN113935324A (zh) * | 2021-09-13 | 2022-01-14 | 昆明理工大学 | 基于词集合特征加权的跨境民族文化实体识别方法及装置 |
CN114064931A (zh) * | 2021-11-29 | 2022-02-18 | 新疆大学 | 一种基于多模态知识图谱的急救知识问答方法及系统 |
Non-Patent Citations (2)
Title |
---|
reaearch on semantic label extraction of domain entity relation based on CRF and rules;jiayi Guo等;web technologies and applications;20121231;154-162 * |
跨境民族文化领域实体及实体关系抽取方法研究;杨振平;中国优秀硕士学位论文全文数据库;20240201;1-77 * |
Also Published As
Publication number | Publication date |
---|---|
CN114970537A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN112800764B (zh) | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 | |
CN111160023B (zh) | 一种基于多路召回的医疗文本命名实体识别方法 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN112464663A (zh) | 一种多特征融合的中文分词方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114153973A (zh) | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN111428501A (zh) | 命名实体的识别方法、识别系统及计算机可读存储介质 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN110569506A (zh) | 一种基于医疗词典的医疗命名实体识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |