CN114970537B

CN114970537B - 基于多层标注策略的跨境民族文化实体关系抽取方法及装置

Info

Publication number: CN114970537B
Application number: CN202210733201.7A
Authority: CN
Inventors: 毛存礼; 杨振平; 余正涛; 黄于欣; 高盛祥; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2024-04-23
Anticipated expiration: 2042-06-27
Also published as: CN114970537A

Abstract

本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置，属于自然语言处理技术领域。跨境民族文化领域文本中实体关系特征主要体现在单个实体重叠关系、实体对重叠关系以及多个实体对关系，在文本中还存在大量的领域词语问题，本发明提出了一种多层标注策略的跨境民族文化实体关系抽取方法，包括跨境民族文化实体关系数据标注和处理、基于多层标注的实体关系标注策略方法、基于多层标注策略的跨境民族文化实体关系抽取模型构成。根据这三个功能模块化制成基于多层标注策略的跨境民族文化实体关系抽取装置，对输入的句子进行实体关系联合抽取，本发明解决了跨境民族文化中重叠实体关系的问题。

Description

基于多层标注策略的跨境民族文化实体关系抽取方法及装置

技术领域

本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置，属于自然语言处理技术领域。

背景技术

实体关系抽取任务是从非结构化的自然语言文本中抽取出预定义的头实体、尾实体以及实体对之间的关系并构成{头实体，关系，尾实体}三元组，实体关系抽取任务是信息抽取技术的研究热点。跨境民族文化领域实体关系抽取任务是提取出跨境民族、饮食、文艺、建筑、节日、活动等实体和它们之间的关联关系。针对非结构化文本“坐夏节是掸族的传统节会”，通过实体关系抽取模型抽取出“坐夏节”和“掸族”两个实体，以及“民族节日”的关系，并最终得到{坐夏节，民族节日，掸族}实体关系三元组。

发明内容

本发明提供了基于多层标注策略的跨境民族文化实体关系抽取方法及装置，以用于提高对跨境民族文化实体边界模糊的实体识别和增强融入词集合信息的跨境民族文化文本表示。

本发明的技术方案是：第一方面，提供基于多层标注策略的跨境民族文化实体关系抽取方法，所述基于多层标注策略的跨境民族文化实体关系抽取的具体步骤如下：

Step1、由于缺少跨境民族文化领域上的实体关系抽取数据集，本发明结合跨境民族文化领域特点定义了17种关系类型，包括跨境节日、宗教信仰、活动、别名等关系，设计了{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系，通过人工方式标注了8000条带有实体关系三元组的数据并通过远程监督的思想构建了1万条数据，该数据集为实体关系抽取模型训练起到了很好的支撑作用；

Step2、采用融入领域词典信息的方法增强预训练模型表征后的字符向量，跨境民族文化文本种通常包含许多的领域词汇，使用常规的分词方法会错误切分领域词汇造成上下文语义信息缺失，因此本发明通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量，提出利用卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中；

Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别，因此双层标注方式分别对头实体的开始位置和结束位置进行标注；

Step4、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题，采用多层标注策略标注提取实体关系三元组，多层标注方式针对每一种预先定义的关系类型下实体进行标注预测，通过符号“0”和“1”分别标注预测出每一种关系下对应尾实体的开始和结尾位置。在关系条件下通过多层标注策略标注尾实体能够很好地解决跨境民族文化领域中实体关系抽取中存在的实体关系重叠问题。

作为本发明的优选方案，所述Step1的具体步骤为：

Step1.1、目前的跨境民族文化关系抽取面临的问题是训练数据不足，相比通用领域的实体关系抽取任务，跨境民族文化实体关系的标注更加困难，需要标注者掌握相应的领域知识。

通过百科词条和跨境民族相关网站获取跨境民族文化数据，数据进行去重、过滤特殊字符等预处理操作，然后标注了18000条实体关系三元组的跨境民族文化句子，关系类型包含包括跨境节日、民族歌舞、宗教信仰、建筑特色、民族歌舞、民族乐器、制作材料、跨境民族、包含、民族婚姻、民族节日、伴奏乐器、民族艺术、活动、别名、民族服饰、位置、特色饮食以及民族习俗。

Step1.2、采用{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系，例如，文本“菠萝紫米饭和竹筒饭是掸族食物”标注后的三元组为{特色饮食，菠萝紫米饭，掸族}和{特色饮食，竹筒饭，掸族}。在跨境民族文化文本中实体关系抽取分为一个头实体对应一尾实体、一个头实体对应多个尾实体、多个头实体对应一个尾实体及多个头实体对应多个尾实体的情况，如表1所示。

表1跨境民族文化实体关系特征

Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征，将字符进行处理，然后输入到Transformer Encoder层，可以得到输入文本的每个字符的向量表示。跨境民族文化句子被视为字符序列S＝{c₁,c₂，…,c_n}∈V_c，其中V_c是字符级的词汇表，c_i表示在长度为n的句子S中第i个字符，预训练语言模型的思想对跨境民族文化实体每个字符c_i进行字向量表示：

Q＝c_i×W^Q,K＝c_i×W^K,V＝c_i×W^V,

其中，W^Q,W^K,W^V表示权重参数，d_k为输入特征向量的维度，Softmax为归一化操作，最终得到跨境民族文化文本动态生成的字符向量。

作为本发明的优选方案，所述Step2的具体步骤为：

Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强，利用领域词典对文本进行分词，分词后匹配预训练的词向量得到领域词向量矩阵E。例如：句子“泰族著名的香竹饭又称竹筒饭”经过领域词典分词后可以得到句子的词向量序列矩阵E＝{e_泰族,e_著名的,e_香竹饭,e_又称,e_竹筒饭}。

Step2.2、采用CNN编码器提取领域词典信息特征编码表示，其目的是提取领域词典中词语信息的语义知识。通过CNN网络对词向量进行卷积操作提取领域词典信息特征编码，其中卷积操作是利用滑动窗口对词向量进行局部特征的编码，通过设置卷积核大小来提取文本的h-gram特征，最终得到了领域信息的表示：

c_i＝f(W^c·E[i:i+h]+b^c)，

C＝[c₁,c₂,...,c_n-h+1]，

其中，为偏置向量，/>训练参数矩阵。

Step2.3在字符向量表示中融入领域词典信息保留文本中的领域信息，将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量，共同构成最终表示：

x_i＝[g_i；z_i].

其中，z_i为Step2.2中得到的领域信息表示，g_i为Step1.3中的字符向量。

作为本发明的优选方案，所述Step3的具体步骤为：

Step3.1、通过双层标注方法对头实体的位置进行标注，因为需要标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量。预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率，计算公式如下：

其中h_i表示Bi-LSTM输出的特征向量，表示输入序列第i个字符为头实体开始位置概率，/>表示输入序列第i个字符为头实体结尾位置概率，W_start,b_start,W_end,b_end为训练参数矩阵和偏置向量，σ(·)为sigmoid激活函数。

Step3.2、如果句子中存在多个头实体，只有满足开始位置和结束位置自然连续性，才能被正确检测为给定的句子中实体跨度，从输入文本中标注头实体的概率如公式所示：

其中L是句子的长度，θ为训练参数。当时，则文本中第i个字符标注为1，否则为0；当/>时，则表示句子中第i个字符标注为头实体开始位置标签；当/>时，则表示句子中第i个字符标注为头实体结束位置标签。

作为本发明的优选方案，所述Step4的具体步骤为：

Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题，通过多层标注方法采用多层指针网络标注对每一种预先定义的关系类型下实体进行标注，标注出每一种关系下对应尾实体的开始和结尾位置。

在通过指针网络标注出头实体位置后，将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性，更好地标注关系对应的尾实体位置。其输入是融合了已标注的头实体向量，预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率：

其中h_i表示Bi-LSTM输出的特征向量，表示所有头实体向量表征，/>表示输入文本中第i个字符为尾实体开始位置的概率，/>表示输入文本中第i个字符为尾实体结尾位置的概率，/>为训练参数矩阵和偏置向量，σ(·)为sigmoid激活函数，在关系类型下对应的尾实体的概率如下式所示。

其中L是句子的长度，为训练参数。当/>时，表示当前关系类型下不存在尾实体，即不存在实体关系三元组。

第二方面，本发明实施例还提供了基于多层标注策略的跨境民族文化实体关系抽取装置，该装置包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

1、本发明利用领域词典信息来提升实体关系抽取正确率，将领域词典信息融入到实体关系抽取模型中对跨境民族文化文本语义信息增强，使模型能够在跨境民族文化实体识别上达到更好的效果。

2、本发明基于指针网络标注方法来解决了跨境民族文化领域中实体关系重叠的问题，缓解了基于关系标签分类面临重叠实体关系抽取不准确的问题。

附图说明

图1为本发明中领域信息特征提取网络图；

图2为本发明中多层标注策略示例图；

图3为本发明中基于多层标注策略的跨境民族文化实体关系抽取框架图；

图4为本发明中基于多层标注策略的跨境民族文化实体关系抽取整体流程图。

具体实施方式

实施例1：如图1-图4所示，第一方面，提供基于多层标注策略的跨境民族文化实体关系抽取方法，所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下：

Step1、由于缺少跨境民族文化领域上的实体关系抽取数据集，本发明结合跨境民族文化领域特点定义了17种关系类型，包括跨境节日、宗教信仰、活动、别名等关系，设计了{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系，通过人工方式标注了8000条带有实体关系三元组的数据并通过远程监督的思想构建了1万条数据，该数据集为实体关系抽取模型训练起到了很好的支撑作用。

Step2、采用融入领域词典信息的方法增强预训练模型表征后的字符向量，跨境民族文化文本种通常包含许多的领域词汇，使用常规的分词方法会错误切分领域词汇造成上下文语义信息缺失，因此本发明通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量，提出利用卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中。

Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别，因此采用指针网络标注方式分别对头实体的开始位置和结束位置进行标注。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.2、采用{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系，例如，文本“菠萝紫米饭和竹筒饭是掸族食物”标注后的三元组为{特色饮食，菠萝紫米饭，掸族}和{特色饮食，竹筒饭，掸族}。在跨境民族文化文本中实体关系抽取分为一个头实体对应一尾实体、一个头实体对应多个尾实体、多个头实体对应一个尾实体及多个头实体对应多个尾实体的情况。

Q＝c_i×W^Q,K＝c_i×W^K,V＝c_i×W^V,

g_i＝Attention(Q,K,V).

其中，W^Q,W^K,W^V表示权重参数，d_k为输入特征向量的维度，Softmax为归一化操作，最终得到BERT预训练模型对跨境民族文化文本动态生成的字符向量。

作为本发明的优选方案，所述Step2的具体步骤为：

c_i＝f(W^c·E[i:i+h]+b^c)，

C＝[c₁,c₂,...,c_n-h+1]，

其中，为偏置向量，/>训练参数矩阵。

x_i＝[g_i；z_i].

Step2.5、跨境民族文化领域文本中的上下文信息对实体关系抽取模型的质量很重要，故将融合的向量表征进行编码获取上下文的语义信息。因为头实体标注的准确性决定了后续所有关系类型下的尾实体标注的质量，为了提升模型头实体标注准确度，本发明采用Bi-LSTM网络层提取上下文信息表征，将Bi-LSTM的前向和后向输出进行拼接得到该网络层的输出。LSTM包含输入门、遗忘门和输出门控机制，输入门负责新信息添加的门控，遗忘门负责长期信息的选择性遗忘，输出门负责输出长期信息，其计算公式如下所示：

i_t＝σ(W_i·[h_t-1,x_t]+b_f)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中W,b为模型训练权重矩阵和偏置项，h_t-1,x_t表示上一个隐藏状态和输入向量。

将D＝{d₁,d₂,...,d_n}输入到Bi-LSTM中提取上下文特征，在Bi-LSTM中，新的隐藏状态h_i是由上一次的隐藏状态h_i-1和当前的输入d_i计算得到，然后通过前向和后向拼接得到输出向量，如公式所示：

作为本发明的优选方案，所述Step3的具体步骤为：

Step3.1、采用双层标注方法对头实体的位置进行标注，因为需要标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量。预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率，计算公式如下：

作为本发明的优选方案，所述步骤Step4的具体步骤为：

其中h_i表示Bi-LSTM输出的特征向量，表示所有头实体向量表征，/>表示输入文本中第i个字符为尾实体开始位置的概率，/>表示输入文本中第i个字符为尾实体结尾位置的概率，/>为训练参数矩阵和偏置向量，σ(·)为sigmoid激活函数，在关系类型下对应的尾实体的概率如公式(4.13)所示。

Step4.2、为了说明本发明的效果，本发明进行了如下对比实验，所采用的实验数据均是民族文化人工标注数据集。

采用的评价指标是通过精确率(Precision)、召回率(Recall)和F1值来对模型进行评估。精确率、召回率和F1值的计算方法如下所示。

为了验证本发明提出的基于多层标注策略的跨境民族文化实体关系抽取模型的效果，设计了对比实验和消融实验。

实验如表2所示，相较于其他三个对比模型都有一定的提升，本发明方法将领域知识融入到字符向量表征中，得到含有领域信息的表示更好地融合到模型中进行实体关系抽取。GraphRel模型将字符向量于词性表征相融合后输入到Bi-LSTM中提取信息，通过GCN对句法依赖树编码，在效果上取决于训练过程中依赖分词的质量和词性标注的质量，在特定领域上的实体关系抽取效果相对较差。尽管TPLinker效果相对较好，但它仍然存在一些问题，该模型为了避免偏差影响模型效果，利用复杂的解码器导致稀疏的标签提取能力较弱。相比于CasRel模型效果提升了2.34％，效果优于CaseRel模型的主要原因是本发明方法在BERT生成字符向量基础之上加入了CNN编码器提取领域信息后融入到了字符向量中增强领域信息，然后加入Bi-LSTM进一步提取上下文语义信息提升了指针网络标注头实体位置的正确性。

表2不同方法对比实验

方法名称	P(％)	R(％)	F1(％)
				GraphRel	81.14	78.44	79.77
Tplinker	83.94	78.22	80.98
				CasRel	84.32	76.40	80.16
本发明方法	84.58	80.94	82.50

表3是设计了去除领域词典融入层、去除CNN编码层以及去除LSTM特征提取层词的消融实验，其它层保持不变进行模型训练。

表3不同编码层对模型的影响

不同编码层	P(％)	R(％)	F1(％)
				去除领域词典融入层	83.45	77.22	80.21
去除CNN编码层	84.17	79.35	81.69
				去除LSTM特征提取层	83.24	78.59	80.84
本发明方法	84.58	80.94	82.50

实验结果表明去除领域词典融入层的实验相较于本发明方法实验结果F1值下降了2.29％，仅仅是字符层面的表征，没有词语层面的信息融合，模型在缺少领域词典信息的表示后，会造成模型对文本中的领域词汇编码能力下降，不能有效地编码领域特征表示。去除CNN编码层的实验相较于本发明方法实验结果F1值下降了0.81％，领域词典信息表征未通过CNN编码导致特征表示融合时无法融入重要的特征，使得模型无法有效地利用领域词典信息，表明CNN对领域词汇局部特征提取的有效性。去除LSTM特征提取层的实验相较于本发明方法实验结果F1值下降了1.66％，表明Bi-LSTM能够有效地提取特征表示中的长短期时间步的依赖信息，即提取文本上下文的语义信息。本发明方法将BERT预训练模型所表示的字符向量和领域词典信息向量进行融合，通过CNN编码器和Bi-LSTM特征提取层后得到的特征表示对模型效果有明显地提升。

根据本发明的构思，本发明还提供了一种基于多层标注策略的跨境民族文化实体关系抽取装置，该装置包括如下集成模块：

跨境民族文化实体关系抽取数据标注和处理模块：用于结合跨境民族文化领域特点定义了若干种关系类型，设计标注格式标注句子中的实体对及对应的关系；还用于对输入的跨境民族文化句子进行字符过滤，将句子切分为字符并进行字符向量表征；

融入领域词典信息的跨境民族文化文本特征表示模块：用于采用融入领域词信息的方法增强预训练模型表征后的字符向量，通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量，设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中；；

头实体和关系条件下的尾实体指针标注模块：用于先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别，利用双层标注方式分别对头实体的开始位置和结束位置进行标注；

跨境民族文化实体关系抽取模块：用于利用多层标注策略提取实体关系三元组，多层标注方式针对每一种预定义的关系类型下实体进行标注预测，通过符号“0”和“1”分别预测每一种关系下对应尾实体的开始位置与终止位置。

在一种可行的实施方式中，跨境民族文化实体关系抽取模块还包括将所述装置形成的模型部署到本地服务器端通过Sanic技术将模型转换为应用接口，通过网页端直接调用模型，将预测的实体关系三元组输出到前端界面显示。

在一种可行的实施方式中，所述融入领域词典信息的跨境民族文化文本特征表示模块，还用于：

通过百科词条和跨境民族相关网站获取跨境民族文化数据，数据进行预处理操作；然后标注了包含实体关系三元组的跨境民族文化句子，关系类型包含若干种关系类型；

采用{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系；

采用预训练语言模型对跨境民族文化文本进行字符向量表征，将字符进行处理，然后输入到预训练语言模型中得到输入文本的每个字符的向量表示；跨境民族文化句子被视为字符序列S＝{c₁,c₂，…,c_n}∈V_c，其中V_c是字符级的词汇表，c_i表示在长度为n的句子S中第i个字符，预训练语言模型的思想对跨境民族文化实体每个字符c_i进行字向量表示：

Q＝c_i×W^Q,K＝c_i×W^K,V＝c_i×W^V,

其中，W^Q,W^K,W^V表示权重参数，d_k为输入特征向量的维度，Softmax为归一化操作，g_i表示跨境民族文化字符文本向量表征。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于多层标注策略的跨境民族文化实体关系抽取方法，其特征在于：

所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下：

Step1、结合跨境民族文化领域特点定义了若干种关系类型，设计标注格式标注句子中的实体对及对应的关系；

Step2、采用融入领域词信息的方法增强预训练模型表征后的字符向量，通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量，设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中；

Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别，利用双层标注方式分别对头实体的开始位置和结束位置进行标注；

Step4、利用多层标注策略提取实体关系三元组，多层标注方式针对每一种预定义的关系类型下实体进行标注预测，预测每一种关系下对应尾实体的开始位置与终止位置，最终缓解跨境民族文化实体关系抽取中存在的实体关系重叠问题；

所述Step1的具体步骤为：

Step1.1、通过百科词条和跨境民族相关网站获取跨境民族文化数据，数据进行预处理操作；然后标注了包含实体关系三元组的跨境民族文化句子，关系类型包含若干种关系类型；

Step1.2、采用{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系；

Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征，将字符进行处理，然后输入到预训练语言模型中得到输入文本的每个字符的向量表示；跨境民族文化句子被视为字符序列S＝{c₁,c₂，…,c_n}∈V_c，其中V_c是字符级的词汇表，c_i表示在长度为n的句子S中第i个字符，预训练语言模型的思想对跨境民族文化实体每个字符c_i进行字向量表示：

Q＝c_i×W^Q,K＝c_i×W^K,V＝c_i×W^V,

其中，W^Q,W^K,W^V表示权重参数，d_k为输入特征向量的维度，Softmax为归一化操作，g_i表示跨境民族文化字符文本向量表征；

所述Step2的具体步骤为：

Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强，利用领域词典对文本进行分词，分词后匹配预训练的词向量得到领域词向量矩阵E；

Step2.2、设计了多层卷积编码器提取领域词典信息特征编码表示，其目的是提取领域词典中词语信息的语义知识；通过卷积编码器对词向量进行卷积操作提取领域词典信息特征编码，其中卷积操作是利用滑动窗口对词向量进行局部特征的编码，通过设置卷积核大小来提取文本的h-gram特征，最终得到了领域信息的表示：

c_i＝f(W^c.E[i:i+h]+b^c)，

C＝[c₁,c₂,...,c_n-h+1]，

其中，为偏置向量，/>为训练参数矩阵，E为词向量矩阵；

Step2.3、在字符向量表示中融入领域词典信息保留文本中的领域信息，将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量，共同构成最终表示：

x_i＝[g_i；z_i].

其中，z_i为Step2.2中得到的领域信息表示，g_i为字符向量；

所述Step3的具体步骤为：

Step3.1、通过双层标注方法对头实体的位置进行标注，标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量；预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率，计算公式如下：

其中h_i表示Bi-LSTM输出的特征向量，表示输入序列第i个字符为头实体开始位置概率，/>表示输入序列第i个字符为头实体结尾位置概率，W_start,b_start,W_end,b_end为训练参数矩阵和偏置向量，σ(.)为sigmoid激活函数；

其中L是句子的长度，θ为训练参数；当时，则文本中第i个字符标注为1，否则为0；当/>时，则表示句子中第i个字符标注为头实体开始位置标签；当/>时，则表示句子中第i个字符标注为头实体结束位置标签；

所述Step4的具体步骤为：

Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题，通过多层标注方法将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性，更好地标注关系对应的尾实体位置；输入向量融合了已标注出的头实体向量，预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率：

其中h_i表示Bi-LSTM输出的特征向量，表示所有头实体向量表征，/>表示输入文本中第i个字符为尾实体开始位置的概率，/>表示输入文本中第i个字符为尾实体结尾位置的概率，/>为训练参数矩阵和偏置向量，σ(.)为sigmoid激活函数。

2.基于多层标注策略的跨境民族文化实体关系抽取装置，其特征在于，包括用于执行如权利要求1所述方法的模块。