CN111444343A

CN111444343A - 基于知识表示的跨境民族文化文本分类方法

Info

Publication number: CN111444343A
Application number: CN202010212069.6A
Authority: CN
Inventors: 毛存礼; 王斌; 余正涛; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-24
Anticipated expiration: 2040-03-24
Also published as: CN111444343B

Abstract

本发明涉及基于知识表示的跨境民族文化文本分类方法，属于自然语言处理技术领域。本发明包括步骤：获取若干本土及其跨境民族文化文本数据；本土及其跨境民族文化知识图谱的构建，再利用远程监督的思想来进行数据标注；基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练，利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。本发明在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。

Description

基于知识表示的跨境民族文化文本分类方法

技术领域

本发明涉及基于知识表示的跨境民族文化文本分类方法，属于自然语言处理技术领域。

背景技术

文化类别，这对进一步开展跨境民族文化融合研究具有重要的价值。传统的机器学习分类算法，其主要是基于特征工程，采用概率统计的方法抽取文本的特征，然后再使用分类器进行分类，分类的效果严重依赖于特征的质量，而且这些特征在文本中是独立存在的，没有考虑到文本的语义特征，不能很好的对文本进行分类。现有的神经网络模型都是基于大量有标注的样本数据，然而，跨境民族文化分类任务需要对文本内容所属民族以及文化领域类别进行判别，缺乏适合本任务的标记好的大规模训练样本，因此，通用领域文本分类模型不能直接用于跨境民族文化文本分类任务。而且，神经网络模型在特征提取方面严重依赖于词语的向量化表示，大多采用单一词向量模型来对词语进行向量化，没有根据任务特点来进行向量增强，导致神经网络提取的文本特征质量参差不齐。

发明内容

本发明提供了基于知识表示的跨境民族文化文本分类方法，以用于解决标注数据不足和文本特征质量参差不齐的问题，及解决现有的分类模型效果差的问题。

本发明的技术方案是：基于知识表示的跨境民族文化文本分类方法，具体步骤如下：

Step1、获取若干本土及其跨境民族文化文本数据；

Step2、本土及其跨境民族文化知识图谱的构建，再利用远程监督的思想来进行数据标注；

Step3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练；

获取本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示；

获取实体向量与带有标签信息的关系向量；

把词向量表示与实体向量融合再输入到BiGRU神经网络中进行文本语义特征提取；

利用带有标签信息的关系向量对文本语义特征进行最大池化注意力加权，再计算每个文本属于各个类别的概率；

基于概率值及交叉熵损失函数计算损失值，通过损失值调节网络参数，以此来训练出效果最优的分类模型；

Step4、利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。

进一步地，所述Step1包括：利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网爬取跟本土及其跨境民族相关的网页文档数据，例如爬取傣族及其跨境民族泰族(泰国)、佬族(老挝)、掸族(缅甸)，彝族及其跨境民族倮倮族(越南)相关的网页文档数据，并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。

进一步地，所述Step2的具体步骤为：

Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系，民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类；跨境民族文化知识图谱结构如图2所示，包含了模式层和数据层，其中模式层中包含的是民族名称和民族文化类别，数据层中就是相关的民族文化实例，其中每个实体都带有标签信息和关于该实体的特征及文本描述，如：“泼水节”这个实体节点的标签就为“傣族”、“傣族习俗文化”和“节日”，泼水节的特征为“清水相互泼洒”、“傣族的新年等”，泼水节的活动包括“歌舞活动”、“浴佛”、“丢包”和“边交会”；

然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组，知识三元组的具体格式是[“实体”，“关系”，“实体”]或者[“实体”，“属性”，“属性值”]，例如：知识三元组[“傣族”,“节日”，“泼水节”]和[“泼水节”，“时间”，“公历4月13～15日”最终进；行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建；

Step2.2、通过远程监督的思想来进行数据标注：利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐，如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中，则把这条文本作为标注好的数据。如：知识三元组[傣族，傣族菜，香茅草烤鱼]就可以标注出文本“香茅草烤鱼是地道传统的一道傣族风味菜肴”。

进一步地，所述Step3的具体步骤为：

Step3.1、首先使用BERT预训练模型对标注好的数据进行向量化表示，获得本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示；

所述Step3.1具体包括：将标注好的文本经过领域词典+jieba分词工具分词后，每个词语随机初始化得到每个词语的词向量Token Embedding，标注好的文本的编号SegmentEmbedding和每个词的位置向量Position Embedding的元素按位相加，得到BERT预训练模型的最终输入；文本经过以上三个向量化表示之后，对这三个向量按位相加可表示为A＝{a_[CLs],a₁,a₂,…,a_n,a_[SEP]}，其中a_[CLS]和a_[SEP]为标注好的文本的特殊标记向量，n为标注好的数据中的词语数量，每个词语都被表示为k维的向量；对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系，计算公式如下所示：

MHA＝MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_k)W^O

head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)

其中，Q,K,V为词向量矩阵；Q＝AW^Q；K＝AW^K；V＝AW^V，其中，W^Q,W^K,W^V随机初始化的权重矩阵，d_k为输入词向量的维度，W_i ^Q,W_i ^K,W_i ^V表示第i个head的W^Q,W^K,W^V矩阵，W^O为附加权重矩阵；

Multi-Head Attention的输出结果MHA与标注好的数据所表示的向量A相加，再进行归一化处理得到值A_a＝MHA+A，然后将归一化的值A_a经过一个前馈神经网络得到值A_F＝W_fA_a+b_f，再与A_a相加并且进行归一化得到Transformer Encoder的输出A_t＝A_a+A_F，通过以上过程实现了本土及其跨境民族文化文本标注好的数据中每个词的词向量的动态生成，从而得到词汇在文本中的语义特征；其中，W_f表示随机初始化的权重向量，b_f表示随机初始化的偏置向量。

Step3.2、然后利用TransE知识表示模型对本土及其跨境民族文化知识图谱三元组中的实体、关系和三元组标签进行向量化表示，获得实体向量与带有标签信息的关系向量；

进一步地，所述Step3.2具体包括：首先需要把三元组的实体、关系和该三元组的标签分别按序进行id标记，具体形式为(实体,id)、(关系,id)和(三元组标签,id)，训练数据格式为(头实体,尾实体,关系+三元组标签)，其中，三者通过空格进行分隔；然后输入到TransE知识表示模型中，以此得到知识三元组的实体向量和带有标签信息的关系向量，计算公式如下所示：

h+r≈t

对于每个三元组实例[head，relation，tail]中的关系relation看做从头实体head到尾实体tail的翻译，通过不断调整h、r和t，使得h+r尽可能与t相等，h、r和t分别为head、relation和tail的向量表示；

在TransE知识表示模型训练的过程中，通过设置一个损失函数

来对这些三元组进行打分，相比之下，正确的三元组打分要高于错误的三元组，损失函数设计如下：

其中，h′和t′为随机构造的负例头实体和尾实体，γ为大于0的超参，+的作用是筛选，具体规则为大于0取原值，小于0则为0；通过不断地对实体和关系的向量进行调整，使其计算的损失函数最小，就能得到最终的实体向量E_id和带有标签信息的关系向量R_id。

Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合，得到融合后的向量；

进一步地，所述Step3.3具体包括：通过Step3.2和Step3.1分别得到三元组的实体向量表示E_id和本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示A_t，并且这两个向量的维度是一致的，通过实体在文本中的位置能进行这两种向量的对位相加得到文本融合后的词向量W＝{w₁,w₂,…,w_n}，计算如下所示：

其中，A_t为经过BERT预训练模型输出的每个词的词向量，即本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示A_t，E_embed为维度与A_t一致的三元组实体向量。

Step3.4、利用BiGRU神经网络对文本的语义特征进行提取：通过Step3.3得到融合后的词向量，把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征；

所述Step3.4具体包括：采用融合后的词向量作为BiGRU的输入，对于文本中的第i个词语的输入形式为：

x_i＝{w_i，pi₁，pi₂}

其中w_i为Step3.3中得到的融合后的第i个词的词向量表示，p_i1表示第i个词语与第一个实体和第二个实体之间的位置向量；

在BiGRU中，以第i个词为例，新的记忆

是由过去的隐含状态h_i-1和新的输入x_i决定的：

其中，tanh()是激活函数，r_i是重置信号，它用来判定上一个隐含状态h_i-1对结果

的重要程度

r_i＝σ(W_xrx_i+W_hrh_t-1)

其中，σ()是激活函数Sigmoid激活函数，其值域范围在(0，1)之间；

更新门z_i决定的是上一个隐含状态h_i-1向下一个状态传递的信息，控制h_i-1中有多少信息可以流入h_i中；

z_i＝σ(W_xzx_i+W_hzh_i-1)

隐含状态h_i由上一个时刻的隐含状态h_i-1产生，新的记忆由更新门判定；

其中，上述公式中的W_xh、W_hh、W_xr、W_hr、W_xz、W_hz是在训练BiGRU时所学到的参数；

由于采用BiGRU，以此来获取文本正向和反向的上下文信息，所以能得到正向的输出

和反向的输出

对这两个输出进行异或逻辑运算得

其中h_i就为文本中第i个词语的语义特征。

Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权，得到文本的句子级向量；然后利用文本的句子级向量计算每个句子属于各个类别的概率值；

进一步地，Step3.5具体包括：通过Step3.4得到的文本语义特征可表示为集合H＝{h₁,…,h_i,…,h_n}，其中，h_i表示文本中第i个词语的语义特征；由Step3.2得到的带有标签信息的关系向量为R_id；则利用R_id为H最大池化加权计算公式如下：

其中，maxpool为最大池化，n为文本语义特征的数量，S为文本的句子级向量；

对于输入的多个文本来说，通过最大池化注意力加权后得到文本的句子级向量集合表示为S＝{s₁,…,s_i,…,s_t}，其中s_i表示第i个文本的句子级向量，t表示输入的文本数量；再经过一个全连接层得到输出为Y的一维向量，表示为Y＝[y¹,y²,…,y^k]，其中k为类别数，Y的计算方式如下所示：

Y＝Wi_i ^k·s_i+b

其中，W_i ^k为第i个文本对应类别k的权重矩阵，b为随机初始化的偏置向量，表示为b＝[b₁,b₂,…,b_k]；

通过计算得到Y后，把Y中的值分别通过Softmax函数进行归一化处理，得到s_i属于各个类别的概率值，公式如下所示：

p(y＝j|s_i)＝softmax(y^j)

其中，公式表示第i个文本的句子级向量s_i属于类别j的概率值，y^j表示第j类的一维向量表示。

Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值，通过得到的损失值来调节网络参数，以此来训练出效果最优的分类模型。

进一步地，所述Step3.6包括、通过Step3.5得到文本属于各个类别的概率值，利用交叉熵损失函数来计算概率值与真实类别标签y_i之间的损失值，通过得到的损失值来调节网络参数，以此来训练出效果最优的分类模型，交叉熵损失函数定义如下：

其中，J(θ)表示模型的损失值，损失越小代表模型训练的效果越好；y_i为第i个文本的句子级向量s_i的真实类别标签；T代表文本数量，p(y＝j|s_i)表示第i个文本的句子级向量s_i属于类别j的概率值。

本发明的有益效果是：

本发明知识三元组通过融入TransE模型所表示出来的实体向量来增强文本的语义表达，并且利用带有标签信息的关系向量来为文本的语义特征进行注意力加权，使文本的特征更具有代表性，最终训练出跨境民族文化文本分类模型；

本发明对本土及其跨境民族文化文本取得了不错的分类效果，解决了跨境民族文化领域标注数据不足和特征质量参差不齐的问题，在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。

附图说明

图1为本发明中的数据获取及存储流程图；

图2为本发明中的知识图谱结构图；

图3为本发明中的具体详细框架图；

图4为本发明中流程图。

具体实施方式

实施例1：基于知识表示的跨境民族文化文本分类方法，如图4所示，提供了基于知识表示的跨境民族文化文本分类方法的流程图，具体步骤如下：

Step1、获取若干本土及其跨境民族文化文本数据；

确定跨境民族的种类，利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网等爬取跟本土及其跨境民族相关的网页文档数据，并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。

具体的，在步骤Step1中，包含以下步骤：步骤Step1.1：通过查询资料选取傣族、彝族及其跨境民族为本发明的实验民族，其中，傣族的跨境民族为泰族(泰国)、佬族(老挝)和掸族(缅甸)，彝族的跨境民族为倮倮族(越南)。在确定好实验民族后，通过关键词进行爬虫，爬取的数据源主要包括百度百科、WiKi百科和各种民族类网站，不同的网站根据其网站结构分别编写不同的爬虫程序，抓取相关的标题、文章以及图片等数据。爬取到的数据总共有8190篇文章。步骤Step1.2：对于爬取的跨境民族文本数据、图片数据以及网页的URL，以字典的方式进行保存，然后按照民族名称导入到MongoDB数据库中；跨境民族数据获取以及存储的结构图如图1所示。

进一步地，所述Step2的具体步骤为：

所述Step3的具体步骤为：

Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值，通过得到的损失值来调节网络参数，以此来训练出效果最优的分类模型。融合知识表示的跨境民族文化文本分类模型如图3所示。

所述Step3.1具体包括：输入为标注好的跨境民族文化文本数据，经过领域词典+jieba分词工具分词后，采用正则表达式去除文本中出现的标点符号，最终得到处理好的数据，将处理好的文本中每个词语随机初始化得到每个词语的词向量Token Embedding，标注好的文本的编号Segment Embedding和每个词的位置向量Position Embedding的元素按位相加，得到BERT预训练模型的最终输入；文本经过以上三个向量化表示之后，对这三个向量按位相加可表示为A＝{a_[CLS],a₁,a₂,…,a_n,a_[SEP]}，其中a_[CLS]和a_[SEP]为标注好的文本的特殊标记向量，n为标注好的数据中的词语数量，每个词语都被表示为k维的向量；对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系，计算公式如下所示：

MHA＝MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_k)W^o

head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)

h+r≈t

在TransE知识表示模型训练的过程中，通过设置一个损失函数

作为本发明的进一步说明，例如，对于知识三元组[傣族，节日，泼水节]，其标签信息为{“傣族”，“傣族习俗文化”,“傣族节日”}，首先把该三元组的实体、关系及其标签信息进行id标记，得到实体标记为(傣族，0)、(泼水节，0)，关系标记为(节日，0)，三元组标签标记为(“傣族”0_0)、(“傣族习俗文化”,0_1)和(“傣族节日”，0_2)，然后为每个标记的id初始化相同维度的向量作为TransE知识表示模型的输入，通过TransE模型后可以得到最终的实体向量[E_傣族,E_泼水节]和带有标签信息的关系向量[R_节日]。

例如，对于文本“香茅草烤鱼是傣族的传统美食之一”，其中含有三元组[“傣族”，“傣族菜”，“香茅草烤鱼”]，这个三元组的标签信息为{“傣族”，“傣族饮食文化”，“傣族食品”}，通过TransE知识表示模型，最终可以得到实体向量[E_傣族,E_{香茅草烤鱼}]和关系向量[R_傣族菜]；通过BERT预训练模型可以得到文本中每个词语的向量表示W＝{w_{香茅草烤鱼},w_是,w_傣族,w_的,w_传统,w_美食,w_之一}，然后通过词语的id就可以把实体向量按位相加到实体的词向量上；最终得到的词向量表示为W＝{w_{香茅草烤鱼}+E_{香茅草烤鱼},w_是,w_傣族+E_傣族,w_的,w_传统,w_美食,w_之一}，通过融合后就可以把实体“香茅草烤鱼”与实体“傣族”之间存在的相互联系加入到文本的语义特征中；

其中w_i为Step3.3中得到的融合后的第i个词的词向量表示，

表示第i个词语与第一个实体和第二个实体之间的位置向量；

在BiGRU中，以第i个词为例，新的记忆

是由过去的隐含状态h_i-1和新的输入x_i决定的：

的重要程度

r_i＝σ(W_xrx_i+W_hrh_t-1)

z_i＝σ(W_xzx_i+W_hzh_i-1)

和反向的输出

对这两个输出进行异或逻辑运算得

其中h_i就为文本中第i个词语的语义特征。

对于例子“香茅草烤鱼是傣族的传统美食之一”，按照Step3.3中的向量融合后可以把词向量表示为W＝{w_{香茅草烤鱼}+E_{香茅草烤鱼},w_是,w_傣族+E_傣族,w_的,w_传统,w_美食,w_之一}，第1个词语是“香茅草烤鱼”，其向量形式为[w_{香茅草烤鱼}+E_{香茅草烤鱼}]，所以BiGRU的输入x_{香茅草烤鱼}的表示如下所示：

其中，

表示第这个词语与第一个实体“香茅草烤鱼”和第二个实体“傣族”之间的位置向量，因为该词语就是第一个实体本身，相对位置的id为0，所以

的值为与词向量维度相同的随机初始化向量，同理可知该词语到第二个实体的相对位置的id为2，所以

的值为与词向量维度相同的随机初始化向量；

在BiGRU中，以第1个词为例，新的记忆

是由过去的隐含状态h₀和新的输入x_是决定的：

其中，tanh()是激活函数，h₀为维度与x_{香茅草烤鱼}相同的初始化为0的矩阵，r_{香茅草烤鱼}是重置信号，它用来判定上一个隐含状态h₀对结果

的重要程度。

r_{香茅草烤鱼}＝σ(W_xrx_{香茅草烤鱼}+W_hrh_t-1)

其中，σ()是激活函数Sigmoid函数，其值域范围在(0，1)之间，h_t-1为第0时刻初始化为0的矩阵。

更新门z_{香茅草烤鱼}决定的是上一个隐含状态h₀向下一个状态传递的信息。控制h₀中有多少信息可以流入h_是中。

z_{香茅草烤鱼}＝σ(W_xzx_{香茅草烤鱼}+W_hzh₀)

隐含状态h_{香茅草烤鱼}由上一个隐含状态h₀产生，新的记忆由更新门判定。

其中，上述公式中的W_xh、W_hh、W_xr、W_hr、W_xz、W_hz是在训练GRU时所学到的参数。

由于本文采用双向的GRU，以此来获取文本正向和反向的上下文信息，所以可以得到正向的输出

和反向的输出

对这两个输出进行异或逻辑运算得

Y＝W_i ^k·s_i+b

p(y＝j|s_i)＝softmax(y^j)

本发明利用注意力机制来为相似的词语分配更高的权重，突出文本语义特征的重要性。具体的操作是通过三元组关系向量来对文本中词汇加权构造每个词汇隐状态的Attention权重，并且在此基础上引入最大池化操作，捕捉句子中与三元组关系信息更加密切的文本特征信息。

本发明通过精确率(Precision)、召回率(Recall)和F_Score值来对分类模型进行评估，并通过控制训练集的比例来绘制F-Score曲线。精确率、召回率和F_Score值的计算方法如下公式所示。

其中，Right_num为预测正确的文本数量，Recognize_num为识别出的文本数量，All_num为此次测试的文本数量。由于本发明的任务是做文本分类任务，需要在保持高精确率的情况下有一个高召回率，所以F-Score值越高代表模型的平衡性越好，分类效果越好。

为了验证本发明的有效性，在相同语料的情况下，选取几种已经发表的方法进行对比，设计了8组实验。分别是DPCNN文本分类模型；Attention_BiLSTM的文本分类方法；TextCNN文本分类经典模型；BiLSTM特征融合的文本分类方法；Transformer模型应用于文本分类的方法；BiLSTM-CNN文本分类模型；FastText文本分类模型。实验结果如表1所示。

表1与其它模型的分类效果对比

由上表可以看出，本发明方法在跨境民族文化文本分类任务上的精确率和召回率方面都优于Attention_BiGRU模型以及其他方法，根据F值可知该方法的平衡性也很不错。对于Attention_BiGRU模型来说，本发明方法优于它的原因是本文的词向量表示使用的是BERT模型，所表示的每个词语都带有上下文语义信息，而且还融入了跨境民族文化知识三元组的实体向量对文本的语义进行增强，其次就是利用知识三元组的关系向量对文本的特征进行了权重分配，使特征更具有代表性。而Baseline方法(Attention_BiGRU)的词向量表示使用的是Word2vec模型，而且还没有融入实体向量和使用关系向量对特征进行加权。所以本发明方法优于Attention_BiGRU模型。

对于FastText模型来说，使用的向量表征时使用了Bow+Bigram+Trigram的组合预训练向量对文本进行表示，但没有对文本的语义进行增强和对特征进行权重分配，所以其效果对比本文方法稍弱一些。由此可知本文融合实体向量和对特征向量进行权重分配的方法是有效的。

对于BiLSTM+CNN模型来说，BiLSTM虽然能够学习到文本的序列信息，获得文本的序列特征，但该模型没有突出各个特征的重要程度，而且其模型只是在BiLSTM的输出进行了一个池化操作，并不包含卷积层特征提取的过程，所以其性能略好于BiLSTM模型，但与本文方法相比就显得效果较弱。

对于Transformer模型来说，其运用于文本分类时，本质上就是一个Bert词向量训练的编码过程，在最后输出时进行Softmax，实现最终的文本分类，但该模型只注重了词向量的表示，并没有对文本的语义特征进行任何处理，所以其在效果上要弱于本文模型；

BiLSTM模型中采用了混合目标函数的方法来提升模型的性能，但其网络结构BiLSTM只进行了文本序列特征的提取，然后进行分类任务，没有明显的针对跨境民族文化文本数据的特点来进行文本特征的优化，所以其效果弱于本文方法。

TextCNN模型通过卷积层获取文本的局部特征，对于文本的序列特征学习不够，而且也没有对文本的特点进行考虑，所以文本分类效果不如本文方法；

对于Attention_BiLSTM来说，其效果较弱的原因在于没有对文本的特点进行分析，在进行注意力分配时采用的时随机初始化的注意力权重，对重要的特征的权重分配不合适，使其的语义没有表达出来。

对于DPCNN模型来说，模型通过不断加深网络能更有效的得到文本的局部特征，但这样会使文本特征丢失，而且对于文本中的各个特征的序列信息学习不够，只是根据学习到的那几个特定的特征来进行模型的训练，对于文本的上下文信息不能充分的学习，所以相比于本文的模型效果较差。

为了验证本文所使用的BERT预训练模型表示的文本词向量对于分类任务的有效性。本文通过几种不同的向量表征方式来对文本进行表征，其中的详细实验方式是分别利用Word2vec模型和Glove模型对文本进行词向量表示，并且与TransE模型的实体向量进行融合，而其它保持不变进行模型训练。实验结果如表2所示：

表2不同词向量方式对实验结果的影响

从表2可以看出，本文通过把BERT预训练模型所表示的文本词向量和TransE模型所表示的实体向量进行融合，在跨境民族文化文本分类任务上具有较好的性能。其根本原因在于BERT预训练模型对文本中的词语进行向量表示时，利用双向Transformer对文本中的每个词语进行表示，充分考虑了文本的上下文语义信息；而Word2vec模型只考虑了词语的局部信息，没有考虑词语与局部窗口之外词的联系；GloVe模型虽然弥补Word2vec模型的缺陷，考虑了词语的整体信息，但还存在一个问题，就是所表示的词语在不同语境下的词向量是相同的，没有考虑语境的问题；BERT模型对于上述问题都进行了综合的考虑，即考虑了词语的局部以及整体信息，又考虑了词语在不同语境下的词向量变化，能够充分的对文本中的每个词语进行表示。

为验证跨境民族文化文本中领域词汇特征对模型效果的影响。我们分别采用通用分词工具和领域词典+jieba分词工具实验对比，其中，通用分词使用jieba分词工具，领域分词采用构建的领域词典+jieba分词，实验结果如表3所示。

表3领域分词对实验结果的影响

从表3可以看出，采用领域分词的效果明显高于直接使用jieba分词的效果。本文中将跨境民族文化相关文本中由多个词汇构成的跨境民族文化特征词汇作为领域词汇来处理，如，“南传上部座佛教”这个词语在使用jieba分词时可以分为“南传”、“上部座”和“佛教”这三个独立的词语，而利用领域分词(领域词典+jieba分词工具)就可以得到一个完整的词语。诸如此类的词语还有很多，如：浅色大襟短衫、大襟小袖短衫。这些词汇如果直接使用jieba分词后将导致具有完整语义的设备缺陷特征拆开后导致语义信息丢失，而作为领域词汇利用BERT进行词向量表征后能够有效获取到跟跨境民族文化相关的词汇的语义特征，更有利于通过Attention层进行捕捉。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于知识表示的跨境民族文化文本分类方法，其特征在于：所述基于知识表示的跨境民族文化文本分类方法的具体步骤如下：

Step1、获取若干本土及其跨境民族文化文本数据；

获取实体向量与带有标签信息的关系向量；

2.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step1包括：利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网爬取跟本土及其跨境民族相关的网页文档数据，并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。

3.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step2的具体步骤为：

Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系，民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类，然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组，知识三元组的具体格式是[“实体”，“关系”，“实体”]或者[“实体”，“属性”，“属性值”]，最终进行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建；

Step2.2、通过远程监督的思想来进行数据标注：利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐，如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中，则把这条文本作为标注好的数据。

4.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step3的具体步骤为：

5.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step3.1具体包括：将标注好的文本中每个词语随机初始化得到每个词语的词向量TokenEmbedding，标注好的文本的编号Segment Embedding和每个词的位置向量PositionEmbedding的元素按位相加，得到BERT预训练模型的最终输入；文本经过以上三个向量化表示之后，对这三个向量按位相加可表示为A＝{a_[CLs],a₁,a₂,…,a_n,a_[SEP]}，其中a_[CLS]和a_[SEP]为标注好的文本的特殊标记向量，n为标注好的数据中的词语数量，每个词语都被表示为k维的向量；对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系，计算公式如下所示：

MHA＝MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_k)W^O

head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)

6.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step3.2具体包括：首先需要把三元组的实体、关系和该三元组的标签分别按序进行id标记，具体形式为(实体,id)、(关系,id)和(三元组标签,id)，训练数据格式为(头实体,尾实体,关系+三元组标签)，其中，三者通过空格进行分隔；然后输入到TransE知识表示模型中，以此得到知识三元组的实体向量和带有标签信息的关系向量，计算公式如下所示：

h+r≈t

在TransE知识表示模型训练的过程中，通过设置一个损失函数

7.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step3.3具体包括：通过Step3.2和Step3.1分别得到三元组的实体向量表示E_id和本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示A_t，并且这两个向量的维度是一致的，通过实体在文本中的位置能进行这两种向量的对位相加得到文本融合后的词向量W＝{w₁,w₂,…,w_n}，计算如下所示：

8.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：

Step3.5具体包括：通过Step3.4得到的文本语义特征可表示为集合H＝{h₁,…,h_i,…,h_n}，其中，h_i表示文本中第i个词语的语义特征；由Step3.2得到的带有标签信息的关系向量为R_id；则利用R_id为H最大池化加权计算公式如下：

Y＝W_i ^k·s_i+b

p(y＝j|s_i)＝softmax(y^j)

9.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法，其特征在于：所述Step3.6包括、通过Step3.5得到文本属于各个类别的概率值，利用交叉熵损失函数来计算概率值与真实类别标签y_i之间的损失值，通过得到的损失值来调节网络参数，以此来训练出效果最优的分类模型，交叉熵损失函数定义如下：