CN111444343A - 基于知识表示的跨境民族文化文本分类方法 - Google Patents

基于知识表示的跨境民族文化文本分类方法 Download PDF

Info

Publication number
CN111444343A
CN111444343A CN202010212069.6A CN202010212069A CN111444343A CN 111444343 A CN111444343 A CN 111444343A CN 202010212069 A CN202010212069 A CN 202010212069A CN 111444343 A CN111444343 A CN 111444343A
Authority
CN
China
Prior art keywords
text
vector
cross
word
culture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010212069.6A
Other languages
English (en)
Other versions
CN111444343B (zh
Inventor
毛存礼
王斌
余正涛
高盛祥
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010212069.6A priority Critical patent/CN111444343B/zh
Publication of CN111444343A publication Critical patent/CN111444343A/zh
Application granted granted Critical
Publication of CN111444343B publication Critical patent/CN111444343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于知识表示的跨境民族文化文本分类方法,属于自然语言处理技术领域。本发明包括步骤:获取若干本土及其跨境民族文化文本数据;本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练,利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。本发明在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。

Description

基于知识表示的跨境民族文化文本分类方法
技术领域
本发明涉及基于知识表示的跨境民族文化文本分类方法,属于自然语言处理技术领域。
背景技术
文化类别,这对进一步开展跨境民族文化融合研究具有重要的价值。传统的机器学习分类算法,其主要是基于特征工程,采用概率统计的方法抽取文本的特征,然后再使用分类器进行分类,分类的效果严重依赖于特征的质量,而且这些特征在文本中是独立存在的,没有考虑到文本的语义特征,不能很好的对文本进行分类。现有的神经网络模型都是基于大量有标注的样本数据,然而,跨境民族文化分类任务需要对文本内容所属民族以及文化领域类别进行判别,缺乏适合本任务的标记好的大规模训练样本,因此,通用领域文本分类模型不能直接用于跨境民族文化文本分类任务。而且,神经网络模型在特征提取方面严重依赖于词语的向量化表示,大多采用单一词向量模型来对词语进行向量化,没有根据任务特点来进行向量增强,导致神经网络提取的文本特征质量参差不齐。
发明内容
本发明提供了基于知识表示的跨境民族文化文本分类方法,以用于解决标注数据不足和文本特征质量参差不齐的问题,及解决现有的分类模型效果差的问题。
本发明的技术方案是:基于知识表示的跨境民族文化文本分类方法,具体步骤如下:
Step1、获取若干本土及其跨境民族文化文本数据;
Step2、本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;
Step3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练;
获取本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
获取实体向量与带有标签信息的关系向量;
把词向量表示与实体向量融合再输入到BiGRU神经网络中进行文本语义特征提取;
利用带有标签信息的关系向量对文本语义特征进行最大池化注意力加权,再计算每个文本属于各个类别的概率;
基于概率值及交叉熵损失函数计算损失值,通过损失值调节网络参数,以此来训练出效果最优的分类模型;
Step4、利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。
进一步地,所述Step1包括:利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网爬取跟本土及其跨境民族相关的网页文档数据,例如爬取傣族及其跨境民族泰族(泰国)、佬族(老挝)、掸族(缅甸),彝族及其跨境民族倮倮族(越南)相关的网页文档数据,并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。
进一步地,所述Step2的具体步骤为:
Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系,民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类;跨境民族文化知识图谱结构如图2所示,包含了模式层和数据层,其中模式层中包含的是民族名称和民族文化类别,数据层中就是相关的民族文化实例,其中每个实体都带有标签信息和关于该实体的特征及文本描述,如:“泼水节”这个实体节点的标签就为“傣族”、“傣族习俗文化”和“节日”,泼水节的特征为“清水相互泼洒”、“傣族的新年等”,泼水节的活动包括“歌舞活动”、“浴佛”、“丢包”和“边交会”;
然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组,知识三元组的具体格式是[“实体”,“关系”,“实体”]或者[“实体”,“属性”,“属性值”],例如:知识三元组[“傣族”,“节日”,“泼水节”]和[“泼水节”,“时间”,“公历4月13~15日”最终进;行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建;
Step2.2、通过远程监督的思想来进行数据标注:利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐,如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中,则把这条文本作为标注好的数据。如:知识三元组[傣族,傣族菜,香茅草烤鱼]就可以标注出文本“香茅草烤鱼是地道传统的一道傣族风味菜肴”。
进一步地,所述Step3的具体步骤为:
Step3.1、首先使用BERT预训练模型对标注好的数据进行向量化表示,获得本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
所述Step3.1具体包括:将标注好的文本经过领域词典+jieba分词工具分词后,每个词语随机初始化得到每个词语的词向量Token Embedding,标注好的文本的编号SegmentEmbedding和每个词的位置向量Position Embedding的元素按位相加,得到BERT预训练模型的最终输入;文本经过以上三个向量化表示之后,对这三个向量按位相加可表示为A={a[CLs],a1,a2,…,an,a[SEP]},其中a[CLS]和a[SEP]为标注好的文本的特殊标记向量,n为标注好的数据中的词语数量,每个词语都被表示为k维的向量;对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系,计算公式如下所示:
Figure BDA0002423173180000031
MHA=MultiHead(Q,K,V)=Concat(head1,head2,…,headk)WO
headi=Attention(QWii Q,KWi K,VWi V)
其中,Q,K,V为词向量矩阵;Q=AWQ;K=AWK;V=AWV,其中,WQ,WK,WV随机初始化的权重矩阵,dk为输入词向量的维度,Wi Q,Wi K,Wi V表示第i个head的WQ,WK,WV矩阵,WO为附加权重矩阵;
Multi-Head Attention的输出结果MHA与标注好的数据所表示的向量A相加,再进行归一化处理得到值Aa=MHA+A,然后将归一化的值Aa经过一个前馈神经网络得到值AF=WfAa+bf,再与Aa相加并且进行归一化得到Transformer Encoder的输出At=Aa+AF,通过以上过程实现了本土及其跨境民族文化文本标注好的数据中每个词的词向量的动态生成,从而得到词汇在文本中的语义特征;其中,Wf表示随机初始化的权重向量,bf表示随机初始化的偏置向量。
Step3.2、然后利用TransE知识表示模型对本土及其跨境民族文化知识图谱三元组中的实体、关系和三元组标签进行向量化表示,获得实体向量与带有标签信息的关系向量;
进一步地,所述Step3.2具体包括:首先需要把三元组的实体、关系和该三元组的标签分别按序进行id标记,具体形式为(实体,id)、(关系,id)和(三元组标签,id),训练数据格式为(头实体,尾实体,关系+三元组标签),其中,三者通过空格进行分隔;然后输入到TransE知识表示模型中,以此得到知识三元组的实体向量和带有标签信息的关系向量,计算公式如下所示:
h+r≈t
对于每个三元组实例[head,relation,tail]中的关系relation看做从头实体head到尾实体tail的翻译,通过不断调整h、r和t,使得h+r尽可能与t相等,h、r和t分别为head、relation和tail的向量表示;
在TransE知识表示模型训练的过程中,通过设置一个损失函数
Figure BDA0002423173180000041
来对这些三元组进行打分,相比之下,正确的三元组打分要高于错误的三元组,损失函数设计如下:
Figure BDA0002423173180000042
其中,h′和t′为随机构造的负例头实体和尾实体,γ为大于0的超参,+的作用是筛选,具体规则为大于0取原值,小于0则为0;通过不断地对实体和关系的向量进行调整,使其计算的损失函数最小,就能得到最终的实体向量Eid和带有标签信息的关系向量Rid
Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合,得到融合后的向量;
进一步地,所述Step3.3具体包括:通过Step3.2和Step3.1分别得到三元组的实体向量表示Eid和本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,并且这两个向量的维度是一致的,通过实体在文本中的位置能进行这两种向量的对位相加得到文本融合后的词向量W={w1,w2,…,wn},计算如下所示:
Figure BDA0002423173180000043
其中,At为经过BERT预训练模型输出的每个词的词向量,即本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,Eembed为维度与At一致的三元组实体向量。
Step3.4、利用BiGRU神经网络对文本的语义特征进行提取:通过Step3.3得到融合后的词向量,把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征;
所述Step3.4具体包括:采用融合后的词向量作为BiGRU的输入,对于文本中的第i个词语的输入形式为:
xi={wi,pi1,pi2}
其中wi为Step3.3中得到的融合后的第i个词的词向量表示,pi1表示第i个词语与第一个实体和第二个实体之间的位置向量;
在BiGRU中,以第i个词为例,新的记忆
Figure BDA0002423173180000051
是由过去的隐含状态hi-1和新的输入xi决定的:
Figure BDA0002423173180000052
其中,tanh()是激活函数,ri是重置信号,它用来判定上一个隐含状态hi-1对结果
Figure BDA0002423173180000053
的重要程度
ri=σ(Wxrxi+Whrht-1)
其中,σ()是激活函数Sigmoid激活函数,其值域范围在(0,1)之间;
更新门zi决定的是上一个隐含状态hi-1向下一个状态传递的信息,控制hi-1中有多少信息可以流入hi中;
zi=σ(Wxzxi+Whzhi-1)
隐含状态hi由上一个时刻的隐含状态hi-1产生,新的记忆由更新门判定;
Figure BDA0002423173180000054
其中,上述公式中的Wxh、Whh、Wxr、Whr、Wxz、Whz是在训练BiGRU时所学到的参数;
由于采用BiGRU,以此来获取文本正向和反向的上下文信息,所以能得到正向的输出
Figure BDA0002423173180000055
和反向的输出
Figure BDA0002423173180000056
对这两个输出进行异或逻辑运算得
Figure BDA0002423173180000057
其中hi就为文本中第i个词语的语义特征。
Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权,得到文本的句子级向量;然后利用文本的句子级向量计算每个句子属于各个类别的概率值;
进一步地,Step3.5具体包括:通过Step3.4得到的文本语义特征可表示为集合H={h1,…,hi,…,hn},其中,hi表示文本中第i个词语的语义特征;由Step3.2得到的带有标签信息的关系向量为Rid;则利用Rid为H最大池化加权计算公式如下:
Figure BDA0002423173180000061
其中,maxpool为最大池化,n为文本语义特征的数量,S为文本的句子级向量;
对于输入的多个文本来说,通过最大池化注意力加权后得到文本的句子级向量集合表示为S={s1,…,si,…,st},其中si表示第i个文本的句子级向量,t表示输入的文本数量;再经过一个全连接层得到输出为Y的一维向量,表示为Y=[y1,y2,…,yk],其中k为类别数,Y的计算方式如下所示:
Y=Wii k·si+b
其中,Wi k为第i个文本对应类别k的权重矩阵,b为随机初始化的偏置向量,表示为b=[b1,b2,…,bk];
通过计算得到Y后,把Y中的值分别通过Softmax函数进行归一化处理,得到si属于各个类别的概率值,公式如下所示:
p(y=j|si)=softmax(yj)
其中,公式表示第i个文本的句子级向量si属于类别j的概率值,yj表示第j类的一维向量表示。
Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型。
进一步地,所述Step3.6包括、通过Step3.5得到文本属于各个类别的概率值,利用交叉熵损失函数来计算概率值与真实类别标签yi之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型,交叉熵损失函数定义如下:
Figure BDA0002423173180000062
其中,J(θ)表示模型的损失值,损失越小代表模型训练的效果越好;yi为第i个文本的句子级向量si的真实类别标签;T代表文本数量,p(y=j|si)表示第i个文本的句子级向量si属于类别j的概率值。
本发明的有益效果是:
本发明知识三元组通过融入TransE模型所表示出来的实体向量来增强文本的语义表达,并且利用带有标签信息的关系向量来为文本的语义特征进行注意力加权,使文本的特征更具有代表性,最终训练出跨境民族文化文本分类模型;
本发明对本土及其跨境民族文化文本取得了不错的分类效果,解决了跨境民族文化领域标注数据不足和特征质量参差不齐的问题,在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。
附图说明
图1为本发明中的数据获取及存储流程图;
图2为本发明中的知识图谱结构图;
图3为本发明中的具体详细框架图;
图4为本发明中流程图。
具体实施方式
实施例1:基于知识表示的跨境民族文化文本分类方法,如图4所示,提供了基于知识表示的跨境民族文化文本分类方法的流程图,具体步骤如下:
Step1、获取若干本土及其跨境民族文化文本数据;
确定跨境民族的种类,利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网等爬取跟本土及其跨境民族相关的网页文档数据,并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。
具体的,在步骤Step1中,包含以下步骤:步骤Step1.1:通过查询资料选取傣族、彝族及其跨境民族为本发明的实验民族,其中,傣族的跨境民族为泰族(泰国)、佬族(老挝)和掸族(缅甸),彝族的跨境民族为倮倮族(越南)。在确定好实验民族后,通过关键词进行爬虫,爬取的数据源主要包括百度百科、WiKi百科和各种民族类网站,不同的网站根据其网站结构分别编写不同的爬虫程序,抓取相关的标题、文章以及图片等数据。爬取到的数据总共有8190篇文章。步骤Step1.2:对于爬取的跨境民族文本数据、图片数据以及网页的URL,以字典的方式进行保存,然后按照民族名称导入到MongoDB数据库中;跨境民族数据获取以及存储的结构图如图1所示。
Step2、本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;
进一步地,所述Step2的具体步骤为:
Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系,民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类;跨境民族文化知识图谱结构如图2所示,包含了模式层和数据层,其中模式层中包含的是民族名称和民族文化类别,数据层中就是相关的民族文化实例,其中每个实体都带有标签信息和关于该实体的特征及文本描述,如:“泼水节”这个实体节点的标签就为“傣族”、“傣族习俗文化”和“节日”,泼水节的特征为“清水相互泼洒”、“傣族的新年等”,泼水节的活动包括“歌舞活动”、“浴佛”、“丢包”和“边交会”;
然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组,知识三元组的具体格式是[“实体”,“关系”,“实体”]或者[“实体”,“属性”,“属性值”],例如:知识三元组[“傣族”,“节日”,“泼水节”]和[“泼水节”,“时间”,“公历4月13~15日”最终进;行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建;
Step2.2、通过远程监督的思想来进行数据标注:利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐,如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中,则把这条文本作为标注好的数据。如:知识三元组[傣族,傣族菜,香茅草烤鱼]就可以标注出文本“香茅草烤鱼是地道传统的一道傣族风味菜肴”。
Step3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练;
所述Step3的具体步骤为:
Step3.1、首先使用BERT预训练模型对标注好的数据进行向量化表示,获得本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
Step3.2、然后利用TransE知识表示模型对本土及其跨境民族文化知识图谱三元组中的实体、关系和三元组标签进行向量化表示,获得实体向量与带有标签信息的关系向量;
Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合,得到融合后的向量;
Step3.4、利用BiGRU神经网络对文本的语义特征进行提取:通过Step3.3得到融合后的词向量,把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征;
Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权,得到文本的句子级向量;然后利用文本的句子级向量计算每个句子属于各个类别的概率值;
Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型。融合知识表示的跨境民族文化文本分类模型如图3所示。
所述Step3.1具体包括:输入为标注好的跨境民族文化文本数据,经过领域词典+jieba分词工具分词后,采用正则表达式去除文本中出现的标点符号,最终得到处理好的数据,将处理好的文本中每个词语随机初始化得到每个词语的词向量Token Embedding,标注好的文本的编号Segment Embedding和每个词的位置向量Position Embedding的元素按位相加,得到BERT预训练模型的最终输入;文本经过以上三个向量化表示之后,对这三个向量按位相加可表示为A={a[CLS],a1,a2,…,an,a[SEP]},其中a[CLS]和a[SEP]为标注好的文本的特殊标记向量,n为标注好的数据中的词语数量,每个词语都被表示为k维的向量;对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系,计算公式如下所示:
Figure BDA0002423173180000091
MHA=MultiHead(Q,K,V)=Concat(head1,head2,…,headk)Wo
headi=Attention(QWii Q,KWi K,VWi V)
其中,Q,K,V为词向量矩阵;Q=AWQ;K=AWK;V=AWV,其中,WQ,WK,WV随机初始化的权重矩阵,dk为输入词向量的维度,Wi Q,Wi K,Wi V表示第i个head的WQ,WK,WV矩阵,WO为附加权重矩阵;
Multi-Head Attention的输出结果MHA与标注好的数据所表示的向量A相加,再进行归一化处理得到值Aa=MHA+A,然后将归一化的值Aa经过一个前馈神经网络得到值AF=WfAa+bf,再与Aa相加并且进行归一化得到Transformer Encoder的输出At=Aa+AF,通过以上过程实现了本土及其跨境民族文化文本标注好的数据中每个词的词向量的动态生成,从而得到词汇在文本中的语义特征;其中,Wf表示随机初始化的权重向量,bf表示随机初始化的偏置向量。
进一步地,所述Step3.2具体包括:首先需要把三元组的实体、关系和该三元组的标签分别按序进行id标记,具体形式为(实体,id)、(关系,id)和(三元组标签,id),训练数据格式为(头实体,尾实体,关系+三元组标签),其中,三者通过空格进行分隔;然后输入到TransE知识表示模型中,以此得到知识三元组的实体向量和带有标签信息的关系向量,计算公式如下所示:
h+r≈t
对于每个三元组实例[head,relation,tail]中的关系relation看做从头实体head到尾实体tail的翻译,通过不断调整h、r和t,使得h+r尽可能与t相等,h、r和t分别为head、relation和tail的向量表示;
在TransE知识表示模型训练的过程中,通过设置一个损失函数
Figure BDA0002423173180000101
来对这些三元组进行打分,相比之下,正确的三元组打分要高于错误的三元组,损失函数设计如下:
Figure BDA0002423173180000102
其中,h′和t′为随机构造的负例头实体和尾实体,γ为大于0的超参,+的作用是筛选,具体规则为大于0取原值,小于0则为0;通过不断地对实体和关系的向量进行调整,使其计算的损失函数最小,就能得到最终的实体向量Eid和带有标签信息的关系向量Rid
作为本发明的进一步说明,例如,对于知识三元组[傣族,节日,泼水节],其标签信息为{“傣族”,“傣族习俗文化”,“傣族节日”},首先把该三元组的实体、关系及其标签信息进行id标记,得到实体标记为(傣族,0)、(泼水节,0),关系标记为(节日,0),三元组标签标记为(“傣族”0_0)、(“傣族习俗文化”,0_1)和(“傣族节日”,0_2),然后为每个标记的id初始化相同维度的向量作为TransE知识表示模型的输入,通过TransE模型后可以得到最终的实体向量[E傣族,E泼水节]和带有标签信息的关系向量[R节日]。
Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合,得到融合后的向量;
进一步地,所述Step3.3具体包括:通过Step3.2和Step3.1分别得到三元组的实体向量表示Eid和本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,并且这两个向量的维度是一致的,通过实体在文本中的位置能进行这两种向量的对位相加得到文本融合后的词向量W={w1,w2,…,wn},计算如下所示:
Figure BDA0002423173180000103
其中,At为经过BERT预训练模型输出的每个词的词向量,即本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,Eembed为维度与At一致的三元组实体向量。
例如,对于文本“香茅草烤鱼是傣族的传统美食之一”,其中含有三元组[“傣族”,“傣族菜”,“香茅草烤鱼”],这个三元组的标签信息为{“傣族”,“傣族饮食文化”,“傣族食品”},通过TransE知识表示模型,最终可以得到实体向量[E傣族,E香茅草烤鱼]和关系向量[R傣族菜];通过BERT预训练模型可以得到文本中每个词语的向量表示W={w香茅草烤鱼,w,w傣族,w,w传统,w美食,w之一},然后通过词语的id就可以把实体向量按位相加到实体的词向量上;最终得到的词向量表示为W={w香茅草烤鱼+E香茅草烤鱼,w,w傣族+E傣族,w,w传统,w美食,w之一},通过融合后就可以把实体“香茅草烤鱼”与实体“傣族”之间存在的相互联系加入到文本的语义特征中;
Step3.4、利用BiGRU神经网络对文本的语义特征进行提取:通过Step3.3得到融合后的词向量,把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征;
所述Step3.4具体包括:采用融合后的词向量作为BiGRU的输入,对于文本中的第i个词语的输入形式为:
Figure BDA0002423173180000114
其中wi为Step3.3中得到的融合后的第i个词的词向量表示,
Figure BDA0002423173180000115
表示第i个词语与第一个实体和第二个实体之间的位置向量;
在BiGRU中,以第i个词为例,新的记忆
Figure BDA0002423173180000111
是由过去的隐含状态hi-1和新的输入xi决定的:
Figure BDA0002423173180000112
其中,tanh()是激活函数,ri是重置信号,它用来判定上一个隐含状态hi-1对结果
Figure BDA0002423173180000113
的重要程度
ri=σ(Wxrxi+Whrht-1)
其中,σ()是激活函数Sigmoid激活函数,其值域范围在(0,1)之间;
更新门zi决定的是上一个隐含状态hi-1向下一个状态传递的信息,控制hi-1中有多少信息可以流入hi中;
zi=σ(Wxzxi+Whzhi-1)
隐含状态hi由上一个时刻的隐含状态hi-1产生,新的记忆由更新门判定;
Figure BDA0002423173180000121
其中,上述公式中的Wxh、Whh、Wxr、Whr、Wxz、Whz是在训练BiGRU时所学到的参数;
由于采用BiGRU,以此来获取文本正向和反向的上下文信息,所以能得到正向的输出
Figure BDA0002423173180000122
和反向的输出
Figure BDA0002423173180000123
对这两个输出进行异或逻辑运算得
Figure BDA0002423173180000124
其中hi就为文本中第i个词语的语义特征。
对于例子“香茅草烤鱼是傣族的传统美食之一”,按照Step3.3中的向量融合后可以把词向量表示为W={w香茅草烤鱼+E香茅草烤鱼,w,w傣族+E傣族,w,w传统,w美食,w之一},第1个词语是“香茅草烤鱼”,其向量形式为[w香茅草烤鱼+E香茅草烤鱼],所以BiGRU的输入x香茅草烤鱼的表示如下所示:
Figure BDA0002423173180000128
其中,
Figure BDA0002423173180000129
表示第这个词语与第一个实体“香茅草烤鱼”和第二个实体“傣族”之间的位置向量,因为该词语就是第一个实体本身,相对位置的id为0,所以
Figure BDA00024231731800001210
的值为与词向量维度相同的随机初始化向量,同理可知该词语到第二个实体的相对位置的id为2,所以
Figure BDA00024231731800001211
的值为与词向量维度相同的随机初始化向量;
在BiGRU中,以第1个词为例,新的记忆
Figure BDA0002423173180000125
是由过去的隐含状态h0和新的输入x决定的:
Figure BDA0002423173180000126
其中,tanh()是激活函数,h0为维度与x香茅草烤鱼相同的初始化为0的矩阵,r香茅草烤鱼是重置信号,它用来判定上一个隐含状态h0对结果
Figure BDA0002423173180000127
的重要程度。
r香茅草烤鱼=σ(Wxrx香茅草烤鱼+Whrht-1)
其中,σ()是激活函数Sigmoid函数,其值域范围在(0,1)之间,ht-1为第0时刻初始化为0的矩阵。
更新门z香茅草烤鱼决定的是上一个隐含状态h0向下一个状态传递的信息。控制h0中有多少信息可以流入h中。
z香茅草烤鱼=σ(Wxzx香茅草烤鱼+Whzh0)
隐含状态h香茅草烤鱼由上一个隐含状态h0产生,新的记忆由更新门判定。
Figure BDA0002423173180000131
其中,上述公式中的Wxh、Whh、Wxr、Whr、Wxz、Whz是在训练GRU时所学到的参数。
由于本文采用双向的GRU,以此来获取文本正向和反向的上下文信息,所以可以得到正向的输出
Figure BDA0002423173180000132
和反向的输出
Figure BDA0002423173180000133
对这两个输出进行异或逻辑运算得
Figure BDA0002423173180000134
Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权,得到文本的句子级向量;然后利用文本的句子级向量计算每个句子属于各个类别的概率值;
进一步地,Step3.5具体包括:通过Step3.4得到的文本语义特征可表示为集合H={h1,…,hi,…,hn},其中,hi表示文本中第i个词语的语义特征;由Step3.2得到的带有标签信息的关系向量为Rid;则利用Rid为H最大池化加权计算公式如下:
Figure BDA0002423173180000135
其中,maxpool为最大池化,n为文本语义特征的数量,S为文本的句子级向量;
对于输入的多个文本来说,通过最大池化注意力加权后得到文本的句子级向量集合表示为S={s1,…,si,…,st},其中si表示第i个文本的句子级向量,t表示输入的文本数量;再经过一个全连接层得到输出为Y的一维向量,表示为Y=[y1,y2,…,yk],其中k为类别数,Y的计算方式如下所示:
Y=Wi k·si+b
其中,Wi k为第i个文本对应类别k的权重矩阵,b为随机初始化的偏置向量,表示为b=[b1,b2,…,bk];
通过计算得到Y后,把Y中的值分别通过Softmax函数进行归一化处理,得到si属于各个类别的概率值,公式如下所示:
p(y=j|si)=softmax(yj)
其中,公式表示第i个文本的句子级向量si属于类别j的概率值,yj表示第j类的一维向量表示。
本发明利用注意力机制来为相似的词语分配更高的权重,突出文本语义特征的重要性。具体的操作是通过三元组关系向量来对文本中词汇加权构造每个词汇隐状态的Attention权重,并且在此基础上引入最大池化操作,捕捉句子中与三元组关系信息更加密切的文本特征信息。
Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型。
进一步地,所述Step3.6包括、通过Step3.5得到文本属于各个类别的概率值,利用交叉熵损失函数来计算概率值与真实类别标签yi之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型,交叉熵损失函数定义如下:
Figure BDA0002423173180000141
其中,J(θ)表示模型的损失值,损失越小代表模型训练的效果越好;yi为第i个文本的句子级向量si的真实类别标签;T代表文本数量,p(y=j|si)表示第i个文本的句子级向量si属于类别j的概率值。
Step4、利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。
本发明通过精确率(Precision)、召回率(Recall)和F_Score值来对分类模型进行评估,并通过控制训练集的比例来绘制F-Score曲线。精确率、召回率和F_Score值的计算方法如下公式所示。
Figure BDA0002423173180000142
Figure BDA0002423173180000143
Figure BDA0002423173180000144
其中,Right_num为预测正确的文本数量,Recognize_num为识别出的文本数量,All_num为此次测试的文本数量。由于本发明的任务是做文本分类任务,需要在保持高精确率的情况下有一个高召回率,所以F-Score值越高代表模型的平衡性越好,分类效果越好。
为了验证本发明的有效性,在相同语料的情况下,选取几种已经发表的方法进行对比,设计了8组实验。分别是DPCNN文本分类模型;Attention_BiLSTM的文本分类方法;TextCNN文本分类经典模型;BiLSTM特征融合的文本分类方法;Transformer模型应用于文本分类的方法;BiLSTM-CNN文本分类模型;FastText文本分类模型。实验结果如表1所示。
表1与其它模型的分类效果对比
Figure BDA0002423173180000151
由上表可以看出,本发明方法在跨境民族文化文本分类任务上的精确率和召回率方面都优于Attention_BiGRU模型以及其他方法,根据F值可知该方法的平衡性也很不错。对于Attention_BiGRU模型来说,本发明方法优于它的原因是本文的词向量表示使用的是BERT模型,所表示的每个词语都带有上下文语义信息,而且还融入了跨境民族文化知识三元组的实体向量对文本的语义进行增强,其次就是利用知识三元组的关系向量对文本的特征进行了权重分配,使特征更具有代表性。而Baseline方法(Attention_BiGRU)的词向量表示使用的是Word2vec模型,而且还没有融入实体向量和使用关系向量对特征进行加权。所以本发明方法优于Attention_BiGRU模型。
对于FastText模型来说,使用的向量表征时使用了Bow+Bigram+Trigram的组合预训练向量对文本进行表示,但没有对文本的语义进行增强和对特征进行权重分配,所以其效果对比本文方法稍弱一些。由此可知本文融合实体向量和对特征向量进行权重分配的方法是有效的。
对于BiLSTM+CNN模型来说,BiLSTM虽然能够学习到文本的序列信息,获得文本的序列特征,但该模型没有突出各个特征的重要程度,而且其模型只是在BiLSTM的输出进行了一个池化操作,并不包含卷积层特征提取的过程,所以其性能略好于BiLSTM模型,但与本文方法相比就显得效果较弱。
对于Transformer模型来说,其运用于文本分类时,本质上就是一个Bert词向量训练的编码过程,在最后输出时进行Softmax,实现最终的文本分类,但该模型只注重了词向量的表示,并没有对文本的语义特征进行任何处理,所以其在效果上要弱于本文模型;
BiLSTM模型中采用了混合目标函数的方法来提升模型的性能,但其网络结构BiLSTM只进行了文本序列特征的提取,然后进行分类任务,没有明显的针对跨境民族文化文本数据的特点来进行文本特征的优化,所以其效果弱于本文方法。
TextCNN模型通过卷积层获取文本的局部特征,对于文本的序列特征学习不够,而且也没有对文本的特点进行考虑,所以文本分类效果不如本文方法;
对于Attention_BiLSTM来说,其效果较弱的原因在于没有对文本的特点进行分析,在进行注意力分配时采用的时随机初始化的注意力权重,对重要的特征的权重分配不合适,使其的语义没有表达出来。
对于DPCNN模型来说,模型通过不断加深网络能更有效的得到文本的局部特征,但这样会使文本特征丢失,而且对于文本中的各个特征的序列信息学习不够,只是根据学习到的那几个特定的特征来进行模型的训练,对于文本的上下文信息不能充分的学习,所以相比于本文的模型效果较差。
为了验证本文所使用的BERT预训练模型表示的文本词向量对于分类任务的有效性。本文通过几种不同的向量表征方式来对文本进行表征,其中的详细实验方式是分别利用Word2vec模型和Glove模型对文本进行词向量表示,并且与TransE模型的实体向量进行融合,而其它保持不变进行模型训练。实验结果如表2所示:
表2不同词向量方式对实验结果的影响
Figure BDA0002423173180000161
从表2可以看出,本文通过把BERT预训练模型所表示的文本词向量和TransE模型所表示的实体向量进行融合,在跨境民族文化文本分类任务上具有较好的性能。其根本原因在于BERT预训练模型对文本中的词语进行向量表示时,利用双向Transformer对文本中的每个词语进行表示,充分考虑了文本的上下文语义信息;而Word2vec模型只考虑了词语的局部信息,没有考虑词语与局部窗口之外词的联系;GloVe模型虽然弥补Word2vec模型的缺陷,考虑了词语的整体信息,但还存在一个问题,就是所表示的词语在不同语境下的词向量是相同的,没有考虑语境的问题;BERT模型对于上述问题都进行了综合的考虑,即考虑了词语的局部以及整体信息,又考虑了词语在不同语境下的词向量变化,能够充分的对文本中的每个词语进行表示。
为验证跨境民族文化文本中领域词汇特征对模型效果的影响。我们分别采用通用分词工具和领域词典+jieba分词工具实验对比,其中,通用分词使用jieba分词工具,领域分词采用构建的领域词典+jieba分词,实验结果如表3所示。
表3领域分词对实验结果的影响
Figure BDA0002423173180000171
从表3可以看出,采用领域分词的效果明显高于直接使用jieba分词的效果。本文中将跨境民族文化相关文本中由多个词汇构成的跨境民族文化特征词汇作为领域词汇来处理,如,“南传上部座佛教”这个词语在使用jieba分词时可以分为“南传”、“上部座”和“佛教”这三个独立的词语,而利用领域分词(领域词典+jieba分词工具)就可以得到一个完整的词语。诸如此类的词语还有很多,如:浅色大襟短衫、大襟小袖短衫。这些词汇如果直接使用jieba分词后将导致具有完整语义的设备缺陷特征拆开后导致语义信息丢失,而作为领域词汇利用BERT进行词向量表征后能够有效获取到跟跨境民族文化相关的词汇的语义特征,更有利于通过Attention层进行捕捉。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.基于知识表示的跨境民族文化文本分类方法,其特征在于:所述基于知识表示的跨境民族文化文本分类方法的具体步骤如下:
Step1、获取若干本土及其跨境民族文化文本数据;
Step2、本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;
Step3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练;
获取本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
获取实体向量与带有标签信息的关系向量;
把词向量表示与实体向量融合再输入到BiGRU神经网络中进行文本语义特征提取;
利用带有标签信息的关系向量对文本语义特征进行最大池化注意力加权,再计算每个文本属于各个类别的概率;
基于概率值及交叉熵损失函数计算损失值,通过损失值调节网络参数,以此来训练出效果最优的分类模型;
Step4、利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。
2.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step1包括:利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网爬取跟本土及其跨境民族相关的网页文档数据,并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。
3.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step2的具体步骤为:
Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系,民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类,然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组,知识三元组的具体格式是[“实体”,“关系”,“实体”]或者[“实体”,“属性”,“属性值”],最终进行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建;
Step2.2、通过远程监督的思想来进行数据标注:利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐,如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中,则把这条文本作为标注好的数据。
4.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3的具体步骤为:
Step3.1、首先使用BERT预训练模型对标注好的数据进行向量化表示,获得本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
Step3.2、然后利用TransE知识表示模型对本土及其跨境民族文化知识图谱三元组中的实体、关系和三元组标签进行向量化表示,获得实体向量与带有标签信息的关系向量;
Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合,得到融合后的向量;
Step3.4、利用BiGRU神经网络对文本的语义特征进行提取:通过Step3.3得到融合后的词向量,把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征;
Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权,得到文本的句子级向量;然后利用文本的句子级向量计算每个句子属于各个类别的概率值;
Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型。
5.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3.1具体包括:将标注好的文本中每个词语随机初始化得到每个词语的词向量TokenEmbedding,标注好的文本的编号Segment Embedding和每个词的位置向量PositionEmbedding的元素按位相加,得到BERT预训练模型的最终输入;文本经过以上三个向量化表示之后,对这三个向量按位相加可表示为A={a[CLs],a1,a2,…,an,a[SEP]},其中a[CLS]和a[SEP]为标注好的文本的特殊标记向量,n为标注好的数据中的词语数量,每个词语都被表示为k维的向量;对于输入的向量利用多头注意力机制Multi-Head Attention计算文本中每个词语与其它词语之间的相互关系,计算公式如下所示:
Figure FDA0002423173170000031
MHA=MultiHead(Q,K,V)=Concat(head1,head2,…,headk)WO
headi=Attention(QWii Q,KWi K,VWi V)
其中,Q,K,V为词向量矩阵;Q=AWQ;K=AWK;V=AWV,其中,WQ,WK,WV随机初始化的权重矩阵,dk为输入词向量的维度,Wi Q,Wi K,Wi V表示第i个head的WQ,WK,WV矩阵,WO为附加权重矩阵;
Multi-Head Attention的输出结果MHA与标注好的数据所表示的向量A相加,再进行归一化处理得到值Aa=MHA+A,然后将归一化的值Aa经过一个前馈神经网络得到值AF=WfAa+bf,再与Aa相加并且进行归一化得到Transformer Encoder的输出At=Aa+AF,通过以上过程实现了本土及其跨境民族文化文本标注好的数据中每个词的词向量的动态生成,从而得到词汇在文本中的语义特征;其中,Wf表示随机初始化的权重向量,bf表示随机初始化的偏置向量。
6.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3.2具体包括:首先需要把三元组的实体、关系和该三元组的标签分别按序进行id标记,具体形式为(实体,id)、(关系,id)和(三元组标签,id),训练数据格式为(头实体,尾实体,关系+三元组标签),其中,三者通过空格进行分隔;然后输入到TransE知识表示模型中,以此得到知识三元组的实体向量和带有标签信息的关系向量,计算公式如下所示:
h+r≈t
对于每个三元组实例[head,relation,tail]中的关系relation看做从头实体head到尾实体tail的翻译,通过不断调整h、r和t,使得h+r尽可能与t相等,h、r和t分别为head、relation和tail的向量表示;
在TransE知识表示模型训练的过程中,通过设置一个损失函数
Figure FDA0002423173170000033
来对这些三元组进行打分,相比之下,正确的三元组打分要高于错误的三元组,损失函数设计如下:
Figure FDA0002423173170000032
其中,h′和t′为随机构造的负例头实体和尾实体,γ为大于0的超参,+的作用是筛选,具体规则为大于0取原值,小于0则为0;通过不断地对实体和关系的向量进行调整,使其计算的损失函数最小,就能得到最终的实体向量Eid和带有标签信息的关系向量Rid
7.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3.3具体包括:通过Step3.2和Step3.1分别得到三元组的实体向量表示Eid和本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,并且这两个向量的维度是一致的,通过实体在文本中的位置能进行这两种向量的对位相加得到文本融合后的词向量W={w1,w2,…,wn},计算如下所示:
Figure FDA0002423173170000041
其中,At为经过BERT预训练模型输出的每个词的词向量,即本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示At,Eembed为维度与At一致的三元组实体向量。
8.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:
Step3.5具体包括:通过Step3.4得到的文本语义特征可表示为集合H={h1,…,hi,…,hn},其中,hi表示文本中第i个词语的语义特征;由Step3.2得到的带有标签信息的关系向量为Rid;则利用Rid为H最大池化加权计算公式如下:
Figure FDA0002423173170000042
其中,maxpool为最大池化,n为文本语义特征的数量,S为文本的句子级向量;
对于输入的多个文本来说,通过最大池化注意力加权后得到文本的句子级向量集合表示为S={s1,…,si,…,st},其中si表示第i个文本的句子级向量,t表示输入的文本数量;再经过一个全连接层得到输出为Y的一维向量,表示为Y=[y1,y2,…,yk],其中k为类别数,Y的计算方式如下所示:
Y=Wi k·si+b
其中,Wi k为第i个文本对应类别k的权重矩阵,b为随机初始化的偏置向量,表示为b=[b1,b2,…,bk];
通过计算得到Y后,把Y中的值分别通过Softmax函数进行归一化处理,得到si属于各个类别的概率值,公式如下所示:
p(y=j|si)=softmax(yj)
其中,公式表示第i个文本的句子级向量si属于类别j的概率值,yj表示第j类的一维向量表示。
9.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3.6包括、通过Step3.5得到文本属于各个类别的概率值,利用交叉熵损失函数来计算概率值与真实类别标签yi之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型,交叉熵损失函数定义如下:
Figure FDA0002423173170000051
其中,J(θ)表示模型的损失值,损失越小代表模型训练的效果越好;yi为第i个文本的句子级向量si的真实类别标签;T代表文本数量,p(y=j|si)表示第i个文本的句子级向量si属于类别j的概率值。
CN202010212069.6A 2020-03-24 2020-03-24 基于知识表示的跨境民族文化文本分类方法 Active CN111444343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010212069.6A CN111444343B (zh) 2020-03-24 2020-03-24 基于知识表示的跨境民族文化文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010212069.6A CN111444343B (zh) 2020-03-24 2020-03-24 基于知识表示的跨境民族文化文本分类方法

Publications (2)

Publication Number Publication Date
CN111444343A true CN111444343A (zh) 2020-07-24
CN111444343B CN111444343B (zh) 2021-04-06

Family

ID=71629424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212069.6A Active CN111444343B (zh) 2020-03-24 2020-03-24 基于知识表示的跨境民族文化文本分类方法

Country Status (1)

Country Link
CN (1) CN111444343B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036189A (zh) * 2020-08-10 2020-12-04 中国人民大学 一种金文语义识别方法和系统
CN112084796A (zh) * 2020-09-15 2020-12-15 南京文图景信息科技有限公司 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113901228A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合领域知识图谱的跨境民族文本分类方法及装置
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN114386394A (zh) * 2020-10-16 2022-04-22 电科云(北京)科技有限公司 平台舆论数据主题的预测模型训练方法、预测方法及装置
CN114970537A (zh) * 2022-06-27 2022-08-30 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115906845A (zh) * 2022-11-08 2023-04-04 重庆邮电大学 一种电商商品标题命名实体识别方法
CN116094843A (zh) * 2023-04-10 2023-05-09 北京航空航天大学 一种基于知识图谱的网络威胁评估方法
CN116796197A (zh) * 2022-12-22 2023-09-22 华信咨询设计研究院有限公司 一种医疗短文本相似度匹配方法
CN118072563A (zh) * 2024-04-24 2024-05-24 中国民用航空飞行学院 一种基于管制语音语义解析的飞机空中冲突检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194159A1 (en) * 2001-06-08 2002-12-19 The Regents Of The University Of California Parallel object-oriented data mining system
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110781245A (zh) * 2019-09-12 2020-02-11 南宁师范大学 民族文化知识数据仓库的构建方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
WO2020048445A1 (en) * 2018-09-04 2020-03-12 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194159A1 (en) * 2001-06-08 2002-12-19 The Regents Of The University Of California Parallel object-oriented data mining system
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
WO2020048445A1 (en) * 2018-09-04 2020-03-12 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110781245A (zh) * 2019-09-12 2020-02-11 南宁师范大学 民族文化知识数据仓库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIE J: "Chinese text classification based on attention mechanism and feature-enhanced fusion neural network", 《COMPUTING 102》 *
麻友: "基于知识图谱的社会媒体中少数民族主题数据抽取方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036189A (zh) * 2020-08-10 2020-12-04 中国人民大学 一种金文语义识别方法和系统
CN112084796A (zh) * 2020-09-15 2020-12-15 南京文图景信息科技有限公司 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN114386394A (zh) * 2020-10-16 2022-04-22 电科云(北京)科技有限公司 平台舆论数据主题的预测模型训练方法、预测方法及装置
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN112926303B (zh) * 2021-02-23 2023-06-27 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113901228B (zh) * 2021-09-13 2022-12-13 昆明理工大学 融合领域知识图谱的跨境民族文本分类方法及装置
CN113901228A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合领域知识图谱的跨境民族文本分类方法及装置
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN114970537A (zh) * 2022-06-27 2022-08-30 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN114970537B (zh) * 2022-06-27 2024-04-23 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115906845A (zh) * 2022-11-08 2023-04-04 重庆邮电大学 一种电商商品标题命名实体识别方法
CN115906845B (zh) * 2022-11-08 2024-05-10 芽米科技(广州)有限公司 一种电商商品标题命名实体识别方法
CN116796197A (zh) * 2022-12-22 2023-09-22 华信咨询设计研究院有限公司 一种医疗短文本相似度匹配方法
CN116094843A (zh) * 2023-04-10 2023-05-09 北京航空航天大学 一种基于知识图谱的网络威胁评估方法
CN118072563A (zh) * 2024-04-24 2024-05-24 中国民用航空飞行学院 一种基于管制语音语义解析的飞机空中冲突检测方法

Also Published As

Publication number Publication date
CN111444343B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
Huang et al. Facial expression recognition with grid-wise attention and visual transformer
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
Yang et al. Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis
CN111813950B (zh) 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111414845B (zh) 基于空间-时间图推理网络的多形态语句视频定位方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN115146057B (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
Luo et al. SLOGAN: handwriting style synthesis for arbitrary-length and out-of-vocabulary text
Wang et al. Norm-guided Adaptive Visual Embedding for Zero-Shot Sketch-Based Image Retrieval.
CN117236338A (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
He et al. Few-shot font generation by learning style difference and similarity
CN114048314A (zh) 一种自然语言隐写分析方法
Krupa et al. Deep learning-based image extraction
CN107085700A (zh) 一种基于稀疏表示与单隐层神经网络技术相结合的人脸识别方法
Padmavathi et al. Optical Character Recognition and Text to Speech Generation System using Machine Learning
Huang et al. PQSCT: Pseudo-siamese BERT for concept tagging with both questions and solutions
Zhang A study on the intelligent translation model for English incorporating neural network migration learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant