CN113901228B - 融合领域知识图谱的跨境民族文本分类方法及装置 - Google Patents

融合领域知识图谱的跨境民族文本分类方法及装置 Download PDF

Info

Publication number
CN113901228B
CN113901228B CN202111069481.8A CN202111069481A CN113901228B CN 113901228 B CN113901228 B CN 113901228B CN 202111069481 A CN202111069481 A CN 202111069481A CN 113901228 B CN113901228 B CN 113901228B
Authority
CN
China
Prior art keywords
cross
border
culture
text
national
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111069481.8A
Other languages
English (en)
Other versions
CN113901228A (zh
Inventor
毛存礼
陈春吉
余正涛
黄于欣
高盛祥
张勇丙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111069481.8A priority Critical patent/CN113901228B/zh
Publication of CN113901228A publication Critical patent/CN113901228A/zh
Application granted granted Critical
Publication of CN113901228B publication Critical patent/CN113901228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。本发明提出了一种融合领域知识图谱的跨境民族文本分类方法,主要包括跨境民族文化知识图谱构建、跨境民族文本数据预处理、融合领域知识图谱的跨境民族文本分类模型训练、跨境民族文化类别预测等四个部分构成。本发明实现了对跨境民族文本数据的文化类别分类,解决了跨境民族文本数据中存在的分类问题,具有重要的理论和实际运用价值。

Description

融合领域知识图谱的跨境民族文本分类方法及装置
技术领域
本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。
背景技术
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,传统的机器学习文本分类方法通常采用不同类型的机器学习算法作为算法分类器,并结合特征工程进行分类,然而存在难以捕获跨境民族文本深层含义和依赖人工提取跨境民族特征等问题。基于深度学习的分类方法是当今的主流方法,但大部分基于通用领域的相关研究,跨境民族文本分类任务属于特定领域分类问题,目前基于此领域的研究相对较少,针对跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
本发明主要考虑融合领域知识图谱的跨境民族文本分类方法,在Yang等人提出的分层注意力文本分类方法上进行了改进,并借鉴Shen等人、Bordes等人的思想将外部知识信息与文本有效的结合起来辅助正文分类。
发明内容
本发明提供了一种融合领域知识图谱的跨境民族文本分类方法,以用于解决跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
本发明的技术方案是:第一方面,提供一种基于融合领域知识图谱的跨境民族文本分类方法,所述方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念如:饮食、建筑、服饰等)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化。
Step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化”。
Step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句。
Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词。最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签为“掸族,跨境民族”,实体“关门节”的标签为“进洼,傣族节日文化”,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示[e傣族,e关门节],关系向量表示[r傣族节日]以及标签向量表示[l泰族,l跨境民族,l进洼,l傣族节日文化],最后把相应的实体向量和关系向量进行对位相加得到实体语义向量为:
E傣族=e关门节+r傣族节日+l泰族+l跨境民族,E关门节=e傣族+r傣族节日+l进洼+l傣族节日文化
最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、实现对标题的词级语义特征的提取。故本发明提出采用人工构建的跨境民族文化词库辅助分词缓解普通的分词工具分词效果不佳的问题。使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码。
hi=BiGRU(xi),i∈[1,N]
其中hi表示标题中第i个单词的前向和后向隐状态信息的结合
Figure BDA0003259939250000031
将得到的跨境民族文化文本隐状态信息hi输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息。
f(hi,hj)=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij1
Figure BDA0003259939250000041
Figure BDA0003259939250000042
其中,
Figure BDA0003259939250000043
表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中通常设置c=5;Mij1中1代表全是1的向量,Mij代表编码时序信息的掩码矩阵;
Figure BDA0003259939250000044
表示标题中第j个序列hj的输出。
Step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取。由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量wjk,k∈[1,N],例如文本:“泼水节是傣族最隆重的节日。”首先得到正文的向量表示为[w泼水节,w,w傣族,w,w降重,w,w节日],提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[E傣族,E泼水节]。之后,通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合方式为:Ai=wjk+Ei,即:[w泼水节+E泼水节,w,w傣族+E傣族,w,w隆重,w,w节日]。然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示为:C=[c1,c2,c3,...,cl],j∈[1,M],最后,将正文和标题的特征向量进行融合。
V=[T,C]
其中
Figure BDA0003259939250000045
为融合后的特征向量,
Figure BDA0003259939250000046
表示标题特征向量,
Figure BDA0003259939250000047
表示正文特征向量。
Step3.3、融合标题和正文中的信息并进行特征的提取。将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:
f(xi)=WTσ(W1Sei+b1)+b
其中,WT,W1,b1
Figure BDA0003259939250000051
σ(.)表示激活函数。为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
F=sig mod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
其中
Figure BDA0003259939250000052
o表示融合标题和正文的句子级特征信息,V表示标题和正文的词级特征信息。
Step3.4、提取文档上下文特征信息。采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵。利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互。
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征Y来判断跨境民族文化数据类别。
y=softmax(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
本发明的有益效果是:
1、利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。
2、有效利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,并把提取到的不同层次的特征信息结合到一起辅助分类,缓解了跨境民族文化类别交叉的问题,本发明取得更好的文本分类效果。
附图说明
图1为融合领域知识图谱的跨境民族文本分类网络架构图;
图2为融合领域知识图谱的跨境民族文本分类装置示意图;
图3为通过设置不同的Dropout_rate参数进行实验以找到最适合本发明模型的数的示意图。
具体实施方式
实施例1:如图1-图3所示,第一方面,提供融合领域知识图谱的跨境民族文本分类方法,所述融合领域知识图谱的跨境民族文本分类方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念包括:饮食、建筑、服饰、习俗、艺术、宗教)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化,文本“家神崇拜及其祭祀仪式家神,傣语称作“披很”。”属于傣族宗教文化,具体如表1所示:
表1跨境民族文化类别划分
Figure BDA0003259939250000061
Figure BDA0003259939250000071
Step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化,傣族饮品文化”,具体如表2所示。
表2跨境民族实体属性定义
Figure BDA0003259939250000072
Step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。跨境民族实体关系的建立使得跨境民族文化知识图谱可视化性能、查询性能得到有效加强。具体如表4所示。
表3跨境民族实体关系举例
Figure BDA0003259939250000073
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,其中跨境民族文本数据的标注如表4所示:
表4跨境民族文化文本数据样例
Figure BDA0003259939250000081
Step2.2、首先,将跨境民族文化文本数据进行分句处理,之后对每个句子进行分词,采用跨境民族文化词库辅助分词。然后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,包含四个跨境民族(傣族、泰族、彝族、倮倮族),文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
Step2.3、跨境民族文化识图谱的特征表示为:利用知识图谱表示学习方法将跨境民族文化知识图谱中三元组的实体和关系表示在同一个向量空间中。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。首先,分别对头实体、尾实体、关系进行标记处理。头实体的标记为(傣族,0),尾实体的标记为(关门节,1)和关系的标记为(傣族节日,0)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签记为(掸族,0_0)和(跨境民族,0_1);实体“关门节”的标签记为(进洼,1_0)和(傣族节日文化,1_1)。之后,将实体向量、关系向量、标签向量以及训练数据随机初始化后输入到TransE模型中进行训练,最终得到实体的向量表示[e傣族,e关门节],关系向量表示[r傣族节日]以及标签向量(包含别称和类别标签)为[l泰族,l跨境民族,l进洼,l傣族节日文化],再把相应的实体向量和关系向量进行对位相加得到实体语义向量为:E傣族=e关门节+r傣族节日+l泰族+l跨境民族,E关门节=e傣族+r傣族节日+l进洼+l傣族节日文化。最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
知识图谱表示学习方法定义的损失函数具体如下:
L=∑(h,r,t)∈S(h′,r,t′)∈S′(h,r,t)∑[γ+((h+lh)+γ-(t+lt))2-((h′+lh′)+γ-(t′+lt′))2]+
其中S表示正确的跨境民族文化知识三元组;S′表示随机构造的负样例,构造方法为随机将正确的跨境民族文化知识三元组中的实体和关系替换为其他的元素;lh′和lt′表示随机构造的头实体和尾实体标签;γ是大于0的间隔距离参数;[.]+表示正值函数,当[.]>0时,[.]+=[.],当[.]<0时[.]+=0。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、对标题信息的编码,是通过人工构建的跨境民族文化词库来辅助分词,使用预训练模型对现有的跨境民族文化数据训练得到词向量,并利用跨境民族词向量获得标题中每个词wi,i∈[1,N]的嵌入表征xi∈R100。其中N代表标题中词的个数,100表示词向量维度。
采用双向循环神经网络获得标题的词级表示。采用双向循环神经网络包含从前向GRU获得标题中x1到xN的隐藏向量表示和后向GRU获得xN到x1的隐藏向量表示。具体操作如下:
hi=BiGRU(xi),i∈[1,N]
其中hi表示标题中第i个单词的前向和后向隐状态信息的结合
Figure BDA0003259939250000091
对标题的特征信息提取,是通过掩码自注意力机制来获得。首先,为标题中的每个词计算对齐分数。接着进行归一化计算概率分布,值较大说明标题中的某个词贡献了重要的信息。具体如下所示:
f(hi,hj)bw=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij bw1
Figure BDA0003259939250000093
其中
Figure BDA0003259939250000094
是与输入h维度相同的向量。
Figure BDA0003259939250000095
表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中通常设置c=5,用来减少参数的数量。Mij1中1代表全是1的向量,Mij代表编码时序信息的掩码矩阵。为了获得双向的注意力分数,分别采用前向的掩码矩阵
Figure BDA0003259939250000096
和反向的掩码矩阵
Figure BDA0003259939250000097
掩码矩阵的具体表示如下:
Figure BDA0003259939250000098
Figure BDA0003259939250000101
其次,该注意力机制的输出表示标题中所有词嵌入的加权和,其中权重由
Figure BDA0003259939250000102
给出,可以将输出写为根据词的重要性采样的令牌期望,即:
Figure BDA0003259939250000103
其中
Figure BDA0003259939250000104
表示标题中第j个序列hj的输出。为了简便,以下的公式中都忽略了下标k,公式(6)可写为
Figure BDA0003259939250000105
最后,标题的输出
Figure BDA0003259939250000106
(前向输出tfw和后向输出tbw的计算方式一致)由注意力机制的输出sbw以及标题的输入h通过融合门机制得到,这将为标题中的每个元素生成一个上下文感知以及时序编码的向量表示。具体如下:
Fbw=sig mod(W(f1)sbw+W(f2)h+bf)
tbw=Fbw·h+(1-Fbw)sbw
t=[tbw||tfw]∈R2de
其中W(f1)
Figure BDA0003259939250000107
是融合门机制中可学习参数,“||”表示连接操作,T=[t1,t2,t3,...,tn]。
Step3.2、对正文信息的向量表示为:首先将正文按句号分为多个句子Jj,j∈[1,M],其中M代表句子的个数。采用分词处理得到词向量wjk,k∈[1,N],其中N代表句子的长度。通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合过程如下所示:
Ai=wjk+Ei
其中Ei的维度和wjk一致,Ei表示通过知识图谱表示表征过的实体语义特征信息。例如文本:“泼水节是傣族最隆重的节日”。首先提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[E傣族,E泼水节]。之后根据跨境民族词向量得到正文的向量表示[w泼水节,w,w傣族,w,w隆重,w,w节日],最后将文本向量与查找得到的实体语义向量进行融合可得到
[w泼水节+E泼水节,w,w傣族+E傣族,w,w隆重,w,w节日]。
使用双向门控循环单元进行编码得到正文隐向量hi,采用掩码自注意力网络进行正文句子特征提取,得到正文词级特征向量表示为:C=[c1,c2,c3,...,cl],j∈[1,M],之后将正文和标题的特征向量进行融合。
V=[T,C]
其中
Figure BDA0003259939250000111
为融合后的特征向量,
Figure BDA0003259939250000112
表示标题特征向量,
Figure BDA0003259939250000113
表示正文特征向量。
Step3.3、融合标题和正文中的信息并进行特征的提取,通过将融合了标题和正文的文本特征矩阵输入到掩码自注意力机制获得前向的特征矩阵
Figure BDA0003259939250000114
和后向的特征矩阵
Figure BDA0003259939250000115
通过融合得到特征矩阵
Figure BDA0003259939250000116
其中“||”表示连接操作。之后将Sei作为输入采用Sorce2Token网络进行句子间特征的提取。与Step3.1中注意力特征提取所不同的是,下列公式探索的是词向量Sei与整个文档Se的依赖关系,具体如下所示:
f(xi)=WTσ(W1Sei+b1)+b
其中,WT,W1,b1
Figure BDA0003259939250000117
σ(.)表示激活函数。之后通过SoftMax函数进行归一化确定权重,概率矩阵被定义为
Figure BDA0003259939250000118
输出计算方式为
Figure BDA0003259939250000119
为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
F=sig mod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
其中
Figure BDA00032599392500001110
o表示融合标题和正文的句子级特征信息,V表示标题和正文的词级特征信息。
Step3.4、跨境民族文本全局特征的提取,是通过采用双向循环神经网络获得全局信息的上下文编码矩阵。与Step4.1中词向量特征编码不同的是前者将标题和正文分别进行特征的提取,后者对标题和正文信息联合后的全局特征提取,后者对标题和正文之间的交互更加关注,具体如下所示:
Hi=BiGRU(ri)
ui=tanh(WuHi+bw)
Figure BDA0003259939250000121
Ui=aiHi
其中
Figure BDA0003259939250000122
由上诉公式可知,首先通过双向循环单元获得隐藏向量表示Hi,然后通过多层感知机计算注意力分数,之后采用softmax进行归一化确定权重ai,最终得到文档集的特征编码向量Ui
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征Y来判断跨境民族文化数据类别。
y=softmax(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
模型训练数据集主要包括4个跨境民族(傣族、泰族(泰国)、彝族、倮倮族(越南)),共选取39450条数据作为训练集,2144条数据作为测试集。其中每个类别的数据的数量为1000~1500条。其中标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,跨境民族文化数据选取的类别如表5所示,其中NA表示文本不属于任何一个类型:
表5数据集类别设置
Figure BDA0003259939250000124
Figure BDA0003259939250000131
采用gensim工具包的word2vec模型训练词向量,词向量的维度为100维。采用Adam算法作为加快模型训练速度的优化器;学习率设为0.02;模型中为防止过拟合,在特征提取层中将丢失率(dropout)设置为0.5。本发明的评价指标主要采用准确率(Acc.)、精确率(P)、召回(R)和F1值。
本发明采用6个基线模型和本发明模型在仅正文,标题联合正文两种情况下进行训练。具体如表6所示:
(1)DPCNN:Johnson等人提出的一种新型的CNN结构,具有提取远程关系特征及复杂度不高的特点。
(2)FastText:快速文本,使用NCE损失来提升softmax计算,提高了训练速度。
(3)TextCNN:Kim等人提出的面向文本分类的卷积神经网络,具有更好捕捉局部特征的特点。
(4)TextRCNN:Lai等人提出的使用一个双向递归网络层和一个池化层来提取文本特征信息,再通过一个全连接层进行分类。具有减少噪声,捕获关键单词信息的特点。
(5)Bert:Google发布的语言表示模型,采用12层的Transformer,相对rnn更加高效、能捕捉更长距离的依赖,相比于其他的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
(6)HAN:Yang等人提出的用于文档集分类的分层注意力网络,在英文文本分类中取得了不错的效果。
表6本发明方法与基线模型方法的对比
Figure BDA0003259939250000132
值得注意的是,基线模型和本发明模型在标题联合正文的实验结果均高于仅正文输入的实验结果。此外,在仅正文的情况下,本发明方法的Acc值为81.2%,F1值为72.6%,仅超过基线模型HAN,本发明方法在标题联合正文的情况下Acc.、P、R、F1值都相对较高,平均增加了11.87%,该实验结果证明了本发明方法提出的融合领域知识图谱的跨境民族文本分类方法的有效性。
表7为各部分特征有效性的实验结果对比。
表7消融实验
Figure BDA0003259939250000141
由表7可知,在删掉模型中的某一层时,本发明方法的Acc.、P、R和F1值均有所下降。分别在“(-)融合标题和正文的特征提取层”和“(-)上下文特征融合层”两种情况下,实验结果的Acc.、P、R和F1值略微下降,由此证明了“融合标题和正文的特征提取层”在文本中捕捉句间关系的能力以及“上下文特征融合层”整合上下文特征信息的优势,在模型中起到了关键的作用。特别的,“(-)masked-self-attention(词级)”中Acc.、P、R、F1值下降最为明显,分别下降了17.1%、14.7%、18.9%和18.7%。这种现象的出现表明了针对跨境民族文化的语义环境复杂问题,采用简单的注意力机制无法关注到上下文特征。
此外,在“(-)TransE”情况下,实验删去了对正文内容进行跨境民族实体语义的增强,实验结果显示Acc.、P、R、F1值均有所下降,但相比于基线模型,本发明提出的模型在不使用实体语义增强的情况下仍然具有较好的性能,此现象有效的证明了本发明提出的方法在特征提取方面的优势以及跨境民族文化知识图谱的融入能够增强实体语义这一论证。
表8为领域分词对模型的性能影响实验结果对比。
表8领域分词对实验结果的影响
Figure BDA0003259939250000142
通过表8可以得到在跨境民族文化文本分类任务中采用领域分词具有明显的效果。相对于直接使用jieba分词的分类效果较为逊色,这是因为,跨境民族文本数据中存在大量的专业名词,单纯的采用jieba分词往往达不到理想的效果。
图3通过设置不同的Dropout_rate参数进行实验以找到最适合本发明模型的数。
由图3中可以看出,当Dropout_rate=0.7时模型性能最低,原因是Dropout_rate设置的过高时,模型学习到的特征信息较少,使得模型性能明显降低。当Dropout_rate=0.1时,模型学习到的信息量较大,导致模型出现过拟合现象。综上,将Dropout_rate设置为0.5。
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
具体可以包括如下模块:
跨境民族文化知识图谱构建模块:用于通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;
跨境民族文本数据预处理模块:用于采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;
融合领域知识图谱的跨境民族文本分类模型训练模块:用于对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
在一种可行的实施方式中,所述跨境民族文化知识图谱构建模块,具体用于:
跨境民族文化知识图谱类别体系构建:
将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;
跨境民族实体属性定义:
跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;
跨境民族关系属性定义:
将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。
在一种可行的实施方式中,所述跨境民族文本数据预处理模块,具体用于:
通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;
首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
跨境民族文化实体语义扩展:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
第三方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括如下模块:
跨境民族文本数据预处理模块:用于将文本数据进行过滤、筛选、去除停用词、特殊符号等操作后输入模型。
融合领域知识图谱的跨境民族文本分类模型模块:用于将文本中的正文进行实体语义的扩展后同标题信息进行联合,把提取到的词级和句子级特征信息结合到一起,进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
跨境民族文化类别预测部署模块:具体用于:将融合领域知识图谱的跨境民族文本分类模型进行保存,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过Flask技术将模型部署为一个API接口,进而实现Web端口多并发请求的功能;最后,在Web端通调用部署到服务器端的文本分类模型,通过输入一段文本来预测跨境民族文化类别,将得到的预测结果展示到前端界面。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测;
所述Step3的具体步骤为:
Step3.1、使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码;
hi=BiGRU(xi),i∈[1,N]
其中hi表示标题中第i个单词的前向和后向隐状态信息的结合
Figure FDA0003901468940000011
将得到的跨境民族文化文本隐状态信息hi输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息;
f(hi,hj)=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij1
Figure FDA0003901468940000021
Figure FDA0003901468940000022
其中,
Figure FDA0003901468940000023
表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中设置c=5;Mij1中1代表全是1的向量,Mij代表编码时序信息的掩码矩阵;
Figure FDA0003901468940000024
表示标题中第j个序列hj的输出;
Step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取:
由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量,提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量,之后,通过实体在文本中的位置将向量对位相加得到文本的词向量,然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示,最后,将正文和标题的特征向量进行融合;
Step3.3、融合标题和正文中的信息并进行特征的提取:
将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:
f(xi)=WTσ(W1Sei+b1)+b
其中,WT,W1,b1
Figure FDA0003901468940000025
σ(.)表示激活函数;为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
F=sigmod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
其中
Figure FDA0003901468940000026
o表示融合标题和正文的句子级特征信息,V表示标题和正文的词级特征信息;
Step3.4、提取文档上下文特征信息:
采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵;利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互;
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征y来判断跨境民族文化数据类别;
y=soft max(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
2.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建:
将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;
Step1.2、跨境民族实体属性定义:
跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;
Step1.3、跨境民族关系属性定义:
将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。
3.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step2的具体步骤为:
Step2.1、通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;
Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
4.融合领域知识图谱的跨境民族文本分类装置,其特征在于:包括用于执行如权利要求1-3任一项权利要求所述方法的模块。
CN202111069481.8A 2021-09-13 2021-09-13 融合领域知识图谱的跨境民族文本分类方法及装置 Active CN113901228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111069481.8A CN113901228B (zh) 2021-09-13 2021-09-13 融合领域知识图谱的跨境民族文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111069481.8A CN113901228B (zh) 2021-09-13 2021-09-13 融合领域知识图谱的跨境民族文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN113901228A CN113901228A (zh) 2022-01-07
CN113901228B true CN113901228B (zh) 2022-12-13

Family

ID=79027907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111069481.8A Active CN113901228B (zh) 2021-09-13 2021-09-13 融合领域知识图谱的跨境民族文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN113901228B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580445B (zh) * 2022-03-10 2023-03-10 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114970537B (zh) * 2022-06-27 2024-04-23 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
JP2021125182A (ja) * 2020-02-10 2021-08-30 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置、グラフデータのデータ構造及びグラフデータの生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241295B (zh) * 2020-01-03 2022-05-03 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021125182A (ja) * 2020-02-10 2021-08-30 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置、グラフデータのデータ構造及びグラフデータの生成方法
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"融合领域知识图谱的跨境民族文化分类";毛存礼等;《小型微型计算机系统》;20200506;第1-8页 *

Also Published As

Publication number Publication date
CN113901228A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
Chen et al. Research on text sentiment analysis based on CNNs and SVM
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN113901228B (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
Xiao et al. DAA: Dual LSTMs with adaptive attention for image captioning
CN113672693B (zh) 基于知识图谱和标签关联的在线问答平台的标签推荐方法
CN113283234B (zh) 一种基于胶囊网络的情感分类方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Pan et al. Deep neural network-based classification model for Sentiment Analysis
CN114091450A (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
Ding et al. Context-aware semantic type identification for relational attributes
Long et al. Cross-domain personalized image captioning
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
Zhu et al. Causality extraction model based on two-stage GCN
Ly et al. An End-to-End Local Attention Based Model for Table Recognition
CN115878800A (zh) 一种融合共现图和依赖关系图的双图神经网络及其构建方法
CN116089644A (zh) 一种融合多模态特征的事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant