CN113901228B - 融合领域知识图谱的跨境民族文本分类方法及装置 - Google Patents
融合领域知识图谱的跨境民族文本分类方法及装置 Download PDFInfo
- Publication number
- CN113901228B CN113901228B CN202111069481.8A CN202111069481A CN113901228B CN 113901228 B CN113901228 B CN 113901228B CN 202111069481 A CN202111069481 A CN 202111069481A CN 113901228 B CN113901228 B CN 113901228B
- Authority
- CN
- China
- Prior art keywords
- cross
- border
- culture
- text
- national
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 108
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 235000005911 diet Nutrition 0.000 claims description 12
- 230000037213 diet Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 210000002784 stomach Anatomy 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 235000019991 rice wine Nutrition 0.000 description 2
- 235000021460 special beverage Nutrition 0.000 description 2
- 235000015096 spirit Nutrition 0.000 description 2
- 235000014101 wine Nutrition 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。本发明提出了一种融合领域知识图谱的跨境民族文本分类方法,主要包括跨境民族文化知识图谱构建、跨境民族文本数据预处理、融合领域知识图谱的跨境民族文本分类模型训练、跨境民族文化类别预测等四个部分构成。本发明实现了对跨境民族文本数据的文化类别分类,解决了跨境民族文本数据中存在的分类问题,具有重要的理论和实际运用价值。
Description
技术领域
本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。
背景技术
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,传统的机器学习文本分类方法通常采用不同类型的机器学习算法作为算法分类器,并结合特征工程进行分类,然而存在难以捕获跨境民族文本深层含义和依赖人工提取跨境民族特征等问题。基于深度学习的分类方法是当今的主流方法,但大部分基于通用领域的相关研究,跨境民族文本分类任务属于特定领域分类问题,目前基于此领域的研究相对较少,针对跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
本发明主要考虑融合领域知识图谱的跨境民族文本分类方法,在Yang等人提出的分层注意力文本分类方法上进行了改进,并借鉴Shen等人、Bordes等人的思想将外部知识信息与文本有效的结合起来辅助正文分类。
发明内容
本发明提供了一种融合领域知识图谱的跨境民族文本分类方法,以用于解决跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
本发明的技术方案是:第一方面,提供一种基于融合领域知识图谱的跨境民族文本分类方法,所述方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念如:饮食、建筑、服饰等)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化。
Step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化”。
Step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句。
Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词。最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签为“掸族,跨境民族”,实体“关门节”的标签为“进洼,傣族节日文化”,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示[e傣族,e关门节],关系向量表示[r傣族节日]以及标签向量表示[l泰族,l跨境民族,l进洼,l傣族节日文化],最后把相应的实体向量和关系向量进行对位相加得到实体语义向量为:
E傣族=e关门节+r傣族节日+l泰族+l跨境民族,E关门节=e傣族+r傣族节日+l进洼+l傣族节日文化。
最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、实现对标题的词级语义特征的提取。故本发明提出采用人工构建的跨境民族文化词库辅助分词缓解普通的分词工具分词效果不佳的问题。使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码。
hi=BiGRU(xi),i∈[1,N]
将得到的跨境民族文化文本隐状态信息hi输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息。
f(hi,hj)=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij1
Step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取。由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量wjk,k∈[1,N],例如文本:“泼水节是傣族最隆重的节日。”首先得到正文的向量表示为[w泼水节,w是,w傣族,w最,w降重,w的,w节日],提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[E傣族,E泼水节]。之后,通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合方式为:Ai=wjk+Ei,即:[w泼水节+E泼水节,w是,w傣族+E傣族,w最,w隆重,w的,w节日]。然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示为:C=[c1,c2,c3,...,cl],j∈[1,M],最后,将正文和标题的特征向量进行融合。
V=[T,C]
Step3.3、融合标题和正文中的信息并进行特征的提取。将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:
f(xi)=WTσ(W1Sei+b1)+b
F=sig mod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
Step3.4、提取文档上下文特征信息。采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵。利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互。
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征Y来判断跨境民族文化数据类别。
y=softmax(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
本发明的有益效果是:
1、利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。
2、有效利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,并把提取到的不同层次的特征信息结合到一起辅助分类,缓解了跨境民族文化类别交叉的问题,本发明取得更好的文本分类效果。
附图说明
图1为融合领域知识图谱的跨境民族文本分类网络架构图;
图2为融合领域知识图谱的跨境民族文本分类装置示意图;
图3为通过设置不同的Dropout_rate参数进行实验以找到最适合本发明模型的数的示意图。
具体实施方式
实施例1:如图1-图3所示,第一方面,提供融合领域知识图谱的跨境民族文本分类方法,所述融合领域知识图谱的跨境民族文本分类方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念包括:饮食、建筑、服饰、习俗、艺术、宗教)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化,文本“家神崇拜及其祭祀仪式家神,傣语称作“披很”。”属于傣族宗教文化,具体如表1所示:
表1跨境民族文化类别划分
Step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化,傣族饮品文化”,具体如表2所示。
表2跨境民族实体属性定义
Step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。跨境民族实体关系的建立使得跨境民族文化知识图谱可视化性能、查询性能得到有效加强。具体如表4所示。
表3跨境民族实体关系举例
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,其中跨境民族文本数据的标注如表4所示:
表4跨境民族文化文本数据样例
Step2.2、首先,将跨境民族文化文本数据进行分句处理,之后对每个句子进行分词,采用跨境民族文化词库辅助分词。然后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,包含四个跨境民族(傣族、泰族、彝族、倮倮族),文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
Step2.3、跨境民族文化识图谱的特征表示为:利用知识图谱表示学习方法将跨境民族文化知识图谱中三元组的实体和关系表示在同一个向量空间中。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。首先,分别对头实体、尾实体、关系进行标记处理。头实体的标记为(傣族,0),尾实体的标记为(关门节,1)和关系的标记为(傣族节日,0)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签记为(掸族,0_0)和(跨境民族,0_1);实体“关门节”的标签记为(进洼,1_0)和(傣族节日文化,1_1)。之后,将实体向量、关系向量、标签向量以及训练数据随机初始化后输入到TransE模型中进行训练,最终得到实体的向量表示[e傣族,e关门节],关系向量表示[r傣族节日]以及标签向量(包含别称和类别标签)为[l泰族,l跨境民族,l进洼,l傣族节日文化],再把相应的实体向量和关系向量进行对位相加得到实体语义向量为:E傣族=e关门节+r傣族节日+l泰族+l跨境民族,E关门节=e傣族+r傣族节日+l进洼+l傣族节日文化。最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
知识图谱表示学习方法定义的损失函数具体如下:
L=∑(h,r,t)∈S(h′,r,t′)∈S′(h,r,t)∑[γ+((h+lh)+γ-(t+lt))2-((h′+lh′)+γ-(t′+lt′))2]+
其中S表示正确的跨境民族文化知识三元组;S′表示随机构造的负样例,构造方法为随机将正确的跨境民族文化知识三元组中的实体和关系替换为其他的元素;lh′和lt′表示随机构造的头实体和尾实体标签;γ是大于0的间隔距离参数;[.]+表示正值函数,当[.]>0时,[.]+=[.],当[.]<0时[.]+=0。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、对标题信息的编码,是通过人工构建的跨境民族文化词库来辅助分词,使用预训练模型对现有的跨境民族文化数据训练得到词向量,并利用跨境民族词向量获得标题中每个词wi,i∈[1,N]的嵌入表征xi∈R100。其中N代表标题中词的个数,100表示词向量维度。
采用双向循环神经网络获得标题的词级表示。采用双向循环神经网络包含从前向GRU获得标题中x1到xN的隐藏向量表示和后向GRU获得xN到x1的隐藏向量表示。具体操作如下:
hi=BiGRU(xi),i∈[1,N]
对标题的特征信息提取,是通过掩码自注意力机制来获得。首先,为标题中的每个词计算对齐分数。接着进行归一化计算概率分布,值较大说明标题中的某个词贡献了重要的信息。具体如下所示:
f(hi,hj)bw=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij bw1
其中是与输入h维度相同的向量。表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中通常设置c=5,用来减少参数的数量。Mij1中1代表全是1的向量,Mij代表编码时序信息的掩码矩阵。为了获得双向的注意力分数,分别采用前向的掩码矩阵和反向的掩码矩阵掩码矩阵的具体表示如下:
Fbw=sig mod(W(f1)sbw+W(f2)h+bf)
tbw=Fbw·h+(1-Fbw)sbw
t=[tbw||tfw]∈R2de
Step3.2、对正文信息的向量表示为:首先将正文按句号分为多个句子Jj,j∈[1,M],其中M代表句子的个数。采用分词处理得到词向量wjk,k∈[1,N],其中N代表句子的长度。通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合过程如下所示:
Ai=wjk+Ei
其中Ei的维度和wjk一致,Ei表示通过知识图谱表示表征过的实体语义特征信息。例如文本:“泼水节是傣族最隆重的节日”。首先提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[E傣族,E泼水节]。之后根据跨境民族词向量得到正文的向量表示[w泼水节,w是,w傣族,w最,w隆重,w的,w节日],最后将文本向量与查找得到的实体语义向量进行融合可得到
[w泼水节+E泼水节,w是,w傣族+E傣族,w最,w隆重,w的,w节日]。
使用双向门控循环单元进行编码得到正文隐向量hi,采用掩码自注意力网络进行正文句子特征提取,得到正文词级特征向量表示为:C=[c1,c2,c3,...,cl],j∈[1,M],之后将正文和标题的特征向量进行融合。
V=[T,C]
Step3.3、融合标题和正文中的信息并进行特征的提取,通过将融合了标题和正文的文本特征矩阵输入到掩码自注意力机制获得前向的特征矩阵和后向的特征矩阵通过融合得到特征矩阵其中“||”表示连接操作。之后将Sei作为输入采用Sorce2Token网络进行句子间特征的提取。与Step3.1中注意力特征提取所不同的是,下列公式探索的是词向量Sei与整个文档Se的依赖关系,具体如下所示:
f(xi)=WTσ(W1Sei+b1)+b
其中,WT,W1,b1,σ(.)表示激活函数。之后通过SoftMax函数进行归一化确定权重,概率矩阵被定义为输出计算方式为为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
F=sig mod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
Step3.4、跨境民族文本全局特征的提取,是通过采用双向循环神经网络获得全局信息的上下文编码矩阵。与Step4.1中词向量特征编码不同的是前者将标题和正文分别进行特征的提取,后者对标题和正文信息联合后的全局特征提取,后者对标题和正文之间的交互更加关注,具体如下所示:
Hi=BiGRU(ri)
ui=tanh(WuHi+bw)
Ui=aiHi
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征Y来判断跨境民族文化数据类别。
y=softmax(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
模型训练数据集主要包括4个跨境民族(傣族、泰族(泰国)、彝族、倮倮族(越南)),共选取39450条数据作为训练集,2144条数据作为测试集。其中每个类别的数据的数量为1000~1500条。其中标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,跨境民族文化数据选取的类别如表5所示,其中NA表示文本不属于任何一个类型:
表5数据集类别设置
采用gensim工具包的word2vec模型训练词向量,词向量的维度为100维。采用Adam算法作为加快模型训练速度的优化器;学习率设为0.02;模型中为防止过拟合,在特征提取层中将丢失率(dropout)设置为0.5。本发明的评价指标主要采用准确率(Acc.)、精确率(P)、召回(R)和F1值。
本发明采用6个基线模型和本发明模型在仅正文,标题联合正文两种情况下进行训练。具体如表6所示:
(1)DPCNN:Johnson等人提出的一种新型的CNN结构,具有提取远程关系特征及复杂度不高的特点。
(2)FastText:快速文本,使用NCE损失来提升softmax计算,提高了训练速度。
(3)TextCNN:Kim等人提出的面向文本分类的卷积神经网络,具有更好捕捉局部特征的特点。
(4)TextRCNN:Lai等人提出的使用一个双向递归网络层和一个池化层来提取文本特征信息,再通过一个全连接层进行分类。具有减少噪声,捕获关键单词信息的特点。
(5)Bert:Google发布的语言表示模型,采用12层的Transformer,相对rnn更加高效、能捕捉更长距离的依赖,相比于其他的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
(6)HAN:Yang等人提出的用于文档集分类的分层注意力网络,在英文文本分类中取得了不错的效果。
表6本发明方法与基线模型方法的对比
值得注意的是,基线模型和本发明模型在标题联合正文的实验结果均高于仅正文输入的实验结果。此外,在仅正文的情况下,本发明方法的Acc值为81.2%,F1值为72.6%,仅超过基线模型HAN,本发明方法在标题联合正文的情况下Acc.、P、R、F1值都相对较高,平均增加了11.87%,该实验结果证明了本发明方法提出的融合领域知识图谱的跨境民族文本分类方法的有效性。
表7为各部分特征有效性的实验结果对比。
表7消融实验
由表7可知,在删掉模型中的某一层时,本发明方法的Acc.、P、R和F1值均有所下降。分别在“(-)融合标题和正文的特征提取层”和“(-)上下文特征融合层”两种情况下,实验结果的Acc.、P、R和F1值略微下降,由此证明了“融合标题和正文的特征提取层”在文本中捕捉句间关系的能力以及“上下文特征融合层”整合上下文特征信息的优势,在模型中起到了关键的作用。特别的,“(-)masked-self-attention(词级)”中Acc.、P、R、F1值下降最为明显,分别下降了17.1%、14.7%、18.9%和18.7%。这种现象的出现表明了针对跨境民族文化的语义环境复杂问题,采用简单的注意力机制无法关注到上下文特征。
此外,在“(-)TransE”情况下,实验删去了对正文内容进行跨境民族实体语义的增强,实验结果显示Acc.、P、R、F1值均有所下降,但相比于基线模型,本发明提出的模型在不使用实体语义增强的情况下仍然具有较好的性能,此现象有效的证明了本发明提出的方法在特征提取方面的优势以及跨境民族文化知识图谱的融入能够增强实体语义这一论证。
表8为领域分词对模型的性能影响实验结果对比。
表8领域分词对实验结果的影响
通过表8可以得到在跨境民族文化文本分类任务中采用领域分词具有明显的效果。相对于直接使用jieba分词的分类效果较为逊色,这是因为,跨境民族文本数据中存在大量的专业名词,单纯的采用jieba分词往往达不到理想的效果。
图3通过设置不同的Dropout_rate参数进行实验以找到最适合本发明模型的数。
由图3中可以看出,当Dropout_rate=0.7时模型性能最低,原因是Dropout_rate设置的过高时,模型学习到的特征信息较少,使得模型性能明显降低。当Dropout_rate=0.1时,模型学习到的信息量较大,导致模型出现过拟合现象。综上,将Dropout_rate设置为0.5。
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
具体可以包括如下模块:
跨境民族文化知识图谱构建模块:用于通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;
跨境民族文本数据预处理模块:用于采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;
融合领域知识图谱的跨境民族文本分类模型训练模块:用于对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
在一种可行的实施方式中,所述跨境民族文化知识图谱构建模块,具体用于:
跨境民族文化知识图谱类别体系构建:
将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;
跨境民族实体属性定义:
跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;
跨境民族关系属性定义:
将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。
在一种可行的实施方式中,所述跨境民族文本数据预处理模块,具体用于:
通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;
首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
跨境民族文化实体语义扩展:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
第三方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括如下模块:
跨境民族文本数据预处理模块:用于将文本数据进行过滤、筛选、去除停用词、特殊符号等操作后输入模型。
融合领域知识图谱的跨境民族文本分类模型模块:用于将文本中的正文进行实体语义的扩展后同标题信息进行联合,把提取到的词级和句子级特征信息结合到一起,进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
跨境民族文化类别预测部署模块:具体用于:将融合领域知识图谱的跨境民族文本分类模型进行保存,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过Flask技术将模型部署为一个API接口,进而实现Web端口多并发请求的功能;最后,在Web端通调用部署到服务器端的文本分类模型,通过输入一段文本来预测跨境民族文化类别,将得到的预测结果展示到前端界面。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述方法的具体步骤如下:
Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;
Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;
Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;
Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测;
所述Step3的具体步骤为:
Step3.1、使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码;
hi=BiGRU(xi),i∈[1,N]
将得到的跨境民族文化文本隐状态信息hi输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息;
f(hi,hj)=c·tanh([W(1)hi+W(2)hj+b]/c)+Mij1
Step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取:
由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量,提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量,之后,通过实体在文本中的位置将向量对位相加得到文本的词向量,然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示,最后,将正文和标题的特征向量进行融合;
Step3.3、融合标题和正文中的信息并进行特征的提取:
将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:
f(xi)=WTσ(W1Sei+b1)+b
F=sigmod(W(f1)o+W(f2)V+bf)
r=F·V+(1-F)o
Step3.4、提取文档上下文特征信息:
采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵;利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互;
Step3.5、从网络层输出的跨境民族文本特征中提取最显著特征y来判断跨境民族文化数据类别;
y=soft max(WiUi)
最终得到的y表示跨境民族文化类别的概率分布,Wi∈R4de×L表示可训练的权重向量,其中L表示划分的跨境民族文化类别数。
2.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step1的具体步骤为:
Step1.1、跨境民族文化知识图谱类别体系构建:
将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;
Step1.2、跨境民族实体属性定义:
跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;
Step1.3、跨境民族关系属性定义:
将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。
3.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step2的具体步骤为:
Step2.1、通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;
Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
4.融合领域知识图谱的跨境民族文本分类装置,其特征在于:包括用于执行如权利要求1-3任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069481.8A CN113901228B (zh) | 2021-09-13 | 2021-09-13 | 融合领域知识图谱的跨境民族文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069481.8A CN113901228B (zh) | 2021-09-13 | 2021-09-13 | 融合领域知识图谱的跨境民族文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901228A CN113901228A (zh) | 2022-01-07 |
CN113901228B true CN113901228B (zh) | 2022-12-13 |
Family
ID=79027907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111069481.8A Active CN113901228B (zh) | 2021-09-13 | 2021-09-13 | 融合领域知识图谱的跨境民族文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901228B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580445B (zh) * | 2022-03-10 | 2023-03-10 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN114970537B (zh) * | 2022-06-27 | 2024-04-23 | 昆明理工大学 | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 |
CN118656712A (zh) * | 2024-08-20 | 2024-09-17 | 克拉玛依龙达家宁配售电有限公司 | 基于云平台和大数据的电力数据管理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111581981A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法 |
JP2021125182A (ja) * | 2020-02-10 | 2021-08-30 | 富士通株式会社 | 情報処理プログラム、情報処理方法、情報処理装置、グラフデータのデータ構造及びグラフデータの生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241295B (zh) * | 2020-01-03 | 2022-05-03 | 浙江大学 | 基于语义句法交互网络的知识图谱关系数据抽取方法 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
-
2021
- 2021-09-13 CN CN202111069481.8A patent/CN113901228B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021125182A (ja) * | 2020-02-10 | 2021-08-30 | 富士通株式会社 | 情報処理プログラム、情報処理方法、情報処理装置、グラフデータのデータ構造及びグラフデータの生成方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111581981A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法 |
Non-Patent Citations (1)
Title |
---|
"融合领域知识图谱的跨境民族文化分类";毛存礼等;《小型微型计算机系统》;20200506;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113901228A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN113901228B (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
Liu et al. | Combining attention-based bidirectional gated recurrent neural network and two-dimensional convolutional neural network for document-level sentiment classification | |
Chen et al. | Research on text sentiment analysis based on CNNs and SVM | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
Pan et al. | Deep neural network-based classification model for Sentiment Analysis | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN113283234A (zh) | 一种基于胶囊网络的情感分类方法 | |
CN113672693A (zh) | 基于知识图谱和标签关联的在线问答平台的标签推荐方法 | |
CN114091450A (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN116227594A (zh) | 面向多源数据的医疗行业高可信度知识图谱的构建方法 | |
Sun et al. | Rumour detection technology based on the BiGRU_capsule network | |
Ly et al. | An end-to-end local attention based model for table recognition | |
Zhu et al. | Causality extraction model based on two-stage GCN | |
He et al. | Reinforcement learning with external knowledge and two-stage q-functions for predicting popular reddit threads | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
Meng et al. | Regional bullying text recognition based on two-branch parallel neural networks | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
CN116089644A (zh) | 一种融合多模态特征的事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |