CN109684482A - 一种基于深度神经网络模型的民族文化资源聚类分析方法 - Google Patents

一种基于深度神经网络模型的民族文化资源聚类分析方法 Download PDF

Info

Publication number
CN109684482A
CN109684482A CN201910042745.7A CN201910042745A CN109684482A CN 109684482 A CN109684482 A CN 109684482A CN 201910042745 A CN201910042745 A CN 201910042745A CN 109684482 A CN109684482 A CN 109684482A
Authority
CN
China
Prior art keywords
ethnic
cultural
text
resources
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910042745.7A
Other languages
English (en)
Inventor
唐明靖
王俊
张姝
唐麟
张亚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Normal University
Original Assignee
Yunnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Normal University filed Critical Yunnan Normal University
Priority to CN201910042745.7A priority Critical patent/CN109684482A/zh
Publication of CN109684482A publication Critical patent/CN109684482A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法,属于民族文化资源挖掘技术领域。首先利用分布式网络爬虫技术获取民族文化资源文本数据,然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,再基于K‑means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。本发明采用无监督训练方法,能揭示民族文化资源文本蕴含的语义信息,便于识别民族文化资源文本间的类别关系,为海量民族文化资源的采集、存储和智能化服务提供技术支持。

Description

一种基于深度神经网络模型的民族文化资源聚类分析方法
技术领域
本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法,属于民族文化资源挖掘技术领域。
背景技术
随着社会发展的现代化和国际化程度越来越高,少数民族传统文化的保护与传承面临危机。借助信息技术实现少数民族文化的数字化、共享和传播,成为了少数民族文化保护、传承和开发利用的重要手段。目前,少数民族文化数字化及主要传播手段是各类少数民族文化网站,由于多样性、分散性、群体封闭性等特点,这类民族文化网站的民族文化资源内容相对分散,呈非结构化特征,难以被发现、应用和集成利用。同时,不同的网站和平台对少数民族文化的描述和理解存在不一致,导致民众对少数民族文化的理解和认识存在歧义或差异,不利于民族文化的传播和保护。利用分布式网络爬虫技术、自然语言处理技术、数据挖掘技术和机器学习算法对民族文化资源文本进行采集、解析处理和聚类分析,将有助于海量民族文化资源自动采集、识别和共享,更好地理解民族文化资源文本的深层语义,为民族文化资源智能化服务提供技术支持。
发明内容
本发明要解决的技术问题是提供一种基于深度神经网络模型的民族文化资源聚类分析方法,以民族文化资源文本数据为基础,增强海量民族文化资源的可识别性和可理解性,便于实现海量民族文化资源的智能化共享与推荐。
本发明的技术方案是:一种基于深度神经网络模型的民族文化资源聚类分析方法,首先利用分布式网络爬虫技术获取民族文化资源文本数据,然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,再基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
Step1、民族文化资源数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取海量的少数民族文化资源文本数据。
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、由于Step1获取的民族文化资源数据是带HTML标签的网页文本,需要对其去标签化、删除head和其它无关区域内容、标签转义等预处理操作,从而提取网页的正文内容。
Step2.2、对Step2.1步骤的输出结果(民族文化资源文本)去除介词、形容词和副词等含义较少的停用词,保留动词和名词等实体词汇;
Step2.3、将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。
Step3、民族文化资源向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed BagofWords Model(DBOW)分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤可以得到民族文化资源向量矩阵。n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数。
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差,表示聚类效果的优劣。
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而可以画出k值与SSE值的关系图(手肘形状),选取图中肘部对应的k值作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
本发明的有益效果是:本发明所采用的构建文本向量方法(doc2vec),是基于深度神经网络的无简单文本向量训练方法,根据向量空间余弦距离进行向量间的主题相似度计算,能有效降低向量空间维度、提高训练效率,适合进行海量民族资源文本挖掘;所采用的K-means聚类算法和基于肘部法则的最优聚类簇数k值选定方法,有效解决了K-means聚类算法聚类簇数无法确定的问题;通过以上步骤实现了民族文化资源间的区别与关联,揭示了民族文化资源的深层语义,为海量民族文化资源挖掘和智能化服务提供了支持。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于深度神经网络模型的民族文化资源聚类分析方法,首先利用分布式网络爬虫技术获取民族文化资源文本数据,其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
具体步骤为:
Step1、民族文化资源文本数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取民族文化资源文本数据;
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、对Step1获取的民族文化资源数据进行预处理,包括去标签化、删除head和其它无关区域内容、标签转义,从而提取文本的正文内容,得到民族文化资源文本;
Step2.2、对Step2.1步骤得到的民族文化资源文本进行去除停用词操作,保留实体词,停用词包括介词、形容词和副词,实体词包括动词和名词;
Step2.3、将经过Step2.2步骤的处理后的民族文化资源文本进行中文分词;
Step3、民族文化资源向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed Bag of WordsModel(DBOW)分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果,即民族文化资源文本特征向量归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤得到民族文化资源向量矩阵,n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数;
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差和表示聚类效果的优劣;
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而画出k值与SSE值手肘形状的关系图,选取图中肘部对应的k值作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
实施例1:如图1所示,一种基于深度神经网络模型的民族文化资源聚类分析方法,本实施例分别从中国非物质文化遗产名录数据库系统(http://folkw.com)、国家民委(http://www.seac.gov.cn)、中国民族宗教网(http://www.mzb.com.cn)和云南少数民族网(http://www.yn21st.com)等民族文化专题网站爬取民族文化资源,共获得6232个民族文化资源网页文本。具体过程包括:民族文化资源数据爬取(Step1),民族文化资源文本预处理(Step2),民族文化资源文本向量化(Step3),民族文化资源文本聚类(Step4),根据聚类结果识别和发现民族文化资源文本间的深层语义和关联关系(Step5)。
所述民族文化资源聚类分析方法的具体步骤如下(具体程序实现采用Python语言):
Step1、民族文化资源数据爬取;
在OpenStack环境下,利用虚拟化技术,创建5台虚拟机,其中一台为Master节点,其余4台为Slave节点。在每个Slave节点安装爬虫模块Scrapy,实现资源爬取主体功能;在Master节点安装Redis数据库,实现多个分布式爬虫的url队列管理和维护。
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、调用Python语言的HTML文档解析库BeautifulSoup,对Step1步骤获取的民族文化资源数据进行去标签化、删除head和其它无关区域内容、标签转义等预处理操作,从而提取网页的正文内容;
Step2.2、调用Python语言的自然语言处理工具NLTK模块,去除介词、形容词和副词和含义较少的停用词,保留动词和名词等实体词汇;
Step2.3、调用Python语言的中文分词库jieba,将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。
Step3、民族文化资源文本向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、载入Python的gensim库,通过调用深度神经网络模型Doc2vec库接口,构建文本向量训练模型,对民族文化资源文本进行模型训练和特征提取;
Step3.2、将Step3.1步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间;
Step3.3、经过Step3.1-Step3.2步骤后,得到民族文化资源文本向量矩阵,简单示意如下:
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤10次,具体步骤为:
Step4.1、载入Python的sklearn库,获取聚类簇数k值(每循环一次k值增1),调用K-means聚类算法接口对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
利用公式(1)计算计算每次聚类过程的误差平方和SSE值,并记录当前k值和SSE值;
Step4.3、经过10次循环执行Step4.1-Step4.2步骤后,得到10个k值和SSE值,画出k值与SSE值的关系图(手肘形状),选取关系图中肘部对应的k值点作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,并对聚类结果进行PCA降维后调用Python的MATLAB包matplotlib,对聚类效果进行可视化分析。通过分析,分类簇数k值为8时,聚类效果最佳。至此,实现了把6232个民族文化资源网页文本通过无监督学习自动映射到8个资源类别簇,其中一个民族文化资源类别最多包含了1632个民族文化资源文本,最少包含了487个民族文化资源文本。从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于深度神经网络模型的民族文化资源聚类分析方法,其特征在于:首先利用分布式网络爬虫技术获取民族文化资源文本数据,其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
2.根据权利要求1所述的基于深度神经网络模型的民族文化资源聚类分析方法,其特征在于具体步骤为:
Step1、民族文化资源文本数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取民族文化资源文本数据;
Step2、民族文化资源预处理;
Step2.1、对Step1获取的民族文化资源数据进行预处理,包括去标签化、删除head和其它无关区域内容、标签转义,从而提取文本的正文内容,得到民族文化资源文本;
Step2.2、对Step2.1步骤得到的民族文化资源文本进行去除停用词操作,保留实体词,停用词包括介词、形容词和副词,实体词包括动词和名词;
Step2.3、将经过Step2.2步骤的处理后的民族文化资源文本进行中文分词;
Step3、民族文化资源向量化;
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed Bag of Words Model分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果,即民族文化资源文本特征向量归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤得到民族文化资源向量矩阵,n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数;
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差和表示聚类效果的优劣;
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而画出k值与SSE值的关系图,选取图中肘部对应的k值作为最近聚类簇数;
Step5、最后得到基于主题相似度的民族文化资源聚类结果。
CN201910042745.7A 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法 Pending CN109684482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910042745.7A CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042745.7A CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Publications (1)

Publication Number Publication Date
CN109684482A true CN109684482A (zh) 2019-04-26

Family

ID=66193379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042745.7A Pending CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Country Status (1)

Country Link
CN (1) CN109684482A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310048A (zh) * 2020-02-25 2020-06-19 西安电子科技大学 基于多层感知机的新闻推荐方法
CN111382283A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 资源类别标签标注方法、装置、计算机设备和存储介质
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113704782A (zh) * 2021-08-18 2021-11-26 吉林建筑大学 一种基于区块链技术的非物质文化遗产数字化保护与验证技术
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统
CN115982314A (zh) * 2022-12-01 2023-04-18 浪潮通信信息系统有限公司 一种基于事件日志的软件开发活动聚类分析方法及系统
CN118656698A (zh) * 2024-06-07 2024-09-17 东南大学 一种多元历史文化资源的分类方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘辉、李光杰: "《软件重构技术研究》", 30 April 2016 *
小歪与大白兔: "kmeans最优k值的确定方法-手肘法和轮廓系数法", 《简书 HTTPS://WWW.JIANSHU.COM/P/335B376174D4》 *
范春晓: "《Web数据分析关键技术及解决方案》", 31 August 2017 *
贾晓婷: "基于深度学习的中文文档自动摘要方法研究", 《中国学位论文全文数据库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310048A (zh) * 2020-02-25 2020-06-19 西安电子科技大学 基于多层感知机的新闻推荐方法
CN111382283A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 资源类别标签标注方法、装置、计算机设备和存储介质
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113010643B (zh) * 2021-03-22 2023-07-21 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113704782A (zh) * 2021-08-18 2021-11-26 吉林建筑大学 一种基于区块链技术的非物质文化遗产数字化保护与验证技术
CN115982314A (zh) * 2022-12-01 2023-04-18 浪潮通信信息系统有限公司 一种基于事件日志的软件开发活动聚类分析方法及系统
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统
CN115841110B (zh) * 2022-12-05 2023-08-11 武汉理工大学 一种获取科学知识发现的方法及系统
CN118656698A (zh) * 2024-06-07 2024-09-17 东南大学 一种多元历史文化资源的分类方法及设备
CN118656698B (zh) * 2024-06-07 2025-03-21 东南大学 一种多元历史文化资源的分类方法及设备

Similar Documents

Publication Publication Date Title
CN109684482A (zh) 一种基于深度神经网络模型的民族文化资源聚类分析方法
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN111813950B (zh) 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN101751438B (zh) 自适应语义驱动的主题网页过滤系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN109960730B (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
CN106599041A (zh) 基于大数据平台的文本处理及检索系统
CN105404619B (zh) 一种基于相似度的语义Web服务聚类标注方法
CN116361801B (zh) 基于应用程序接口语义信息的恶意软件检测方法及系统
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN111090811B (zh) 一种海量新闻热点话题提取方法和系统
CN119558307B (zh) 一种基于深度学习模型的创建结构化文档的方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN116431816B (zh) 一种文献分类方法、装置、设备和计算机可读存储介质
CN114328812A (zh) 一种基于文本聚类的社区居民事件识别方法及装置
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN116049434A (zh) 电力施工安全知识图谱的构建方法、装置及电子设备
WO2025066156A1 (zh) 一种解释多组黑盒人工智能模型之间的公共交互效用的方法和系统
CN119599821B (zh) 一种基于ai增强的电网业务智能审计方法及系统
Yang et al. News topic detection based on capsule semantic graph
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN109753581A (zh) 图像处理方法、装置、电子设备和存储介质
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426

RJ01 Rejection of invention patent application after publication