CN109684482A - 一种基于深度神经网络模型的民族文化资源聚类分析方法 - Google Patents

一种基于深度神经网络模型的民族文化资源聚类分析方法 Download PDF

Info

Publication number
CN109684482A
CN109684482A CN201910042745.7A CN201910042745A CN109684482A CN 109684482 A CN109684482 A CN 109684482A CN 201910042745 A CN201910042745 A CN 201910042745A CN 109684482 A CN109684482 A CN 109684482A
Authority
CN
China
Prior art keywords
national culture
text
clustering
culture resource
national
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910042745.7A
Other languages
English (en)
Inventor
唐明靖
王俊
张姝
唐麟
张亚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Normal University
Original Assignee
Yunnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Normal University filed Critical Yunnan Normal University
Priority to CN201910042745.7A priority Critical patent/CN109684482A/zh
Publication of CN109684482A publication Critical patent/CN109684482A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法,属于民族文化资源挖掘技术领域。首先利用分布式网络爬虫技术获取民族文化资源文本数据,然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,再基于K‑means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。本发明采用无监督训练方法,能揭示民族文化资源文本蕴含的语义信息,便于识别民族文化资源文本间的类别关系,为海量民族文化资源的采集、存储和智能化服务提供技术支持。

Description

一种基于深度神经网络模型的民族文化资源聚类分析方法
技术领域
本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法,属于民族文化资源挖掘技术领域。
背景技术
随着社会发展的现代化和国际化程度越来越高,少数民族传统文化的保护与传承面临危机。借助信息技术实现少数民族文化的数字化、共享和传播,成为了少数民族文化保护、传承和开发利用的重要手段。目前,少数民族文化数字化及主要传播手段是各类少数民族文化网站,由于多样性、分散性、群体封闭性等特点,这类民族文化网站的民族文化资源内容相对分散,呈非结构化特征,难以被发现、应用和集成利用。同时,不同的网站和平台对少数民族文化的描述和理解存在不一致,导致民众对少数民族文化的理解和认识存在歧义或差异,不利于民族文化的传播和保护。利用分布式网络爬虫技术、自然语言处理技术、数据挖掘技术和机器学习算法对民族文化资源文本进行采集、解析处理和聚类分析,将有助于海量民族文化资源自动采集、识别和共享,更好地理解民族文化资源文本的深层语义,为民族文化资源智能化服务提供技术支持。
发明内容
本发明要解决的技术问题是提供一种基于深度神经网络模型的民族文化资源聚类分析方法,以民族文化资源文本数据为基础,增强海量民族文化资源的可识别性和可理解性,便于实现海量民族文化资源的智能化共享与推荐。
本发明的技术方案是:一种基于深度神经网络模型的民族文化资源聚类分析方法,首先利用分布式网络爬虫技术获取民族文化资源文本数据,然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,再基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
Step1、民族文化资源数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取海量的少数民族文化资源文本数据。
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、由于Step1获取的民族文化资源数据是带HTML标签的网页文本,需要对其去标签化、删除head和其它无关区域内容、标签转义等预处理操作,从而提取网页的正文内容。
Step2.2、对Step2.1步骤的输出结果(民族文化资源文本)去除介词、形容词和副词等含义较少的停用词,保留动词和名词等实体词汇;
Step2.3、将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。
Step3、民族文化资源向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed BagofWords Model(DBOW)分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤可以得到民族文化资源向量矩阵。n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数。
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差,表示聚类效果的优劣。
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而可以画出k值与SSE值的关系图(手肘形状),选取图中肘部对应的k值作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
本发明的有益效果是:本发明所采用的构建文本向量方法(doc2vec),是基于深度神经网络的无简单文本向量训练方法,根据向量空间余弦距离进行向量间的主题相似度计算,能有效降低向量空间维度、提高训练效率,适合进行海量民族资源文本挖掘;所采用的K-means聚类算法和基于肘部法则的最优聚类簇数k值选定方法,有效解决了K-means聚类算法聚类簇数无法确定的问题;通过以上步骤实现了民族文化资源间的区别与关联,揭示了民族文化资源的深层语义,为海量民族文化资源挖掘和智能化服务提供了支持。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于深度神经网络模型的民族文化资源聚类分析方法,首先利用分布式网络爬虫技术获取民族文化资源文本数据,其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
具体步骤为:
Step1、民族文化资源文本数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取民族文化资源文本数据;
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、对Step1获取的民族文化资源数据进行预处理,包括去标签化、删除head和其它无关区域内容、标签转义,从而提取文本的正文内容,得到民族文化资源文本;
Step2.2、对Step2.1步骤得到的民族文化资源文本进行去除停用词操作,保留实体词,停用词包括介词、形容词和副词,实体词包括动词和名词;
Step2.3、将经过Step2.2步骤的处理后的民族文化资源文本进行中文分词;
Step3、民族文化资源向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed Bag of WordsModel(DBOW)分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果,即民族文化资源文本特征向量归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤得到民族文化资源向量矩阵,n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数;
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差和表示聚类效果的优劣;
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而画出k值与SSE值手肘形状的关系图,选取图中肘部对应的k值作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
实施例1:如图1所示,一种基于深度神经网络模型的民族文化资源聚类分析方法,本实施例分别从中国非物质文化遗产名录数据库系统(http://folkw.com)、国家民委(http://www.seac.gov.cn)、中国民族宗教网(http://www.mzb.com.cn)和云南少数民族网(http://www.yn21st.com)等民族文化专题网站爬取民族文化资源,共获得6232个民族文化资源网页文本。具体过程包括:民族文化资源数据爬取(Step1),民族文化资源文本预处理(Step2),民族文化资源文本向量化(Step3),民族文化资源文本聚类(Step4),根据聚类结果识别和发现民族文化资源文本间的深层语义和关联关系(Step5)。
所述民族文化资源聚类分析方法的具体步骤如下(具体程序实现采用Python语言):
Step1、民族文化资源数据爬取;
在OpenStack环境下,利用虚拟化技术,创建5台虚拟机,其中一台为Master节点,其余4台为Slave节点。在每个Slave节点安装爬虫模块Scrapy,实现资源爬取主体功能;在Master节点安装Redis数据库,实现多个分布式爬虫的url队列管理和维护。
Step2、民族文化资源预处理;
在完成民族文化资源数据的爬取后,需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为:
Step2.1、调用Python语言的HTML文档解析库BeautifulSoup,对Step1步骤获取的民族文化资源数据进行去标签化、删除head和其它无关区域内容、标签转义等预处理操作,从而提取网页的正文内容;
Step2.2、调用Python语言的自然语言处理工具NLTK模块,去除介词、形容词和副词和含义较少的停用词,保留动词和名词等实体词汇;
Step2.3、调用Python语言的中文分词库jieba,将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。
Step3、民族文化资源文本向量化;
在完成民族文化资源文本预处理后,为了进行文本间相似度的度量,进而实现民族文化资源聚类,需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为:
Step3.1、载入Python的gensim库,通过调用深度神经网络模型Doc2vec库接口,构建文本向量训练模型,对民族文化资源文本进行模型训练和特征提取;
Step3.2、将Step3.1步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间;
Step3.3、经过Step3.1-Step3.2步骤后,得到民族文化资源文本向量矩阵,简单示意如下:
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤10次,具体步骤为:
Step4.1、载入Python的sklearn库,获取聚类簇数k值(每循环一次k值增1),调用K-means聚类算法接口对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE(sum of the squared errors);
利用公式(1)计算计算每次聚类过程的误差平方和SSE值,并记录当前k值和SSE值;
Step4.3、经过10次循环执行Step4.1-Step4.2步骤后,得到10个k值和SSE值,画出k值与SSE值的关系图(手肘形状),选取关系图中肘部对应的k值点作为最近聚类簇数;
Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果,并对聚类结果进行PCA降维后调用Python的MATLAB包matplotlib,对聚类效果进行可视化分析。通过分析,分类簇数k值为8时,聚类效果最佳。至此,实现了把6232个民族文化资源网页文本通过无监督学习自动映射到8个资源类别簇,其中一个民族文化资源类别最多包含了1632个民族文化资源文本,最少包含了487个民族文化资源文本。从而识别和发现民族文化资源文本间的深层语义和关联关系,进而为海量民族文化资源挖掘提供支持。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于深度神经网络模型的民族文化资源聚类分析方法,其特征在于:首先利用分布式网络爬虫技术获取民族文化资源文本数据,其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理,并基于doc2vec实现民族文化资源文本的特征词提取和向量化,然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类,并利用肘部法则方法确定最优聚类簇数,最终获得民族文化资源文本关联关系。
2.根据权利要求1所述的基于深度神经网络模型的民族文化资源聚类分析方法,其特征在于具体步骤为:
Step1、民族文化资源文本数据爬取;
通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取民族文化资源文本数据;
Step2、民族文化资源预处理;
Step2.1、对Step1获取的民族文化资源数据进行预处理,包括去标签化、删除head和其它无关区域内容、标签转义,从而提取文本的正文内容,得到民族文化资源文本;
Step2.2、对Step2.1步骤得到的民族文化资源文本进行去除停用词操作,保留实体词,停用词包括介词、形容词和副词,实体词包括动词和名词;
Step2.3、将经过Step2.2步骤的处理后的民族文化资源文本进行中文分词;
Step3、民族文化资源向量化;
Step3.1、基于深度神经网络模型Doc2vec,构建Distributed Bag of Words Model分布式词袋模型,针对民族文化资源文本进行模型训练和特征提取;
Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量;
Step3.3、将Step3.2步骤的输出结果,即民族文化资源文本特征向量归一化到[0,1]区间;
Step3.4、执行n次Step3.1-Step3.3步骤得到民族文化资源向量矩阵,n为民族文化资源文本个数,通过向量化后得到如下民族文化资源矩阵:
其中,m为民族文化资源文本的特征词个数;
Step4、民族文化资源聚类;
通过Step3步骤完成民族文化资源文本向量化后,可以得到每个文本对应的特征向量,从而可以通过聚类算法对文本间的主题相似性进行度量,实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果,可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1,循环执行Step4.1-Step4.2步骤m次,具体步骤为:
Step4.1、获取聚类簇数k值,每循环一次k值增1,调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类;
Step4.2、计算误差平方和SSE
计算并记录每次聚类过程的误差平方和SSE值,对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算:
其中,Ci为第i个簇,p为Ci簇中的样本点,mi为Ci簇的所有样本的均值,则SSE表示所有样本的聚类误差和表示聚类效果的优劣;
Step4.3、经过m次循环执行Step4.1-Step4.2步骤后,得到m个k值和SSE值,从而画出k值与SSE值的关系图,选取图中肘部对应的k值作为最近聚类簇数;
Step5、最后得到基于主题相似度的民族文化资源聚类结果。
CN201910042745.7A 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法 Pending CN109684482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910042745.7A CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042745.7A CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Publications (1)

Publication Number Publication Date
CN109684482A true CN109684482A (zh) 2019-04-26

Family

ID=66193379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042745.7A Pending CN109684482A (zh) 2019-01-17 2019-01-17 一种基于深度神经网络模型的民族文化资源聚类分析方法

Country Status (1)

Country Link
CN (1) CN109684482A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310048A (zh) * 2020-02-25 2020-06-19 西安电子科技大学 基于多层感知机的新闻推荐方法
CN111382283A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 资源类别标签标注方法、装置、计算机设备和存储介质
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113704782A (zh) * 2021-08-18 2021-11-26 吉林建筑大学 一种基于区块链技术的非物质文化遗产数字化保护与验证技术
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘辉、李光杰: "《软件重构技术研究》", 30 April 2016 *
小歪与大白兔: "kmeans最优k值的确定方法-手肘法和轮廓系数法", 《简书 HTTPS://WWW.JIANSHU.COM/P/335B376174D4》 *
范春晓: "《Web数据分析关键技术及解决方案》", 31 August 2017 *
贾晓婷: "基于深度学习的中文文档自动摘要方法研究", 《中国学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310048A (zh) * 2020-02-25 2020-06-19 西安电子科技大学 基于多层感知机的新闻推荐方法
CN111382283A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 资源类别标签标注方法、装置、计算机设备和存储介质
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113010643B (zh) * 2021-03-22 2023-07-21 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113704782A (zh) * 2021-08-18 2021-11-26 吉林建筑大学 一种基于区块链技术的非物质文化遗产数字化保护与验证技术
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统
CN115841110B (zh) * 2022-12-05 2023-08-11 武汉理工大学 一种获取科学知识发现的方法及系统

Similar Documents

Publication Publication Date Title
CN109684482A (zh) 一种基于深度神经网络模型的民族文化资源聚类分析方法
Selvakuberan et al. Feature selection for web page classification
KR20200017575A (ko) 유사 특허 검색 서비스 시스템 및 방법
US20170344822A1 (en) Semantic representation of the content of an image
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN106919652A (zh) 基于多源多视角直推式学习的短视频自动标注方法与系统
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Kolla et al. data engineered content extraction studies for Indian web pages
CN114997288A (zh) 一种设计资源关联方法
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
Jiang et al. A Chinese expert disambiguation method based on semi-supervised graph clustering
Kumar et al. Web 2.0 social bookmark selection for tag clustering
Mandal et al. Improving it support by enhancing incident management process with multi-modal analysis
CN115982359A (zh) 一种文件的功效词提取聚合方法、系统、终端及介质
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
Pu et al. A vision-based approach for deep web form extraction
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN116861226A (zh) 一种数据处理的方法以及相关装置
Sisodia et al. Agglomerative similarity measure based automated clustering of scholarly articles
US10331732B1 (en) Information searching system
CN118410805B (zh) 基于关系图卷积神经网络的中文作者姓名消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426