CN112364996A - 基于数字人文的环境考古信息可视化构建方法及装置 - Google Patents

基于数字人文的环境考古信息可视化构建方法及装置 Download PDF

Info

Publication number
CN112364996A
CN112364996A CN202011312813.6A CN202011312813A CN112364996A CN 112364996 A CN112364996 A CN 112364996A CN 202011312813 A CN202011312813 A CN 202011312813A CN 112364996 A CN112364996 A CN 112364996A
Authority
CN
China
Prior art keywords
data
information
environmental
archaeological
archaeology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011312813.6A
Other languages
English (en)
Inventor
林海涛
王庆久
袁晓庆
袁敏
孙畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuxi Normal University
Original Assignee
Yuxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuxi Normal University filed Critical Yuxi Normal University
Priority to CN202011312813.6A priority Critical patent/CN112364996A/zh
Publication of CN112364996A publication Critical patent/CN112364996A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及信息可视化环境考古数字文本挖掘领域,尤其是一种基于数字人文的环境考古信息可视化构建方法及装置,其方法包括如下步骤:从多个不同数据来源分别获取与环境考古相关的信息数据;对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据。本发明所提出的基于数字人文的环境考古信息可视化构建方法及装置可以实现对与环境考古相关的信息数据进行定量研究,并在可视化分析基础上进行定性分析。

Description

基于数字人文的环境考古信息可视化构建方法及装置
技术领域
本发明涉及信息可视化环境考古数字文本挖掘领域,尤其涉及一种基于数字人文的环境考古信息可视化构建方法及装置。
背景技术
环境考古是环境科学与考古学相结合的产物。环境考古的概念于20世纪30年代提出,60年代形成为一门学科。该学科与第四纪地质学、古动物学、古植物学、物候学、土壤学、古气候学等关系密切。包括地质考古学、考古动物学、考古植物学等内容。环境考古的研究对象,包括人类形成以来整个第四纪时期同人类有关的环境问题;研究的重点为新石器时代及历史时代初期,人类文化与自然环境间的关系。随着环境考古的发展和技术手段的完善,许多重大考古学课题的解决,都有赖于环境考古学的支持。
因此,对与环境考古相关的信息数据的分析处理及可视化就显得十分重要。在现有技术中,已有的CITESPACE、VOSVIEW等程序仅可对文本数据进行可视化展示,并不具有数据批量清洗的功能,也不能够对国家社会科学基金数据库的数据进行处理分析。
发明内容
鉴于上述现有技术的不足,本申请的目的在于提供一种基于数字人文的环境考古信息可视化构建方法及装置,旨在解决现有技术中的问题。
本发明的第一方面提出了一种基于数字人文的环境考古信息可视化构建方法,包括如下步骤:从多个不同数据来源分别获取与环境考古相关的信息数据;对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据。本发明所提出的基于数字人文的环境考古信息可视化构建方法可以实现对与环境考古相关的信息数据进行定量研究,并在可视化分析基础上进行定性分析。
可选地,所述从多个不同数据来源分别获取与环境考古相关的信息数据包括:从直接相关数据来源获取与环境考古相关的第一类信息数据,以及从非直接相关数据来源获取与环境考古相关的第二类信息数据。保证了与环境考古相关的信息数据采集的完整性。
可选地,所述对所述与环境考古相关的信息数据进行抽取分类包括:根据建立的环境考古信息来源词库,对所述与环境考古相关的信息数据进行抽取分类。一方面可以根据词库中的关键词进行信息数据的获取,另一方面也可以对冗余重复数据进行再过滤。
可选地,所述对所述与环境考古相关的信息数据进行抽取分类包括:对所述与环境考古相关的信息数据进行有效分析识别。
可选地,对所述与环境考古相关的信息数据进行有效分析识别包括:对所述与环境考古相关的信息数据执行缺失值处理、重复数据检测、异常数据处理、逻辑错误检测、不一致数据识别、相关性分析和数据变换的至少一项。进一步保证了信息数据的准确性。
可选地,所述对所述与环境考古相关的信息数据进行抽取分类包括:从所述与环境考古相关的信息数据中提取融合关系。为数据单元的整合提供依据及基础。
可选地,所述基于数字人文的环境考古信息可视化构建方法还包括:响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。通过新增人性化的设计可以使环境考古信息知识库数据更加准确和完善。
可选地,所述基于数字人文的环境考古信息可视化构建方法还包括:将所述数据单元中的数据进行清洗,以得清洗后的数据单元。
本发明的第二方面提出了一种基于数字人文的环境考古信息可视化构建装置,包括数据采集模块、数据抽取分类模块、数据清洗模块、知识融合模块和数字人文提升模块,所述数据采集模块从多个不同数据来源分别获取与环境考古相关的信息数据;所述数据抽取分类模块对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;所述数据清洗模块对所述多个数据单元进行清洗,以得清洗后的所述多个数据单元;所述知识融合模块将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据;所述数字人文提升模块响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。本发明所提出的基于数字人文的环境考古信息可视化构建装置可以实现对与环境考古相关的信息数据进行定量研究,并在可视化分析基础上进行定性分析。
本发明的第三方面提出了一种基于数字人文的环境考古信息可视化构建装置包括:处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本发明第一方面所涉及的基于数字人文的环境考古信息可视化构建方法的步骤。
附图说明
图1为基于数字人文的环境考古信息可视化构建方法流程图;
图2为基于数字人文的环境考古信息可视化构建装置示意图;
图3为基于数字人文的环境考古信息可视化构建装置示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。
下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的电路,软件或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。
现有方案的问题:在现有技术中,已有的程序仅可对文本数据进行可视化展示,并不具有数据批量清洗的功能,也不能够对国家社会科学基金数据库的数据进行处理分析。
基于此,本申请希望提供一种能够解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
请参照图1,本申请方案的详细阐述了一种基于数字人文的环境考古信息可视化构建方法,包括如下步骤:
S101,从多个不同数据来源分别获取与环境考古相关的信息数据。在本实施例中,可以通过网络爬虫脚本程序,按照设计、调用程序自动联网抓取公开的、半公开的网站数据。所述多个不同数据来源包括直接相关数据来源和非直接相关数据来源。可选地,所述直接相关数据来源主要包括但不限于WOS、CNKI和国家社科基金网站;其中WOS又包括SCI(Science Citation Index)、SSCI(Social Sciences Citation Index)和A&HCI(Arts&Humanities Citation Index);所述非直接相关数据来源主要包括但不限于互联网、网页、博客、报纸和各地博物馆等。
在一个实施例中,所述与环境考古相关的信息数据包括从直接相关数据来源获取的与环境考古相关的第一类信息数据,以及从非直接相关数据来源获取的与环境考古相关的第二类信息数据。其中,所述第一类信息数据包括WOS数据库中的自然科学、社会科学、艺术和人类学的论文、文献、专利、书籍、会议报告等内容,且其文本为英文内容;CNKI中国知网收录的硕士/博士论文、期刊论文、专利等,且其文本为中文内容;以及,国家社科基金网站的立项内容,且其文本为中文内容。其中,所述第二类信息数据包括来自于互联网、网页、博客、报纸和各地博物馆的第四纪及衍生环境信息数据等。
S102,对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元。在一个实施例中,对所述与环境考古相关的信息数据进行抽取分类主要是借助自然语言和合并归一等技术从所述第一类信息数据和所述第二类信息数据得到多个数据单元,所述数据单元可以包括文本信息、检索信息和研究案例等;更进一步地,在每个所述数据单元中还可以包括从所述环境考古相关的信息数据中提取的结构相关信息。
其中,对所述与环境考古相关的信息数据进行抽取分类还包括建立环境考古信息来源词库。更进一步地,环境考古信息来源词库主要是通过COOC(一款筛选软件)来实现文本分词,通过将无效格式数据和空白数据进行自动过滤提高了第四纪及衍生环境信息(与环境考古相关的信息数据)的准确性,实现较好的分词效果。此外,还可以采用商业的与环境考古领域相关的数据库,并结合相关网站公开的数据链接内容,进而建立环境考古信息来源词库。环境考古信息来源词库中包括大量领域专业术语和名词,又为分词方法提供了具有针对性的词库支撑,在分词阶段可获得大量有效的环境参数名称,极大地减少了在数据处理过程中的无意义计算量,同时能为环境数据中相似计算统计提供更多参考。另一方面,建立环境考古信息来源词库的目的是为了在今后使用网络爬虫时有针对性的更新,例如在一个可选的实施例中,环境考古信息来源词库里面有关键词“滇国、环境沉积物、滇池、石寨山”,网络爬虫可以根据这些关键词进行自动公开数据来源爬取,但这些内容中有很多重复的部分,在环境考古信息来源词库中就可以使用“滇国+环境沉积物+石寨山”的组合进行有效再过滤。
其中,对所述与环境考古相关的信息数据进行抽取分类还包括:对所述与环境考古相关的信息数据进行有效分析识别。由于来自于CNKI、WOS、国家社科基金网站数据库等大型综合性数据库的数据大多已经经过统一的处理,但数据的质量和维度各不相同。需要从①缺失值处理②重复数据检测③异常数据处理④逻辑错误检测⑥不一致数据识别⑦相关性分析(剔除信息数据中与问题不相关的冗余属性)⑧数据变换(标准化、归一化、线性化等)八个方面选取合适质量及维度的数据,再针对每个所选维度的数据,根据实际情况制定评估方案,并选择合适的评估手段进行评估,最后合并所有测量评估结果得到最终的结果:即每个变量各占一列;每个观测值各占一行;每个表格或者文件只储存一种观测值的数据。在一个实施例中,可以使用C语言编程执行:设置参数①(.data):原始数据集;②(.variables):按照某个或几个变量对数据集进行分割;③(.fun):选取具体执行操作的函数,对分割后的每一个子数据集,调用该函数④设置其他可选参数,主要函数有:%>%(管道符,可进行多步操作),filter(筛选行),select(筛选列),arrange(序),group_by(分组),mutate(变形,增加新的列),summarise(汇总),length(对列进行调整)。
其中,对所述与环境考古相关的信息数据进行抽取分类还包括:从所述与环境考古相关的信息数据中提取融合关系。在一个实施例中,由于是从不同数据来源中获取与环境考古相关的信息数据,而这些数据是不同格式不同语言的,内容涉及环境考古中人类学、地貌学、动物考古、植物考古、冶金考古等不同学科,因此需要将内容分类归于人类学、地貌学、动物考古、植物考古、冶金考古或者其他题目下。具体可以采用如下方式进行:①选择:select()②筛选:filter()③排序:arrange()④分组:group_by()⑤汇总:summarise()⑥变形:mutate()函数调用选择、列选择、统计汇总、窗口函数、数据框交集等数据处理包#1.按行筛选:filter(),按给定的逻辑判断筛选出符合要求的子数据集,#2.按列筛选:select(),用列名作参数来选择子数据集。#3.mutate变量变形:mutate(),对数据框中已有的变量进行操作或者增加变量。
S103,对所述多个数据单元进行清洗,以得清洗后的所述多个数据单元。主要是对抽取的数据单元中的数据执行:剔除无用的有害数据、删除缺失值、数据标准化、数据归一化操作。具体又包括缺失值清洗、格式统一、脏数据清洗三个步骤:其中缺失值清洗:确定缺失值范围来源,去除无效字段,以专业知识或经验积累去除缺失值,以不同指标计算结果验证去除合理性;格式统一:将时间、日期、数值、全半角不一致的数据统一处理成一致的格式;去除数据中存在的不规范字符串及无效数据;脏数据清洗:去除重复、不合理数据;修正矛盾内容;去除非需求数据。
S104,将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据。主要是将清理后的数据单元进行跨学科整合,通过将来自于不同数据来源的信息数据根据融合关系进行整合互补,融合得到一个或多个增益知识单元,进而形成完整的环境考古信息知识库数据,并根据所述环境考古信息知识库数据生成数字人文信息图谱。其中,数字人文是由计算人文和人文计算领域发展而来。以WOS、CNKI及国家社科基金网站为数据来源,运用前述方法,结合可视化分析工具,对数字人文研究文献进行统计分析和内容挖掘,分析数字人文研究的前沿和热点领域,明确演化路径和发展趋势。数字热点领域有:数字人文的基本理论,技术驱动下的人文学术实践转向,新合作模式引发的人文学术文化变革,以及面向数字人文研究的基础设施建设;数字人文研究的内涵计算转向,重构人文知识的脉络与内容,构建当代知识系统及认知方式;图书馆学的理论、方法及实践与数字人文研究形成协同发展趋势;技术结构包括数字计算、关联网络、数据统计、文本识别、主题分类、数学建模等。
S105,响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。首先,提供一可视化操作界面,对于已存储的数字人文信息图谱进行数据检索、查阅以及数据添加、删除等维护提升操作;主要包括检索、查看、添加、修改、删除五个步骤。
在一个实施例中,在执行数据检索时:通过在所述可视化操作界面输入关键词,即可进行数字人文信息图谱的查询与调用,以及对数字人文信息图谱来源、属性、链接信息可视化展示。在执行数据查看提取时:通过在数字人文信息图谱维护更新模块界面实现可视化图谱展示,具体展示其关联性、跃迁、互引、相关属性等信息。在执行数据添加更新时:通过数字人文信息图谱提升模块中添加更新功能,将数据来源新产生的数据融入已有的数字人文信息图谱中;在执行数据修改时:通过数字人文信息图谱提升模块中的修改功能,从数据来源获取的校正增益知识单元从数字人文信息图谱中修改。在执行数据删除时:通过数字人文信息图谱提升模块中删除功能,将早期数据从数字人文信息图谱中删除。
本发明采取定量和定性分析相结合的方法,运用文献共被引的聚类图谱和时间线图谱分析等方法对文献进行定量研究,并在可视化分析基础上进行定性分析。对所有采集到的文献主要信息进行处理,通过矩阵化、整合等处理,发现在大量文献中潜伏的规律和信息;信息可视化是将信息转化为图形的方式,将实现跨学整合地学考古、植物考古、动物考古和生物考古4个研究领域的研究热点和文献共被引网络的聚类结构分析。对特定领域文献进行计量,以探寻出学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测,通过多元、分时、动态的引文分析可视化技术所绘制的知识图谱,能够将一个知识领域来龙去脉的演进历程集中展现在一幅引文网络图谱上,并把图谱上作为知识基础的引文节点文献和共引聚类所表征的研究前沿自动标识出来,通过所绘制的知识图谱,能快速锁定相关领域的前沿与研究热点。
请参见图2,本申请方案的详细阐述了一种基于数字人文的环境考古信息可视化构建装置10包括数据采集模块11、数据抽取分类模块12、数据清洗模块13、知识融合模块14和数字人文提升模块15。其中所述数据采集模块11、所述数据抽取分类模块12、所述数据清洗模块13、所述知识融合模块14和所述数字人文提升模块15彼此耦合。所述数据采集模块11用于执行步骤S201从多个不同数据来源分别获取与环境考古相关的信息数据;所述数据抽取分类模块12用于执行步骤S202对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;所述数据清洗模块13用于执行步骤S203对所述多个数据单元进行清洗,以得清洗后的所述多个数据单元;所述知识融合模块14用于执行步骤S204将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据;所述数字人文提升模块15用于执行步骤S205响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。需要进行说明的是,本实施例中所涉及到的步骤S201至步骤S205的其他详细说明及有益效果,与本发明基于数字人文的环境考古信息可视化构建方法的相关实施例中的步骤101至步骤S105基本类似,此处为了行文简洁就不再进行赘述。
请参见图3,本申请方案的详细阐述了一种基于数字人文的环境考古信息可视化构建装置,包括输入设备41、处理器42、存储器43和输出设备44,所述处理器42、输入设备41、输出设备44和存储器43通过通信总线40相互连接,所述存储器43用于存储计算机程序,所述计算机程序包括程序指令,所述处理器42被配置用于调用所述程序指令;进一步地,所述处理器42被配置用于调用所述程序指令执行所述执行如本发明基于数字人文的环境考古信息可视化构建方法的实施例的步骤。关于基于数字人文的环境考古信息可视化构建方法的具体说明及有益效果,请参见前文所述在此就不再累述。
应当理解,在本发明实施例中,所称存储器43可以包括只读存储器和随机存取存储器,并向处理器42提供指令和数据。存储器43的一部分还可以包括非易失性随机存取存储器。例如,存储器43还可以存储有设备类型的相关信息。
处理器42用于运行或执行被存储在内部存储器43中的操作系统,各种软件程序,以及自身的指令集,并用于处理来自于触摸式输入装置或自其它外部输入途径接收到的数据和指令,以实现各种功能。处理器42可以包括但不限于中央处理器、通用图像处理器、微处理器、数字信号处理器、现场可编程逻辑门阵列,应用专用集成电路中的一种或多种。在一些实施例中,处理器42和存储器控制器104可在单个芯片上实现。在一些其他实施方案中,它们可分别在彼此独立的芯片上实现。
输入设备41可以是摄像头等,摄像头又称为电脑相机、电脑眼以及电子眼等,是一种视频驶入设备,以及数字键盘或机械键盘等触摸式输入装置;所述输出设备44可以包括显示器等。
本发明的又一个实施例示出的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述基于数字人文的环境考古信息可视化构建方法。
其中,所述计算机可读存储介质可包括缓存、高速随机存取存储器,例如常见的双倍数据率同步动态随机存取内存,并且还可包括非易失性存储器,诸如一个或多个只读存储器、磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备例如光盘,软盘或数据磁带等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.基于数字人文的环境考古信息可视化构建方法,其特征在于,包括如下步骤:
从多个不同数据来源分别获取与环境考古相关的信息数据;
对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;
将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据。
2.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述从多个不同数据来源分别获取与环境考古相关的信息数据包括:从直接相关数据来源获取与环境考古相关的第一类信息数据,以及从非直接相关数据来源获取与环境考古相关的第二类信息数据。
3.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述对所述与环境考古相关的信息数据进行抽取分类包括:根据建立的环境考古信息来源词库,对所述与环境考古相关的信息数据进行抽取分类。
4.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述对所述与环境考古相关的信息数据进行抽取分类包括:对所述与环境考古相关的信息数据进行有效分析识别。
5.根据权利要求4所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,对所述与环境考古相关的信息数据进行有效分析识别包括:对所述与环境考古相关的信息数据执行缺失值处理、重复数据检测、异常数据处理、逻辑错误检测、不一致数据识别、相关性分析和数据变换的至少一项。
6.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述对所述与环境考古相关的信息数据进行抽取分类包括:从所述与环境考古相关的信息数据中提取融合关系。
7.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述基于数字人文的环境考古信息可视化构建方法还包括:响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。
8.根据权利要求1所述的基于数字人文的环境考古信息可视化构建方法,其特征在于,所述基于数字人文的环境考古信息可视化构建方法还包括:将所述数据单元中的数据进行清洗,以得清洗后的数据单元。
9.基于数字人文的环境考古信息可视化构建装置,包括数据采集模块、数据抽取分类模块、数据清洗模块、知识融合模块和数字人文提升模块,其特征在于:
所述数据采集模块从多个不同数据来源分别获取与环境考古相关的信息数据;
所述数据抽取分类模块对所述与环境考古相关的信息数据进行抽取分类,得到含有一种或多种数据的多个数据单元;
所述数据清洗模块对所述多个数据单元进行清洗,以得清洗后的所述多个数据单元;
所述知识融合模块将清洗后的所述多个数据单元进行整合,以得完整的环境考古信息知识库数据;
所述数字人文提升模块响应于用户指令,并根据所述用户指令对所述环境考古信息知识库数据执行检索、查看、添加、修改和删除的至少一项。
10.基于数字人文的环境考古信息可视化构建装置,其特征在于,包括:处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8中任一项所述的基于数字人文的环境考古信息可视化构建方法的步骤。
CN202011312813.6A 2020-11-20 2020-11-20 基于数字人文的环境考古信息可视化构建方法及装置 Pending CN112364996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011312813.6A CN112364996A (zh) 2020-11-20 2020-11-20 基于数字人文的环境考古信息可视化构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011312813.6A CN112364996A (zh) 2020-11-20 2020-11-20 基于数字人文的环境考古信息可视化构建方法及装置

Publications (1)

Publication Number Publication Date
CN112364996A true CN112364996A (zh) 2021-02-12

Family

ID=74533062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011312813.6A Pending CN112364996A (zh) 2020-11-20 2020-11-20 基于数字人文的环境考古信息可视化构建方法及装置

Country Status (1)

Country Link
CN (1) CN112364996A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066481A (zh) * 2016-12-21 2017-08-18 浙江大学 基于WebGIS的考古地球物理数据可视化平台的构建方法
CN109657068A (zh) * 2018-11-30 2019-04-19 北京航空航天大学 面向智慧博物馆的文物知识图谱生成与可视化方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066481A (zh) * 2016-12-21 2017-08-18 浙江大学 基于WebGIS的考古地球物理数据可视化平台的构建方法
CN109657068A (zh) * 2018-11-30 2019-04-19 北京航空航天大学 面向智慧博物馆的文物知识图谱生成与可视化方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张昱杰: "考古数据信息提取和分析技术的研究与应用", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》 *
方积乾: "《医学统计学手册》", 31 May 2018 *

Similar Documents

Publication Publication Date Title
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN109446341A (zh) 知识图谱的构建方法及装置
WO2021175009A1 (zh) 预警事件图谱的构建方法、装置、设备及存储介质
Samoilenko et al. Analysing timelines of national histories across Wikipedia editions: A comparative computational approach
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN114969467A (zh) 数据分析分类方法、装置、计算机设备及存储介质
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN114201598B (zh) 文本推荐方法及文本推荐装置
CN113990489A (zh) 一种中医药临床证候诊疗智能数据处理和分析挖掘系统
Bianchi et al. Exploring the potentialities of automatic extraction of university webometric information
CN112151186A (zh) 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统
CN112364996A (zh) 基于数字人文的环境考古信息可视化构建方法及装置
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
CN114530259A (zh) 一种病理知识库构建方法及系统
JP6775740B1 (ja) 設計支援装置、設計支援方法及び設計支援プログラム
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
AT&T
TWI684950B (zh) 物種數據解析方法、系統及電腦程式產品
Diamantini et al. An integrated system for social information discovery
Van den Bosch et al. Making a clean sweep of cultural heritage
Guan et al. An open dataset for the evolution of oracle bone characters: EVOBC
AU2021104693A4 (en) An approach and device and system for extracting diseases and causes in medical texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication