CN118445406A

CN118445406A - 一种基于海量多态丝路遗产信息的整合系统

Info

Publication number: CN118445406A
Application number: CN202410529327.1A
Authority: CN
Inventors: 朱添田; 杨寒淋; 孙浩飞; 张成名; 周娅鹃
Original assignee: CHINA NATIONAL SILK MUSEUM; Zhejiang University of Technology ZJUT
Current assignee: CHINA NATIONAL SILK MUSEUM; Zhejiang University of Technology ZJUT
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-08-06

Abstract

本发明涉及人工智能与丝路遗产领域数据处理技术领域，公开了一种基于海量多态丝路遗产信息的整合系统，包括数据采集模块、数据标准化与重组模块、数据分类与清洗模块和知识图谱构建与可视化模块，运用多线程并行采集技术，通过预设站点和动态关键词的方式采集丝路遗产相关的网络文献，提取网络文献中的核心数据，利用预设的分类体系对核心数据进行筛选；利用自然语言处理技术和k均值聚类方法，系统对采集的数据进行分类和清洗；对数据分类与清洗模块输出的关键句构建知识图谱，可视化展示知识图谱。本发明具备高效的数据采集、信息挖掘和数据清洗能力，同时能够提供多角度、多维度的数据分析和展示功能，满足不同领域、不同层次用户的需求。

Description

一种基于海量多态丝路遗产信息的整合系统

技术领域

本发明涉及人工智能与丝路遗产领域数据处理技术领域，具体涉及一种基于海量多态丝路遗产信息的整合系统。

背景技术

丝绸之路作为文化交流的重要纽带，在商品贸易、技术传播、艺术交融、宗教影响等方面的东西方交流中发挥着关键作用，深入挖掘和传承丝路文化遗产具有极大的促进意义。然而，当前丝路文化遗产数据呈现海量多态的特点，表现为数据广泛分布、语言多样繁杂，使得传统研究手段难以处理丝路文化遗产的海量数据。

要全面细致地统计和分析丝路文化遗产数据，目前面临以下挑战：首先是数据采集方面，由于数据来源和格式的多样性，导致数据采集效率和覆盖面都受到严重挑战；其次是信息搜集和挖掘，面对庞大且多样的数据集合，手动提取文章语义并进行分类显得不切实际，因此，我们需要借助智能化技术来实现自动标引、文摘提取以及分类整理；数据清洗是最终环节，冗余信息的存在不仅削弱了数据分析的精确度和效率，还掺杂了与丝路遗产不相关的内容，这无疑加大了去除噪声的复杂性。

如今，随着数字技术和人工智能技术的迭代进步，利用大数据挖掘、文本分析、机器学习等方法对丝路文化遗产进行智能化研究，不仅极大地提升了我们对丝路文化遗产的认知深度，也为我们开启了全新的研究视角。

针对以上问题，如何设计和实现一套高效的基于海量多态丝路遗产信息的整合系统成为了当下迫切需要解决的研究问题。这样的系统需要具备高效的数据采集、信息挖掘和数据清洗能力，同时能够提供多角度、多维度的数据分析和展示功能，满足不同领域、不同层次用户的需求。

发明内容

本发明的目的在于提供一种基于海量多态丝路遗产信息的整合系统，具备高效的数据采集、信息挖掘和数据清洗能力，同时能够提供多角度、多维度的数据分析和展示功能，满足不同领域、不同层次用户的需求。

为实现上述目的，本发明所采取的技术方案为：

一种基于海量多态丝路遗产信息的整合系统，所述基于海量多态丝路遗产信息的整合系统，包括：

数据采集模块，用于运用多线程并行采集技术，通过预设站点和动态关键词的方式采集丝路遗产相关的网络文献，并提取网络文献中的核心数据，利用预设的分类体系对核心数据进行筛选；

数据标准化与重组模块，用于获取筛选后的文本数据，对文本数据预处理后进行命名实体识别，删除识别出的命名实体中高频的语法功能词和低频词汇，对保留的命名实体加工后作为候选词汇，将候选词汇输入BERT模型计算权重，并选取权重大于阈值的候选词汇作为关键词，根据关键词的权重计算句子的权重，并根据句子的权重筛选关键句；

数据分类与清洗模块，用于采用随机森林算法基于关键句确定每一网络文献的类别，采用k均值聚类方法对关键句进行聚类，根据聚类结果计算类别相同的网络文献之间的相似度，仅保留相似度低于预设临界值的两篇网络文献中为预设版本的网络文献中的关键句，并对k均值聚类方法得到的离群点进行二次分析，根据二次分析结果删除离群点对应的关键句；

知识图谱构建与可视化模块，用于根据所述数据分类与清洗模块输出的关键句构建知识图谱，并可视化展示知识图谱。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述通过预设站点和动态关键词的方式采集丝路遗产相关的网络文献，执行如下操作：

获取与丝路遗产高度相关的网站作为预设站点，并为每一预设站点设置优先级；

设置静态关键词；

获取用户输入作为动态关键词，基于静态关键词和动态关键词生成一个或多个搜索关键词；

判断搜索关键词是否历史存在，若历史存在则获取该搜索关键词的历史权重作为本次搜索的初始权重；否则采用BERT模型计算搜索关键词的初始权重；

采用权重调整策略调整搜索关键词的初始权重，得到实际权重，并用实际权重更新对应搜索关键词的历史权重；

将搜索关键词在预设站点中进行搜索，并按照预设站点的优先级更高且搜索关键词的实际权重更高的顺序对搜索结果进行排序，获取排序中预设数量的数据作为数据采集结果，数据采集结果为丝路遗产相关的网络文献。

作为优选，所述基于静态关键词和动态关键词生成一个或多个搜索关键词，包括：

对动态关键词进行分词操作；

将静态关键词和分词操作的输出输入至LDA主题模型中，得到LDA主题模型输出的搜索关键词。

作为优选，所述权重调整策略，包括：

若搜索关键词的历史搜索次数大于阶梯阈值，则递增提高该搜索关键词的初始权重；

或者，若搜索关键词为特定词汇或短语，则降低该搜索关键词的初始权重；

或者，若用户的操作行为与搜索关键词的相关度高于阶梯阈值，则递增提高该搜索关键词的初始权重。

作为优选，所述基于海量多态丝路遗产信息的整合系统包含多个服务器，运行多线程并行采集技术时，利用资源调度算法分配服务器资源。

作为优选，所述预设的分类体系包括不同的层级以及每一层级中不同的维度，所述层级表达了网络文献的不同属性，而维度表达了每一属性不同的属性值。

作为优选，所述对保留的命名实体加工后作为候选词汇，执行如下步骤：

对于命名实体中的英文词汇，去除英文词汇的前缀和后缀，将每个英文词汇还原到其词根形式；

对于命名实体中的中文词汇，对中文词汇进行词性标注。

作为优选，所述根据关键词的权重计算句子的权重，执行如下操作：

根据句子在网络文献中所处位置为句子赋值位置权重；

对句子进行分词操作，并为分词操作输出的词汇计算在对应网络文献中的重要性，根据重要性为各词汇赋值第一权重；

对句子所在网络文献的标题进行分词操作，并对句子中出现在标题中的词汇赋值第二权重；

对句子中的词汇进行指示词匹配，对成功匹配的词汇赋值第三权重；

对句子中为关键词的词汇赋值该关键词对应的权重作为第四权重；

累加第一权重、第二权重、第三权重和第四权重作为句子中词汇的最终权重，并将句子中所有词汇的最终权重累加得到句子的词特征权重；

累加句子的位置权重和词特征权重作为句子最终的权重。

作为优选，所述根据聚类结果计算类别相同的网络文献之间的相似度，执行如下操作：

取两篇待计算相似度的类别相同的网络文献；

根据聚类结果得到两篇网络文献之间任意两个关键句之间的距离作为两个关键句之间相似度，计算所有关键句之间的相似度作为两篇文献之间的相似度。

作为优选，所述知识图谱构建与可视化模块采用动态语义映射框架构建知识图谱，所述动态语义映射框架维护一个三层次知识图谱以及运行一个更新机制；

所述三层次知识图谱包含基础层、关系层和动态层，所述基础层包含关键句中的实体以及实体的属性，所述关系层包含实体之间的关系，所述动态层用于描述实体随时间变化的属性以及实体之间随时间变化的关系，所述动态层包含四类信息，分别为时间属性、事件描述、演化关系和时间线，所述时间属性记录了实体和关系的时间特征，所述事件描述记录了关系的相关属性，所述演化关系记录了实体随时间推移而发生的状态变化，所述时间线记录了根据时间属性创建的实体时间线和关系时间线；

所述更新机制为定期获取系统外部数据，并根据系统外部数据更新所述三层次知识图谱中的动态层。

本发明提供的一种基于海量多态丝路遗产信息的整合系统，与现有技术相比，具有以下有益效果：

1、通过文献知识整合引擎(LKIE)和多线程并行采集技术，系统能够高效、自动化地从多样化数据源中收集丝路遗产相关数据，并进行标准化处理，确保数据的一致性和可比性。2、利用自然语言处理(NLP)技术和k均值聚类方法，系统对采集的数据进行分类和清洗，去除冗余、错误和不完整的信息，提高数据质量，为后续分析和挖掘提供准确性。3、系统采用动态语义映射框架(DSMF)构建灵活易扩展的知识图谱，并通过图数据库如Neo4j存储和查询，以及图谱可视化技术，清晰展现丝路遗产文化领域的实体、属性和关系，支持深入分析和应用。

附图说明

图1为本发明的一种基于海量多态丝路遗产信息的整合系统的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

如图1所示，本实施例提供一种基于海量多态丝路遗产信息的整合系统，包括数据采集模块、数据标准化与重组模块、数据分类与清洗模块和知识图谱构建与可视化模块。

(1)数据采集模块，用于运用多线程并行采集技术，通过预设站点和动态关键词的方式采集丝路遗产相关的网络文献，并提取网络文献中的核心数据，利用预设的分类体系对核心数据进行筛选。

该模块通过构建文献知识整合引擎(LKIE)，利用网络爬虫技术，从各类数据库、博物馆、考古遗址等数据源中收集丝路遗产相关数据，理解其基本涵义。并运用多线程并行采集技术，实现对丝路遗产数据的快速、全面和准确的采集。

(1-1)构建文献知识整合引擎(LKIE)：在数据采集方面，本实施例提出了文献知识整合引擎(Literature Knowledge Integration Engine，简称LKIE)，LKIE是一款集成了网络数据采集、分析、存储和管理功能的系统。其独特之处在于通过预设站点和动态关键词的方式，不仅可以根据用户选择的关键词频率来动态调整关键词的权重，还能精准定向地采集各种形式的网络文献。

本实施例涉及的网络文献不仅包括国内外各大博物馆官方网站和丝路遗产相关网站的文本与图像信息，还涵盖了各大数据库中以PPT、PDF、Word等形式的多样化的文件类型。

预设站点是指在LKIE系统中利用互联网信息采集软件(如八爪鱼采集器等)，分析出与“丝路遗产”高度相关(相关度大于阈值)的网站(涵盖国内外)，并对这些网站进行统一资源定位器分析，建立起初始信息来源网站清单作为预设站点，用于定向采集相关文献信息，本实施例举例说明一部分初始信息来源网站清单如表1所示。

表1：相关网站站点信息

在确定预设站点之后，系统可以根据数据源的可靠性和权威性，设置不同预设站点的优先级。例如，官方博物馆网站的数据可能会被赋予更高的优先级，越高的优先级就意味着越高的权重，假如国家博物馆的优先级为五级，则一些地级市的博物馆的优先级将被设置为小于五级。

动态关键词与静态关键词(预先定义的关键词)不同，静态关键词是根据自己的需求在信息收集前定义的，例如，可以将“丝绸之路”设为静态关键词。动态关键词是根据用户输入在LKIE的搜索框中的内容进行动态调整。例如，LKIE系统会使用HTML解析库(如Beautiful Soup)来提取用户在搜索框中输入的关键词，将提取到的动态关键词与LKIE系统中静态关键词结合使用，来形成更具体的搜索关键词，利用搜索关键词在预设站点中采集丝路遗产相关的网络文献。

例如，设置静态关键词为“丝绸之路”，如果用户在LKIE的搜索框输入的动态关键词为“文化遗产在世界各地的分布有哪些”，则LKIE会将这个动态关键词与静态关键词“丝绸之路”结合，形成一个或多个具体的搜索关键词。具体结合操作如下：

首先对动态关键词进行分词操作，通过中文分词工具(如jieba分词工具等)来进行分词，识别出句子中的名词、动词、连词和介词等词性的短语，如“文化遗产”、“在”、“世界”、“各地”、“的”、“分布”和“有哪些”。之后采用LDA(Latent Dirichlet Allocation)主题模型根据句子和词的相关性来进行筛选与组合，词汇组合应该与用户查询的主题或意图高度相关，并在语境上完整、准确地表达用户的需求。LDA主题模型是一种无监督机器学习算法，用于发现文本数据中的主题。具体方法如下：

将静态关键词和分词操作的输出输入至训练好的LDA主题模型中，使用LDA主题模型推断出与静态关键词相关的主题。然后，从相关主题中选择与动态关键词相关的词语或短语，并去除一些没有含义的介词、连词等。最后，将筛选后的词语或短语与静态关键词组合起来，形成一个具体的搜索关键词，确保这些组合能够准确地表达用户的需求。在这个例子中，LDA主题模型会保留词汇如“文化遗产”、“世界”、“各地”和“分布”的词汇或短语，并形成更具体的搜索关键词组合，例如：“丝绸之路文化遗产分布”、“丝绸之路世界文化遗产”等搜索关键词。

然后对搜索关键词进行权重赋值，LKIE会记录所有时间或一段时间内形成的不同的搜索关键词、搜索关键词的历史搜索次数以及搜索关键词的历史权重。当本次搜索生成搜索关键词后，LKIE会先判断新生成的搜索关键词是否历史存在，若历史存在则获取该搜索关键词的历史权重作为本次搜索的初始权重；否则采用BERT模型计算搜索关键词的初始权重。

一旦网络文献被采集到，LKIE系统将展开数据分析的工作。利用内容分析法和文献计量法，深入理解文献的内容和主题，为后续的知识整合奠定坚实基础。

并在深入理解文献的内容和主题的基础上，LKIE系统会进行核心知识点的提取工作。本实施例采用结合主题的LDA(Latent Dirichlet Allocation)算法，该算法不仅可以提取出网络文献中的重要观点和数据，还能识别并摘取出关键性的时间和位置信息作为核心数据，之后运用预定义的分类体系，为用户提供高效的信息摘要服务。预设的分类体系包括不同的层级以及每一层级中不同的维度，层级表达了网络文献的不同属性，而维度表达了每一属性不同的属性值。

在文献知识整合引擎(LKIE)中，假设用户想要获取与丝绸之路文化遗产相关的文献信息，可以设计如下表2中的预定义的分类体系。

表2：预定义分类体系

表2中，对应于层级的主题、类型、来源、时间和质量为不同属性，而历史、地理、文化、经济等为对应主题这一属性的不同的属性值，其他属性值同理理解。

这样，用户可以根据自己的需求，从不同的层级和维度，选择和筛选出所需的文献信息，例如用户可以选择“历史-论文-博物馆-古代-权威”的分类，获取与丝绸之路历史相关的古代博物馆论文的权威信息。需要说明的是，针对利用LDA算法提取的核心数据，用户可以通过选择预定义分类体系中的分类规则进行一次或多次的数据筛选，最终得到筛选后的文本数据作为核心知识点。

最后，提取的核心知识点将被保存为JSON格式的原始数据，并转存至原始数据库中进行有效的存储和管理。用户可以通过简单的搜索操作快速访问和获取这些原始数据，为学术研究领域提供便捷且可靠的文献知识获取渠道。

(1-2)运用多线程并行采集技术：为了实现对丝路遗产数据的快速、全面和准确的采集，采用自动多线程并行采集技术，通过多线程的方式同时运行多个采集脚本，可以大大提高数据采集的效率和速度。

在采集过程中，系统会实时动态监控搜索关键词，采用权重调整策略调整搜索关键词的初始权重，得到实际权重，并用实际权重更新对应搜索关键词的历史权重，同时更新所记录的搜索关键词和搜索关键词的历史搜索次数。

本实施例中调整策略可以分为以下三种，LKIE可以根据需要灵活指定任意一种作为调整策略：

1)关键词权重调整：若搜索关键词的历史搜索次数大于阶梯阈值，则递增提高该搜索关键词的初始权重。系统可以根据用户对某些关键词的频繁选择，增加这些关键词的权重，以便更频繁地采集与这些关键词相关的内容。例如，“丝绸之路”原始权重为0.2，如果被频繁搜索，系统会递增提高该关键词的权重，设定为0.3、0.4等。

2)采集频率变化：若搜索关键词为特定词汇或短语，则降低该搜索关键词的初始权重。针对特定事件或热点话题，系统可能会临时增加或减少采集频率，以确保收集到最新和最相关的信息。例如，如果某年有重大事件发生，则这一年会有许多重复冗余的新闻报道，采集系统会降低关键词的权重，减少该类信息的采集数量。

3)反馈循环优化：若用户的操作行为与搜索关键词的相关度高于阶梯阈值，则递增提高该搜索关键词的初始权重。系统可以根据用户的操作行为，如点击率和停留时间，来优化采集策略。例如，如果用户经常点击“丝绸之路”相关文献链接，系统会增加“丝绸之路”关键词的权重，优先采集该类文献的数据。

通过对采集策略的调整，系统能够动态地根据用户需求和最新的数据情况进行调整，以确保采集到的信息与用户选择的搜索关键词尽可能匹配，从而提供更加准确和实时的数据支持。这样可以确保所需信息的全面采集，包括从互联网上的各种网站和专业数据库中获取相关数据。

对搜索关键词的权重调整完成后，将搜索关键词在预设站点中进行搜索，并按照预设站点的优先级更高且搜索关键词的实际权重更高的顺序对搜索结果进行排序，获取排序中预设数量的数据作为数据采集结果，数据采集结果为丝路遗产相关的网络文献。

多线程并行采集技术中，为了应对大规模数据采集的需求，本实施例采用“集群式蜘蛛”的方式对目标网站进行数据抓取。通过将多个“蜘蛛”同时部署在不同的服务器上，可以并行地进行大规模数据采集，提高采集速度和效率。“蜘蛛”是指一种用于数据采集的程序或工具，也被称为网络爬虫(web crawler)或网络蜘蛛。它们是一种自动化工具，能够模拟浏览器行为，访问网页并提取其中的数据。

此外，为了实现系统各个模块的独立性，本实施例将“集群式蜘蛛”和资源调度算法相结合，在利用“集群式蜘蛛”进行多线程并行采集的时候，同时利用资源调度算法合理分配服务器资源，实现对网络请求的优化和分发。资源调度算法如负载均衡算法，可以根据当前系统负载情况，合理分配服务器资源，以保证各个子系统的正常运行。假设有一个任务队列和多个服务器，每个服务器上运行着多个网络爬虫。采用负载均衡的资源调度算法会监控每个服务器的负载情况，并将新的采集任务分配给当前负载最低的服务器。例如，如果服务器A的负载较低，而服务器B和C的负载较高，则新的采集任务将被分配给服务器A上的网络爬虫。

通过这种结合，系统可以更高效地处理大量的数据采集任务，同时避免单个服务器过载，确保整个采集过程的稳定性和可靠性。这种方法适用于需要处理大规模数据采集的场景，如本发明的丝路遗产信息整合系统。

为了避免因系统故障或网络波动等原因导致数据采集失败或数据不完整，本实施例采用重试机制和数据校验机制。重试机制旨在应对数据采集过程中可能出现的故障、错误或网络波动等问题，可以在采集失败时自动重复采集。数据校验机制用于验证所采集到的数据是否符合预期的格式、规范和质量要求，该机制可以确保所采集到的数据符合预期格式和规范。

(2)数据标准化与重组模块，用于获取筛选后的文本数据，对文本数据预处理后进行命名实体识别，删除识别出的命名实体中高频的语法功能词和低频词汇，对保留的命名实体加工后作为候选词汇，将候选词汇输入BERT模型计算权重，并选取权重大于阈值的候选词汇作为关键词，根据关键词的权重计算句子的权重，并根据句子的权重筛选关键句。

该模块对采集到的数据进行标准化处理，包括统一命名规范、时间地点格式规范等。并将不同来源的数据进行重组，建立统一的数据模型，存储在目标数据库中，以便后续处理。

(2-1)数据标准化模块：本实施例采用命名实体识别(NER)方法从原始数据库的文本数据中自动抽取能够高度表达文本主题和内容的词汇。NER是一种从文本中识别特定类型的实体(如人名、地名、组织名)并标记其类型的技术。它是文本处理中的基础技术，在自然语言处理、推荐系统、知识图谱等领域广泛应用。

对采集到的文本数据(即核心知识点)进行初步筛选和分词处理操作，去除文本中的标点符号、特殊符号和数字等无关信息，并对文本进行分词，将文本拆分成词语的序列。例如，将“‘丝绸之路’在十九世纪被最早提出时，特指东方的长安与西方的罗马之间跨越4500公里(2800英里)的古老商道”这个句子进行上述操作，拆分后变成：“[‘丝绸之路’,‘在’,‘十九世纪’,‘被’,‘最早’,‘提出’,‘时’,‘特指’,‘东方’,‘的’,‘长安’,‘与’,‘西方’,‘的’,‘罗马’,‘之间’,‘跨越’,‘公里’,‘英里’,‘的’,‘古老’,‘商道’]”。

目前NER模型有很多种，可以使用预训练的BERT、BiLSTM-CRF等模型，也可以使用一些开源的NER工具库如spaCy、Stanford NER等。通过比较不同模型的优缺点，发现BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型，通过双向训练来学习上下文信息，使得模型能够理解整个句子的语境，在自然语言处理领域有广泛的应用，并可以用于NER任务，本实施例将采用预训练的BERT模型来进行实体识别。

首先，将预处理(初步筛选和分词处理操作)后的文本数据输入到预训练的BERT模型中，获取每个词在BERT中的隐藏状态表示。利用BERT的命名实体识别能力，识别出文本中的命名实体(如人名、地名、组织机构名等)。

根据BERT模型输出的命名实体识别结果，删除识别结果中高频的语法功能词和低频词汇，避免这些词成为关键词。

其中，高频的语法功能词有介词和冠词等。介词：如在、于、对、向等，这些词在语法中起连接作用，但往往不携带具体的文化遗产信息。冠词：如这、那、一个、一些等，这些词用来限定名词，但往往没有明确指向具体的文化遗产。低频词汇包括一些特定地名、文化遗产相关术语等。具体的高频的语法功能词和低频词汇会根据文本的内容和语境而有所不同。在丝绸之路、文化遗产和博物馆等领域的研究中，这些关键词可以帮助更好地理解相关概念、发现隐藏的关联以及推动进一步的研究。此外，这种方法也可以扩展到其他领域，以便在不同的学科和领域中挖掘出有意义的关键词，为相关研究和应用提供支持和指导。

之后，对保留的命名实体进行加工，英文词汇考虑去掉后缀或前缀，将每个词还原到其词根形式；对中文词汇进行词性标注，即给每个词语分配一个词性类别，例如名词、动词、形容词等。词性标注可以帮助筛选出与丝路遗产相关的词语，例如地名、文化名词、历史事件等，以进一步提高关键词的准确性和覆盖范围。将加工后的命名实体作为候选词汇，利用BERT模型计算其权重。

BERT模型输出表示为：

H＝{h₁,h₂,...,h_n} (1)

其中，H表示BERT模型输出的向量表示列表，h_i是第i个候选词汇的向量表示，i∈[1,n]，n表示候选词汇的总数。

对于NER技术，可以使用线性层将h_i映射到实体类别的概率分布：

其中，P(y_i＝c∣h_i)是一个条件概率，表示给定输入h_i，候选词汇y_i属于类别c的概率，y_i表示第i个候选词汇，c表示实体类别(例如人名、地名、组织名)；BERT模型通过预训练学习了丰富的上下文信息，使得h_i能够捕捉到词在整个句子中的语境；W_c是与实体类别c相关的权重矩阵；W_c·h_i来计算候选词汇y_i属于实体类别c的得分，W_c′·h_i表示候选词汇y_i属于实体类别c′的得分，c′表示所有实体类别中除了实体类别c之外的实体类别。exp(·)是指数函数，将线性得分转换为概率；∑_c′exp(W_c′·h_i)是对所有实体类别c′的得分进行求和，用于归一化，确保所有类别的概率之和为1。

综上所述，公式2描述了给定输入h_i，候选词汇y_i属于实体类别c的概率，通过计算线性得分并应用指数函数，可以得到每个词属于不同实体类别的概率分布P，并将概率分布P作为对应候选词汇的权重。根据不同需求，设定不同的阈值(如权值大于特定阈值)，选择权重较大的词作为标引的关键词，用于表达文本主题和内容。

通过以上步骤，结合BERT模型的命名实体识别能力和权重计算功能，可以实现类似关键词提取功能，从而抽取能够高度有效表达文本主题和内容的词汇，完成数据的标准化处理。

(2-2)数据重组模块：该模块旨在将标准化后的数据转化为高质量的、可用于后续分析和决策的目标数据，为研究机构提供更好的决策支持和业务价值。该模块在整个数据处理和分析流程中具有重要作用，对后续的数据处理和分析结果的准确性和效率有着关键影响。

首先，对整个句子的权重进行计算：根据前一步计算得到的关键词的权重，将每个句子中包含的词的权重进行累加，并结合句子在文本中的位置，得到句子的权重，并对每个句子的权重进行归一化处理，以确保句子的权重范围在合理的区间内。本实施例综合多方面考虑提供一种句子权重计算方法如下：

A、根据句子在网络文献中所处位置为句子赋值位置权重。

B、对句子进行分词操作，并为分词操作输出的词汇计算在对应网络文献中的重要性，根据重要性为各词汇赋值第一权重。重要性高的赋予更高的第一权重，重要性低于阈值的第一权重可以赋值为0。

C、对句子所在网络文献的标题进行分词操作，并对句子中出现在标题中的词汇赋值第二权重。出现在标题中的词汇赋值预设的第二权重，例如0.1；未出现在标题中的第二权重可以赋值为0。

D、对句子中的词汇进行指示词匹配，对成功匹配的词汇赋值第三权重。匹配成功的词汇赋予预设的第三权重，未匹配的词汇的第三权重可以赋值为0。

E、对句子中为关键词的词汇赋值该关键词对应的权重作为第四权重。

F、累加第一权重、第二权重、第三权重和第四权重作为句子中词汇的最终权重，并将句子中所有词汇的最终权重累加得到句子的词特征权重。

G、累加句子的位置权重和词特征权重作为句子最终的权重。

综上所述，本实施例中句子的权值的计算可以参考文本的四种特征来确定，计算中同时考虑四种特征。这四种特征各自提供了不同的信息维度，共同作用于权值的确定，将这四种特征同时考虑，可以获得更精确的文本分析结果。具体特征如表3所示：

表3：文本的四种特征

表4：指示词短语表

之后，将计算得到的句子权重进行排序，可以使用优先队列中的最大堆将句子按照权值从高到低的顺序进行排列。优先队列是一种特殊的队列，其中元素按照其优先级(权重)的大小顺序排列，可以保证每次取出的元素都是当前队列中优先级最高的元素。这种方法简单高效，适用于各种规模的数据集和权值类型。

在优先队列中，可以将句子作为元素，将其权重作为优先级，不断向优先队列中插入句子并根据权重大小自动排序。通过不断从优先队列中取出元素，即可按照权重从高到低的顺序对句子进行排列。

最后，根据自己设定的阈值或规则，选择权值最高的若干句子作为关键句。可以根据需求确定需要选择的关键句数量。并将选取的关键句按照它们在原文中的出现顺序进行输出，将输出结果重新存入目标数据库中。

(3)数据分类与清洗模块，用于采用随机森林算法基于关键句确定每一网络文献的类别，采用k均值聚类方法对关键句进行聚类，根据聚类结果计算类别相同的网络文献之间的相似度，仅保留相似度低于预设临界值的两篇网络文献中为预设版本的网络文献中的关键句，并对k均值聚类方法得到的离群点进行二次分析，根据二次分析结果删除离群点对应的关键句。

该模块使用自然语言处理(NLP)技术对目标数据库中文本数据进行分类，并采用k均值聚类方法对检测到的异常点进行二次分析，以去除冗余、错误和不完整的信息。

(3-1)数据分类模块：数据分类的目标是在向量空间中，找到一个决策平面，该平面能够最好地将不同类别的数据点分开。这个决策平面的特点是具有最大边界，也就是能够最好地分割两个类别的数据点。

使用随机森林算法来寻找一个好的决策平面是一个快捷且准确的方法。当使用随机森林来找决策平面时，实际上是在构建多个决策树，并将它们组合起来以获得更好的分类效果。

本实施例将上一步存入目标数据库中的数据(关键句)作为随机森林模型的输入，构建随机森林模型。随机森林由多棵决策树组成，每棵树都在随机选择的样本和特征上进行训练。每棵决策树都会投票，最终的分类结果由多棵树的投票结果决定。

模型训练好后，使用交叉验证等方法评估模型的性能，确保模型在丝路遗产数据上具有良好的分类效果。一旦模型训练好，即可以将其应用于新的丝路遗产数据中，输入新的特征，即输入同属于一篇网络文献的关键句，模型将预测每一网络文献是否属于某个特定类别，从而更快速的进行数据分类操作。其中网络文献所属类别根据需求可以自己定义，比如有文物类别：如古代艺术品、器具、文献等。遗址类别：包括古代城市遗址、交易市场、宗教场所等。文化类别：涉及丝绸之路上的语言、宗教、艺术交流等文化现象。事件类别：重大历史事件，如战争、贸易协议、外交活动等。

(3-2)数据清洗模块：该模块利用k均值聚类技术对已分类的网络文献中的关键句进行聚类，通过计算数据内容之间的相似度，自动删除相似度超过设定阈值的内容，仅保留权威来源版本。随后，对k均值聚类中检测到的异常点进行二次分析，以消除无关的噪声文本。具体操作如下：

首先，对于目标数据库中的数据，随机选择k个中心点作为初始聚类中心，这些中心点将作为每个簇的代表。并计算每个关键句与各个聚类中心的距离，将每个关键句分配到距离最近的聚类中心所在的簇中。

之后，定义损失函数。使用损失函数来衡量每个样本与其所属簇中心点之间的距离，损失函数可以定义为各个样本距离所属簇中心点的误差平方和，公式如下：

其中，J(c,μ)为损失值，x_i代表第i个样本，c_i是x_i所属的簇，代表簇对应的中心点，M是样本总数。

之后，重复以下操作，直到损失函数收敛。对于每个样本x_i，将其分配到距离最近的簇公式如下：

对于每个类k，重新计算该类的中心公式如下：

式中，t表示第t轮迭代，t+1表示第t+1轮迭代，表示第t轮迭代中第k类的中心点。根据聚类结果，计算网络文献之间的相似度，通常使用欧式距离、余弦相似度等，计算网络文献之间的相似度时，取两篇待计算相似度的类别相同的网络文献；根据聚类结果得到两篇网络文献之间任意两个关键句之间的距离作为两个关键句之间相似度，计算所有关键句之间的相似度作为两篇文献之间的相似度。如果两个网络文献之间的相似度低于设定的临界值(因为将聚类结果中的距离作为相似度值，距离越近表示越趋向于同一类，即相似度越高)，则仅保留两个网络文献中路径初始版本或权威来源版本，删除另一个网络文献相关的关键句。

最后，根据k均值聚类得到的离群点进行二次分析，以确定它们是否真的是噪声。二次分析可以包括检查它们的数据质量、来源可靠性或与其他数据的关联性，具体分析过程如下：将得到的离群点采用人工分析的方法进行二次分析，人工分析的方法的规则可以根据需要自行设定，例如进行上下文分析，确定离群点在文本中的位置，是开头、中间还是结尾？是否在特定段落或章节中？例如分析离群点前后的文本内容，检查离群点的语法和逻辑是否与周围文本一致？。

根据自行设定的规则二次分析并得到二次分析结果，根据二次分析结果，由专家经验决定是保留、修正还是删除这些离群点。如果确定是噪声或无关数据，将其从目标数据库中删除。需要说明的是，对离群点进行二次分析可以进一步提升关键句筛选准确性，但在实际需要情况下可以是直接删除离群点对应的所有关键句，即二次分析的规则可以是直接删除离群点对应的所有关键句。

(4)知识图谱构建与可视化模块，用于根据数据分类与清洗模块输出的关键句构建知识图谱，并可视化展示知识图谱。

本实施例提出一种知识表示方法，称为动态语义映射框架(DSMF)。采用DSMF表示的数据符合知识图谱的数据模型，使得知识图谱更加灵活和易于扩展，同时也有利于跨系统共享和集成，并通过图谱可视化展示丝路遗产的关联信息，帮助用户深入了解。

在构建丝路遗产信息的知识图谱时，发现目前主流的一些知识表示方法，如RDF(资源描述框架)和SKOS(简单知识组织系统)等，不能很好的表示和更新实体之间的关系信息，于是本实施例提出一种知识表示方法，称为动态语义映射框架(Dynamic SemanticMapping Framework,DSMF)，动态语义映射框架维护一个三层次知识图谱以及运行一个更新机制。这种方法旨在动态地表示和更新知识实体之间的关系，以适应不断变化的数据和新的发现。使用DSMF方法表示的数据符合知识图谱的数据模型，使得知识图谱更加灵活和易于扩展，同时也有利于跨系统共享和集成。

DSMF的核心思想是使用多层次的语义网络来表示知识实体和它们之间的关系。每个层次代表不同的抽象级别或视角，允许系统从多个维度理解和分析数据。DSMF根据关键句以及系统外部数据的逐渐输入，可以动态完善知识图谱。

例如，假设构建一个关于丝绸之路的知识图谱。在DSMF中，每个实体都是一个节点，每个关系都是连接节点的边。例如，如果有一个节点代表“敦煌”，可以有边连接到“佛教艺术”(文化关系)和“长安”(贸易路线)，具体可以有以下层次：

基础层：包含基本的实体，如城市、遗址、文物等，以及它们的属性。

关系层：描述实体之间的关系，如贸易路线、文化交流等。

动态层：用于描述实体之间随时间变化的关系和属性。帮助用户更好地理解和分析历史演变、趋势变化以及事件发展等动态过程。

动态层可以为实体和关系添加以下4个部分的内容，丰富实体和关系的信息：

1)时间属性：为基础层中的实体和关系添加时间特征，以记录它们的起止时间、持续时间等信息。例如，城市的建立时间、文物的年代等。

2)事件描述：描述了关系的相关属性。关系可以是贸易活动、战争、文化交流、政治事件等，通过描述关系所对应事件的参与者、时间、地点、影响等相关属性来丰富知识图谱的内容。

3)演化关系：描述实体随时间推移而发生的状态变化。例如，城市的扩张、遗址的发现和保护、文物的流传和收藏等，通过记录演化关系可以更好地理解实体的发展历程。

4)时间线：根据时间属性创建的实体时间线和关系时间线，以便用户按照时间顺序浏览和理解历史发展。时间线可以包括重要事件、时期划分、历史阶段等信息。

动态层的内容涵盖了实体和关系随时间变化的各个方面，可以帮助更全面地理解历史演变、趋势变化以及事件发展的动态过程。其中时间属性、事件描述以及演化关系可以使用Python的NLTK(Natural Language Toolkit)工具包实现，该工具中提供了用于文本处理、命名实体识别等功能，可以将时间属性、事件描述和演化关系进行提取。

为了实现动态层，首先需要建立一个系统化的包含数据采集的更新机制，定期(例如每周)地收集最新的考古发现、研究成果及相关信息数据，并将其与DSMF中已有的知识进行整合。通过动态推理与更新，基于最新数据不断调整DSMF中的各层次信息，可能包括新的关系建立和实体属性更新。这种方法的优势在于灵活性和动态性，能够适应知识的持续增长和演变，为用户提供一个深入且全面的知识探索工具。

将经过表示的数据导入到Neo4j图数据库中，可以高效地存储和管理这一庞大的知识图谱。为了提升查询速度，Neo4j图数据库中设计节点和关系的类型，并创建相应的索引。之后，将利用图数据库的可视化工具或其他可视化库，将知识图谱中的实体、属性和关系以直观的图形方式呈现出来。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于海量多态丝路遗产信息的整合系统，其特征在于，所述基于海量多态丝路遗产信息的整合系统，包括：

2.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述通过预设站点和动态关键词的方式采集丝路遗产相关的网络文献，执行如下操作：

设置静态关键词；

3.根据权利要求2所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述基于静态关键词和动态关键词生成一个或多个搜索关键词，包括：

对动态关键词进行分词操作；

4.根据权利要求2所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述权重调整策略，包括：

5.根据权利要求2所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述基于海量多态丝路遗产信息的整合系统包含多个服务器，运行多线程并行采集技术时，利用资源调度算法分配服务器资源。

6.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述预设的分类体系包括不同的层级以及每一层级中不同的维度，所述层级表达了网络文献的不同属性，而维度表达了每一属性不同的属性值。

7.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述对保留的命名实体加工后作为候选词汇，执行如下步骤：

对于命名实体中的中文词汇，对中文词汇进行词性标注。

8.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述根据关键词的权重计算句子的权重，执行如下操作：

根据句子在网络文献中所处位置为句子赋值位置权重；

累加句子的位置权重和词特征权重作为句子最终的权重。

9.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述根据聚类结果计算类别相同的网络文献之间的相似度，执行如下操作：

取两篇待计算相似度的类别相同的网络文献；

10.根据权利要求1所述的基于海量多态丝路遗产信息的整合系统，其特征在于，所述知识图谱构建与可视化模块采用动态语义映射框架构建知识图谱，所述动态语义映射框架维护一个三层次知识图谱以及运行一个更新机制；