CN115840863A

CN115840863A - 网页内容溯源方法、知识图谱构建方法以及相关设备

Info

Publication number: CN115840863A
Application number: CN202111113469.2A
Authority: CN
Inventors: 党倩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2023-03-24
Also published as: WO2023040530A1

Abstract

本申请实施例提供了网页内容溯源方法、知识图谱构建方法以及相关设备，涉及终端领域；本申请中的计算机设备可以构建知识图谱，知识图谱中包括多个实体、以及实体之间的关系，然后可以基于知识图谱进行网页内容溯源，在知识图谱中确定待溯源网页对应的第一网页实体，在知识图谱中确定第一网页实体对应的至少一个目标实体，目标实体与第一网页实体之间存在直接或间接的关系，最后可以基于至少一个目标实体、第一网页实体与至少一个目标实体之间的关系展示待溯源网页的内容溯源结果；本申请可以实现自动化网页内容溯源，提升网页内容溯源效率。

Description

网页内容溯源方法、知识图谱构建方法以及相关设备

技术领域

本申请涉及终端技术领域，尤其涉及了网页内容溯源方法、知识图谱构建方法以及相关设备。

背景技术

当互联网上网页引用了来自其他网页的内容时，该网页一般会通过如“引用”、“图源”等文字标示出内容的出处，网页在标示出处时可以标示包含该引用信息的网站名称，比如，“数据来源X讯网”。

在实践过程中，若用户访问了一个包含引用内容的网页，想要根据网页上标示的出处对该网页的引用内容进行溯源，从而找到首次发布该引用内容的网页时，用户只能根据该网页上标示的出处，借助搜索引擎在网络上进行手动搜索和筛选，流程非常繁琐且效率低下。

发明内容

有鉴于此，有必要提供网页内容溯源方法、知识图谱构建方法以及相关设备，其可克服上述问题，实现自动化网页内容溯源，免去用户手动搜索溯源的过程，大幅提升网页内容溯源的效率。

第一方面，本申请的一实施例提供了一种网页内容溯源方法应用于服务器，方法包括：

查询待溯源网页在知识图谱中对应的第一网页实体，知识图谱包括多个实体、以及各个实体之间的关系；根据知识图谱以及第一网页实体确定至少一个目标实体，至少一个目标实体与第一网页实体之间存在直接或者间接的关系；确定待溯源网页的溯源结果，溯源结果包括至少一个目标实体对应的至少一个网页或网站以及每个网页或网站之间的关系。

通过采用该技术方案，可以借助知识图谱对待溯源网页进行自动溯源，有效提升网页内容溯源的效率。

在一种可能的实现方式中，多个实体包括至少一个网站实体和至少一个网页实体，实体之间的关系包括引用关系和/或归属关系，引用关系或者归属关系通过网站实体的关系属性或者网页实体的关系属性进行确定。

其中，关系属性可以包括引用对象属性和归属对象属性。

通过采用该技术方案，可以在知识图谱的多个网页实体和多个网站实体中，确定待溯源网页对应的第一网页实体，并根据归属关系和引用关系，确定第一网页实体存在直接或间接关系的目标实体，实现自动化网页溯源，提升内容溯源效率。

在一种可能的实现方式中，网页实体还包括网页地址属性，查询待溯源网页在知识图谱中对应的第一网页实体，包括：根据溯源网页的网页地址以及知识图谱中所有网页实体的网页地址属性，确定待溯源网页在知识图谱中对应的第一网页实体。

通过采用该技术方案，可以根据知识图谱中每个实体的网页地址属性的属性值(即网页地址)、以及待溯源网页的网页地址，精准确定待溯源网页在知识图谱中对应的第一网页实体。

在一种可能的实现方式中，网页实体还包括网页标识属性，查询待溯源网页在知识图谱中对应的第一网页实体，包括：根据待溯源网页的网页地址，生成待溯源网页对应的网页标识；根据待溯源网页对应的网页标识、以及知识图谱中所有网页实体的网页标识属性，确定待溯源网页在知识图谱中对应的第一网页实体。

通过采用该技术方案，可以由待溯源网页的网页地址生成待溯源网页的网页标识，并通过知识图中每个实体的网页标识属性的属性值(即网页标识)，精准确定待溯源网页在知识图谱中对应的第一网页实体。

在一种可能的实现方式中，根据知识图谱以及第一网页实体确定至少一个目标实体包括：根据知识图谱以及第一网页实体，确定至少一个候选实体；根据每个候选实体的预设属性、以及第一网页实体的预设属性，从多个候选实体中确定至少一个目标实体。

通过采用该技术方案，可以在知识图谱中得到第一网页实体对应的一个或多个候选实体，并根据实体的预设属性，对候选实体进行筛选，得到至少一个目标实体，此处的预设属性可以包括预先确定的如关键词属性、摘要属性等属性中的一个或多个，利用知识图谱内实体的属性，高效准确地确定候选实体中的目标实体。

在一种可能的实现方式中，查询待溯源网页在知识图谱中对应的第一网页实体之前，方法还包括：获取知识图谱。

通过采用该技术方案，可以从其他计算机设备获取知识图谱，并在本地使用该知识图谱进行网页内容溯源，不同领域的知识图谱可能不同，单个知识图谱的占用的存储资源可能较大，从其他计算机设备获取知识图谱的方式可以有效节约本地存储资源、提供更多领域的网页内容溯源服务。

在一种可能的实现方式中，方法还包括：向终端发送溯源结果，使得终端根据溯源结果进行渲染以显示用户界面，用户界面包括待溯源网页的图像、至少一个目标实体所对应的网站或者网页的图像、以及待溯源网页的图像与至少一个目标实体所对应网站或网页的图像之间的关系标识，关系标记基于第一网页实体与至少一个目标实体之间的关系确定。

第二方面，本申请的一实施例提供了一种网页内容溯源的方法，应用于终端，方法包括：

根据用户输入的待溯源网页的网页地址，生成针对待溯源网页的溯源请求；向服务器发送溯源请求，以使服务器根据溯源请求包含的网页地址在知识图谱确定待溯源网页的溯源结果；接收服务器返回的溯源结果，并根据溯源结果在用户界面上显示待溯源网页、以及待溯源网页引用的网页或网站的图像。

通过采用该技术方案，用户可以仅需简单地输入待溯源网页的网页地址，即可查看该待溯源网页的溯源结果，免去了手动搜索查询的过程，极大地简化了用户操作，提升用户使用感。

第三方面，本申请的一实施例提供了一种知识图谱构建方法，方法包括：

确定用于构建知识图谱的多个网站以及多个网站所包括的多个站内网页；识别多个站内网页的网页内容；根据多个站内网页的网页内容以及多个网站与站内网页的归属关系构建知识图谱，其中，知识图谱包括多个实体、以及各个实体之间的关系。

通过采用该技术方案，可以根据网络上的网站构建属于某个领域的知识图谱，该知识图谱可以用于自动化网页内容溯源，提高网页内容溯源效率。

在一种可能的实现方式中，关系包括引用关系和归属关系，根据多个站内网页的网页内容以及多个网站与站内网页的归属关系构建知识图谱包括：

根据多个站内网页的网页内容的识别结果，确定与每个站内网页对应实体存在引用关系的至少一个引用实体，引用实体对应的网页或者网站为与站内网页引用的网页或者网站；

根据多个站内网页对应实体以及其对应的至少一个引用实体之间的引用关系、以及多个站内网页对应实体与其归属的网站对应实体之间的归属关系，构建知识图谱。

在一种可能的实现方式中，多个实体都包括多个属性，每个属性包括至少一个属性值，实体包括至少一个网站实体和至少一个网页实体，关系包括网站实体与网站实体或者网页实体之间的引用关系、网站实体与网站实体之间的归属关系。

第四方面，本申请的一实施例还提供一种计算机设备，计算机设备包括至少一个处理器、存储器和通信模块；至少一个处理器与存储器和通信模块连接；存储器用于存储指令，处理器用于执行指令，通信模块用于在至少一个处理器的控制下与装置进行通信；指令在被至少一个处理器执行时，使至少一个处理器执行如上第一方面、第二方面任意一种可能的实施方式的网页内容溯源方法，或第三方面任意一种可能的实施方式的知识图谱构建方法。

第五方面，本申请的一实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序，程序使得计算机设备执行如上第一方面、第二方面任意一种可能的实施方式的网页内容溯源方法，或第三方面任意一种可能的实施方式的知识图谱构建方法。

第六方面，本申请的一实施例还提供一种计算机程序产品，计算机程序产品包括计算机执行指令，计算机执行指令存储在计算机可读存储介质中；计算机设备的至少一个处理器可以从计算机可读存储介质中读取计算机执行指令，至少一个处理器执行计算机执行指令使得计算机设备执行如上第一方面、第二方面任意一种可能的实施方式的网页内容溯源方法，或第三方面任意一种可能的实施方式的知识图谱构建方法。

本申请中第四方面到第六方面及其各种实现方式的具体描述，可以参考第一方面、第二方面、第三方面及其各种实现方式中的详细描述；并且，第四方面到第六方面及其各种实现方式的有益效果，可以参考第一方面、第二方面、第三方面及其各种实现方式中的有益效果分析，此处不再赘述。

附图说明

图1为本申请提供的基于知识图谱进行网页内容溯源的场景示意图；

图2为本申请网页溯源方法的执行系统架构图；

图3为本申请提供的知识图谱构建方法的流程示意图；

图4为本申请提供的网页实体的属性示例图；

图5为本申请提供的网站实体的属性示例图；

图6为本申请提供的知识图谱的示例图；

图7为本申请提供的基于知识图谱进行网页内容溯源的流程示意图；

图8为本申请提供的进行内容溯源结果展示的用户界面示例图；

图9为本申请提供的构建知识图谱和网页内容溯源的整体执行流程图；

图10为本申请提供的一种可能的计算机设备的结构示意图。

具体实施方式

需要说明的是，本申请中“至少一个”是指一个或者多个，“多个”是指两个或多于两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。

本申请中的方法可以由至少一台计算机设备执行，计算机设备可以包括终端、服务器等，终端可以包括笔记本电脑、智能手机、台式电脑、平板电脑、智能穿戴设备、智能电视、智慧屏幕等，服务器可以包括本地服务器、云服务器等。计算机设备之间可以通过有线或无线方式进行连接。

比如，参见图1，本申请的方法可以由终端10和服务器20共同执行，具体地，终端10可以接收用户输入的待溯源网页的网页地址，并向服务器20发送该网络址，服务器20可以通过知识图谱对该网页地址进行溯源，得到内容溯源结果，并向终端10发送该内容溯源结果，终端10可以根据接收到的内容溯源结果在终端页面上向用户展示待溯源网页的溯源结果。

参见图2，本申请在执行过程中可以包括两个系统，其中，离线系统可以构建知识图谱，对网站进行网页数据爬取，得到多个站内网页，对站内网页的网页内容进行解析处理，获取站内网页的属性信息，结合人工建库模块中的站内网页/网站的属性信息，构建并保存知识图谱。

在线系统可以实现对待溯源网页进行内容溯源，可以接收用户输入的待溯源网页的网页信息(如URL),在知识图谱中查询待溯源网页的内容溯源结果，即对待溯源网页进行溯源，对内容溯源结果进行解析和展现。

本申请中的网站可以为若干网页的集合，网页内可以包含如文本、图片等形式的内容，以供用户浏览。比如网站可以为A视新闻，A视新闻下的新闻网页可以比如，疫情通报网页、天气预报网页等，本申请的网站、网页之间可以存在不同类别的关系。

网页与网站之间的关系可以包括引用关系和归属关系，比如，A视新闻下包含疫情通报网页，该疫情通报网页与A视新闻之间存在归属关系，又比如，疫情通报网页中的文字内容引用自X讯网，该疫情通报网页与X讯网之间存在引用关系。网页和网页之间的关系可以包括引用关系，比如，疫情通报网页的图片内容引自信息速递网页，该疫情通报网页与信息速递网页之间存在引用关系。

在本实施例中，将对知识图谱构建方法进行详细描述，参见图3，图3是本实施例提供的知识图谱构建方法的流程示意图，该方法可以包括：

101、确定用于构建知识图谱的多个网站。

具体地，可以根据待构建的知识图谱的特点(如知识图谱中内容所属的领域)、网站的特点(如网站是否为官方网站、访问量较大的大型网站等)，确定用于构建该知识图谱的多个网站，等等。

102、确定每个网站包含的多个站内网页，以及获取每个网站对应网站实体的属性信息、和每个站内网页对应网页实体的属性信息。

属性信息可以包括体现目标网站/站内网页在某些方面特点的信息，属性信息可以由属性及属性值进行记录。比如，网站A的属性可以包括行业、性质等，这些属性分别对应的属性值可以依次为科学研究、官方，又比如，网页1的属性可以包括关键词、网址、归属对象、引用对象等，这些属性对应的属性值可以依次分别为科学研究、网址4、网站A、网站C等。

属性对应的属性值可以为一个，也可以为多个，如网站A的别名对应的属性值可以包括x豆、A网等。

在一些实施例中，可以通过网络爬虫程序对目标网站进行数据爬取，从而确定目标网站对应的所有站内网页，也可以确定这些站内网页对应网页实体的部分属性信息，如归属对象的属性值。比如，可以通过爬虫程序1对网站A进行数据爬取，得到网站A的20个站内网页，同时可以确定每个站内网页对应网页实体的归属对象的属性值为：网站A。

在一些实施例中，网站/网页实体的部分属性信息需要人为确定，比如，网站实体的别名的属性值可以是人为输入，如，可以接收用户输入的网站A对应网站实体的别名的属性值：x豆、A网。

在一些实施例中，获取站内网页对应网页实体的属性信息的方式可以为：对站内网页的网页内容进行识别处理，得到站内网页的属性信息，即为站内网页对应网页实体的属性信息，具体地可以根据网页内容的形式灵活选择识别处理所用的技术，如网页内容可以为图片、视频、语音、文本等形式，对应可以通过图像识别、视频语义识别、语音识别、文本识别等技术进行识别处理。

在一些实施例中，网页内容可以为文本内容，此时站内网页的某些属性的属性值可以从网页内容中得到，具体地可以对文本内容进行识别，当识别到文本内容中存在预设属性字符时，从文本内容中提取与预设属性字符满足第一位置关系的属性文本，确定属性文本为与站内网页在属性特征下的特征信息。

比如若网页内容为学术论文的文本，文本内通常会标识“摘要”、“导师”的字样，且在这些字样的相邻位置即记录了摘要的内容信息、导师的姓名信息等。因此，可以通过识别文本内容中是否存在预设属性字符(如“摘要”、“导师”等)的方式，从文本内容中提取预设属性字符对应属性的属性值，比如，当识别到网页1的文本内容中存在“摘要”(即摘要的预设属性字符)时，从文本内容中提取与“摘要”后相邻(即满足第一位置关系)的属性文本，确定该属性文本即为网页1的摘要属性的属性值。

引用对象可以记录一网页的内容来源的另一网页或网站，比如，网页1的引用对象处为网页2，即表明网页1的内容引自网页2。归属对象可以记录一网页所属的网站，比如，网页1的归属对象为网站A，即表明网页1为网站A中的一个网页。

网页的引用对象的预设属性字符可以包括：“引用”、“图源”、“摘录”、“转自”、“cr”、“参考文献”等。类似地确定引用对象的属性值可以比如，对网页1的文本内容进行识别，当识别到网页1的文本内容中存在引用对象的预设属性字符时，从文本内容中提取与该预设属性字符相邻的标识文本“A视新闻”，可据此确定网页1的引用对象的属性值为：A视新闻。

103、根据每个网站实体的属性信息、以及每个网页实体的属性信息，构建知识图谱。

知识图谱可以包括揭示站内网页、目标网站之间的关系的有向图，知识图谱中可以包括多个网页实体和网站实体，实体之间可以通过有向线段连接，该有向线段可以表示其所连接的两个实体之间的关系，关系可以包括网页实体与网页实体或网站实体之间的引用关系，该引用关系可以表明网页实体对应网页的网页内容引用自另一个网站实体对应网页或某网站实体对应网站，如网页实体1与网页实体2之间的单向关系，可以表明网页实体1对应网页的内容引自网页实体2对应网页关系还可以包括网页实体与网站实体之间的归属关系，该归属关系可以表明网页实体对应网页为该网站实体对应网站中的一个网页，如网页实体1与网站实体1之间的归属关系，可以表明网页实体1对应网页属于网站实体1对应网站，等等。

构建知识图谱可以基于不同的构建方式(如自顶向下、自底向上)等，构建的知识图谱可以由数据库(如图数据库)进行存储，具体可以根据数据情况实际选择，在此不做限制。

本实施例可以构建一个表明站内网页、目标网站之间的关系的知识图谱，进而通过该知识图谱对互联网中的网页进行自动溯源，免去了用户手动搜索溯源的过程，有效提升了网页内容溯源的效率。

下面将结合具体的应用场景对知识图谱构建方法进行描述，本申请的一个应用场景可以为：构建卫生健康领域的知识图谱，该应用场景下的知识图谱构建方法可以由计算机设备实现。

具体地，构建卫生健康领域的知识图谱的过程可以包括：确定要采集数据的网站，比如，网站可以包括A视新闻、B务院客户端、国家卫生健康委员会、X讯网。

然后，可以通过爬虫服务对每个网站进行数据爬取，得到该网站包含的多个网页、以及每个网页的网页内容数据。

构建卫生健康领域的知识图谱所需的网页为包含卫生健康信息的网页，而获取到网页数据不一定为包含卫生健康信息的网页，比如综合性网站所包含的网页中，还可以包括包含天气信息、娱乐信息等的网页，因此需要对获取到的网页进行筛选，保留其中包含卫生健康信息的网页(为了便于描述，下称包含卫生健康信息的网页为卫健信息网页)。

由上述步骤，可以得到大量的卫健信息网页，然后，可以对卫健信息网页的网页内容数据中的无用数据(如广告)进行过滤，得到卫健信息网页的网页内容，然后对网页内容进行识别分析，可以识别网页内容中是否存在特定的属性字符，属性字符可以包括多种，识别属性字符可以确定该卫健信息网页的属性的属性值，如摘要的属性字符为“摘要”、关键词的属性字符为“关键词”，引用对象的属性字符如“引用、图源、摘录、来自、来源”等。对网页内容进行识别分析后，可以得到多个网页的属性信息。

比如，经过数据爬取和识别分析，可以得到部分卫健信息网页的属性表(表1)。

表1卫健信息网页的特性表

还可以通过人为建库的方式对网站或网页的特性进行完善，人工可以进行数据标注、数据加工、数据编辑等操作，比如可以由人工输入网站的别名，如“国家卫生健康委员会”网站的别名可以通过人为输入确定包括“国家卫健委”和“卫健委”。

对网站进行数据爬取、识别分析，人为处理后，可以得到网站的属性信息。

比如，经过数据爬取、识别分析以及人为建库的过程，可以得到部分网站的属性表(表2)。

表2网站的特性表

实体ID	网站名称	别名	行业	性质
					1	A视新闻	A视新闻客户端	新闻	官方
2	B务院客户端	B务院客户端小程序	新闻	官方
					3	国家卫生健康委员会	国家卫健委	卫生健康	官方

然后可以构建知识图谱，可以构建网页对应的网页实体，确定该网页的属性信息即为其对应网页实体的属性信息，比如，参见图4，网页实体“新冠疫情动态”可以包括关键词、摘要、归属对象和引用对象四个属性，对应的属性值依次为“新冠疫情”、“文本1”、“X讯网”和“A视新闻|国家卫生健康委员会”。

可以构建网站对应的网站实体，比如参见图5，网站实体“A视新闻”可以包括别名、行业和性质共三个属性，对应的属性值依次为“A视新闻客户端”、“新闻”和“官方”。再根据网页实体的属性中的引用对象和归属对象，构建知识图谱，知识图谱中可以包括多个实体，实体包括网站实体和网页实体，每个实体可以包括多个属性，每个属性对应一个或多个属性值。比如参见图6，知识图谱中有多个实体，其中网站实体“A视新闻”包括别名、行业、性质这三个属性，依次对应属性值：A视新闻客户端、新闻和官方，网站实体“A视新闻”相关的关系包括：网页实体“新冠疫情动态”与网站实体“A视新闻”存在引用关系，网页实体“全国疫情风险地区汇总”与网站实体“A视新闻”存在归属关系。

本申请中，可以确定用于构建知识图谱的多个网站，然后确定每个网站包含的多个站内网页，获取每个网站对应网站实体的属性信息和每个站内网页对应网页实体的属性信息，可以根据每个网站实体的属性信息、以及每个网页实体的属性信息，构建知识图谱，然后可以基于得到的知识图谱自动进行网页内容溯源，免去了用户手动搜索的过程，有效提升网页内容溯源效率。

下面将介绍利用知识图谱进行网页内容溯源的过程。

在本实施例中，将对网页内容溯源方法进行详细描述，参见图7，图7是本实施例提供的网页内容溯源方法的流程示意图，该方法可以包括：

201、接收用于网页内容溯源的知识图谱，知识图谱包括多个实体、以及各实体间的关系。

由于知识图谱内包含了互联网中网页、网站之间的关系，因此可以通过知识图谱由计算机设备自动实现网页内容溯源，免去了手动搜索查询的步骤，有效提升网页内容溯源的效率和便捷程度。

互联网包括海量的网页和信息，用户在通过互联网获取信息的过程中，对于某些领域的网页和信息具有更加迫切的溯源需求，如政策法规领域、卫生健康领域、科研领域、互联网内容版权领域等等，另一方面，互联网中网页数量巨大，不同网页的访问量差别巨大，部分网页的访问价值低导致访问量低，因此本申请在实践过程中，可以根据实际需求，获取包括若干领域的若干网页/网站的关系的知识图谱，避免获取信息量过大的知识图谱造成不必要的内存占用，或获取信息量过下的知识图谱导致网页内容溯源的结果不佳。

具体地，知识图谱的确定方式可以包括多种，比如，可以根据实际需求构建知识图谱，又比如，可以调用知识图谱溯源接口，该知识图谱溯源接口对应已构建的知识图谱，等等。

202、查询待溯源网页在知识图谱中对应的网页实体。

其中，待溯源网页可以为互联网中的一个网页，比如待溯源网页可以为包含论文A刊载信息的网页1。网页实体可以包括知识图谱中与待查询网页对应的实体，比如，网页1(即待溯源网页)对应知识图谱中的网页实体1。

在一些实施例中，为了便于区分和标记，可以为知识图谱中的每一个实体设置一个唯一对应的实体标识，并将每个实体的实体标识存储在知识图谱中，则在知识图谱中查询与待溯源网页对应的网页实体的方式包括：可以根据待溯源网页的网页内容或网页地址等特征，生成该待溯源网页对应的实体标识，在知识图谱中查询该实体标识对应的网页实体，该网页实体即为待溯源网页对应的网页实体。比如，根据网页1(即待溯源网页)的网页地址，生成待溯源网页对应的实体标识1，在知识图谱中查询实体标识1对应的网页实体1，则确定网页1对应的实体为网页实体1。

在一些实施例中，实体的一些属性的属性值与该实体是唯一对应的，比如可以包括网页实体的统一资源定位符、网站实体的备案号等，可以通过这些唯一对应的属性值，直接在知识图谱中查询，高效快速地确定网页在知识图谱中对应的网页实体、网站在知识图谱汇总对应的网站实体等。

比如，网页1(即待溯源网页)的网页地址的属性值为：网址1，在知识图谱中确定存在网址地址的所有实体，以及这些实体的网址地址的属性值，将这些属性值依次与网址1进行对比，当存在与网址1相同的属性值时，则确定该属性值所属的实体为网页1对应的网页实体1。

203、在知识图谱中确定该溯源网页对应的网页实体对应的至少一个目标实体，目标实体包括与网页实体存在关系的实体。

知识图谱可以包括实体之间的关系，在确定待溯源网页在知识图谱中对应的网页实体后，可根据这些关系，确定知识图谱中网页实体对应的一个或多个目标实体，目标实体可以包括与网页实体存在关系和/或与网络实体存在间接关系的实体。

在一些实施例中，目标实体可以包括与网页实体存在关系的实体，比如，待溯源网页：网页1对应网页实体1，在知识图谱中确定与网页实体1存在关系的网页实体2，该网页实体2即为网页实体1对应的目标实体，可知网页1引用了网页实体2对应网页的内容。

在一些实施例中，目标实体可以包括与网页实体存在关系、以及与目标实体存在间接关系的实体，比如，待溯源网页：网页1对应网页实体1，在知识图谱中确定与网页实体1存在关系的网页实体2，该网页实体2即为网页实体1对应的一个目标实体，在知识图谱中确定与网页实体2存在关系的网页实体3，该网页实体3即为网页实体1对应的另一个目标实体，循环在知识图谱中确定与新的目标实体存在关系的实体的步骤，直至新的目标实体不存在关系，得到待溯源实体对应的多个目标实体：网页实体2、网页实体3和网页实体4，即可知网页1引用了网页实体2对应网页的内容，网页实体2对应网页引用了网页实体3对应网页的内容，网页实体3对应网页引用了网页实体4对应网页的内容。

在一些实施例中，一个网页标示的引用对象可以包括多个，比如网页A中标示的引用对象可以包括网页B，网页B标示的引用对象可以包括网页C和网页D，但实际上，网页A中内容的引用自网页D，网页A中内容与网页C没有关系。在知识图谱中可以记录这些网页对应网页实体之间的引用关系，但若仅根据引用关系进行网页内容溯源，则无法从网页C对应实体和网页D对应实体中确定目标实体，为了解决这一问题，可以先确定与网页实体对应的多个候选实体，再通过网页实体和候选实体的属性值进行筛选，从而从多个候选实体中确定目标实体。

候选实体可以包括与网页实体具有关系、或与网页实体具有间接关系的实体。

在知识图谱中确定网页实体对应的多个候选实体的过程可以包括：在知识图谱中确定与网页实体存在关系的一个候选实体；循环在知识图谱中确定与候选实体存在关系的另一个候选实体的步骤，直至候选实体不存在关系则结束循环，得到网页实体对应的多个候选实体。

比如，待溯源网页：网页A在知识图谱中对应网页实体A，确定与网页实体A存在引用关系的网页实体B为一个候选实体，确定与网页实体B存在引用关系的网页实体C和网页实体D，检测到网页实体C和网页实体D均不存在与其他实体的引用关系，则可得知识图谱中网页实体A对应的候选实体为：网页实体B、网页实体C和网页实体D。然后可以根据网页实体以及每个候选实体的属性信息，从候选实体中确定至少一个目标实体。比如，可以事先确定用于从候选实体总确定目标实体所需的预设属性，再根据网页实体的预设属性的属性值，以及每个候选实体的预设属性的属性值，从候选实体中筛选出目标实体。。

在一些实施例中，若预设属性为摘要，摘要的属性值为一段文字，则筛选的方式可以为，对网页实体的摘要属性的属性值和每一个候选实体的摘要属性的属性值分别进行语义识别，并计算每一个候选实体的摘要属性的属性值的语义识别结果与网页实体的摘要属性的属性值的语义识别结果的相似度，确定相似度大于预设阈值的候选实体为目标实体。

比如，预设属性为属性1，根据网页实体A的属性1的属性值1、网页实体B的属性1的属性值1、网页实体C的属性1的属性值2、和网页实体D的属性1的属性值3，从三个候选实体中筛选出目标实体：网页实体B和网页实体D。

在一些实施例中，网页标示的引用对象可以包括信息来源网站，如网页上显示“数据来源C省统计局”、“图源X视新闻”等，在知识图谱中可以记录这些网页对应网页实体与网站对应网站实体之间的引用关系，但若仅根据该引用关系无法确定网页所引用的网站内的具体网页，可以借助知识图谱中网页实体与网站实体之间的归属关系、以及网页实体的属性的属性值，对仅标示信息来源网站的网页进行溯源，确定其所引用的具体网页。

比如，待溯源网页：网页1中标示了引用对象：A官网，网页1在知识图谱中对应网页实体1，在知识图谱中查询与网页实体1存在引用关系的网站候选实体：网站实体A，然后在知识图谱中查询与网站实体A存在归属关系的多个网页候选实体：网页实体2、网页实体3和网页实体4。确定网站实体A为网页实体1的一个目标实体，根据网页实体1在预设属性下的属性值、以及每个网页候选实体在预设属性下的属性值，从三个网页候选实体中筛选得到目标实体：网页实体2，可得网页1的网页内容引自归属于网站实体A对应网站的网页实体2对应网页。

在一些实施例中，可以比较网页实体的预设属性的属性值与候选实体的预设属性的属性值是否匹配，匹配的标准可以包括相同、相似度大于预设阈值、数值重合率大于预设数值、满足预设对应关系等等，具体地可以在实践过程中灵活选择，在此不做赘述。

比如，可以比较候选实体的预设属性的属性值与网页实体的预设属性的属性值是否相同，若相同，则可以确定该候选实体为目标实体。

204、展示待溯源网页的内容溯源结果,内容溯源结果由至少一个目标实体以及网页实体与目标实体的关系来确定。

具体地，可以根据输出的目标实体确定其对应的中间网页/网站和源头网页，根据输出的网页实体与目标实体、目标实体之间的关系确定其对应的待溯源网页、中间网页/网站以及源头网页之间的引用关系或归属关系。

在进行内容溯源结果展示时，可以直接展示待溯源网页对应的源头网页，也可以展示溯源过程中相互引用和归属的中间网页/网站以及源头网页，还可以展示待溯源网页、中间网页/网站以及源头网页之间的引用关系或归属关系。

比如，目标实体为网页实体2，确定网页实体2对应的网页2，根据待溯源网页：网页1对应的网页实体1与目标实体之间的关系，确定网页1与网页2之间的引用关系，可以向用户展示网页2、以及网页1与网页2的引用关系。

又比如，第一目标实体为网站实体A，第二目标实体为网页实体2，根据输出的网站实体A确定其对应的网站A，根据输出的网页实体2确定其对应的网页2，根据输出的网站实体：网站实体1与网站实体A之间的引用关系，确定网页1与网站A的引用关系，根据输出的网站实体A与网页实体2之间的归属关系，确定网站A与网页2的归属关系。

向用户展示待溯源网页：网页1的内容溯源结果：网页1、网站A、网页2、以及网页1与网站A之间的引用关系、网站A与网页2之间的归属关系。

可以将内容溯源结果显示在页面上，以实现向用户展示内容溯源结果的目的。页面上可以显示网页的网页图像，网页图像可以包括网页的部分或全部内容，网页可以包括待溯源网页、目标实体对应的网页、目标实体对应的网站的首页，页面上还可以包括表征网页图像之间的引用关系的引用关系标识、以及归属关系的归属关系标识。

网页图像可以作为知识图谱中实体的一个属性，网页实体的网页图像属性可以为该网页实体对应网页的图像，网站实体的网页图像属性可以为该网站实体对应网站的首页的图像，则可以从知识图谱中获取所述的网页图像。

网页图像在网页上截取得到，可以通过网页地址访问网页，网页的网页地址可以作为实体的网页地址属性的属性值保存在知识图谱中。比如，第一特征属性可以包括网页地址属性，可以从知识图谱中，获取目标实体的网页地址属性的属性值(目标实体对应网页的网页地址、或目标实体对应网站的首页的网页地址)，访问该属性值并进行网页图像截取，可得到目标实体对应的目标网页图像，访问待溯源网页的网页地址并进行网页图像截取，可得到待溯源网页的初始网页图像。

本实施例可以通过知识图谱由计算机设备自动实现网页内容溯源，免去了手动搜索查询的步骤，有效提升网页内容溯源的效率和便捷程度。

本申请可以以在线方式或离线方式，通过构建的知识图谱对卫生健康领域相关的网页进行溯源，具体过程可以包括：

接收用户输入的静态网页，并从中提取该网页的统一资源定位符(URL,UniformResource Locator)，或接收用户直接输入网页的URL，在知识图谱中查询网页地址的属性值为该URL的网页实体再在知识图谱中，确定与该网络实体存在关系的网页/网站实体。

比如，接收用户输入的新冠疫情动态网页的URL1，在图6的知识图谱中查询到网页地址的属性值为URL1的网页实体“新冠疫情动态”，

在知识图谱中查询与网页实体“新冠疫情动态”存在引用关系的实体，由图6可知，与网页实体“新冠疫情动态”存在引用关系的实体有网站实体“央视新闻”和网站实体“国家卫生健康委员会”。

由图6中知识图谱可知网页实体“新冠疫情动态”的关键词属的属性值为“新冠疫情”，可以对与网站实体“A视新闻”存在归属关系的所有网页实体进行筛选，确定其中关键词的属性值为“新冠疫情”的网页实体，即网页实体“全国疫情风险地区汇总”，可根据图6的知识图谱确定与网页实体“全国疫情风险地区汇总”存在引用关系的网站实体“B务院客户端”，对与网站实体“B务院客户端”存在归属关系的所有网页实体进行筛选，确定其中关键词的属性值为“新冠疫情”的网页实体，即网页实体“疫情风险排查”，网页实体“疫情风险排查”在图6所示的知识图谱中不存在其他引用关系，则可确定网页实体“疫情风险排查”对应的疫情风险排查网页为一个源头网页。

可以在图6所示的知识图谱中对与网站实体“国家卫生健康委员会”存在归属关系的所有网页实体进行筛选，确定其中关键词的属性值为“新冠疫情”的网页实体，即网页实体“疫情通报”，网页实体“疫情通报”在图6的知识图谱中不存在其他引用关系，则可确定网页实体“疫情通报”对应的疫情通报网页为一个源头网页。

输出溯源过程中每一层的实体和实体之间的关系，对输出的信息进行解析和渲染，在页面上显示该溯源过程。比如，参见图8，图8在页面上显示了新冠疫情动态网页的溯源结果。

在一些实施例中，可以对待溯源网页的网页内容进行识别，得到其中可用于溯源的信息，如引用对象的信息“引用自C网站”、关键词的信息“新冠疫情”、摘要的信息“文本1”等等，然后，可以在知识图谱中查询C网站对应的第一网站实体，进而根据第一网站实体以及待溯源网页的信息等，在知识图谱中对待溯源网页进行网页内容溯源，得到待溯源网页的溯源结果。

本申请的执行过程还可以参见图9，可以离线系统先进行网站内容爬取，然后进行网站内容解析，再进行人工知识知识库构建，最后进行知识图谱构建，得到并保存知识图谱。在线系统可以接收用户输入的URL，发起溯源查询请求，网页溯源查询模块可以通过知识图谱进行查询，得到URL的内容溯源结果，网页溯源展现模块可以对查询结果进行解析，并向用户展现查询结果。

本申请中，网页溯源模块在向知识图谱模块发起溯源查询请求时，相关代码可以如下，其中，webname可以为网页名称，sidename可以该网页名称所属的网站名称，

知识图谱收到查询请求，查询内部存储知识图谱的数据库，并返回查询结果过程的相关代码可以如：

由上可知，属于X讯网的新冠疫情动态网页的溯源结果可以包括：新冠疫情动态网页的部分网页内容引自国家卫生健康委员会网站的疫情通报网页；新冠疫情动态网页的部分网页内容引自A视新闻网站的全国疫情风险地区汇总网页、全国疫情风险地区汇总网页的网页内容引自B务院客户端的疫情风险查询网页。

本实施例可以构建一个表明网页、网站之间的关系的知识图谱，并通过该知识图谱对互联网中的网页进行自动溯源，免去了用户手动搜索溯源的过程，有效提升了网页内容溯源的效率，同时可以展示从待溯源网页到源头网页之间的中间网站/网页,使得整个溯源过程清晰明了。

参考图10，为本申请实施例提供的计算机设备100的硬件结构示意图。如图10所示，计算机设备100可以包括处理器1001、存储器1002、通信总线1003、显示屏1004。存储器1002用于存储一个或多个计算机程序1005。一个或多个计算机程序1005被配置为被该处理器1001执行。该一个或多个计算机程序1005可以包括指令，上述指令可以用于实现在计算机设备100中执行上述网页内容溯源方法和/或知识图谱构建方法。

可以理解的是，本实施例示意的结构并不构成对计算机设备100的具体限定。在另一些实施例中，计算机设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

处理器1001可以包括一个或多个处理单元，例如：处理器1001可以包括应用处理器(application processor，AP)，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，DSP，CPU，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器1001还可以设置有存储器，用于存储指令和数据。在一些实施例中，处理器1001中的存储器为高速缓冲存储器。该存储器可以保存处理器1001刚用过或循环使用的指令或数据。如果处理器1001需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器1001的等待时间，因而提高了系统的效率。

在一些实施例中，处理器1001可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，SIM接口，和/或USB接口等。

在一些实施例中，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在计算机设备上运行时，使得计算机设备执行上述相关方法步骤实现上述实施例中的网页内容溯源方法和/或知识图谱构建方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的网页内容溯源方法和/或知识图谱构建方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的网页内容溯源方法和/或知识图谱构建方法。

其中，本实施例提供的第一计算机设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，该模块或单元的划分，仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种网页内容溯源方法，应用于服务器，其特征在于，所述方法包括：

查询待溯源网页在知识图谱中对应的第一网页实体，所述知识图谱包括多个实体、以及各个实体之间的关系；

根据所述知识图谱以及所述第一网页实体确定至少一个目标实体，所述至少一个目标实体与所述第一网页实体之间存在直接或者间接的关系；

确定所述待溯源网页的溯源结果，所述溯源结果包括所述至少一个目标实体对应的至少一个网页或网站以及每个所述网页或网站之间的关系。

2.根据权利要求1所述的方法，其特征在于，所述多个实体包括至少一个网站实体和至少一个网页实体，所述实体之间的关系包括引用关系和/或归属关系，所述引用关系或者所述归属关系通过所述网站实体的关系属性或者所述网页实体的关系属性进行确定。

3.根据权利要求1或2所述的方法，其特征在于，所述网页实体还包括网页地址属性，所述查询待溯源网页在知识图谱中对应的第一网页实体包括：

根据所述溯源网页的网页地址以及所述知识图谱中所有网页实体的网页地址属性，确定所述待溯源网页在所述知识图谱中对应的第一网页实体。

4.根据权利要求1或2所述的方法，其特征在于，所述网页实体还包括网页标识属性，所述查询待溯源网页在知识图谱中对应的第一网页实体包括：

根据所述待溯源网页的网页地址，生成所述待溯源网页对应的网页标识；

根据所述待溯源网页对应的网页标识、以及所述知识图谱中所有网页实体的网页标识属性，确定所述待溯源网页在所述知识图谱中对应的第一网页实体。

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述知识图谱以及所述第一网页实体确定至少一个目标实体包括：

根据所述知识图谱以及所述第一网页实体，确定至少一个候选实体；

根据每个所述候选实体的预设属性、以及所述第一网页实体的预设属性，从所述多个候选实体中确定至少一个目标实体。

6.根据权利要求5所述的方法，其特征在于，在所述查询待溯源网页在知识图谱中对应的第一网页实体之前，所述方法还包括：

获取知识图谱。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

向终端发送所述溯源结果，使得所述终端根据所述溯源结果进行渲染以显示用户界面，所述用户界面包括所述待溯源网页的图像、所述至少一个目标实体所对应的网站或者网页的图像、以及所述待溯源网页的图像与所述至少一个目标实体所对应网站或网页的图像之间的关系标识，所述关系标记基于所述第一网页实体与所述至少一个目标实体之间的关系确定。

8.一种网页内容溯源的方法，应用于终端，其特征在于，所述方法包括：

根据用户输入的待溯源网页的网页地址，生成针对所述待溯源网页的溯源请求；

向服务器发送所述溯源请求，以使所述服务器根据所述溯源请求包含的网页地址在知识图谱确定所述待溯源网页的溯源结果；

接收所述服务器返回的所述溯源结果，并根据所述溯源结果在用户界面上显示所述待溯源网页的图像、以及所述待溯源网页引用的网页或网站的图像。

9.一种知识图谱构建方法，其特征在于，所述方法包括：

确定用于构建知识图谱的多个网站以及所述多个网站所包括的多个站内网页；

识别所述多个站内网页的网页内容；

根据所述多个站内网页的网页内容以及所述多个网站与站内网页的归属关系构建知识图谱，其中，所述知识图谱包括多个实体、以及各个实体之间的关系。

10.根据权利要求9所述的方法，其特征在于，所述关系包括引用关系和归属关系，所述根据所述多个站内网页的网页内容以及所述多个网站与站内网页的归属关系构建知识图谱包括：

根据所述多个站内网页的网页内容的识别结果，确定与每个站内网页对应实体存在引用关系的至少一个引用实体，所述引用实体对应的网页或者网站为与所述站内网页引用的网页或者网站；

根据所述多个站内网页对应实体以及其对应的至少一个引用实体之间的引用关系、以及所述多个站内网页对应实体与其归属的网站对应实体之间的归属关系，构建知识图谱。

11.根据权利要求9所述的方法，其特征在于，所述多个实体都包括多个属性，每个所述属性包括至少一个属性值，所述实体包括至少一个网站实体和至少一个网页实体，所述关系包括网站实体与网站实体或者网页实体之间的引用关系、网站实体与网站实体之间的归属关系。

12.一种计算机设备，其特征在于，所述计算机设备包括至少一个处理器、存储器和通信模块；

所述至少一个处理器与所述存储器和所述通信模块连接；

所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信模块用于在所述至少一个处理器的控制下与装置进行通信；

所述指令在被所述至少一个处理器执行时，使所述至少一个处理器执行如权利要求1至11中任意一项所述网页内容溯源方法或所述知识图谱构建方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序使得计算机设备执行如权利要求1至11中任意一项所述网页内容溯源方法或所述知识图谱构建方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机执行指令，所述计算机执行指令存储在计算机可读存储介质中；计算机设备的至少一个处理器可以从所述计算机可读存储介质中读取所述计算机执行指令，所述至少一个处理器执行所述计算机执行指令使得所述计算机设备执行如权利要求1至11中任意一项所述网页内容溯源方法或所述知识图谱构建方法。