CN117744785A - 基于网络采集数据的时空知识图谱智能构建方法及系统 - Google Patents

基于网络采集数据的时空知识图谱智能构建方法及系统 Download PDF

Info

Publication number
CN117744785A
CN117744785A CN202410181954.0A CN202410181954A CN117744785A CN 117744785 A CN117744785 A CN 117744785A CN 202410181954 A CN202410181954 A CN 202410181954A CN 117744785 A CN117744785 A CN 117744785A
Authority
CN
China
Prior art keywords
text description
semantic
granularity
text
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410181954.0A
Other languages
English (en)
Inventor
陈应东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Beyondb Information Technology Co ltd
Original Assignee
Beijing Beyondb Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Beyondb Information Technology Co ltd filed Critical Beijing Beyondb Information Technology Co ltd
Priority to CN202410181954.0A priority Critical patent/CN117744785A/zh
Publication of CN117744785A publication Critical patent/CN117744785A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于网络采集数据的时空知识图谱智能构建方法及系统,涉及时空知识图谱技术领域。其首先对第一网络平台提取的第一实体的第一文本描述和第二网络平台提取的第一实体的第二文本描述分别进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列和第二文本描述词粒度语义编码特征向量的序列,接着进行词粒度语义交互融合编码以得到第一文本描述‑第二文本描述细粒度语义交互融合特征,最后基于所述第一文本描述‑第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述,这样可以使得所构造的知识图谱具有更大的信息全面度,并且可以综合不同平台的文本表达特色。

Description

基于网络采集数据的时空知识图谱智能构建方法及系统
技术领域
本申请涉及时空知识图谱技术领域,且更为具体地,涉及一种基于网络采集数据的时空知识图谱智能构建方法及系统。
背景技术
随着互联网的快速发展和信息爆炸式增长,人们可以从各种网络平台上获取大量的文本数据。这些数据包含了丰富的知识和信息,但由于数据来源的多样性和异构性,如何有效地整合和利用这些数据成为一个重要的挑战。
时空知识图谱是一种能够表示实体在不同时间和空间下的属性和关系的图结构,其中实体和实体之间的关系以及实体的属性被表示为图中的节点和边。时空知识图谱可以帮助理解和推理知识,从而能够为多领域的智能应用提供丰富的知识支持,如问答系统、推荐系统和智能搜索等。然而,现有的时空知识图谱构建方法通常需要手工编写规则或使用特定的领域知识来构建,很难应对数据规模的增长和知识更新的需求。并且,现有的构建方案通常只能从单一的数据源中抽取实体的信息,导致知识图谱的信息覆盖度和表达能力有限。
因此,期望一种优化的基于网络采集数据的时空知识图谱智能构建方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请提供了一种基于网络采集数据的时空知识图谱智能构建方法及系统,其可以从不同平台获取关于同一实体的文本描述,并在后端引入基于人工智能的数据处理和语义理解算法对来自不同平台的关于同一实体的文本描述进行语义分析融合和实体描述生成,以使得所构造的知识图谱具有更大的信息全面度。
根据本申请的一个方面,提供了一种基于网络采集数据的时空知识图谱智能构建方法,其包括:
从第一网络平台提取第一实体的第一文本描述;
从第二网络平台提取所述第一实体的第二文本描述;
对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;
对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;
对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;
以及基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
根据本申请的另一个方面,提供了一种基于网络采集数据的时空知识图谱智能构建系统,其包括:
第一文本描述提取模块,用于从第一网络平台提取第一实体的第一文本描述;
第二文本描述提取模块,用于从第二网络平台提取所述第一实体的第二文本描述;
第一语义编码分析模块,用于对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;
第二语义编码分析模块,用于对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;
词粒度语义交互融合编码模块,用于对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;
以及更新文本描述生成模块,用于基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
与现有技术相比,本申请提供的基于网络采集数据的时空知识图谱智能构建方法及系统,其首先对第一网络平台提取的第一实体的第一文本描述和第二网络平台提取的第一实体的第二文本描述分别进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列和第二文本描述词粒度语义编码特征向量的序列,接着进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征,最后基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述,这样可以使得所构造的知识图谱具有更大的信息全面度,并且可以综合不同平台的文本表达特色。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的流程图。
图2为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的架构示意图。
图3为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的子步骤S160的流程图。
图4为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建系统的框图。
图5为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
针对上述技术问题,在本申请的技术方案中,提出了一种基于网络采集数据的时空知识图谱智能构建方法,其能够从不同平台获取关于同一实体的文本描述,并在后端引入基于人工智能的数据处理和语义理解算法对来自不同平台的关于同一实体的文本描述进行语义分析融合和实体描述生成,以使得所构造的知识图谱具有更大的信息全面度,且能综合不同平台的文本表达特色。
图1为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的流程图。图2为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的架构示意图。如图1和图2所示,根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法,包括步骤:S110,从第一网络平台提取第一实体的第一文本描述;S120,从第二网络平台提取所述第一实体的第二文本描述;S130,对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;S140,对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;S150,对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;以及,S160,基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
具体地,在本申请的技术方案中,首先,从第一网络平台提取第一实体的第一文本描述,并从第二网络平台提取所述第一实体的第二文本描述。接着,考虑到对于所述第一实体的第一文本描述来说,其具有着大量的语义信息,并且最小的语义理解单元为词粒度。因此,为了能够更为充分和准确地进行该第一文本描述的语义分析和理解,需要将所述第一文本描述中的各个词和词组映射到高维向量空间中的语义表示,并保留词语之间的语义关系和上下文信息。具体地,在本申请的技术方案中,对所述第一实体的第一文本描述进行分词处理后通过包含词嵌入层的语义编码器中进行编码,以提取出所述第一文本描述中基于词粒度的语义关联特征信息,从而得到第一文本描述词粒度语义编码特征向量的序列。
相应地,在步骤S130中,对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列,包括:对所述第一实体的第一文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第一文本描述词粒度语义编码特征向量的序列。
然后,为了能够对于所述第一实体的第二文本描述进行语义理解,且为后续的语义交互和实体描述更新生成提供基础,在本申请的技术方案中,进一步对所述第一实体的第二文本描述进行分词处理后通过包含词嵌入层的语义编码器中进行编码,以提取出所述第二文本描述中基于词粒度的语义关联特征信息,从而得到第二文本描述词粒度语义编码特征向量的序列。
相应地,在步骤S140中,对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列,包括:对所述第一实体的第二文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第二文本描述词粒度语义编码特征向量的序列。
应可以理解,在构建知识图谱的过程中,来自不同网络平台的文本描述可能存在差异,包括表达方式、词汇选择、句法结构等。这些差异可能导致不同文本描述之间的语义差异,使得知识图谱的表示不够全面和准确。因此,为了克服这种差异,需要将这不同网络平台的文本描述之间进行细粒度的语义交互和融合,以获取更丰富和准确的特征表示。具体地,在本申请的技术方案中,进一步使用词粒度语义交互层对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理以得到第一文本描述-第二文本描述细粒度语义交互融合特征向量。特别地,这里,所述词粒度语义交互层可以通过利用两个文本描述中相应词语的语义相关性,将两个文本描述的特征向量进行交互和融合,得到细粒度的语义交互融合特征向量。通过对不同网络平台的文本描述进行基于词粒度的语义交互,可以捕捉到不同文本描述之间基于词粒度的语义关联和融合处理,从而获取更丰富和准确的特征表示。这种细粒度的语义交互融合特征向量可以更好地反映不同网络平台的文本描述之间的语义关系,为后续的实体描述生成提供更准确和丰富的信息,且能综合不同平台的文本表达特色,提高知识图谱的信息全面度和准确性。
相应地,在步骤S150中,对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征,包括:使用词粒度语义交互层对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理以得到第一文本描述-第二文本描述细粒度语义交互融合特征向量作为所述第一文本描述-第二文本描述细粒度语义交互融合特征。
具体地,在一个示例中,使用词粒度语义交互层对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理以得到第一文本描述-第二文本描述细粒度语义交互融合特征向量作为所述第一文本描述-第二文本描述细粒度语义交互融合特征,包括:基于所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列之间的相关度进行注意力增强以得到注意力增强第一文本描述词粒度语义编码特征向量的序列和注意力增强第二文本描述词粒度语义编码特征向量的序列;融合所述第一文本描述词粒度语义编码特征向量的序列和所述注意力增强第一文本描述词粒度语义编码特征向量的序列中相应位置的特征向量以得到第一文本描述局部融合特征向量的序列,并融合所述第二文本描述词粒度语义编码特征向量的序列和所述注意力增强第二文本描述词粒度语义编码特征向量的序列中相应位置的特征向量以得到第二文本描述局部融合特征向量的序列;对所述第一文本描述局部融合特征向量的序列进行最大值池化处理以得到第一文本描述局部融合最大值池化特征向量,并对所述第二文本描述局部融合特征向量的序列进行最大值池化处理以得到第二文本描述局部融合最大值池化特征向量;以及,融合所述第一文本描述局部融合最大值池化特征向量和所述第二文本描述局部融合最大值池化特征向量以得到所述第一文本描述-第二文本描述细粒度语义交互融合特征向量。
进一步地,将所述第一文本描述-第二文本描述细粒度语义交互融合特征向量通过基于AIGC模型的实体描述生成器以得到所述第一实体的更新文本描述。应可以理解,所述第一文本描述-第二文本描述细粒度语义交互融合特征向量可以表示更丰富和准确的实体描述,其包含了来自不同平台的文本描述之间的细粒度语义交互信息,能够捕捉到不同描述之间的语义关联和相互影响。因此,通过将所述细粒度语义交互融合特征向量输入到实体描述生成器中,可以利用所述第一文本描述和所述第二文本描述之间基于词粒度的语义交互融合特征信息来生成更具语义准确性和信息丰富度的实体描述。这样的更新文本描述可以更好地反映实体的特征和属性,提高知识图谱的信息全面度和准确性。
相应地,在步骤S160中,如图3所示,基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述,包括:S161,对所述第一文本描述-第二文本描述细粒度语义交互融合特征向量进行特征校正处理以得到校正第一文本描述-第二文本描述细粒度语义交互融合特征向量;以及,S162,将所述校正第一文本描述-第二文本描述细粒度语义交互融合特征向量通过基于AIGC模型的实体描述生成器以得到所述第一实体的更新文本描述。
在上述技术方案中,所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列分别表达所述第一实体的第一文本描述和第二文本描述的基于分词语义空间嵌入的序列化文本语义特征,也就是,所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列的文本语义特征内容具有在基于所述第一文本描述和所述第二文本描述的不同源文本语义计算维度下的语义特征表达变化性,因此,当使用词粒度语义交互层来对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理时,为了提升所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列的词粒度语义交互融合表达效果,优选地对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行优化融合。
相应地,在步骤S161中,对所述第一文本描述-第二文本描述细粒度语义交互融合特征向量进行特征校正处理以得到校正第一文本描述-第二文本描述细粒度语义交互融合特征向量,包括:对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行优化融合以得到第一文本描述-第二文本描述语义优化融合特征向量;以及,融合所述第一文本描述-第二文本描述语义优化融合特征向量和所述第一文本描述-第二文本描述细粒度语义交互融合特征向量以得到所述校正第一文本描述-第二文本描述细粒度语义交互融合特征向量。
其中,在一个示例中,对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行优化融合以得到第一文本描述-第二文本描述语义优化融合特征向量,包括:以如下优化公式对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行优化融合以得到所述第一文本描述-第二文本描述语义优化融合特征向量;其中,所述优化公式为:
其中,是所述第一文本描述词粒度语义编码特征向量的序列级联得到的第一特征向量,/>是所述第二文本描述词粒度语义编码特征向量的序列级联得到的第二特征向量,/>和/>分别是所述第一文本描述词粒度语义编码特征向量的序列级联得到的第一特征向量/>和所述第二文本描述词粒度语义编码特征向量的序列级联得到的第二特征向量的第/>个特征值,/>和/>分别表示特征向量的一范数的平方和特征向量的二范数的平方根,所述第一特征向量和所述第二特征向量具有相同长度/>,且/>是权重超参数,/>表示向量加法,/>表示向量减法,/>表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值,/>是所述第一文本描述-第二文本描述语义优化融合特征向量的第/>个特征值。
这里,上述优化融合基于特征值粒度下的对应性来将所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列的序列化融合表示进行基于向量尺度的前景流形和背景流形的划分,以在特征对应通道超流形体聚合机制下堆叠所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列的动态的特征值通道化关联,从而标记所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列间的变化的特征语义信息,实现根据所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列间的语义内容在不同计算维度下的变化性的全连接式堆叠融合,以提升所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列的交互融合效果,从而改进所述第一文本描述-第二文本描述细粒度语义交互融合特征向量通过基于AIGC模型的实体描述生成器得到的所述第一实体的更新文本描述的文本质量。这样,能够对来自不同平台的关于同一实体的文本描述进行语义融合和实体描述生成,以有效利用不同平台中关于实体描述语义之间的互补性和差异性,从而使得所构造的知识图谱具有更大的信息全面度,且能综合不同平台的文本表达特色,为各种智能应用提供更好的支持。
综上,基于本申请实施例的基于网络采集数据的时空知识图谱智能构建方法被阐明,其可以使得所构造的知识图谱具有更大的信息全面度,并且可以综合不同平台的文本表达特色。
图4为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建系统100的框图。如图4所示,根据本申请实施例的基于网络采集数据的时空知识图谱智能构建系统100,包括:第一文本描述提取模块110,用于从第一网络平台提取第一实体的第一文本描述;第二文本描述提取模块120,用于从第二网络平台提取所述第一实体的第二文本描述;第一语义编码分析模块130,用于对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;第二语义编码分析模块140,用于对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;词粒度语义交互融合编码模块150,用于对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;以及,更新文本描述生成模块160,用于基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
在一个示例中,在上述基于网络采集数据的时空知识图谱智能构建系统100中,所述第一语义编码分析模块130,用于:对所述第一实体的第一文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第一文本描述词粒度语义编码特征向量的序列。
在一个示例中,在上述基于网络采集数据的时空知识图谱智能构建系统100中,所述第二语义编码分析模块140,用于:对所述第一实体的第二文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第二文本描述词粒度语义编码特征向量的序列。
这里,本领域技术人员可以理解,上述基于网络采集数据的时空知识图谱智能构建系统100中的各个模块的具体功能和操作已经在上面参考图1到图3的基于网络采集数据的时空知识图谱智能构建方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于网络采集数据的时空知识图谱智能构建系统100可以实现在各种无线终端中,例如具有基于网络采集数据的时空知识图谱智能构建算法的服务器等。在一个示例中,根据本申请实施例的基于网络采集数据的时空知识图谱智能构建系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于网络采集数据的时空知识图谱智能构建系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于网络采集数据的时空知识图谱智能构建系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于网络采集数据的时空知识图谱智能构建系统100与该无线终端也可以是分立的设备,并且该基于网络采集数据的时空知识图谱智能构建系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
图5为根据本申请实施例的基于网络采集数据的时空知识图谱智能构建方法的应用场景图。如图5所示,在该应用场景中,首先,获取从第一网络平台提取第一实体的第一文本描述(例如,图5中所示意的D1),以及,从第二网络平台提取所述第一实体的第二文本描述(例如,图5中所示意的D2),然后,将所述第一实体的第一文本描述和所述第一实体的第二文本描述输入至部署有基于网络采集数据的时空知识图谱智能构建算法的服务器(例如,图5中所示意的S)中,其中,所述服务器能够使用所述基于网络采集数据的时空知识图谱智能构建算法对所述第一实体的第一文本描述和所述第一实体的第二文本描述进行处理以得到第一实体的更新文本描述。
进一步,值得一提的是,在一个示例中,时空知识图谱构建平台采用B/S技术架构,可以基于网络采集各类百科网站下指定主题的数据,构建地名本体并编辑维护,解析常见类型文件,抽取地名及与地名相关知识,构建时空知识图谱,并提供应用服务。主要包括网页爬取工具、本体构建工具、地名知识抽取工具、时空知识图谱构建及应用工具四大模块。
网页爬取工具是根据设定的主题,以互联网资源为数据源,利用主题网络爬虫技术和数据识别技术,自动爬取国内外常用百科网站下指定主题的知识。主题网络爬虫技术根据选中主题爬取采集网页数据,采集结果提供汇总展示,爬取的页面具有相关性,页面利用率高。工具可在互联网环境下独立使用,爬虫数据支持导出功能,通过导入功能回复到平台运行的环境中,实现数据无丢失迁移。网页爬取工具包括主题爬取、表层爬取、数据管理、系统设置。
本体构建工具是为用户提供便利的工具,对本体的概念、关系、属性、规则、函数、实例等六个元素进行自定义,本体是明确表达哪些地名对象以及如何详细表达这些对象,是对地名的概念进行形式化说明和表达。
地名知识抽取工具以地名本体为基础,构建地名知识抽取工具,地名知识抽取需要本体和地名数据两大输入项,通过对地名数据标注,构建语料,同时,系统具备对原始文件,数据标注及抽取数据、三元组数据的管理功能。地名知识抽取工具设计为文件管理、数据标注、知识抽取、模型管理四个模块。
时空知识图谱构建及应用工具在地名本体和各类地名知识数据的基础上,构建时空知识图谱,包括知识图谱整编、知识图谱展示、匹配融合、查询检索、统计分析、智能问答、建模推理等七个模块。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本申请所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本申请的说明,而不应被认为是对其的限制。尽管描述了本申请的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本申请的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本申请范围内。应当理解,上面是对本申请的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本申请由权利要求书及其等效物限定。

Claims (10)

1.一种基于网络采集数据的时空知识图谱智能构建方法,其特征在于,包括:
从第一网络平台提取第一实体的第一文本描述;
从第二网络平台提取所述第一实体的第二文本描述;
对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;
对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;
对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;
以及基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
2.根据权利要求1所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列,包括:
对所述第一实体的第一文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第一文本描述词粒度语义编码特征向量的序列。
3.根据权利要求2所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列,包括:
对所述第一实体的第二文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第二文本描述词粒度语义编码特征向量的序列。
4.根据权利要求3所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征,包括:
使用词粒度语义交互层对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理以得到第一文本描述-第二文本描述细粒度语义交互融合特征向量作为所述第一文本描述-第二文本描述细粒度语义交互融合特征。
5.根据权利要求4所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,使用词粒度语义交互层对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行处理以得到第一文本描述-第二文本描述细粒度语义交互融合特征向量作为所述第一文本描述-第二文本描述细粒度语义交互融合特征,包括:
基于所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列之间的相关度进行注意力增强以得到注意力增强第一文本描述词粒度语义编码特征向量的序列和注意力增强第二文本描述词粒度语义编码特征向量的序列;
融合所述第一文本描述词粒度语义编码特征向量的序列和所述注意力增强第一文本描述词粒度语义编码特征向量的序列中相应位置的特征向量以得到第一文本描述局部融合特征向量的序列,并融合所述第二文本描述词粒度语义编码特征向量的序列和所述注意力增强第二文本描述词粒度语义编码特征向量的序列中相应位置的特征向量以得到第二文本描述局部融合特征向量的序列;
对所述第一文本描述局部融合特征向量的序列进行最大值池化处理以得到第一文本描述局部融合最大值池化特征向量,并对所述第二文本描述局部融合特征向量的序列进行最大值池化处理以得到第二文本描述局部融合最大值池化特征向量;
以及融合所述第一文本描述局部融合最大值池化特征向量和所述第二文本描述局部融合最大值池化特征向量以得到所述第一文本描述-第二文本描述细粒度语义交互融合特征向量。
6.根据权利要求5所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述,包括:
对所述第一文本描述-第二文本描述细粒度语义交互融合特征向量进行特征校正处理以得到校正第一文本描述-第二文本描述细粒度语义交互融合特征向量;
以及将所述校正第一文本描述-第二文本描述细粒度语义交互融合特征向量通过基于AIGC模型的实体描述生成器以得到所述第一实体的更新文本描述。
7.根据权利要求6所述的基于网络采集数据的时空知识图谱智能构建方法,其特征在于,对所述第一文本描述-第二文本描述细粒度语义交互融合特征向量进行特征校正处理以得到校正第一文本描述-第二文本描述细粒度语义交互融合特征向量,包括:
对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行优化融合以得到第一文本描述-第二文本描述语义优化融合特征向量;
以及融合所述第一文本描述-第二文本描述语义优化融合特征向量和所述第一文本描述-第二文本描述细粒度语义交互融合特征向量以得到所述校正第一文本描述-第二文本描述细粒度语义交互融合特征向量。
8.一种基于网络采集数据的时空知识图谱智能构建系统,其特征在于,包括:
第一文本描述提取模块,用于从第一网络平台提取第一实体的第一文本描述;
第二文本描述提取模块,用于从第二网络平台提取所述第一实体的第二文本描述;
第一语义编码分析模块,用于对所述第一实体的第一文本描述进行基于词粒度的语义编码和分析以得到第一文本描述词粒度语义编码特征向量的序列;
第二语义编码分析模块,用于对所述第一实体的第二文本描述进行基于词粒度的语义编码和分析以得到第二文本描述词粒度语义编码特征向量的序列;
词粒度语义交互融合编码模块,用于对所述第一文本描述词粒度语义编码特征向量的序列和所述第二文本描述词粒度语义编码特征向量的序列进行词粒度语义交互融合编码以得到第一文本描述-第二文本描述细粒度语义交互融合特征;
以及更新文本描述生成模块,用于基于所述第一文本描述-第二文本描述细粒度语义交互融合特征,生成所述第一实体的更新文本描述。
9.根据权利要求8所述的基于网络采集数据的时空知识图谱智能构建系统,其特征在于,所述第一语义编码分析模块,用于:
对所述第一实体的第一文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第一文本描述词粒度语义编码特征向量的序列。
10.根据权利要求9所述的基于网络采集数据的时空知识图谱智能构建系统,其特征在于,所述第二语义编码分析模块,用于:
对所述第一实体的第二文本描述进行分词处理后通过包含词嵌入层的语义编码器以得到所述第二文本描述词粒度语义编码特征向量的序列。
CN202410181954.0A 2024-02-19 2024-02-19 基于网络采集数据的时空知识图谱智能构建方法及系统 Pending CN117744785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410181954.0A CN117744785A (zh) 2024-02-19 2024-02-19 基于网络采集数据的时空知识图谱智能构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410181954.0A CN117744785A (zh) 2024-02-19 2024-02-19 基于网络采集数据的时空知识图谱智能构建方法及系统

Publications (1)

Publication Number Publication Date
CN117744785A true CN117744785A (zh) 2024-03-22

Family

ID=90277696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410181954.0A Pending CN117744785A (zh) 2024-02-19 2024-02-19 基于网络采集数据的时空知识图谱智能构建方法及系统

Country Status (1)

Country Link
CN (1) CN117744785A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532353A (zh) * 2019-08-27 2019-12-03 海南阿凡题科技有限公司 基于深度学习的文本实体匹配方法、系统、装置
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
US20220198149A1 (en) * 2020-12-23 2022-06-23 Industrial Technology Research Institute Method and system for machine reading comprehension
US11398227B1 (en) * 2020-09-21 2022-07-26 Amazon Technologies, Inc. Compression for translation systems
CN115700588A (zh) * 2021-07-27 2023-02-07 阿里巴巴新加坡控股有限公司 文本处理方法、装置和电子设备
CN116469526A (zh) * 2023-04-14 2023-07-21 平安科技(深圳)有限公司 中医诊断模型训练方法、装置、设备及存储介质
WO2023204944A1 (en) * 2022-04-19 2023-10-26 Microsoft Technology Licensing, Llc Training of text and image models
CN116955599A (zh) * 2022-04-08 2023-10-27 腾讯科技(深圳)有限公司 一种类目确定的方法、相关装置、设备以及存储介质
CN116955644A (zh) * 2023-06-27 2023-10-27 中原工学院 基于知识图谱的知识融合方法、系统及存储介质
CN117610658A (zh) * 2023-12-21 2024-02-27 中原工学院 一种基于人工智能的知识图谱数据动态更新方法及系统
CN117787287A (zh) * 2023-12-20 2024-03-29 郑州华骏技术有限公司 基于大模型的事故处理方法、系统及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532353A (zh) * 2019-08-27 2019-12-03 海南阿凡题科技有限公司 基于深度学习的文本实体匹配方法、系统、装置
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
US11398227B1 (en) * 2020-09-21 2022-07-26 Amazon Technologies, Inc. Compression for translation systems
US20220198149A1 (en) * 2020-12-23 2022-06-23 Industrial Technology Research Institute Method and system for machine reading comprehension
CN115700588A (zh) * 2021-07-27 2023-02-07 阿里巴巴新加坡控股有限公司 文本处理方法、装置和电子设备
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN116955599A (zh) * 2022-04-08 2023-10-27 腾讯科技(深圳)有限公司 一种类目确定的方法、相关装置、设备以及存储介质
WO2023204944A1 (en) * 2022-04-19 2023-10-26 Microsoft Technology Licensing, Llc Training of text and image models
CN116469526A (zh) * 2023-04-14 2023-07-21 平安科技(深圳)有限公司 中医诊断模型训练方法、装置、设备及存储介质
CN116955644A (zh) * 2023-06-27 2023-10-27 中原工学院 基于知识图谱的知识融合方法、系统及存储介质
CN117787287A (zh) * 2023-12-20 2024-03-29 郑州华骏技术有限公司 基于大模型的事故处理方法、系统及存储介质
CN117610658A (zh) * 2023-12-21 2024-02-27 中原工学院 一种基于人工智能的知识图谱数据动态更新方法及系统

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110147437A (zh) 一种基于知识图谱的搜索方法及装置
Caicedo et al. Multimodal representation, indexing, automated annotation and retrieval of image collections via non-negative matrix factorization
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN107145485B (zh) 用于压缩主题模型的方法和装置
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
Ye et al. A web services classification method based on GCN
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN111125297B (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
VeeraSekharReddy et al. Named Entity Recognition using CRF with Active Learning Algorithm in English Texts
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN111368552B (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN117610658A (zh) 一种基于人工智能的知识图谱数据动态更新方法及系统
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN116628303A (zh) 一种基于提示学习的半结构化网页属性值抽取方法和系统
CN117744785A (zh) 基于网络采集数据的时空知识图谱智能构建方法及系统
US20240005170A1 (en) Recommendation method, apparatus, electronic device, and storage medium
CN113641789B (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
CN114691880A (zh) 知识图谱构建方法、装置及电子设备
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN114741587A (zh) 一种物品推荐方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Yingdong

Inventor after: Fan Jingjing

Inventor after: Lu Wei

Inventor after: Guan Minglin

Inventor after: Lin Yongheng

Inventor after: Liu Chaosong

Inventor after: Jiang Dalei

Inventor before: Chen Yingdong