CN114138985B - 文本数据处理的方法、装置、计算机设备以及存储介质 - Google Patents
文本数据处理的方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN114138985B CN114138985B CN202210118731.0A CN202210118731A CN114138985B CN 114138985 B CN114138985 B CN 114138985B CN 202210118731 A CN202210118731 A CN 202210118731A CN 114138985 B CN114138985 B CN 114138985B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- knowledge graph
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及互联网产业的适用于经济金融目的的数据处理技术领域,具体涉及一种文本数据处理的方法、装置、计算机设备以及存储介质。其中方法包括:构建显性知识图谱,所述显性知识图谱的边权重相等;获取用户的行为数据;基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱;基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。实施本申请实施例,可以提高变量生成的准确率和效率。
Description
技术领域
本申请涉及互联网产业的适用于经济金融目的的数据处理技术领域,具体涉及一种文本数据处理的方法、装置、计算机设备以及存储介质。
背景技术
随着实证研究的不断深入,研究主题进一步细分,涉及的研究变量呈规模性扩充、增长。往往学者在确定研究主题后,需人工查阅诸多文献,然后通过总结归纳的方式在海量研究变量中,筛选出符合该研究主题的关键变量。该过程耗费学者大量时间成本且效率低下,不利于研究工作的开展。因此,通过技术手段实现某一研究主题关键变量的快速生成,自动化完成部分单调、重复的调研准备工作,对专家学者提升研究效率有重要意义。
目前一种可行的技术是知识图谱。但传统的知识图谱应用在经济金融领域时,难以高度契合经济金融专业知识体系,也很难很好地拟合研究变量间的依赖、交联关系以及准确分析学者研究偏好。因此,利用传统的知识图谱无法快速生成变量或生成的变量与研究主题的契合度较低。
发明内容
本申请实施例提供了一种文本数据处理的方法、装置、计算机设备以及存储介质,可以实现基于经济金融知识架构显在主题和学者研究偏好潜在主题,快速生成研究主题的关键变量,有助于提高变量生成的准确率和效率。
第一方面,本申请实施例提供了一种文本数据处理的方法,包括:
构建显性知识图谱,所述显性知识图谱的边权重相等;
获取用户的行为数据;
基于所述行为数据和所述显性知识图谱,构建隐性知识图谱;
基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
第二方面,本申请实施例提供了一种文本数据处理的装置,包括:
第一构建模块,用于构建显性知识图谱,所述显性知识图谱边权重相等;
第一获取模块,用于获取用户的行为数据;
第二构建模块,用于基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱;
生成模块,用于基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
其中,第一构建模块包括:
第一三元组构建单元,用于从预设知识库中构建第一目标三元组;
编码单元,用于将所述第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;
实体消歧单元,用于对所述三元组编码进行实体消歧,得到目标三元组编码;
图谱构建单元,用于将所述目标三元组编码输入至注意力神经网络模型中,得到显性知识图谱;
其中,第二构建模块包括:
提取单元,用于提取所述用户的行为数据的数据字段名;
第二三元组构建单元,用于将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;
第一生成单元,用于基于用户的操作顺序,生成数据时间戳;
第二生成单元,用于基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱;
其中,第二生成单元包括:
第一图谱构建子单元,用于将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;
第一聚合子单元,用于对所述子图谱的邻居节点信息进行聚合,得到数据节点特征;
第二聚合子单元,用于将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;
更新子单元,用于基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重;
第二图谱构建子单元,用于基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱;
其中,生成模块包括:
第一构建单元,用于构建第二神经网络模型;
第二构建单元,用于将所述显性知识图谱和所述隐性知识图谱输入至所述第二神经网络模型,得到目标知识图谱;
其中,该装置还包括:
接收模块,用于用户输入的查询信息;
第二获取模块,用于基于所述目标知识图谱,以所述查询信息作为查询节点,获取所述查询节点的K阶邻居节点,得到候选内容;
确定模块,用于基于所述查询节点的边权重确定所述候选内容的推荐值,其中,所述推荐值与所述边权重呈正相关;
推荐模块,用于将推荐值最高的前N个候选内容作为推荐内容进行推荐,其中,所述K和所述N为大于或等于1的正整数;
设置模块,用于设定图谱更新时间窗;
第三获取模块,用于获取所述图谱更新时间窗内生成的用户的行为数据;
更新模块,用于基于所述图谱更新时间窗内生成的用户的行为数据,更新所述目标知识图谱。
第三方面,本申请实施例提供了一种计算机设备,包括处理器、存储器和通信接口,其中,所述存储器存储有计算机程序,所述计算机程序被配置由所述处理器执行,所述计算机程序包括用于如本申请实施例第一方面中所描述的部分或全部步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
实施本申请实施例,将具有如下有益效果:
采用上述的文本数据处理的方法、装置、设备以及存储介质,在构建基于经济金融知识的显性知识图谱之后,获取用户的行为数据,该用户的行为数据可以反馈数据的空间关系以及时间关系。然后基于用户的行为数据和显性知识图谱,构建基于学者研究偏好(如跨主题交叉研究偏好等)的隐性知识图谱。最后再基于显性知识图谱和所述隐性知识图谱,生成目标知识图谱。如此,最后生成的目标知识图谱包含了显性知识图谱和隐性知识图谱的性质。也就是说,目标知识图谱既包含了经济金融知识架构的显在主题特征,又包含了学者研究偏好(如跨主题交叉研究偏好等)的潜在主题特征,还可以体现数据的空间关系以及时间关系。因此,利用目标知识图谱可以提高变量生成的准确率和效率,有助于快速生成高准确度匹配专家学者研究偏好的变量。同时,还可以降低专家学者搜寻支持研究主题的关键变量的时间,提高研究效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种文本数据处理的方法的流程示意图;
图3为本申请实施例提供的一种T-KGCN神经网络模型的结构示意图;
图4为本申请实施例提供的一种文本数据处理的装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
还应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为了更好地理解本申请实施例的技术方案,先对本申请实施例可能涉及的系统架构进行介绍。请参照图1,本申请实施例提供的一种系统架构示意图,该系统架构可以包括:电子设备101和服务器102。其中,电子设备101和服务器102之间可以通过网络通信。网络通信可以基于任何有线和无线网络,包括但不限于因特网、广域网、城域网、局域网、虚拟专用网络(virtual private network,VPN)和无线通信网络等等。
本申请实施例不限定电子设备和服务器的数量,服务器可同时为多个电子设备提供服务。在本申请实施例中,电子设备可以是个人计算机(personal computer,PC)、笔记本电脑或智能手机,还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。PC端的电子设备,例如一体机等,其操作系统可以包括但不限于Linux系统、Unix系统、Windows系列系统(例如Windows xp、Windows 7等)、Mac OS X系统(苹果电脑的操作系统)等操作系统。移动端的电子设备,例如智能手机等,其操作系统可以包括但不限于安卓系统、IOS(苹果手机的操作系统)、Window系统等操作系统。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器或者可以通过多个服务器组成的服务器集群来实现。
随着实证研究的不断深入,研究主题进一步细分,涉及的研究变量呈规模性扩充、增长。往往学者在确定研究主题后,需人工查阅诸多文献,然后通过总结归纳的方式在海量研究变量中,筛选出符合该研究主题的关键变量。该过程耗费学者大量时间成本且效率低下,不利于研究工作的开展。因此,通过技术手段实现某一研究主题关键变量的快速生成,自动化完成部分单调、重复的调研准备工作,对专家学者提升研究效率有重要意义。
目前一种可行的技术是知识图谱(knowledge graph,KG),知识图谱可以弥补原有数据库的不足。知识图谱是一种把机器学习(machine learning,ML)、自然语言处理(natural language processing,NLP)、深度学习(deep learning)等知识提取方法,领域词表、分类树、词向量、本体等知识表现方法,资源描述框架(resource descriptionframework,RDF)数据库和图数据库等知识存储方法,以及语义搜索、问答系统、分面浏览器这些知识检索方法结合在一起的智能化工具集。知识图谱可以理解为一个由许多实体和关系构成的多关系图(multi-relational graph),其中,可以用节点(vertex)来表示实体(entity),用边(edge)来表示实体间的关系(relation)。实体可以是指现实世界中的事物,比如人名、地名、机构名、概念、专有名词等,关系则是可以用来表达不同实体之间的某种联系。示例地,一个简单的知识图谱为“A公司-竞争对手-B公司”,其中,实体为“A公司”和“B公司”,关系为“竞争对手”。再通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,使得每一类数据不再仅仅是数据,而是具有可联系、可追溯、可扩展的图谱,从而能够将隐藏的逻辑关系快速呈现出来。
但是由于经济金融领域存在着变量精度要求高,逻辑关系复杂等特性,传统的知识图谱应用在经济金融领域时,难以高度契合经济金融专业知识体系,也很难很好地拟合研究变量间的依赖、交联关系以及准确分析学者研究偏好。因此,利用传统的知识图谱无法快速生成变量或生成的变量与研究主题的契合度较低。
为了解决上述问题,本申请实施例提供了一种文本数据处理的方法,该方法可以应用在经济金融领域配置的电子设备或服务器上。通过实施该方法,可以实现基于经济金融知识架构显在主题和学者研究偏好潜在主题,快速生成研究主题的关键变量,有助于提高变量生成的准确率和效率。
请参照图2,图2是本申请实施例提供的一种文本数据处理的方法的流程示意图。以该方法应用在电子设备为例进行举例说明,可以包括以下步骤S201-S204,其中:
步骤S201:构建显性知识图谱,所述显性知识图谱的边权重相等。
在本申请实施例中,显性知识图谱可以是指基于现有经济金融知识生成的知识图谱。显性知识图谱的节点为经济金融领域相关的实体,如流动资产、债券、上市公司等。边代表了两个实体节点之间的关联信息,如属于关系、包含关系、等价关系等等。边权重可以用于表征知识图谱中邻居节点之间的关联程度,也就是说,边权重可以理解为相邻两个实体之间的关联程度。节点间的边权重越大,则表明两个节点间的关联程度越高。由于显性知识图谱是基于现有经济金融知识生成的,相邻两个节点间的相关度区别不明显。因此,本申请实施例所构建的显性知识图谱的边权重相等。
在一种可能的实施方式中,步骤S201具体可以包括以下步骤:
从预设知识库中构建第一目标三元组;将所述第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;对所述三元组编码进行实体消歧,得到目标三元组编码;将所述目标三元组编码输入至注意力神经网络模型中,得到显性知识图谱。
预设知识库是预先构建的储存有经济金融领域相关知识(如公开的文献、专利、大盘数据等等)的数据库,可以是关系型数据库,也可以是区块链的存储节点等,本申请实施例对此不做出限定。预设知识库可以预先存储于电子设备中,或者,存储在服务器中,电子设备通过访问服务器获取预设知识库。第一目标三元组可以用于描述两个经济金融领域相关的实体以及两个实体之间的关系,可以包括(实体,关系,实体)和(实体,属性,属性值)两类结构。其中,(实体,关系,实体)结构的第一目标三元组,主要用于描述实体之间的关系,例如,(股票A,属于,上证大盘)等。(实体,属性,属性值)结构的第一目标三元组,主要用于描述实体具有的属性。例如,(A公司,总市值,50亿)等。
具体地,可以利用自然语言处理模型从预设知识库中提取每一条数据对应的字段名、一级主题、二级主题、三级主题、数据频率、省域代码、市域代码、县域代码、时间区别等,进行实体识别、实体属性识别、实体关系识别和关系属性识别等一系列处理过程,从而得到第一目标三元组。需要说明的是,本申请实施例对于第一目标三元组的数量不做限定,可以有一个,也可以有多个。
本申请实施例涉及的自然语言处理模型可以包括分词模块和提取模块。分词模块可以将预设知识库中所涉及的文本进行分词处理,并去停用词。提取模块可以对分词模块输出的结果进行处理,从而提取得到多个实体、实体属性和实体关系等。其中,可以采用词频-逆文本频率指数(term frequency-inverse document frequency,TF-IDF)、TextRank、基于语义的关键词提取算法等来构建第一目标三元组,本申请实施例对此不做限定。
双向注意力神经网络模型(bidirectional encoder representations fromtransformers,BERT)作为语言表示模型中最常用的模型,在通用领域内具有很好的表现。但是由于其基于的大规模语料并非针对某一特定领域,因此BERT模型无法很好的解决专业领域内的自然语言处理问题。在经济金融领域,这一缺点尤为严重,因为经济金融领域专业性极强,并且在经济金融领域使用深度学习模型的容错程度更低。因此,目前常用的语言表示模型如BERT等,在经济金融领域的适用性不好,无法解决经济金融领域某些特定研究场景下的自然语言问题。
目前的一种可行解决方法是将知识图谱显性地融入BERT模型中,构建基于知识图谱的语言表示模型(knowledge-enabled bidirectional encoder representation fromtransformers,K-BERT),或者K-BERT模型的衍生模型,使其具备专家知识,从而提高模型在特定领域任务上的性能。此外,K-BERT类模型还可以解决文本词向量和实体词向量之间向量空间不统一的问题。
为了便于描述,下面以INDEX-K-BERT模型为例,对第一目标三元组的编码过程进行描述。INDEX-K-BERT模型是K-BERT模型的衍生模型,除了其输入与K-BERT模型不同之外,其他结构均与K-BERT模型类似。K-BERT模型的输入通常为句子,而INDEX-K-BERT模型的输入为实体短语。与K-BERT模型类似,INDEX-K-BERT模型也可以兼容BERT类的模型参数。也就是说,INDEX-K-BERT模型可以加载公开的已经预训练好的BERT类模型,无需自行再次预训练,可以给使用者节约计算资源。
与K-BERT模型类似,INDEX-K-BERT的模型体系结构也是主要由四个模块组成,分别是知识层(knowledge layer)、嵌入层(embedding layer)、视图层(seeing layer)和掩码转换(Mask-Transformer)。INDEX-K-BERT模型的每一部分都有着不可或缺的作用。
知识层主要用于实体短语知识注入和指标树转换,即根据知识图谱向实体短语中注入相关的第一目标三元组,从而将原始的实体短语转换为知识丰富的指标树。这个过程可以包括两个部分,分别是知识查询(K-Query)和知识注入(K-Inject)。其中,可以从知识查询中选出实体短语中涉及的所有实体名称来查询其对应的第一目标三元组。知识注入将查询到的第一目标三元组注入到实体短语中,并生成一棵指标树。示例地,输入的实体短语可以是s={w0,w1,...,wn},输出指标树为t={w0{(r00,w00),...,(r0k,w0k)},w1{(r10,w10),...,(r1k,w1k)},...,wn{(rn0,wn0),...,(rnk,wnk)}}。如此,通过知识层,一个实体短语序列可以被转换成了一个树结构,使得其中包含了实体短语中原本没有的专家知识。
嵌入层的功能是将指标树转换为可以馈送到掩码转换器中的嵌入表示。与BERT模型相似,INDEX-K-BER模型的嵌入表示也是由符号嵌入(token embedding)、位置嵌入(position embedding)和段嵌入(segment embedding)三部分组成,不同之处在于INDEX-K-BERT模型嵌入层的输入是指标树,而不是符号序列。因此,如何在保留指标树结构信息的同时,将指标树转换成序列是INDEX-K-BERT模型的关键。
INDEX-K-BERT模型的符号嵌入与BERT模型基本一致,不同之处在于指标树中的符号在嵌入操作之前需要重新排列。在重新排列策略中,分支中的符号被插入到相应节点,而后续的符号则向后移动。经此操作后原来的实体短语可能会变得杂乱难读,很大可能会造成结构信息的丢失。为了防止信息的丢失,本申请实施例构建的INDEX-K-BERT模型借鉴了K-BERT模型的解决方法,使用软位置(soft-position)给指标树重新设置位置标号。但是设置位置编号时又可能会发生实际没有联系的词汇,导致在计算自我注意力(self-attention)的时候,具有相同的软位置标号而出现联系,导致意思发生改变,产生知识噪声(knowledge noise)。
为了解决知识噪声的问题,与K-BERT模型类似,INDEX-K-BERT模型也引入了视图层。在指标树中,一个实体的三元组应与其他词汇无关,否则可能会导致混乱。也就是说,让一个词的词嵌入只来源于其同一个枝干的上下文,而不同枝干的词之间相互不影响。这个功能可以通过可见矩阵(visible matrix)来实现,可见矩阵可以很好的解决指标树结构信息混乱的问题。可见矩阵可以用于控制每个符号(token)的可见区域,防止由于注入过多的知识而改变原句的意思。在本申请实施例中,可以以指标树各词组的硬位置(hard-position)为矩阵坐标,以是否在同一支链上为“是否可见的区分条件”,构建可见矩阵。其中,若可见,则设为0,否则,设为负无穷。如此,可见矩阵可以限制每个符号的可见区域,从而防止不相干词汇相互干扰。
可见矩阵包含指标树的结构信息,但BERT模型中的编码器不能接收可见矩阵作为输入,因此需要将其修改为Mask-Transformer。Mask-Transformer是一个由多个掩码-自我注意块组成的堆栈,它可以根据可见矩阵来限制自注意区域。在本申请实施例中,可以设定自我遮掩注意块数的个数为L,隐藏层个数为H,自我遮掩注意头数为A,将初步编码的指标树和可见矩阵输入Mask-Transformer编码器,然后经训练后获得三元组编码。
由于在第一目标三元组中存在着大量实体,同一实体在文本中会有不同的指称,相同的实体指称在不同的上下文中可以指不同的实体。因此,为了提高三元组编码的精度,需要对其进行实体消歧。在本申请实施例中,可以将字段名、一级主题、二级主题、三级主题、数据频率、时间区间等实体名称及其关系进行编码,然后计算同一类别的实体之间的余弦相似性,并将高于预设阈值的实体相似对进行合并,以完成实体消歧,从而得到目标三元组编码。其中,余弦相似性越大,则表示实体相似对越相似。预设阈值是预先设定的参数,具体可以根据历史经验进行设置,如预设阈值设置为0.8,也可以根据实际情况进行具体分析设置。示例地,实体A和实体B属于同一类别的实体,计算得到实体A和实体B的余弦相似性为0.9,高于预设阈值0.8,则将实体A和实体B进行合并,保留实体A或实体B中的一个。
注意力神经网络模型可以包括图注意力神经网络模型(graph attentionnetwork,GAT)、关系图注意力神经网络模型(relational graph attention network,RGAT)等。注意力神经网络模型可以利用多头注意力来聚合邻居节点的表示。为了便于描述,本申请实施例以RGAT模型为例进行描述。RGAT模型考虑了依赖关系,即具有不同依赖关系的邻居节点应该具有不同的影响。因此,RGAT模型可以很好地建立实体和实体之间的联系,可以避免最终构建的显性知识图谱出现一些重要的依赖信息的丢失。此外,RGAT模型还添加了相对位置编码来向图结构中引入序列信息,使得RGAT模型具有很好的性能。
在本申请实施例中,可以将实体消歧后的目标三元组编码输入RGAT神经网络模型,使用TransR函数作为损失函数,训练神经网络参数,获得显性知识图谱。TransR模型可以在两个不同的空间,即实体空间和多个关系空间(关系特定的实体空间)中建模实体和关系,并在对应的关系空间中进行转换,主要适用于实体和关系处于不同的语义空间的场景。在实际应用中,可以根据实际情况选用合适的Trans系列函数(例如TransE、TransH、TransR和TransD等函数)作为损失函数。
具体地,首先遮掩数据属性,然后将数据字段名及属性类输入训练好的RGAT神经网络模型,预测数据的属性值,并获得数据、属性类与属性值之间的距离。设定距离阈值,将距离低于该距离阈值的数据-属性值对建立关系,从而完成显性知识图谱的构建。
其中,属性可以用于描述实体特征的指向,用于表征实体间的差别。每一个实体可以具有一个或多个特性,每一个特性称为属性。一个实体的实例是由属性指向它的属性值而形成。例如“某公司法定代表人”是“某公司”的一个属性,而这个属性指向“王某”这个明确的属性值。属性值的数据类型可以是整数型、日期型、字符串型等等。因此在显性知识图谱的构建过程中,需要确定实体的属性和属性值。距离可以用于表征数据、属性类与属性值之间的关联程度,距离越小,则关联程度越高。距离阈值是预先设定的参数,预设阈值是预先设定的参数,具体可以根据历史经验进行设置,也可以根据实际情况进行具体分析设置。如此,通过RGAT神经网络模型,可以快速完成显性知识图谱的构建。由于显性知识图谱是基于现有经济金融知识生成的,相邻两个节点间的相关度区别不明显。因此,本申请实施例所构建的显性知识图谱的边权重相等。
可以看出,从预设知识库中提取得到第一目标三元组之后,将第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;然后对三元组编码进行实体消歧,并将消歧后的目标三元组编码输入至基于关系的注意力神经网络模型中,从而完成得到显性知识图谱。如此,可以使得生成的显性知识图谱高度契合特定领域的专业知识体系,从而可以提升用户的研究效率。
步骤S202:获取用户的行为数据。
用户的行为数据可以指用户在网页或者应用软件产生的数据,可以包括但不限于用户的账号信息、用户的操作数据、用户的访问时长以及用户的访问频率等等。以检索平台为例,用户在使用检索平台进行检索时会产生一系列的行为数据。例如,用户的行为数据可以是用户针对某些感兴趣的主题(如蓝筹股、影子银行、氢能源等)进行检索、点击、浏览、收藏、下载、分享等操作行为。这些主题关键字彼此间可以具有很高的关联程度,也可以具有很低的关联程度,具体取决于用户的研究偏好,研究偏好可以决定研究的潜在主题。因此,用户的行为数据包含了数据之间的关系以及背后的隐性细分主题,可以反映用户隐含的待研究主题以及体现用户的研究偏好。
此外,用户的行为数据可以表征数据关系的时间顺序相关性。用户的行为数据可以包含用户的操作顺序,而用户的操作顺序则是可以反映数据的重要程度。一般来说,可以认为用户在先操作的数据的重要程度高于在后操作的数据的重要程度。示例地,用户想要查询关键字A和关键字B相关的内容,用户的检索顺序是先检索了关键字A,后检索关键字B,或者检索到相关的内容后,用户先点击或下载了关键字A相关的内容,后点击或下载关键字B相关的内容。那么,可以认为关键字A相关的数据的重要程度高于关键字B相关的重要程度。可选地,还可以根据用户浏览的时长等因素来确定相关数据的重要程度等等。
用户的行为数据可以通过在网页或者应用软件预先设置多个埋点,通过获取多个埋点对应的数据作为用户的行为数据,如此获得的行为数据准确性较高。或者,也可以通过数据采集工具(例如SDK)实时采集用户在网页或者应用软件上所产生的数据作为用户的行为数据,本申请实施例对此不做出限定。此外,还可以将获得的用户的行为数据存储到业务数据库中,以便后续调用。
可以理解的是,在本申请的具体实施方式中,涉及到用户的行为数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
步骤S203:基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱。
隐性知识图谱可以理解为在显性知识图谱的基础上,注入了用户的行为数据的特征的知识图谱。在显性知识图谱中,通常是具有相似性的主题具有关联关系,例如非流动资产通常与长期股权投资、投资性房地产、固定资产等相关联,而与氢能源、碳中和等相似度较低的主题很难建立关联关系。然而,对于跨学科研究者而言,在做主题研究时,可能会涉及到多个彼此相似较低的主题。此时,显性知识图谱就存在着一定的局限性。因此,本申请实施例通过构建体现用户研究偏好的隐性知识图谱,来完善知识图谱。
在一种可能的实施方式中,步骤S203具体可以包括以下步骤:
提取所述用户的行为数据的数据字段名;将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;基于用户的操作顺序,生成数据时间戳;基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱。
具体地,在获得用户的行为数据之后,提取用户的行为数据的数据字段名,并按照用户操作的先后顺序进行排序,生成数据时间戳。然后将数据字段名输入显性知识图谱,提取其对应的一级主题、二级主题、三级主题、数据频率、起讫时间,构建第二目标三元组。第二目标三元组除了包括第一目标三元组的特征以外,还融入了用户的行为数据的特征。也就是说,第二目标三元组可以用于描述两个经济金融领域相关的实体以及两个实体之间的关系,也可以用于描述用户使用数据行为轨迹背后隐含的实体以及实体之间的关系。然后,基于提取得到的数据字段名、第二目标三元组和数据时间戳,生成隐性知识图谱。如此,隐性知识图谱可以依托经济金融专业知识架构主动探寻学者隐含的待研究主题以及待查变量含义,且还可以表征数据关系的时间顺序相关性。因此,能够准确分析学者研究偏好,有助于提高变量生成的准确率和效率。
可选地,还可以对第二目标三元组进行实体消歧等处理后,再基于实体消歧后的第二目标三元组、数据字段名和数据时间戳,生成隐性知识图谱。如此,可以提高变量生成的准确率,提高专家学习的研究效率。
可以看出,将用户的行为数据注入已经构建的显性知识图谱中,从而构建得到隐性知识图谱,可以使得隐性知识图谱融合了经济金融知识架构以及学者研究偏好,有助于提高变量生成的准确率和效率。
在一种可能的实施方式中,步骤所述基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱,具体可以包括以下步骤:
将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;对所述子图谱的邻居节点信息进行聚合,得到数据节点特征;将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重;基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱。
具体地,在将数据字段名和第二目标三元组输入至显性知识图谱之前,随机生成显性知识图谱的边权重。前文所述,由于显性知识图谱主要用于表征经济金融领域相关知识中实体与实体之间的关系,所以实体与实体之间关联程度区别不大,因此,显性知识图谱的边权重相等。但是用户的行为数据中隐含了学者研究偏好潜在主题的非相似词,最后得到的隐性知识图谱边权重一般来说具有明显的区别,因此需要重新生成隐性知识图谱的边权重。
随机生成显性知识图谱的边权重之后,将显性知识图谱的邻居个数和空间跳数上限分别设定为K和L。其中,K和L为大于或等于1的正整数,具体取值可以根据历史经验和实际情况确定。然后将提取得到的数据字段名和构建的第二目标三元组输入至显性知识图谱,激活子图谱。子图谱为介于显性知识图谱和隐性知识图谱之间的图谱,隐性知识图谱由各个子图谱组成。激活子图谱之后,对子图谱的邻居节点信息进行聚合,例如可以在L跳邻居开始由外向内聚合,生成数据节点特征。数据节点特征可以理解为子图谱节点的特征,包括属性和属性值特征、关系特征等中一种或多种。基于数据节点特征,可以获取用户所选数据之间的空间相关特征。
在本申请实施例中,第一神经网络模型可以是用于处理时间序列相关数据的模型,具体可以是循环神经网络模型(recurrent neural network,RNN)、长短期记忆网络(long short-term memory,LSTM)、时序卷积神经网络模型(temporal convolutionalnetwork,TCN)等,本申请实施例对此不做出限定。
为了便于描述,本申请实施例以TCN神经网络模型为例进行介绍。TCN神经网络模型的卷积操作比较方便进行并行化,且具有稳定的梯度,同时具有灵活的感受视野,可以根据不同的任务不同的特性灵活定制。因此,TCN神经网络对时间序列具有很好的表示。在得到数据节点特征和数据时间戳之后,可以将其输入至TCN神经网络模型中,从而聚合用户操作记录的空间信息和时间信息。然后基于聚合后的用户操作记录的空间关系信息和时间关系信息,更新子图谱的边权重,最后基于更新的边权重,更新子图谱,得到最终的隐性知识图谱。在本申请实施例中,可以利用图卷积神经网络(graph convolutional network,GCN)、知识图谱卷积神经网络(knowledge graph convolutional network,KGCN)及其相关的网络模型来更新子图谱的边权重,使得最终生成的隐性知识图谱的边权重聚合了经济金融知识架构的显性特征的数据关系、学者研究偏好的隐性特征的数据空间关系以及时间关系。
可以看出,将数据节点特征和数据时间戳输入至第一神经网络模型,可以聚合用户操作记录的空间关系信息和时间关系信息,然后基于聚合后的用户操作记录的空间关系信息和时间关系信息更新边权重。如此,可以使得最终生成的隐性知识图谱的边权重聚合了经济金融知识架构的显性特征的数据关系、学者研究偏好的隐性特征的数据空间关系以及时间关系。从而可以使得隐性知识图谱可以表征数据之间的时间顺序相关性,有利于提高变量生成的准确性。
步骤S204:基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
由于目标知识图谱是基于显性知识图谱和隐性知识图谱生成的,所以目标知识图谱包含了显性知识图谱和隐性知识图谱的性质。也就是说,目标知识图谱既可以包含经济金融知识架构的显在主题特征,又包含了学者研究偏好(如跨主题交叉研究偏好等)的潜在主题特征,还可以体现数据的空间关系以及时间关系等等。如此,利用目标知识图谱可以提高变量生成的准确率和效率,有助于快速生成高准确度匹配专家学者研究偏好的变量,从而可以降低专家学者搜寻支持研究主题的关键变量的时间,提高研究效率。
在一种可能的实施方式中,步骤S204具体可以包括以下步骤:
构建第二神经网络模型;将所述显性知识图谱和所述隐性知识图谱输入至所述第二神经网络模型中,得到目标知识图谱。
在本申请实施例中,第二神经网络模型用于构建最终的目标知识图谱。第二神经网络模型可以是GCN神经网络模型、KGCN神经网络模型以及T-KGCN神经网络模型等等。为了便于描述,本申请实施例以T-KGCN神经网络模型进行举例说明。
T-KGCN神经网络模型是TCN神经网络模型和KGCN神经网络模型的融合模型,结合了TCN神经网络模型与KGCN神经网络模型的特性。请参照图3,图3为本申请实施例提供的一种T-KGCN神经网络模型的结构示意图。如图3所示,α为神经网络参数,f(Ф)为复杂函数。T-KGCN神经网络模型在知识图谱上使用了GCN神经网络模型的思想,即在计算知识图谱中给定实体的表示时,可以将其邻域的信息(包括空间信息和时间信息)进行聚合,通过卷积的不断迭代,得到最后的实体表示,并且可以通过知识图谱中丰富的语义关联和结构信息挖掘出用户和实体的潜在联系,以此来捕获用户的高阶个性化兴趣。因此,采用T-KGCN神经网络模型构建最终的目标知识图谱,可以使得目标知识图谱高度契合用户的研究需求。
如图3所示,可以将显性知识图谱和隐性知识图谱输入至T-KGCN神经网络模型中,得到目标知识图谱。具体地,可以将显性知识图谱作为图谱初始值,输入至T-KGCN神经网络模型中,并将隐性知识图谱输入至T-KGCN神经网络模型中,将输出结果作为样本目标知识图谱。其中,样本目标知识图谱为目标知识图谱的在训练过程中获得的知识图谱。在本申请实施例中,可以以交叉熵损失函数作为T-KGCN神经网络模型的损失函数,更新T-KGCN神经网络模型的神经网络参数,从而实现对样本目标知识图谱的边权重的更新。然后基于更新的边权重,不断更新样本目标知识图谱,直至损失函数收敛或达到指定的迭代次数,并将最终得到的样本目标知识图谱作为目标知识图谱。与隐性知识图谱的边权重类似,目标知识图谱的边权重也聚合了经济金融知识架构的显性特征的数据关系、学者研究偏好的隐性特征的数据空间关系以及时间关系。如此,使得生成的目标知识图谱高度契合经济金融专业知识体系,能够很好地拟合研究变量间的依赖、交联关系,同时可以依托经济金融专业知识架构主动探寻学者隐含的待研究主题及待查变量含义,能够准确分析学者研究偏好,可以实现基于知识架构显在主题和学者研究偏好潜在主题的非相似词关联关系分析,还可以表征数据之间的时间顺序相关性,从而有利于提高变量生成的准确率和效率。
由于隐性知识图谱是基于用户的行为数据构建的,而用户的行为数据是基于学者研究偏好和知识架构随知识的更迭动态变化的。因此可以利用T-KGCN神经网络模型对目标知识图谱进行动态调整,从而及时捕捉学者研究偏好。
可以看出,将显性知识图谱和隐性知识图谱输入至第二神经网络模型中,以得到最终的目标知识图谱,可以提高目标知识图谱生成的效率和准确性。
在一种可能的实施方式中,在执行步骤S204之后,还可以包括以下步骤:
接收用户输入的查询信息;基于所述目标知识图谱,以所述查询信息作为查询节点,获取所述查询节点的K阶邻居节点,得到候选内容;基于所述查询节点的边权重确定所述候选内容的推荐值,其中,所述推荐值与所述边权重呈正相关;将推荐值最高的前N个候选内容作为推荐内容进行推荐。
在本申请实施例中,查询信息可以是用户想要查询的任意实体短语信息,例如流动资产、碳中和、新能源汽车等等。查询节点的数量可以与实体短语的数量一致,也就是说,输入S个实体短语,可以对应着S个查询节点。实体短语的数量可以为一个,也可以是多个,本申请实施例对此不做限定。
在目标知识图谱中,直接通过边连接的节点互为1阶邻居节点,二阶及其以上的K阶邻居节点为一个节点的K-1阶邻居节点的邻居节点。例如,节点A的二阶邻居节点,是节点A的一阶邻居节点的邻居节点。其中,K为大于或等于1的正整数。由于目标知识图谱是根据节点之间的关联程度建立的,因而,查找到的K阶邻居节点是与查询节点直接相关,或间接相关的内容。在实际应用中,假设查询信息对应着T个查询节点,则针对T个查询节点,分别查找边权重最大的前K个邻居节点,得到候选内容。边权重的定义可以参考前文的相关描述,在此不再赘述。
推荐值可以用于表征查询信息与推荐内容的相关程度,推荐值与边权重呈正相关,查询节点的边权重越大,则表明查询节点的相关程度越高,对应K阶邻居节点的推荐值也就越高。此外,推荐值还可以和查询信息输入的先后顺序有关,查询信息中在先输入的信息的所查询到的候选内容的推荐值,可以高于后输入的信息的所查询到的候选内容的推荐值。示例地,输入的查询信息为“实体短语A”和“实体短语B”。输入顺序为先输入实体短语A,后输入实体短语B,那么基于实体短语A查询到的候选内容A的推荐值,高于基于实体短语B查询到的候选内容B的推荐值。或者,推荐值还可以跟其他因素有关,本申请实施例对此不做限定。最终的推荐值可以基于边权重、输入顺序等相关因素进行加权平均计算得到。
最后,对推荐值进行排序,并按照推荐值从高到低,返回前N个基于目标知识图谱的候选内容作为推荐内容给用户。其中,N为大于或等于1的正整数。在实际应用中,N可以由用户自行设定,也可以由系统预先设定,本申请实施例对此不做出限定。
可以看出,在接收到用户输入的查询信息之后,基于目标知识图谱,以查询信息作为查询节点,获取查询节点的K阶邻居节点,得到候选内容,进而计算候选内容的推荐值,基于推荐值的高低从候选内容中确定推荐内容并输出给用户。如此,可以生成高准确度匹配专家学者研究偏好的变量,使得推荐内容更符合用户的预期,且可以降低专家学者搜寻支持研究主题的关键变量的时间,以提高研究的效率。
在一种可能的实施方式中,在执行步骤S204之后,还可以包括以下步骤:
设定图谱更新时间窗;获取所述图谱更新时间窗内生成的用户的行为数据;基于所述图谱更新时间窗内生成的用户的行为数据,更新所述目标知识图谱。
图谱更新时间窗可以理解为目标知识图谱更新的时间。图谱更新时间窗的设定可以根据历史经验进行设置,也可以根据实际情况进行具体分析设置。示例地,图谱更新时间窗可以设置为3天更新一次,也可以设置为7天更新一次等,本申请实施例对此不做出限定。
由于学者研究偏好和知识架构随知识的更迭以及其他因素动态变化的,因此需要对目标知识图谱进行动态调整。具体地,可以获取图谱更新时间窗内生成的用户的行为数据,然后对该段时间内的用户的行为数据进行字段向量化、字段代码化等预处理。再将预处理后得到的特征向量输入至神经网络模型(例如,T-KGCN神经网络模型等)中,重新训练参数,对目标知识图谱的边权重、实体、属性、属性值以及关系等进行更新,以达到实时更新目标知识图谱的目的。
可以看出,基于图谱更新时间窗内生成的用户的行为数据,更新目标知识图谱,可以基于学者研究偏好和知识架构随更迭动态变化,对目标知识图谱进行动态调整,有利于及时捕捉学者研究偏好。
在图2所示的方法中,在构建基于经济金融知识的显性知识图谱之后,获取用户的行为数据,该用户的行为数据可以反馈数据的空间关系以及时间关系。然后基于用户的行为数据和显性知识图谱,构建基于学者研究偏好(如跨主题交叉研究偏好等)的隐性知识图谱。最后再基于显性知识图谱和所述隐性知识图谱,生成目标知识图谱。如此,最后生成的目标知识图谱包含了显性知识图谱和隐性知识图谱的性质。也就是说,目标知识图谱既包含了经济金融知识架构的显在主题特征,又包含了学者研究偏好(如跨主题交叉研究偏好等)的潜在主题特征,还可以体现数据的空间关系以及时间关系。由此,利用目标知识图谱可以提高变量生成的准确率和效率,有助于快速生成高准确度匹配专家学者研究偏好的变量。同时,还可以降低专家学者搜寻支持研究主题的关键变量的时间,提高研究效率。
此外,本申请实施例提供的文本数据处理的方法,其中运用的方法和原理,除了应用于经济金融领域之外,对其他领域知识图谱的生成以及修正也有一定借鉴意义。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参照图4,图4是本申请实施例提供的一种文本数据处理的装置的结构示意图。该装置应用于电子设备。如图4所示,该文本数据处理的装置400可以包括第一构建模块41、第一获取模块42、第二构建模块43和生成模块44,各个模块的详细描述如下:
第一构建模块41,用于构建显性知识图谱,所述显性知识图谱边权重相等;
第一获取模块42,用于获取用户的行为数据;
第二构建模块43,用于基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱;
生成模块44,用于基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
其中,第一构建模块41、第一获取模块42、第二构建模块43、生成模块44的具体功能实现方式可以参见图2所对应实施例中的步骤S201-S204,这里不再进行赘述。
在一种可能的实施方式中,第一构建模块41可以包括:第一三元组构建单元411、编码单元412、实体消歧单元413和图谱构建单元414。
第一三元组构建单元411,用于从预设知识库中构建第一目标三元组;
编码单元412,用于将所述第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;
实体消歧单元413,用于对所述三元组编码进行实体消歧,得到目标三元组编码;
图谱构建单元414,用于将所述目标三元组编码输入至注意力神经网络模型中,得到显性知识图谱。
其中,第一三元组构建单元411、编码单元412、实体消歧单元413和图谱构建单元414的具体功能实现方式可以参见图2所对应实施例中的步骤S201,这里不再进行赘述。
在一种可能的实施方式中,第二构建模块43可以包括:提取单元431、第二三元组构建单元432、第一生成单元433和第二生成单元434。
提取单元431,用于提取所述用户的行为数据的数据字段名;
第二三元组构建单元432,用于将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;
第一生成单元433,用于基于用户的操作顺序,生成数据时间戳;
第二生成单元434,用于基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱;
在一种可能的实施方式中,第二生成单元434可以包括:第一图谱构建子单元4341、第一聚合子单元4342、第二聚合子单元4343、更新子单元4344和第二图谱构建子单元4345。
第一图谱构建子单元4341,用于将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;
第一聚合子单元4342,用于对所述子图谱的邻居节点信息进行聚合,得到数据节点特征;
第二聚合子单元4343,用于将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;
更新子单元4344,用于基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重;
第二图谱构建子单元4345,用于基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱;
其中,提取单元431、第二三元组构建单元432、第一生成单元433以及第二生成单元434所包含的第一图谱构建子单元4341、第一聚合子单元4342、第二聚合子单元4343、更新子单元4344和第二图谱构建子单元4345的具体功能实现方式可以参见图2所对应实施例中的步骤S203,这里不再进行赘述。
在一种可能的实施方式中,生成模块44包括第一构建单元441和第二构建单元442。
第一构建单元441,用于构建第二神经网络模型;
第二构建单元442,用于将所述显性知识图谱和所述隐性知识图谱输入至所述第二神经网络模型,得到目标知识图谱。
其中,第一构建单元441和第二构建单元442的具体功能实现方式可以参见图2所对应实施例中的步骤S204,这里不再进行赘述。
在一种可能的实施方式中,该文本数据处理的装置400还包括:接收模块45、第二获取模块46、确定模块47、推荐模块48、设置模块49、第三获取模块50和更新模块51。
接收模块45,用于用户输入的查询信息;
第二获取模块46,用于基于所述目标知识图谱,以所述查询信息作为查询节点,获取所述查询节点的K阶邻居节点,得到候选内容;
确定模块47,用于基于所述查询节点的边权重确定所述候选内容的推荐值,其中,所述推荐值与所述边权重呈正相关;
推荐模块48,用于将推荐值最高的前N个候选内容作为推荐内容进行推荐,其中,所述K和所述N为大于或等于1的正整数。
设置模块49,用于设定图谱更新时间窗;
第三获取模块50,用于获取所述图谱更新时间窗内生成的用户的行为数据;
更新模块51,用于基于所述图谱更新时间窗内生成的用户的行为数据,更新所述目标知识图谱。
其中,接收模块45、第二获取模块46、确定模块47、推荐模块48、设置模块49、第三获取模块50和更新模块51的具体功能实现方式可以参见图2所对应实施例中的步骤S204,这里不再进行赘述。
请参照图5,图5是本申请实施例提供的一种计算机设备的结构示意图。如图5所示,该计算机设备500可以为电子设备,例如,图1所对应实施例中的电子设备101,还可以为服务器,例如,图1所对应实施例中的服务器102,这里将不对其进行限制。为便于理解,本申请以计算机设备为电子设备为例,该计算机设备500可以包括处理器501、存储器502和通信接口503,其中存储器502存储有计算机程序504。处理器501、存储器502、通信接口503以及计算机程序504之间可以通过总线505连接。
当计算机设备为电子设备时,上述计算机程序504用于执行以下步骤的指令:
构建显性知识图谱,所述显性知识图谱的边权重相等;
获取用户的行为数据;
基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱;
基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
在一种可能的实施方式中,在所述构建显性知识系图谱,所述显性知识图谱的边权重相等方面,所述计算机程序504具体用于执行以下步骤的指令:
从预设知识库中构建第一目标三元组;
将所述第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;
对所述三元组编码进行实体消歧,得到目标三元组编码;
将所述目标三元组编码输入至注意力神经网络模型中,得到显性知识图谱。
在一种可能的实施方式中,在所述基于所述用户的行为数据和所述显性知识图谱,构建隐性知识图谱方面,所述计算机程序504具体用于执行以下步骤的指令:
提取所述用户的行为数据的数据字段名;
将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;
基于用户的操作顺序,生成数据时间戳;
基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱。
在一种可能的实施方式中,在所述基于所述数据字段名、所述第二目标三元组和所述数据时间戳,生成隐性知识图谱方面,所述计算机程序504具体用于执行以下步骤的指令:
将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;
对所述子图谱的邻居节点信息进行聚合,得到数据节点特征;
将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;
基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重;
基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱。
在一种可能的实施方式中,在所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱方面,所述计算机程序504具体用于执行以下步骤的指令:
构建第二神经网络模型;
将所述显性知识图谱和所述隐性知识图谱输入至所述第二神经网络模型中,得到目标知识图谱。
在一种可能的实施方式中,在所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱之后,所述计算机程序504还用于执行以下步骤的指令:
接收用户输入的查询信息;
基于所述目标知识图谱,以所述查询信息作为查询节点,获取所述查询节点的K阶邻居节点,得到候选内容;
基于所述查询节点的边权重确定所述候选内容的推荐值,其中,所述推荐值与所述边权重呈正相关;
将推荐值最高的前N个候选内容作为推荐内容进行推荐,其中,所述K和所述N为大于或等于1的正整数。
在一种可能的实施方式中,在所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱之后,所述计算机程序504还用于执行以下步骤的指令:
设定图谱更新时间窗;
获取所述图谱更新时间窗内生成的用户的行为数据;
基于所述图谱更新时间窗内生成的用户的行为数据,更新所述目标知识图谱。
本领域技术人员可以理解,为了便于说明,图5中仅示出了一个存储器和处理器。在实际的终端或服务器中,可以存在多个处理器和存储器。存储器502也可以称为存储介质或者存储设备等,本申请实施例对此不做限定。
应理解,在本申请实施例中,处理器501可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
还应理解,本申请实施例中提及的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM, PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器synchronize link DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
需要说明的是,当处理器501为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
该总线505除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,ILB)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
在上述实施例中,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。例如,区块链中可存储预设知识库、用户的行为数据以及目标知识图谱等等;还可以存储INDEX-K-BERT模型、TransR模型、RGAT模型、TCN神经网络模型以及T-KGCN神经网络模型等等,在此不做限定。
其中,本申请实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种文本数据处理的方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文本数据处理的方法的部分或全部步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种文本数据处理的方法,其特征在于,包括:
构建显性知识图谱,所述显性知识图谱的边权重相等;
获取用户的行为数据;
提取所述用户的行为数据的数据字段名,将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;
基于用户的操作顺序,生成数据时间戳,将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;
对所述子图谱的邻居节点信息进行聚合,得到数据节点特征,将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;
基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重,基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱;
基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述构建显性知识图谱,所述显性知识图谱的边权重相等,包括:
从预设知识库中构建第一目标三元组;
将所述第一目标三元组输入至语言表示模型中进行编码,得到三元组编码;
对所述三元组编码进行实体消歧,得到目标三元组编码;
将所述目标三元组编码输入至注意力神经网络模型中,得到显性知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱,包括:
构建第二神经网络模型;
将所述显性知识图谱和所述隐性知识图谱输入至所述第二神经网络模型,得到目标知识图谱。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱之后,还包括:
接收用户输入的查询信息;
基于所述目标知识图谱,以所述查询信息作为查询节点,获取所述查询节点的K阶邻居节点,得到候选内容;
基于所述查询节点的边权重确定所述候选内容的推荐值,其中,所述推荐值与所述边权重呈正相关;
将推荐值最高的前N个候选内容作为推荐内容进行推荐,其中,所述K和所述N为大于或等于1的正整数。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱之后,还包括:
设定图谱更新时间窗;
获取所述图谱更新时间窗内生成的用户的行为数据;
基于所述图谱更新时间窗内生成的用户的行为数据,更新所述目标知识图谱。
6.一种文本数据处理的装置,其特征在于,包括:
第一构建模块,用于构建显性知识图谱,所述显性知识图谱边权重相等;
第一获取模块,用于获取用户的行为数据;
第二构建模块,用于提取所述用户的行为数据的数据字段名,将所述数据字段名输入至所述显性知识图谱,得到第二目标三元组;还用于基于用户的操作顺序,生成数据时间戳,将所述数据字段名和所述第二目标三元组输入至所述显性知识图谱,得到子图谱;还用于对所述子图谱的邻居节点信息进行聚合,得到数据节点特征,将所述数据节点特征和所述数据时间戳输入至第一神经网络模型,对用户操作记录的空间关系信息和时间关系信息进行聚合;还用于基于聚合后的所述用户操作记录的空间关系信息和时间关系信息,更新所述子图谱的边权重,基于更新的所述边权重,更新所述子图谱,得到隐性知识图谱;
生成模块,用于基于所述显性知识图谱和所述隐性知识图谱,生成目标知识图谱。
7.一种计算机设备,其特征在于,包括处理器、存储器和通信接口,其中,所述存储器存储有计算机程序,所述计算机程序被配置由所述处理器执行,所述计算机程序包括用于执行权利要求1-5中任一项所述的方法中的步骤的指令。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118731.0A CN114138985B (zh) | 2022-02-08 | 2022-02-08 | 文本数据处理的方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118731.0A CN114138985B (zh) | 2022-02-08 | 2022-02-08 | 文本数据处理的方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114138985A CN114138985A (zh) | 2022-03-04 |
CN114138985B true CN114138985B (zh) | 2022-04-26 |
Family
ID=80382166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210118731.0A Active CN114138985B (zh) | 2022-02-08 | 2022-02-08 | 文本数据处理的方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114138985B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722184A (zh) * | 2022-03-30 | 2022-07-08 | 北京物灵科技有限公司 | 绘本推荐方法、装置、计算机设备及存储介质 |
WO2024007119A1 (zh) * | 2022-07-04 | 2024-01-11 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理的方法及装置 |
CN115510204B (zh) * | 2022-09-29 | 2024-01-12 | 河北雄安睿天科技有限公司 | 一种智慧水务数据资源目录管理方法及装置 |
CN116049326B (zh) * | 2022-12-22 | 2024-03-08 | 广州奥咨达医疗器械技术股份有限公司 | 医疗器械知识库构建方法、电子设备及存储介质 |
CN116756203B (zh) * | 2023-06-13 | 2024-06-11 | 淮阴工学院 | 一种基于碳减排目标的知识图谱驱动冷链物流设备选型方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094587A (zh) * | 2021-04-23 | 2021-07-09 | 东南大学 | 一种基于知识图谱路径的隐式推荐方法 |
WO2022022045A1 (zh) * | 2020-07-27 | 2022-02-03 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052885A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Generating next user prompts in an intelligent online personal assistant multi-turn dialog |
US10970278B2 (en) * | 2019-03-29 | 2021-04-06 | Microsoft Technology Licensing, Llc | Querying knowledge graph with natural language input |
CN113569056A (zh) * | 2021-07-27 | 2021-10-29 | 科大讯飞(苏州)科技有限公司 | 知识图谱补全方法、装置、电子设备与存储介质 |
-
2022
- 2022-02-08 CN CN202210118731.0A patent/CN114138985B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022022045A1 (zh) * | 2020-07-27 | 2022-02-03 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN113094587A (zh) * | 2021-04-23 | 2021-07-09 | 东南大学 | 一种基于知识图谱路径的隐式推荐方法 |
Non-Patent Citations (1)
Title |
---|
基于知识图谱的新闻推荐系统的研究与实现;闫斌;《计算机技术》;20210131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114138985A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114138985B (zh) | 文本数据处理的方法、装置、计算机设备以及存储介质 | |
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
US11562012B2 (en) | System and method for providing technology assisted data review with optimizing features | |
US11314823B2 (en) | Method and apparatus for expanding query | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN104412265B (zh) | 更新用于促进应用搜索的搜索索引 | |
CN109934721A (zh) | 理财产品推荐方法、装置、设备及存储介质 | |
Pernelle et al. | An automatic key discovery approach for data linking | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN116244418B (zh) | 问题解答方法、装置、电子设备及计算机可读存储介质 | |
CN104516910A (zh) | 在客户端服务器环境中推荐内容 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
WO2022076885A1 (en) | Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning | |
US20180198860A1 (en) | Irc-infoid data standardization for use in a plurality of mobile applications | |
CN111259220A (zh) | 一种基于大数据的数据采集方法和系统 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN111061876B (zh) | 事件舆情数据分析方法及装置 | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
CN113821608A (zh) | 服务搜索方法、装置和计算机设备以及存储介质 | |
Rizvi et al. | A preliminary review of web-page recommendation in information retrieval using domain knowledge and web usage mining | |
CN113010771A (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
CN115114519A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
Lee et al. | Mining Stack Overflow for API class recommendation using DOC2VEC and LDA | |
CN117009373A (zh) | 实体查询方法、查询端、请求端和电子设备 | |
Xu et al. | An upper-ontology-based approach for automatic construction of IOT ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |