CN114218405A - 知识抽取方法及相关方法和相关装置、电子设备、介质 - Google Patents

知识抽取方法及相关方法和相关装置、电子设备、介质 Download PDF

Info

Publication number
CN114218405A
CN114218405A CN202210133285.0A CN202210133285A CN114218405A CN 114218405 A CN114218405 A CN 114218405A CN 202210133285 A CN202210133285 A CN 202210133285A CN 114218405 A CN114218405 A CN 114218405A
Authority
CN
China
Prior art keywords
target
representation
knowledge
entity
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210133285.0A
Other languages
English (en)
Other versions
CN114218405B (zh
Inventor
张汀依
李直旭
瞿剑锋
陈志刚
吴瑞萦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202210133285.0A priority Critical patent/CN114218405B/zh
Publication of CN114218405A publication Critical patent/CN114218405A/zh
Application granted granted Critical
Publication of CN114218405B publication Critical patent/CN114218405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种知识抽取方法及相关方法和相关装置、电子设备、介质。该方法包括:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的;基于第一知识表示,提取目标三元组的第二知识表示;融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。通过上述方式,从时间对各实体和各关系的影响模型的角度,根据三元组的各维嵌入表示分别提取得到三元组的个体知识表示,从而使得知识表示的事实更加准确。

Description

知识抽取方法及相关方法和相关装置、电子设备、介质
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种知识抽取方法及相关方法和相关装置、电子设备、介质。
背景技术
知识图谱(knowledge Graph,简称KG)将现实世界中的事实(即知识)以有向图的结构化形式来表示,包含着语义信息。随着人工智能发展,知识图谱作为人工智能实现的技术基石,广泛用于问答、推荐系统等领域。大部分研究将知识图谱视为静态,以三元组(head头实体,relation关系,tail尾实体)的形式来表示知识,而忽略其中的时间信息,然而许多知识只在特定的时间上有效。例如,工作岗位的聘用有效期,突发事件的发生时间等等,将时间信息加以融入便构成了时序知识图谱(Temporal Knowledge Graph,简称TKG)。时序知识图谱中的知识以四元组的形式来表示,即(head头实体,relation关系,tail尾实体,time时间戳),时序知识图谱增加了时间维度time,与静态知识图谱结构不同的是,实体之间的边(即关系)上带有时间注释。
在时序知识图谱中需要包含元素级和事实级这两种粒度的信息。具体来说,一个事实的发生可能会对其他事实产生影响(事实级交互),例如,由于学校的开学,其周围商贩也会开业。另一方面,事实中的实体或关系具有随时间演化的重要特征(元素级表示的演化),例如,景区的淡季和旺季,它是随着季节和月份的变化而周期性的发生。时序知识图谱中任意一种信息的缺失都会导致时序知识图谱无法获得良好的表示。已有广泛的研究关注于静态知识图谱表示学习,技术流派清晰且成熟,包括基于翻译、基于语义匹配、神经网络的静态知识图谱补全方法,而对于时序知识图谱来说,如何有效地利用时序知识图谱中的元素级和事实级这两种粒度的信息以生成更好的实体、关系表示仍处于探索阶段。
发明内容
本申请主要解决的技术问题是提供一种知识抽取方法及相关方法和相关装置、电子设备、介质,能够根据三元组的各维嵌入表示分别提取得到三元组的个体知识表示,从而使得知识表示的事实更加准确。
为了解决上述问题,本申请采用的一种技术方案是提供一种知识抽取方法,该方法包括:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的;基于第一知识表示,提取目标三元组的第二知识表示;融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
其中,影响模型定义有确定性影响因素和非确定性影响因素,各维嵌入表示分别基于对应维度的第一嵌入表示和第二嵌入表示融合得到,且第一嵌入表示基于确定性影响因素提取得到,第二嵌入表示基于非确定性影响因素提取得到。
其中,目标头实体或目标尾实体的第一嵌入表示的提取步骤包括:基于待提取实体的确定性影响因素,获取待提取实体在当前维度的确定性因素时间表示和确定性因素属性表示;基于确定性因素时间表示和确定性因素属性表示,得到待提取实体在当前维度的第一嵌入表示;其中,在实体为目标头实体的情况下,当前维度的第一嵌入表示为目标头实体在当前维度的第一嵌入表示,在实体为目标尾实体的情况下,当前维度的第一嵌入表示为目标尾实体在当前维度的第一嵌入表示。
其中,确定性影响因素包含周期性因素、趋势性因素至少一种;其中,周期性因素对应的确定性因素属性表示包括:周期性波动幅值、周期性特征和周期性偏置,趋势性因素对应的确定性因素属性表示包括:趋势性特征和趋势性偏置。
其中,目标关系的第一嵌入表示包括对应维度的确定性语义信息。
其中,目标头实体或目标尾实体或目标关系的第二嵌入表示的提取步骤包括:基于待提取目标的非确定性影响因素,获取待提取目标在当前维度的非确定性因素时间表示和非确定性因素属性表示;基于非确定性因素时间表示和非确定性因素属性表示,得到待提取目标在当前维度的第二嵌入表示;其中,在待提取目标为目标头实体的情况下,当前维度的第二嵌入表示为目标头实体在当前维度的第二嵌入表示,在待提取目标为目标尾实体的情况下,当前维度的第二嵌入表示为目标尾实体在当前维度的第二嵌入表示,在待提取目标为目标关系的情况下,当前维度的第二嵌入表示为目标关系在当前维度的第二嵌入表示。
其中,非确定性因素属性表示包括:非确定性波动特征。
其中,基于第一知识表示,提取目标三元组的第二知识表示,包括:基于目标头实体、目标关系、目标尾实体三者的个体知识表示各维第一嵌入表示,得到目标三元组的确定性表示;以及,基于目标头实体、目标关系、目标尾实体三者的个体知识表示各维第二嵌入表示,得到目标三元组的非确定性表示;融合确定性表示和非确定性表示,得到目标三元组的第二知识表示。
其中,第二知识表示由非确定表示与随机波动表示的相乘结果与确定性表示融合得到。
其中,融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示,包括:获取目标关系在正向三元组中的第一属性表示,并获取目标关系在反向三元组中的第二属性表示;基于第一知识表示、第二知识表示、第一属性表示和第二属性表示,融合得到目标三元组的目标知识表示。
其中,基于目标知识表示、第一属性表示和第二属性表示,融合得到目标三元组的目标知识表示,包括:获取第一知识表示和第二知识表示两者之间的共性特征表示、个性特征表示中至少一者;基于共性特征、个性特征中至少一者,以及第一知识表示、第二知识表示、第一属性表示和第二属性表示,融合得到目标知识表示。
为了解决上述问题,本申请采用的另一种技术方案是提供一种三元组检测方法,该方法包括:获取目标三元组的目标知识表示;其中,目标知识表示是利用如上所述的知识抽取方法得到的;基于目标知识表示进行检测,得到目标三元组的检测结果;其中,检测结果包括目标三元组合理存在的可能性。
为了解决上述问题,本申请采用的另一种技术方案是提供一种问答方法,该方法包括:获取用户问题;将用户问题转换成规则化问题;将规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案;其中,目标三元组包括目标头实体、目标关系和目标尾实体,且目标知识表示是利用如上所述的知识抽取方法得到的。
为了解决上述问题,本申请采用的另一种技术方案是提供一种推荐方法,该方法包括:获取商品信息以及用户的交互信息;根据商品信息和交互信息建立时序知识图谱;获取时序知识图谱中目标三元组的目标知识表示;根据目标知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果;其中,目标三元组包括目标头实体、目标关系和目标尾实体,且目标知识表示是利用如上所述的知识抽取方法得到的。
为了解决上述问题,本申请采用的另一种技术方案是提供一种知识抽取装置,该知识抽取装置包括:知识表示提取模块,用于提取目标三元组的第一知识表示,以及基于第一知识表示,提取目标三元组的第二知识表示;融合模块,用于融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。
为了解决上述问题,本申请采用的另一种技术方案是提供一种三元组检测装置,该三元组检测装置包括:知识表示获取模块,用于获取目标三元组的目标知识表示;检测模块,用于基于目标知识表示进行检测,得到目标三元组的检测结果;其中,检测结果包括目标三元组合理存在的可能性。
为了解决上述问题,本申请采用的另一种技术方案是提供一种问答装置,该问答装置包括:问题获取模块,用于获取用户问题;转化模块,用于将用户问题转换成规则化问题;匹配模块,用于将规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
为了解决上述问题,本申请采用的另一种技术方案是提供一种推荐装置,该推荐装置包括:信息获取模块,用于获取商品信息以及用户的交互信息;知识抽取模块,用于根据商品信息和交互信息建立时序知识图谱,并获取时序知识图谱中目标三元组的目标知识表示;评分模块,用于根据目标知识表示,对商品进行评分预测,最终根据评分顺序得到所述商品的推荐结果。
为了解决上述问题,本申请采用的另一种技术方案是提供一种电子设备,该电子设备包括处理器和处理器连接的存储器;其中,存储器中存储有程序数据,处理器调取存储器存储的程序数据,以执行如上述技术方案提供的知识抽取方法,或执行如上述技术方案提供的三元组检测方法,或执行如上述技术方案提供的问答方法,或执行如上述技术方案提供的推荐方法。
为了解决上述问题,本申请采用的另一种技术方案是提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令在被处理器执行时,用于执行如上述技术方案提供的知识抽取方法,或执行如上述技术方案提供的三元组检测方法,或执行如上述技术方案提供的问答方法,或执行如上述技术方案提供的推荐方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供一种知识抽取方法,该方法包括:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的;基于第一知识表示,提取目标三元组的第二知识表示;融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。通过上述方式,一方面,从时间对各实体和各关系的影响模型的角度,提取三元组的第一知识表示,从而将影响模型所携带的时间语义信息纳入模型结构中,使得建立的知识表示模型更加稳定和精准。另一方面,根据三元组的各维嵌入表示分别提取得到三元组的个体知识表示,从而使得知识表示的事实更加准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的知识抽取方法第一实施例的流程示意图;
图2为时序知识图谱中一个目标三元组一实施例的结构示意图;
图3是提取目标头实体或目标尾实体的第一嵌入表示一实施例的流程示意图;
图4是提取目标头实体或目标关系或目标尾实体的第二嵌入表示一实施例的流程示意图;
图5是提取目标三元组的第二知识表示一实施例的流程示意图;
图6是得到目标三元组的目标知识表示一实施例的流程示意图;
图7是预测超平面在时间维度演化下一时间域的预测表示一实施例的结构示意图;
图8是本申请提供的知识抽取方法的第四实施方式的结构示意图;
图9是本申请提供的三元组检测方法一实施例的流程示意图;
图10是本申请提供的问答方法一实施例的流程示意图;
图11是本申请提供的推荐方法一实施例的流程示意图;
图12是本申请提供的知识抽取装置一实施例的结构示意图;
图13是本申请提供的问答装置一实施例的结构示意图;
图14是本申请提供的推荐装置一实施例的结构示意图;
图15是本申请提供的三元组检测装置一实施例的结构示意图;
图16是本申请提供的一种电子设备的结构示意图;
图17是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的知识抽取方法第一实施例的流程示意图。该方法包括:
步骤11:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。
本公开实施例中,如前所述,个体知识表示所包含的各维嵌入表示是分别提取得到的,以通过第一知识表示从元素级来表征目标三元组的知识表示。具体地,从时序知识图谱中获取目标三元组,并根据时间对各实体和各关系的影响模型,从目标三元组中分别提取出目标头实体、目标关系和目标尾实体三者的个体知识表示,以得到第一知识表示。
其中,时序知识图谱包含有若干个目标三元组,每个目标三元组的结构为目标头实体-目标关系-目标尾实体的形式来表示知识,并且目标三元组中的目标关系标注有关系的时间戳τ。每个目标三元组的各维嵌入表示可用(hi,ri,ti)表示,其中1≤i≤N,hi代表目标头实体,ri代表目标关系,ti代表目标尾实体。时序知识图谱G按照事实发生的时间可将知识图谱划分为T个时间戳,因此时序知识图谱可以看作是由多个不同时间点的静态知识图谱Gτ组成,1≤τ≤T。在时间对各实体和各关系的影响模型中,将目标头实体、目标关系和目标尾实体都嵌入为d维向量,即hi∈Rd×1,ri∈Rd×1,ti∈Rd×1
其中,影响模型定义有确定性影响因素和非确定性影响因素。目标三元组的各维嵌入表示分别基于对应维度的第一嵌入表示和第二嵌入表示融合得到,且第一嵌入表示基于确定性影响因素提取得到,第二嵌入表示基于非确定性影响因素提取得到。
进一步地,利用时间对各实体和各关系的影响模型中的确定性影响因素和非确定性影响因素,由目标三元组的各维第一嵌入表示和各维第二嵌入表示,分别提取出目标三元组中的目标头实体、目标关系和目标尾实体三者的个体知识表示;再由目标三元组的个体知识表示,提取出目标三元组的第一知识表示,第一知识表示可由如下公式构建:
Zf=(eh′+eh″;rr′+rr″;et′+et″)
其中,eh′+eh″表示目标头实体的个体知识表示,eh′为目标头实体的第一嵌入表示,eh″为目标头实体的第二嵌入表示;rr′+rr″表示目标关系的个体知识表示,rr′为目标关系的第一嵌入表示,rr″为目标关系的第二嵌入表示;et′+et″表示目标尾实体的个体知识表示,et′为目标尾实体的第一嵌入表示,et″为目标尾实体的第二嵌入表示;Zf代表目标三元组的元素级信息表示,即目标头实体、目标关系和目标尾实体三者的个体知识表示均为元素向量表示,第一知识表示Zf为目标三元组内部实体和关系的元素向量表示的拼接。
其中,可从知识库中获取时序知识图谱,该时序知识图谱可分为开放域通用时序知识图谱和垂直行业时序知识图谱。其中,通用时序知识图谱注重广度,强调融合更多的实体,较行业时序知识图谱而言,其准确度不够高,并且受概念范围的影响,很难借助其本体知识库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用时序知识图谱主要应用于智能搜索等领域,其代表知识库有谷歌知识图谱库、维基数据库等。行业时序知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。行业时序知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员,其代表知识库有ImageNet,主要应用于计算机视觉相关应用。
如图2所示,图2为时序知识图谱中一个目标三元组一实施例的结构示意图。其中,该三元组为一维嵌入表示,该三元组的目标头实体为张三,表示一人名;目标尾实体为A国家,表示一国家名称;目标关系为总统,表示一种职位,并且关系标注的关系时间为2008-2017。因此,该目标三元组表示的事实为在2008年至2017年之间,张三担任A国家的国家总统。
步骤12:基于第一知识表示,提取目标三元组的第二知识表示。
本公开实施例中,第二知识表示是基于目标头实体、目标关系和目标尾实体三者的个体知识表示中各维嵌入表示融合得到的,以通过第二知识表示从事实级来表征目标三元组整体的知识表示。具体地,利用时间对各实体和各关系的影响模型中的确定性影响因素和非确定性影响因素建模的元素级信息表示中事实的目标头实体、目标尾实体和目标关系,即从第一知识表示中提取出目标三元组的第二知识表示。第二知识表示可由如下公式构建:
mf=δf(hi″;ri″;ti″)+(hi′;ri′;ti′)
其中,δf为引入的一个高斯分布的随机波动,(hi′;ri′;ti′)为从第一知识表示中提取出的确定性影响因素拼接后的第一嵌入表示对应的确定性表示向量;(hi″;ri″;ti″)为从第一知识表示中提取出的非确定性影响因素拼接后的第二嵌入表示对应的非确定性表示向量。mf为第二知识表示,即第二知识表示为拼接后的非确定表示向量与随机波动表示向量的相乘结果,再与拼接后的确定性表示向量融合得到。
步骤13:融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
具体地,融合某个事实的元素级信息表示向量、某个事实的事实级信息表示向量,和元素级信息表示向量和事实级信息表示向量的一致性特征与元素级信息表示向量和事实级信息表示向量的个性特征中的至少一个,以得到目标三元组的目标知识表示。目标知识表示可由如下公式构建:
cf=[Zf,Zf∘mf,Zf-mf,mf]
其中,Zf∘mf表示的是:元素级信息表示向量和事实级信息表示向量元素级的相乘,通过该运算能够得到并突出这两种粒度信息的一致性特征。Zf-mf表示元素级信息表示向量和事实级信息表示向量元素级的相减,通过该运算能够得到并挖掘出这两种粒度信息的个性特征。
区别于现有技术,在本实施例中,通过基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;再基于第一知识表示,提取目标三元组的第二知识表示;最终融合第一知识表示和第二知识表示,以得到目标三元组的目标知识表示。其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。通过上述方式,一方面,从时间对各实体和各关系的影响模型的角度,提取三元组的第一知识表示,从而将影响模型所携带的时间语义信息纳入模型结构中,使得建立的知识表示模型更加稳定和精准。另一方面,根据三元组的各维嵌入表示分别提取得到三元组的个体知识表示,从而使得知识表示的事实更加准确。
将上述各个可选实施方式进行结合,并基于上述技术方案进一步优化与扩展,以得到本申请提供的知识抽取方法的第二实施方式,该方法包括:
步骤21:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。
其中,影响模型定义有确定性影响因素和非确定性影响因素,各维嵌入表示分别基于对应维度的第一嵌入表示和第二嵌入表示融合得到,且第一嵌入表示基于确定性影响因素提取得到,第二嵌入表示基于非确定性影响因素提取得到。
其中,目标关系的第一嵌入表示包括对应维度的确定性语义信息。
参阅图3,图3是提取目标头实体或目标尾实体的第一嵌入表示一实施例的流程示意图。步骤21具体包括:
步骤a1:基于待提取实体的确定性影响因素,获取待提取实体在当前维度的确定性因素时间表示和确定性因素属性表示。
其中,确定性影响因素包含周期性因素、趋势性因素至少一种。具体地,对于待提取实体而言,随着时间的变化,待提取实体自身的发展以及外部事件的影响都会导致待提取实体的语义信息随着时间发生规律性地改变。而关系则自其产生起,在相对较长的一段时间内其语义信息都不会发生本质上的改变,规律性改变较小。因此待提取实体的确定性影响因素一般可归结为如下两种影响:周期性、趋势性。
例如,一目标三元组的目标头实体为梧桐树,表示一物种名称;目标关系为高度,在关系处标注有关系的时间注释τ=2年;目标尾实体为5米。则该目标三元组表示的事实为梧桐树在生长2年时有5米高。但是,由自然法则可知,当梧桐树的生长年限越长,其高度会逐渐增高,即该目标三元组中的目标尾实体随着时间的变化具有趋势性。
又例如,一目标三元组的目标头实体为经济危机,表示一发生事件;目标关系为经济周期,在关系处标注有关系的时间注释τ=10;目标尾实体为当前周期年数,如第一年、第二年、第三年等。则该目标三元组表示的事实为经济危机是以10年为一个经济周期,当前周期年数为经济周期的第一年、第二年、第三年等。但是,由经济规律的预测,当前周期年数为经济周期的第十年时,会发生一次经济危机;当前周期年数不是经济周期的第十年时,就不会发生经济危机,即该目标三元组中的目标尾实体随着时间的变化具有周期性。
进一步地,确定性影响因素中的周期性因素对应的确定性因素属性表示包括:周期性波动幅值、周期性特征和周期性偏置;确定性影响因素中的趋势性因素对应的确定性因素属性表示包括:趋势性特征和趋势性偏置。
步骤a2:基于确定性因素时间表示和确定性因素属性表示,得到待提取实体在当前维度的第一嵌入表示。
其中,在实体为目标头实体的情况下,当前维度的第一嵌入表示为目标头实体在当前维度的第一嵌入表示,在实体为目标尾实体的情况下,当前维度的第一嵌入表示为目标尾实体在当前维度的第一嵌入表示。
具体地,目标头实体或目标尾实体的第一嵌入表示可根据下列细粒度模型得到:
ei′[j]=αei[j]sin(ρei[j]στ[j]+vei[j])+μei[j]στ[j]+ηei[j]
其中,ei′[j]为目标头实体或目标尾实体在维度j的第一嵌入表示,代表目标实体的确定性表示。αei为确定性因素属性中的周期性波动幅值。ρei[j]为确定性因素属性中的周期性特征。vei[j]为确定性因素属性中的周期性偏置。στ[j]为待提取实体在当前维度的确定性因素时间表示。μei[j]为确定性因素属性表示中的趋势性特征。ηei[j]为确定性因素属性表示中的趋势性偏置。在模型中将目标头实体或目标尾实体的周期性波动使用sin(·)三角函数刻画。
进一步地,目标关系的第一嵌入表示可根据下列细粒度模型得到:
ri′[j]=αri[j]
其中,ri′[j]为目标关系在维度j的第一嵌入表示,代表目标关系的确定性表示。αri[j]为目标关系在维度j的确定性语义信息。
事实上,实体和关系的语义信息也受到偶然因素的影响,实体以及关系在某一时刻的嵌入表示仅考虑确定性影响并不完善,实际语义信息嵌入表示大体上应位于确定性信息所刻画的水平附近波动。例如,上述实施例中的“由经济规律的预测,当前周期年数为经济周期的第十年时,会发生一次经济危机”可知,经济危机并不是一定在经济周期的第十年才发生,其受到偶然因素(非确定性影响因素)的影响,在经济周期的第十年水平附近波动。
参阅图4,图4是提取目标头实体或目标关系或目标尾实体的第二嵌入表示一实施例的流程示意图。步骤21具体包括:
步骤b1:基于待提取目标的非确定性影响因素,获取待提取目标在当前维度的非确定性因素时间表示和非确定性因素属性表示。
其中,非确定性因素属性表示包括:目标头实体的非确定性波动特征,或目标尾实体的非确定性波动特征,或目标关系的非确定性波动特征。
步骤b2:基于非确定性因素时间表示和非确定性因素属性表示,得到待提取目标在当前维度的第二嵌入表示。
其中,在待提取目标为目标头实体的情况下,当前维度的第二嵌入表示为目标头实体在当前维度的第二嵌入表示,在待提取目标为目标尾实体的情况下,当前维度的第二嵌入表示为目标尾实体在当前维度的第二嵌入表示,在待提取目标为目标关系的情况下,当前维度的第二嵌入表示为目标关系在当前维度的第二嵌入表示。
具体地,目标头实体或目标关系或目标尾实体的第二嵌入表示可根据下列细粒度模型得到:
ei″[j]=εei[j]γτe[j]
ri″[j]=εri[j]ξτr[j]
其中,ei″[j]为目标头实体或目标尾实体在维度j的第二嵌入表示,代表目标头实体或目标尾实体的非确定性表示。εei[j]为目标头实体在当前维度j的非确定性波动特征,或目标尾实体在当前维度j的非确定性波动特征。εri[j]为目标尾实体在当前维度j的非确定性波动特征。γτe[j]为目标头实体在当前维度j的非确定性因素时间表示,或目标尾实体在当前维度j的非确定性因素时间表示。ξτr[j]为目标关系在当前维度j的非确定性因素时间表示。
进一步地,由目标三元组的各维第一嵌入表示和各维第二嵌入表示,分别提取出目标三元组中的目标头实体、目标关系和目标尾实体三者的个体知识表示。
具体地,由目标头实体或目标尾实体在维度j的第一嵌入表示ei′[j],可得出目标头实体的第一嵌入表示eh′和目标尾实体的第一嵌入表示et′。由目标关系在维度j的第一嵌入表示ri′[j],可得出目标关系的第一嵌入表示rr′。由目标头实体或目标尾实体在维度j的第二嵌入表示ei″[j],可得出目标头实体的第二嵌入表示eh″和目标尾实体的第二嵌入表示et″。由目标关系在维度j的第二嵌入表示ri″[j],可得出目标关系的第二嵌入表示rr″。
进一步地,再由目标三元组的个体知识表示,提取出目标三元组的第一知识表示,即Zf=(eh′+eh″;rr′+rr″;et′+et″)。
步骤22:基于第一知识表示,提取目标三元组的第二知识表示。
参阅图5,图5是提取目标三元组的第二知识表示一实施例的流程示意图。步骤22具体包括:
步骤221:基于目标头实体、目标关系、目标尾实体三者的个体知识表示的各维第一嵌入表示,得到目标三元组的确定性表示。
具体地,对于一个事实(h,r,t,τ),其目标头实体、目标关系、目标尾实体三者的个体知识表示的各维第一嵌入表示为(eh′,rr′,et′),由此可确定该事实的元素级确定性表示为(hi′,ri′,ti′)。由于该部分建模的对象是一个事实,所以需要将事实的元素级确定性表示(hi′,ri′,ti′)拼接成一个向量再对事实进行表示。即对元素级确定性表示(hi′,ri′,ti′)进行拼接,在拼接后得到事实的向量形式确定性表示,即目标三元组的确定性表示(hi′,ri′,ti′)。
步骤222:基于目标头实体、目标关系、目标尾实体三者的个体知识表示的各维第二嵌入表示,得到目标三元组的非确定性表示。
具体地,对于一个事实(h,r,t,τ),其目标头实体、目标关系、目标尾实体三者的个体知识表示的各维第二嵌入表示为(eh″,rr″,et″),由此可确定该事实的元素级非确定性表示为(hi″,ri″,ti″)。由于该部分建模的对象是一个事实,所以需要将事实的元素级非确定性表示为(hi″,ri″,ti″)拼接成一个向量再对事实进行表示。即对元素级非确定性表示为(hi″,ri″,ti″)进行拼接,在拼接后得到事实的向量形式非确定性表示,即目标三元组的非确定性表示(hi″,ri″,ti″)。
步骤223:融合确定性表示和非确定性表示,得到目标三元组的第二知识表示。
具体地,引入一个高斯分布的随机波动δf,将拼接后事实的非确定性表示与随机波动相乘形成波动的融合表示,接着加上拼接后事实的确定性表示获得最终其事实级表示,即mf=δf(hi″;ri″;ti″)+(hi′;ri′;ti′)。
步骤23:融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
参阅图6,图6是得到目标三元组的目标知识表示一实施例的流程示意图。步骤23具体包括:
步骤231:获取目标关系在正向三元组中的第一属性表示,并获取目标关系在反向三元组中的第二属性表示。
具体地,获取目标关系在正向三元组(头实体,关系,尾实体)中的属性Pr以及目标关系在反向三元组(尾实体,关系,头实体)中的属性Pr′。
其中,若正向三元组中的或者反向三元组中的目标关系结构不可逆(例如,三元组(父亲-亲属关系-儿子)中的亲属关系不可逆),则属性Pr和属性Pr′差异较大,即Pr≠Pr′;若正向三元组中的或者反向三元组中的目标关系结构可逆(例如,三元组(张三-朋友关系-李四)和(李四-朋友关系-张三)中的亲属关系不可逆),则属性Pr和属性Pr′差异较小,即Pr=Pr′。
步骤232:基于第一知识表示、第二知识表示、第一属性表示和第二属性表示,融合得到目标三元组的目标知识表示。
具体地,融合第一知识表示和第二知识表示,以得到目标知识表示cf,即cf=[Zf,Zf∘mf,Zf-mf,mf]。
其中,Zf∘mf表示的是:元素级信息表示向量和事实级信息表示向量元素级的相乘,通过该运算能够得到并突出这两种粒度信息的一致性特征。Zf-mf表示元素级信息表示向量和事实级信息表示向量元素级的相减,通过该运算能够得到并挖掘出这两种粒度信息的个性特征。
进一步地,融合第一目标知识表示cf与第一属性表示Pr、第二属性表示Pr′,以得到目标三元组的目标知识表示。即目标三元组的目标知识表示为多粒度信息的融合特征表示与关系属性特征的拼接[cf;Pr;Pr′]。
将上述各个可选实施方式进行结合,并基于上述技术方案进一步优化与扩展,以得到本申请提供的知识抽取方法的第三实施方式,该方法包括:
步骤31:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。
步骤31与上述实施例中的步骤21相似,这里不再赘述。
步骤32:基于第一知识表示,提取目标三元组的第二知识表示。
其中,事实之间存在相互影响,大部分事实只影响其近邻时间发生的事实,因此在该部分考虑从三元组层面再次建模,将事件投影至对应的时间戳超平面,刻画三元组受到同期时间戳下其他三元组的影响,进一步细化实体、关系层面学习的随机性。在建模中,我们首先将时间按月离散为相应的时间戳W=[ω1,ω2,···ωT],如ω1表示2000年1月,ω2表示2000年2月,ω3表示2000年3月等。将三元组的确定性表示信息(hi′;ri′;ti′)代表三元组,接着依据三元组发生的时间τ,将三元组投影至对应的时间超平面上。
具体地,若一个实体空间的三元组(h,r,t)在对应时间超平面τ上有效,超平面的法向表示由向量ωτ表示,则将该三元组(h,r,t)从实体空间映射到有效超平面法向方向上,以得到三元组在有效超平面法向方向上的法向投影(h,r,t)。从三元组实体空间映射到关系空间的方式为:
h=Mrhh,Mrh=rphp T+In·m
t=Mrtt,Mrt=rptp T+In·m
其中Mrh、Mrt为映射矩阵,rp表示关系的投影向量,I表示m×n大小的单位矩阵,hp T表示头部实体的投影转置向量,h表示映射后处于有效超平面法向方向上的头部实体的嵌入表示,tp T表示尾部实体的投影转置向量,t表示映射后有效超平面法向方向上的尾部实体的嵌入表示。
进一步地,将有效超平面法向方向上的法向投影(h,r,t)投影到对应时间超平面τ上,得到三元组的投影表示(hτ,rτ,tτ),将法向投影(h,r,t)投影到对应时间超平面τ上的方式为:
hτ=h-(ωτ Thτ)ωτ
tτ=t-(ωτ Ttτ)ωτ
rτ=r-(ωτ Trτ)ωτ
其中,hτ表示投影后的头实体投影表示向量;rτ表示投影后的关系投影表示向量;tτ表示投影后的尾实体投影表示向量,(hτ,rτ,tτ)均融入了时间超平面τ的时间信息。
可选地,在其他实施例中,将融入了时间超平面τ的时间信息的三元组的投影表示(hτ,rτ,tτ)使用Pτ(e)表示。即:
Pτ(e)=e-(ωτ Te)ωτ
其中,e可以由任意三元组确定性信息嵌入hi′、ri′、ti′代替,最终获得对应时间戳
Figure 448112DEST_PATH_IMAGE001
下头、尾实体,关系的投影表示Pτ(ti′)、Pτ(hi′)和Pτ(ri′)。
其中,时间戳ωτ(1≤τ≤T)刻画的是不同τ时期各个三元组的主要信息,它随着时间不断演化,各个时间戳间应存在一定的联系,即预测超平面在时间维度演化下一时间域的预测表示。因此考虑序列建模三元组时间戳的结构性信息。
步骤c1:将按时间排序的时间超平面,分别作为当前超平面,并将当前超平面的前一时间超平面作为参考超平面。
可选地,当前超平面的法向表示为ωτ+1,其代表当前超平面;参考超平面的法向表示为ωτ,其代表参考超平面。
步骤c2:基于参考超平面的法向表示,得到参考超平面在时间维度演化下一时间域的预测表示。
具体地,将参考超平面的法向表示输入一循环神经网络模型中以建模参考超平面随时间的演化,根据模型演化的输出得到参考超平面在时间维度演化的下一时间域(即当前超平面)的预测表示。
如,2014年Cho等人提出门控循环单元(GRU)网络,该模型引入门控机制控制信息,通过门控机制选择性地加入新信息或遗忘累积信息,在GRU中控制新信息进入以及累积信息保留的门被称为更新门uτ,控制候选状态hτ ~继承上一时刻隐状态hτ-1信息的门被称为重置门rτ
因此在模型中选择引入GRU网络,通过门控机制更好地学习时间戳W=[ω1,ω2,···ωT]之间的结构信息:
uτ=Ru[hτ-1,ωτ]
rτ=Rr[hτ-1,ωτ]
hτ ~=Rh[hτ-1,ωτ,rτ]
hτ=(1-uτ)∘hτ-1+uτ∘hτ ~
其中∘表示按元素乘积,通过uτ计算更新门控制新旧信息的进出,通过rτ计算重置门,并依据上一时刻隐状态hτ-1信息对该时刻候选状态hτ ~进行重置,从而保留时间戳相关的结构信息。每一个GRU单元都可以根据前一时刻的隐状态表示hτ-1与当前时刻的时间戳表示ωτ计算出当前时刻的隐状态表示hτ,该隐状态表示即为当前GRU单元的输出。
步骤c3:基于参考超平面对应的预测表示与当前超平面的法向表示之间的表示差异,得到预测表示的结构损失。
其中,由于时间戳信息应是序列信息,各个时间戳之间应有一定的相关性,因此在某时刻的GRU单元中输入当前时刻的时间戳ωτ,其输出hτ应与下一个时间戳表示ωτ+1相近,对应的结构损失为:
Lstructure=∑τ=1 T-1||hτ-ωτ+1||2
在另一实施例中,参阅图7,图7是预测超平面在时间维度演化下一时间域的预测表示一实施例的结构示意图。其中,选用的循环神经网络模型为GRU神经网络模型。首先将参考超平面的法向表示ωτ和隐层表示ρτ输入GRU循环神经网络模型中训练,以输出ωτ在下一时间域的预测表示以及下一时间域的隐层表示ρτ+1。再依次将下一时间域超平面的法向表示ωτ+1和下一时间域超平面的隐层表示ρτ+1输入GRU循环神经网络模型中训练,以得到对应的预测表示和隐层表示。
进一步地,引入循环神经网络模型的结构损失,将一时刻循环神经网络模型的隐层输出,用于监督其下一时刻的超平面的学习,即将参考超平面对应的预测表示减去当前超平面的法向表示得到的表示差异为预测表示的结构损失。
以GRU神经网络模型为例,采用辅助分割预测损失函数Laux作为GRU神经网络模型的结构损失,即Laux表示参考超平面对应的预测表示与当前超平面的法向表示之间的表示差异。具体地,辅助分割预测损失函数为:
Lauxi=∑τ=0 T-1(||pi,τ-ωi,τ+1||2)
其中,Lauxi中的i可为1、2和3等,表示对应的时序知识图谱编号,其对应的Laux分别表示在训练期间一时序知识图谱的时间超平面总的结构损失,即时序知识图谱中三元组集合的表示差异对应的预测表示的结构损失。pi,τ分别表示在训练期间时序知识图谱中GRU神经网络模型输出的隐层表示,其包含了第一个超平面对应的时间域到τ时刻的时序知识图谱中的信息。ωi,τ+1为τ+1时刻的超平面的法向量(即代表τ+1时刻的超平面)。
步骤33:融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
步骤33与上述实施例中的步骤23相似,这里不再赘述。
将上述各个可选实施方式进行结合,并基于上述技术方案进一步优化与扩展,以得到本申请提供的一种三元组检测方法的实施方式。
参阅图8,图8是本申请提供的知识抽取方法的第四实施方式的结构示意图。其中,从一时序知识图谱中获取目标三元组的目标头实体、目标关系和目标尾实体。再基于时间对各实体和各关系的影响模型中的确定性影响因素和非确定性影响因素,提取目标三元组的第一知识表示。其中,第一知识表示包含目标头实体、目标关系和目标尾实体三者的第一嵌入表示和第二嵌入表示;第一嵌入表示基于确定性影响因素提取得到,第二嵌入表示基于非确定性影响因素提取得到。将第一嵌入表示融入一GRU神经网络模型中演化学习,将第二嵌入表示与高斯分布的随机波动相乘融合;再将演化学习后的第一嵌入表示和融合随机波动后的第二嵌入表示融合,以得到第二知识表示;再将第一知识表示、第二知识表示、正向三元组的第一属性表示和反向三元组的第二属性表示融合得到目标三元组的目标知识表示。最后通过一多层感知机MLP为融合的目标知识表示进行评分。
参阅图9,图9是本申请提供的三元组检测方法一实施例的流程示意图。该方法包括:
步骤A1:获取目标三元组的目标知识表示。
其中,该目标三元组的目标知识表示包括目标头实体、目标关系和目标尾实体,且目标知识表示利用上述技术方案中的知识抽取方法得到。这里不再赘述。
步骤A2:基于目标知识表示进行检测,得到目标三元组的检测结果;其中,检测结果包括目标三元组合理存在的可能性。
具体地,采用多层感知机MLP对每个候选事实(即一个目标三元组的目标知识表示[cf;Pr;Pr′]的合理性进行评分,若其合理性的得分越高,则其候选事实成立的概率越大。其中,该多层感知机MLP可通过score=MLP([cf;Pr;Pr′],θ)表示。
在本实施例中,根据目标三元组的各维嵌入表示分别提取得到目标三元组的个体知识表示,从而使得目标知识表示的事实更加准确。通过由知识抽取方法得到的目标知识表示,再利用多层感知机MLP进行合理性评分,进而输出的评分答案更加完整和精确,能够满足用户对事实成立的概率匹配的需求。
参阅图10,图10是本申请提供的问答方法一实施例的流程示意图。该方法包括:
步骤B1:获取用户问题。
具体地,通过一接收端获取用户的问题。例如,用户通过一语音识别器向接收端输入“城市A有哪些大学”的问题,接收端获取并储存该问题。
步骤B2:将用户问题转换成规则化问题。
具体地,对用户问题对应的文本数据进行处理。可选地,在这里可以采用jieba进行分词、词性标注操作,然后提取关键字,以得到问题的实体和关系。如上述实施例中的“1950年城市A有多少人口”,通过jieba进行词性标注再提取关键字,得到一个头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”。
步骤B3:将规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
其中,该目标三元组的目标知识表示包括目标头实体、目标关系和目标尾实体,且目标知识表示利用上述技术方案中的知识抽取方法得到。这里不再赘述。
具体地,将规则化问题输入神经网络模型识别中,提取出规则化问题的实体和关系的向量表示,即得到一个缺实体或关系的三元组。再将神经网络提取出的三元组与目标三元组进行问题匹配,借助得分函数计算出与缺实体或关系的三元组相似度最高的事实三元组,将该事实三元组中与缺实体或关系的三元组对应的实体或关系作为最终答案输出。
如上述实施例中的“1950年城市A有多少人口”,通过神经网络提取出的三元组为缺尾实体的三元组(h,r,t0,[1950]),其中,t0表示未知的尾实体。将(h,r,t0,[1950])与目标三元组进行问题匹配,计算出目标三元组中与(h,r,t0,[1950])相似度最高的事实三元组(h,r,t,[1950]),最后将尾实体t作为最终答案输出。
在本实施例中,根据目标三元组的各维嵌入表示分别提取得到目标三元组的个体知识表示,从而使得目标知识表示的事实更加准确,通过由知识抽取方法得到的目标知识表示与用户问题进行匹配,进而输出的最终答案更加完整和精确,能够满足用户对问答精度的需求。
参阅图11,图11是本申请提供的推荐方法一实施例的流程示意图。该方法包括:
步骤C1:获取商品信息以及用户的交互信息。
具体地,用户交互信息主要包括:用户对于商品的购买记录、用户对于商品的评分记录、用户对于商品的加购、收藏以及浏览记录,用户购买、加购、收藏或浏览商品的类型、风格、材质等。
步骤C2:根据商品信息和交互信息建立时序知识图谱。
具体地,首先将提取的商品信息和交互信息数据进行转化,全部变成可以处理的结构化数据,再通过对齐、建边等方式得到知识库;最后将知识库进行关系挖掘、实体链接、知识推理、知识问答操作,得到最终的时序知识图谱。其中,实体链接主要是将相似度高的实体之间建立连接关系,因此在进行实体链接之前,需要通过神经网络计算各个实体之间的相似度(即知识图谱相似度)。
其中,时序知识图谱的形式为三元组形式,由头实体、关系、尾实体构成,或者由实体、类型、属性构成。其中,三元组中的关系或者类型标注有关系或者类型的有效时间。
步骤C3:获取时序知识图谱中目标三元组的目标知识表示。
其中,该目标三元组的目标知识表示包括目标头实体、目标关系和目标尾实体,且目标知识表示利用上述技术方案中的知识抽取方法得到。这里不再赘述。
步骤C4:根据目标知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果。
具体地,基于目标知识表示对应的目标三元组通过推荐算法对目标三元组进行评分预测,得到的评分预测结果即为目标三元组对应商品的推荐分数。最后根据推荐分数排序,作为商品的推荐结果。
在本实施例中,根据商品信息和交互信息建立时序知识图谱,为推荐的商品融入了时间性质,再通过由知识抽取方法得到的目标知识表示,对商品进行评分预测,使得最终推荐的商品能够更加符合用户的喜好。
参阅图12,图12是本申请提供的知识抽取装置一实施例的结构示意图。该知识抽取装置200包括知识表示提取模块210和融合模块220。
其中,知识表示提取模块210用于提取目标三元组的第一知识表示,以及基于第一知识表示,提取目标三元组的第二知识表示。
其中,融合模块220用于融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的。
区别于现有技术,在本实施例中,一方面,知识抽取装置200从时间对各实体和各关系的影响模型的角度,提取三元组的第一知识表示,从而将影响模型所携带的时间语义信息纳入模型结构中,使得建立的知识表示模型更加稳定和精准。另一方面,知识抽取装置200根据三元组的各维嵌入表示分别提取得到三元组的个体知识表示,从而使得知识表示的事实更加准确。
参阅图13,图13是本申请提供的问答装置一实施例的结构示意图。该问答装置300包括问题获取模块310、转化模块320以及匹配模块330。
其中,问题获取模块310用于获取用户问题;转化模块320用于将用户问题转换成规则化问题;匹配模块330用于将规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
在一实施例中,问题获取模块310获取用户问题“1950年城市A有多少人口”。转化模块320通过jieba对该问题进行词性标注再提取关键字,并将该问题转化为一个头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”。匹配模块330再将头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”通过神经网络,提取出缺尾实体的三元组(h,r,t0,[1950]),其中t0表示未知的尾实体。匹配模块330再将(h,r,t0,[1950])与目标三元组的目标知识表示对应的三元组进行问题匹配,计算出知识表示对应的三元组与(h,r,t0,[1950])相似度最高的事实三元组(h,r,t,[1950]),最后问答装置300将尾实体t作为最终答案输出。
在本实施例中,由目标三元组的各维嵌入表示分别提取得到目标三元组的个体知识表示,通过由知识抽取装置得到的目标知识表示与用户问题进行匹配,进而输出的最终答案更加完整和精确,能够满足用户对问答精度的需求。
参阅图14,图14是本申请提供的推荐装置一实施例的结构示意图。该推荐装置400包括信息获取模块410、知识抽取模块420以及评分模块430。
其中,信息获取模块410用于获取商品信息以及用户的交互信息;知识抽取模块420用于根据商品信息和交互信息建立时序知识图谱,并获取时序知识图谱中目标三元组的目标知识表示;评分模块430用于根据目标知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果。
在一实施例中,信息获取模块410获取电商平台的全部商品信息以及一用户的个人交互信息。其中,该用户的个人交互信息包括商品的购买记录、商品的评分记录;商品的加购、收藏以及浏览记录等。知识抽取模块420首先将提取的商品信息和交互信息数据进行转化,全部变成可以处理的结构化数据,再通过对齐、建边等方式得到知识库;最后将知识库进行关系挖掘、实体链接、知识推理、知识问答操作,得到最终的时序知识图谱。知识抽取模块420再通过知识抽取装置200获取时序知识图谱中目标三元组的目标知识表示。最后评分模块430基于目标知识表示对应的目标三元组通过推荐算法对目标三元组进行评分预测,得到的评分预测结果即为目标三元组对应商品的推荐分数,并根据推荐分数排序,作为商品的推荐结果。
在本实施例中,知识抽取模块420根据商品信息和交互信息建立时序知识图谱,为推荐的商品融入了时间性质,评分模块430再通过由知识抽取方法得到的目标知识表示,对商品进行评分预测,使得最终推荐装置400推荐的商品能够更加符合用户的喜好。
参阅图15,图15是本申请提供的三元组检测装置一实施例的结构示意图。该三元组检测装置500包括知识表示获取模块510以及检测模块520。
其中,知识表示获取模块510用于获取目标三元组的目标知识表示。检测模块520基于目标知识表示进行检测,得到目标三元组的检测结果。其中,检测结果包括目标三元组合理存在的可能性。
具体地,三元组检测装置500采用多层感知机MLP对每个候选事实(即一个目标三元组的目标知识表示[cf;Pr;Pr′]的合理性进行评分,若其合理性的得分越高,则其候选事实成立的概率越大。其中,该多层感知机MLP可通过score=MLP([cf;Pr;Pr′],θ)表示。
在本实施例中,三元组检测装置500根据目标三元组的各维嵌入表示分别提取得到目标三元组的个体知识表示,从而使得目标知识表示的事实更加准确。三元组检测装置500再利用多层感知机MLP进行合理性评分,进而输出的评分答案更加完整和精确,能够满足用户对事实成立的概率匹配的需求。
参阅图16,图16是本申请提供的一种电子设备的结构示意图,该电子设备100包括处理器101以及与处理器101连接的存储器102,其中,存储器102中存储有程序数据,处理器101调取存储器102存储的程序数据,以执行上述的知识抽取方法,或执行上述的三元组检测方法,或执行上述的问答方法,或执行上述的推荐方法。
可选地,在一实施例中,处理器101用于执行程序数据以实现如下方法:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的;基于第一知识表示,提取目标三元组的第二知识表示;融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
其中,处理器101还可以称为CPU(Central Processing Unit,中央处理单元)。处理器101可能是一种电子芯片,具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以为内存条、TF卡等,可以存储电子设备100中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器102中。它根据处理器101指定的位置存入和取出信息。有了存储器102,电子设备100才有记忆功能,才能保证正常工作。电子设备100的存储器102按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的电子设备100的实施方式仅仅是示意性的,例如,确定性影响因素和非确定性影响因素的选择,融合第一知识表示和第二知识表示的方式等,从而进行不同的分类策略,仅仅为一种集合的方式,实际实现时可以有另外的划分方式,例如第一嵌入表示和第二嵌入表示可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。
另外,在本申请各个实施例中的各功能模块(如知识表示提取模块和融合模块等)可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
参阅图17,图17是本申请提供的计算机可读存储介质一实施例的结构示意图,该计算机可读存储介质110中存储有能够实现上述所有方法的程序指令111。
在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质110中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质110在一个程序指令111中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等移动终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。
可选地,在一实施例中,程序指令111在被处理器执行时,用以实现如下方法:基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,目标三元组包括目标头实体、目标关系和目标尾实体,第一知识表示包含目标头实体、目标关系和目标尾实体三者的个体知识表示,且个体知识表示所包含的各维嵌入表示是分别提取得到的;基于第一知识表示,提取目标三元组的第二知识表示;融合第一知识表示和第二知识表示,得到目标三元组的目标知识表示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质110(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质110实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质110到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令111产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机可读存储介质110也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储介质110中的程序指令111产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机可读存储介质110也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令111提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一实施例中,这些可编程数据处理设备上包括处理器和存储器。处理器还可以称为CPU(Central Processing Unit,中央处理单元)。处理器可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以为内存条、TF卡等,它根据处理器指定的位置存入和取出信息。存储器按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

1.一种知识抽取方法,其特征在于,包括:
基于时间对各实体和各关系的影响模型,提取目标三元组的第一知识表示;其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,所述第一知识表示包含所述目标头实体、所述目标关系和所述目标尾实体三者的个体知识表示,且所述个体知识表示所包含的各维嵌入表示是分别提取得到的;
基于所述第一知识表示,提取所述目标三元组的第二知识表示;
融合所述第一知识表示和所述第二知识表示,得到所述目标三元组的目标知识表示。
2.根据权利要求1所述的方法,其特征在于,所述影响模型定义有确定性影响因素和非确定性影响因素,各维所述嵌入表示分别基于对应维度的第一嵌入表示和第二嵌入表示融合得到,且所述第一嵌入表示基于所述确定性影响因素提取得到,所述第二嵌入表示基于所述非确定性影响因素提取得到。
3.根据权利要求2所述的方法,其特征在于,所述目标头实体或所述目标尾实体的第一嵌入表示的提取步骤包括:
基于待提取实体的确定性影响因素,获取所述待提取实体在当前维度的确定性因素时间表示和确定性因素属性表示;
基于所述确定性因素时间表示和所述确定性因素属性表示,得到所述待提取实体在所述当前维度的第一嵌入表示;
其中,在所述实体为所述目标头实体的情况下,所述当前维度的第一嵌入表示为所述目标头实体在所述当前维度的第一嵌入表示,在所述实体为所述目标尾实体的情况下,所述当前维度的第一嵌入表示为所述目标尾实体在所述当前维度的第一嵌入表示。
4.根据权利要求3所述的方法,其特征在于,所述确定性影响因素包含周期性因素、趋势性因素至少一种;
其中,所述周期性因素对应的确定性因素属性表示包括:周期性波动幅值、周期性特征和周期性偏置,所述趋势性因素对应的确定性因素属性表示包括:趋势性特征和趋势性偏置。
5.根据权利要求2所述的方法,其特征在于,所述目标关系的第一嵌入表示包括对应维度的确定性语义信息。
6.根据权利要求2所述的方法,其特征在于,所述目标头实体或所述目标尾实体或所述目标关系的第二嵌入表示的提取步骤包括:
基于待提取目标的非确定性影响因素,获取所述待提取目标在当前维度的非确定性因素时间表示和非确定性因素属性表示;
基于所述非确定性因素时间表示和所述非确定性因素属性表示,得到所述待提取目标在所述当前维度的第二嵌入表示;
其中,在所述待提取目标为所述目标头实体的情况下,所述当前维度的第二嵌入表示为所述目标头实体在所述当前维度的第二嵌入表示,在所述待提取目标为所述目标尾实体的情况下,所述当前维度的第二嵌入表示为所述目标尾实体在所述当前维度的第二嵌入表示,在所述待提取目标为所述目标关系的情况下,所述当前维度的第二嵌入表示为所述目标关系在所述当前维度的第二嵌入表示。
7.根据权利要求6所述的方法,其特征在于,所述非确定性因素属性表示包括:非确定性波动特征。
8.根据权利要求2所述的方法,其特征在于,所述基于所述第一知识表示,提取所述目标三元组的第二知识表示,包括:
基于所述目标头实体、所述目标关系、所述目标尾实体三者的个体知识表示各维所述第一嵌入表示,得到所述目标三元组的确定性表示;以及,
基于所述目标头实体、所述目标关系、所述目标尾实体三者的个体知识表示各维所述第二嵌入表示,得到所述目标三元组的非确定性表示;
融合所述确定性表示和所述非确定性表示,得到所述目标三元组的第二知识表示。
9.根据权利要求8所述的方法,其特征在于,所述第二知识表示由所述非确定表示与随机波动表示的相乘结果与所述确定性表示融合得到。
10.根据权利要求1所述的方法,其特征在于,所述融合所述第一知识表示和所述第二知识表示,得到所述目标三元组的目标知识表示,包括:
获取目标关系在正向三元组中的第一属性表示,并获取所述目标关系在反向三元组中的第二属性表示;
基于所述第一知识表示、所述第二知识表示、所述第一属性表示和所述第二属性表示,融合得到所述目标三元组的目标知识表示。
11.根据权利要求10所述的方法,其特征在于,所述基于所述目标知识表示、所述第一属性表示和所述第二属性表示,融合得到所述目标三元组的目标知识表示,包括:
获取所述第一知识表示和所述第二知识表示两者之间的共性特征表示、个性特征表示中至少一者;
基于所述共性特征、所述个性特征中至少一者,以及所述第一知识表示、所述第二知识表示、所述第一属性表示和所述第二属性表示,融合得到所述目标知识表示。
12.一种三元组检测方法,其特征在于,包括:
获取目标三元组的目标知识表示;其中,所述目标知识表示是利用权利要求1至11任一项所述的知识抽取方法得到的;
基于所述目标知识表示进行检测,得到所述目标三元组的检测结果;其中,所述检测结果包括所述目标三元组合理存在的可能性。
13.一种问答方法,其特征在于,包括:
获取用户问题;
将所述用户问题转换成规则化问题;
将规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案;
其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,且所述目标知识表示利用权利要求1至11任一项所述的知识抽取方法得到。
14.一种推荐方法,其特征在于,包括:
获取商品信息以及用户的交互信息;
根据所述商品信息和所述交互信息建立时序知识图谱;
获取所述时序知识图谱中目标三元组的目标知识表示;
根据所述目标知识表示,对商品进行评分预测,最终根据评分顺序得到所述商品的推荐结果;
其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,且所述目标知识表示利用权利要求1至11任一项所述的知识抽取方法得到。
15.一种知识抽取装置,其特征在于,包括:
知识表示提取模块,用于提取目标三元组的第一知识表示,以及基于所述第一知识表示,提取所述目标三元组的第二知识表示;
融合模块,用于融合所述第一知识表示和所述第二知识表示,得到所述目标三元组的目标知识表示;
其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,所述第一知识表示包含所述目标头实体、所述目标关系和所述目标尾实体三者的个体知识表示,且所述个体知识表示所包含的各维嵌入表示是分别提取得到的。
16.一种三元组检测装置,其特征在于,包括:
知识表示获取模块,用于获取目标三元组的目标知识表示;其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,且所述目标知识表示利用权利要求15所述的知识抽取装置获取得到;
检测模块,用于基于所述目标知识表示进行检测,得到所述目标三元组的检测结果;其中,所述检测结果包括所述目标三元组合理存在的可能性。
17.一种问答装置,其特征在于,包括:
问题获取模块,用于获取用户问题;
转化模块,用于将所述用户问题转换成规则化问题;
匹配模块,用于将所述规则化问题与目标三元组的目标知识表示进行问题匹配,将相似度最高的匹配结果确定为答案;
其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,且所述目标知识表示利用权利要求15所述的知识抽取装置获取得到。
18.一种推荐装置,其特征在于,包括:
信息获取模块,用于获取商品信息以及用户的交互信息;
知识抽取模块,用于根据所述商品信息和所述交互信息建立时序知识图谱,并获取所述时序知识图谱中目标三元组的目标知识表示;其中,所述目标三元组包括目标头实体、目标关系和目标尾实体,且所述目标知识表示利用权利要求15所述的知识抽取装置获取得到;
评分模块,用于根据所述目标知识表示,对商品进行评分预测,最终根据评分顺序得到所述商品的推荐结果。
19.一种电子设备,其特征在于,所述电子设备包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器调取所述存储器存储的所述程序数据,以执行如权利要求1-11任意一项所述的知识抽取方法,或执行权利要求12所述的三元组检测方法,或执行权利要求13所述的问答方法,或执行权利要求14所述的推荐方法。
20.一种计算机可读存储介质,内部存储有程序指令,其特征在于,所述程序指令被执行以实现如权利要求1-11任意一项所述的知识抽取方法,或执行权利要求12所述的三元组检测方法,或执行权利要求13所述的问答方法,或执行权利要求14所述的推荐方法。
CN202210133285.0A 2022-02-14 2022-02-14 知识抽取方法及相关方法和相关装置、电子设备、介质 Active CN114218405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210133285.0A CN114218405B (zh) 2022-02-14 2022-02-14 知识抽取方法及相关方法和相关装置、电子设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210133285.0A CN114218405B (zh) 2022-02-14 2022-02-14 知识抽取方法及相关方法和相关装置、电子设备、介质

Publications (2)

Publication Number Publication Date
CN114218405A true CN114218405A (zh) 2022-03-22
CN114218405B CN114218405B (zh) 2022-08-16

Family

ID=80709142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210133285.0A Active CN114218405B (zh) 2022-02-14 2022-02-14 知识抽取方法及相关方法和相关装置、电子设备、介质

Country Status (1)

Country Link
CN (1) CN114218405B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114455A (zh) * 2022-07-04 2022-09-27 电子科技大学 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055450B1 (en) * 2014-08-19 2018-08-21 Abdullah Uz Tansel Efficient management of temporal knowledge
CN113836318A (zh) * 2021-09-26 2021-12-24 合肥智能语音创新发展有限公司 动态知识图谱补全方法、装置以及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055450B1 (en) * 2014-08-19 2018-08-21 Abdullah Uz Tansel Efficient management of temporal knowledge
CN113836318A (zh) * 2021-09-26 2021-12-24 合肥智能语音创新发展有限公司 动态知识图谱补全方法、装置以及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114455A (zh) * 2022-07-04 2022-09-27 电子科技大学 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法

Also Published As

Publication number Publication date
CN114218405B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
TWI788529B (zh) 基於lstm模型的信用風險預測方法及裝置
WO2020249125A1 (zh) 用于自动训练机器学习模型的方法和系统
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN111191092B (zh) 标签确定方法和标签确定模型训练方法
CN110795657B (zh) 文章推送及模型训练方法、装置、存储介质和计算机设备
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
Meng et al. Leveraging concept association network for multimedia rare concept mining and retrieval
US20200382612A1 (en) Interpretable user modeling from unstructured user data
CN112380344B (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
Ma et al. Multitask learning for visual question answering
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
Skenderi et al. Well googled is half done: Multimodal forecasting of new fashion product sales with image‐based google trends
CN113946686A (zh) 电力营销知识图谱构建方法及系统
CN114218405B (zh) 知识抽取方法及相关方法和相关装置、电子设备、介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
KR102546328B1 (ko) 온라인 마케팅을 위한 콘텐츠 정보 모니터링 및 콘텐츠 기획 자동화 솔루션 제공 방법, 장치 및 시스템
Zhang et al. Semi-autonomous data enrichment based on cross-task labelling of missing targets for holistic speech analysis
LU503730B1 (en) Sequence recommendation method and system based on the coupling relationship between item attributes and time sequence patterns
CN114357191B (zh) 知识抽取、问答及推荐方法和相关装置、设备、介质
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN115526177A (zh) 对象关联模型的训练
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质
Wang et al. MARV: Multi-task learning and Attention based Rumor Verification scheme for Social Media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant