CN114357191B - 知识抽取、问答及推荐方法和相关装置、设备、介质 - Google Patents

知识抽取、问答及推荐方法和相关装置、设备、介质 Download PDF

Info

Publication number
CN114357191B
CN114357191B CN202111669881.2A CN202111669881A CN114357191B CN 114357191 B CN114357191 B CN 114357191B CN 202111669881 A CN202111669881 A CN 202111669881A CN 114357191 B CN114357191 B CN 114357191B
Authority
CN
China
Prior art keywords
representation
time
knowledge
triplet
triples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111669881.2A
Other languages
English (en)
Other versions
CN114357191A (zh
Inventor
袁琳
李直旭
陈志刚
支洪平
何莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202111669881.2A priority Critical patent/CN114357191B/zh
Publication of CN114357191A publication Critical patent/CN114357191A/zh
Application granted granted Critical
Publication of CN114357191B publication Critical patent/CN114357191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识抽取、问答及推荐方法和相关装置、设备、介质。该方法包括:获取时序知识图谱;基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。通过上述方式,从关系的角度利用三元组的时间性质建模,从而将关系所携带的时间语义信息纳入模型结构中,使得知识表示的事实更加精准。

Description

知识抽取、问答及推荐方法和相关装置、设备、介质
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种知识抽取、问答及推荐方法和相关装置、设备、介质。
背景技术
知识图谱(knowledge Graph,简称KG)将现实世界中的事实(即知识)以有向图的结构化形式来表示,包含着语义信息。随着人工智能发展,知识图谱作为人工智能实现的技术基石,广泛用于问答、推荐系统等领域。大部分研究将知识图谱视为静态,以三元组(head头实体,relation关系,tail尾实体)的形式来表示知识,而忽略其中的时间信息,然而许多知识只在特定的时间上有效。例如,工作岗位的聘用有效期,突发事件的发生时间等等,将时间信息加以融入便构成了时序知识图谱(Temporal Knowledge Graph,简称TKG)。时序知识图谱中的知识以四元组的形式来表示,即(head头实体,relation关系,tail尾实体,time时间戳),时序知识图谱增加了时间维度time,与静态知识图谱结构不同的是,实体之间的边(即关系)上带有时间注释。
无论是静态还是时序,现有知识图谱虽然规模大,但是仍然存在着不完整的问题,无法涵盖现实世界的所有知识。自然语言处理领域中的word2vec模型将词编码为低维向量,映射至向量空间中,受到该启发,知识图谱表示学习将KG中的实体和关系也编码至连续的向量空间中,使用低维向量来表示结构以及语义信息,基于现有知识对KG进行补全(Knowledge Graph Embedding,简称KGE)或推理,使得知识图谱能够涵盖更丰富的知识。已有广泛的研究关注于静态知识图谱表示学习,技术流派清晰且成熟,包括基于翻译、基于语义匹配、神经网络的静态知识图谱补全方法,而对于时序知识图谱来说,如何有效地利用四元组中的时间注释以生成更好的实体、关系表示仍处于探索阶段。
发明内容
本申请主要解决的技术问题是提供一种知识抽取、问答及推荐方法和相关装置、设备、介质,能够将关系所携带的时间语义信息纳入模型结构中,使得知识表示的事实更加精准。
为了解决上述问题,本申请采用的一种技术方案是提供一种知识抽取方法,该方法包括:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间;基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
其中,若干时间超平面基于三元组集合中各三元组标注的有效时间划分得到,各时间超平面分别对应的时间域互不重合,且三元组的有效超平面对应的时间域与三元组标注的有效时间存在重合部分。
其中,若干时间超平面分别被选择作为有效超平面的次数之间的差异低于预设值。
其中,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示,包括:基于有效超平面的法向表示,获取特征表示在有效超平面法向方向上的法向投影;基于特征表示和法向投影,得到投影表示。
其中,基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合,包括:基于三元组所标注的有效时间,确定三元组所属的时间性质;基于三元组所属的时间性质,聚类得到若干种时间性质的三元组集合。
其中,特征表示是预先经若干轮训练得到的,且在每轮训练过程中,执行在各有效超平面上进行特征投影的步骤,并基于投影表示的置信分值调整特征表示。
其中,特征投影基于时间超平面的法向表示得到,特征表示的训练步骤包括:将按时间排序的时间超平面,分别作为当前超平面,并将当前超平面的前一时间超平面作为参考超平面;基于参考超平面的法向表示,得到参考超平面在时间维度演化下一时间域的预测表示;基于参考超平面对应的预测表示与当前超平面的法向表示之间的表示差异,得到第一损失,并基于投影表示的置信分值,得到第二损失;基于第一损失和第二损失,调整特征表示。
其中,基于参考超平面对应的预测表示与当前超平面的法向表示之间的表示差异,得到第一损失,包括:对于各三元组集合,分别获取三元组集合的相邻时间超平面之间的表示差异,并基于各个表示差异,得到子损失;基于各三元组集合分别对应的子损失,获取第一损失。
为了解决上述问题,本申请采用的另一种技术方案是提供一种问答方法,该方法包括:获取用户问题;将用户问题转换成规则化问题;将规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案;其中,知识表示模型输出的知识表示包括头实体表示、尾实体表示和关系表示,且知识表示利用如上述技术方案提供的知识抽取方法得到。
为了解决上述问题,本申请采用的另一种技术方案是提供一种推荐方法,该方法包括:获取商品信息以及用户的交互信息;根据商品信息和交互信息建立时序知识图谱;获取时序知识图谱中各三元组的知识表示;根据知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果;其中,三元组的知识表示包括头实体表示、尾实体表示和关系表示,且知识表示利用如上述技术方案提供的知识抽取方法得到。
为了解决上述问题,本申请采用的另一种技术方案是提供一种知识抽取装置,该知识抽取装置包括:图谱获取模块,用于获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间;聚类模块,用于基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;投影模块,用于对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;融合模块,用于基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
为了解决上述问题,本申请采用的另一种技术方案是提供一种问答装置,该问答装置包括:问题获取模块,用于获取用户问题;转化模块,用于将用户问题转换成规则化问题;匹配模块,用于将规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
为了解决上述问题,本申请采用的另一种技术方案是提供一种推荐装置,该推荐装置包括:信息获取模块,用于获取商品信息以及用户的交互信息;知识抽取模块,用于根据商品信息和交互信息建立时序知识图谱,并获取时序知识图谱中各三元组的知识表示;评分模块,用于根据知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果。
为了解决上述问题,本申请采用的另一种技术方案是提供一种电子设备,该电子设备包括处理器和处理器连接的存储器;其中,存储器中存储有程序数据,处理器调取存储器存储的程序数据,以执行如上述技术方案提供的知识抽取方法,或执行如上述技术方案提供的问答方法,或执行如上述技术方案提供的推荐方法。
为了解决上述问题,本申请采用的另一种技术方案是提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令在被处理器执行时,用于执行如上述技术方案提供的知识抽取方法,或执行如上述技术方案提供的问答方法,或执行如上述技术方案提供的推荐方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供一种知识抽取方法,该方法包括:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间;基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。通过上述方式,一方面,从关系的角度利用三元组的时间性质聚类得到若干种时间性质的三元组集合,从而将关系所携带的时间语义信息纳入模型结构中,使得知识表示的事实更加精准。另一方面,根据三元组标注的有效时间选择其对应的有效超平面,从而建立的知识表示模型更加稳定和准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的知识抽取方法第一实施例的流程示意图;
图2为时序知识图谱中一个三元组一实施例的结构示意图;
图3是步骤22一实施例的流程示意图;
图4是步骤23一实施例的流程示意图;
图5是训练特征表示一实施例的流程示意图;
图6是预测超平面在时间维度演化下一时间域的预测表示一实施例的结构示意图;
图7是计算第一损失一实施例的流程示意图;
图8是本申请提供的知识抽取方法的第四实施方式的结构示意图;
图9是本申请提供的问答方法一实施例的流程示意图;
图10是本申请提供的推荐方法一实施例的流程示意图;
图11是本申请提供的知识抽取装置一实施例的结构示意图;
图12是本申请提供的问答装置一实施例的结构示意图;
图13是本申请提供的推荐装置一实施例的结构示意图;
图14是本申请提供的一种智能设备的结构示意图;
图15是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的知识抽取方法第一实施例的流程示意图。该方法包括:
步骤11:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间。
具体地,从知识库中获取时序知识图谱,该时序知识图谱可分为开放域通用时序知识图谱和垂直行业时序知识图谱。其中,通用时序知识图谱注重广度,强调融合更多的实体,较行业时序知识图谱而言,其准确度不够高,并且受概念范围的影响,很难借助其本体知识库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用时序知识图谱主要应用于智能搜索等领域,其代表知识库有谷歌知识图谱库、维基数据库等。行业时序知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。行业时序知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员,其代表知识库有ImageNet,主要应用于计算机视觉相关应用。
其中,时序知识图谱包含有若干个三元组,每个三元组的结构为头实体-关系-尾实体的形式来表示知识,并且三元组中的关系标注有关系的有效时间。因此,该三元组在形式上可表示为四元组。四元组的结构为头实体-关系-尾实体-时间戳的形式,其中,时间戳可通过[ts-te]表示,ts为关系标注的有效时间的开始时间,te为关系标注的有效时间的结束时间。
如图2所示,图2为时序知识图谱中一个三元组一实施例的结构示意图。其中,该三元组的头实体为张三,表示一人名;尾实体为A国家,表示一国家名称;关系为总统,表示一种职位,并且关系标注的关系的有效时间为2008-2017。因此,该三元组表示的事实为在2008年至2017年之间,张三担任A国家的国家总统。
步骤12:基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种。
具体地,每个三元组的关系标注的有效时间具有其对应的时间性质,分别将具有同一时间性质的三元组聚集为一类,可形成为若干个子时序知识图谱,每一个子时序知识图谱即代表一种时间性质的三元组集合。
其中,若干种时间性质的三元组集合包括闭区间性质的三元组集合、开区间性质的三元组集合和瞬时性质的三元组集合中的至少一种。
其中,闭区间性质是指事实在一时间段内有效,即结束时间大于开始时间。例如,上述实施例中的事实“在2008年至2017年之间,张三担任A国家的国家总统”,即在2008年张三开始担任A国家的国家总统,在2017年张三结束担任A国家的国家总统,在2008年至2017年之外的时间,张三担任A国家的国家总统是无效的。
其中,开区间性质是指事实从某个时刻开始有效或者直到某一时刻有效,即该事实的有效时间只有开始时间(使用since表示)或者该事实的有效时间只有结束时间(使用until表示)。例如,一个事实为:张三在2010年9月10日被A大学聘用为终身荣誉教授。在该事实所表示的三元组中,头实体为张三,尾实体为A大学,关系为终身荣誉教授,并且关系标注的关系的有效时间为2010年9月10日起。即张三担任A大学的终身荣誉教授的有效时间为从2010年9月10日开始。
其中,瞬时性质是指事实在某个时刻发生,即该事实的有效时间为某个时刻(即开始时间等于结束时间)。例如,一个事实为:张三于2000年10月10日9:00时在中国出生。在该事实所表示的三元组中,头实体为张三,尾实体为中国,关系为出生,并且关系标注的关系的有效时间为2000年10月10日9:00时。即张三在中国出生的有效时间为2000年10月10日9:00时这一时刻。
步骤13:对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到。
具体地,对于各种时间性质的三元组集合,分别根据其时间建模为若干个时间超平面,将每个三元组的特征表示在其对应的有效超平面上进行投影,以得到三元组的特征表示在三元组的有效超平面上的投影表示。
其中,对于每一种时间性质的三元组集合,其对应的若干个时间超平面都代表一段时间域。在每一种三元组集合的若干个时间超平面中,选择其时间域包含有与该三元组集合中的三元组标注的有效时间的超平面,作为其三元组的有效超平面。例如,一个三元组集合的一个时间超平面对应的时间域为2008-2010年,若在这个三元组集合中一个三元组的关系标注的有效时间为2008-2009年,则该超平面为这个三元组的有效超平面;若在这个三元组集合中另一个三元组的关系标注的有效时间为2010-2011年,则该超平面为这个三元组的无效超平面。
其中,具有时间性质的三元组的特征表示为三元组的结构特征对应的向量表示。在一实施例中,具有时间性质的三元组的特征表示为(h,r,t)。其中,h,r,t分别为三元组的结构特征对应的向量表示,即三元组的头实体(即head)对应的特征表示为h,尾实体(即tail)对应的特征表示为t,关系(即relation)对应的特征表示为r。
其中,每一超平面的法向量为ωτ,ωτ用于表示三元组的有效超平面。三元组的特征表示(h,r,t)在其有效超平面上的投影表示为(hτ,rτ,tτ),其代表(h,r,t)在有效超平面上融入了其三元组的时间信息。其中,hτ是指投影后的头实体向量,rτ是指投影后的尾实体向量,tτ是指投影后的关系向量。
步骤14:基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
具体地,将各种时间性质的三元组集合中的三元组的投影表示提取出来分别建立知识表示模型,将若干种知识表示模型融合,以得到时序知识图谱的三元组的知识表示。
区别于现有技术,在本实施例中,通过获取一包含若干三元组,且各三元组中的关系标注有关系的有效时间的时序知识图谱;再基于其若干三元组分别标注的有效时间进行聚类,得到包括闭区间性质、开区间性质和瞬时性质中的至少一种的若干种时间性质的三元组集合;对于各种时间性质的三元组集合,再获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;最后基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。通过上述方式,一方面,从关系的角度利用三元组的时间性质聚类得到若干种时间性质的三元组集合,从而将关系所携带的时间语义信息纳入模型结构中,融合各种时间性质的三元组集合的投影表示,使得知识表示的事实更加精准。另一方面,根据三元组标注的有效时间选择其对应的有效超平面,从而建立的知识表示模型更加稳定和准确。
将上述各个可选实施方式进行结合,并基于上述技术方案进一步优化与扩展,以得到本申请提供的知识抽取方法的第二实施方式,该方法包括:
步骤21:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间。
其中,步骤21与上述实施例中的步骤11相似,这里不再赘述。
步骤22:基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种。
参阅图3,图3是步骤22一实施例的流程示意图。步骤22具体包括:
步骤221:基于三元组所标注的有效时间,确定三元组所属的时间性质。
其中,三元组的关系至少标注一种有效时间,进而三元组所属的时间性质至少包括一种。即三元组所标注的有效时间可以为一个和/或一种,也可以为多个和/或多种。例如,在一实施例中,三元组的头部实体为张三,关系是工作地,尾部实体为城市A。关系所标注的有效时间有两个,一个为2017-2018年,另一个为2021年9月10日开始。因此,该三元组所表示的事实为张三于2017-2018年之间在城市A工作,又于2021年9月10日开始在城市A工作。即该三元组具有两种时间性质,一种为闭区间性质,另一种为开区间性质。
步骤222:基于三元组所属的时间性质,聚类得到若干种时间性质的三元组集合。
其中,每一个三元组根据其至少标注一种有效时间,可以聚类到至少一种时间性质的三元组集合中。如上述实施例中的事实“张三于2017-2018年之间在城市A工作,又于2021年9月10日开始在城市A工作”,该三元组既被聚类到闭区间性质的三元组集合中,又被聚类到开区间性质的三元组集合中。
步骤23:对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到。
参阅图4,图4是步骤23一实施例的流程示意图。步骤23具体包括:
步骤231:基于有效超平面的法向表示,获取特征表示在有效超平面法向方向上的法向投影。
具体地,若一个实体空间的三元组(h,r,t)在对应时间超平面τ上有效,超平面的法向表示由向量ωτ表示,则将该三元组(h,r,t)从实体空间映射到有效超平面法向方向上,以得到三元组在有效超平面法向方向上的法向投影(h,r,t)。从三元组实体空间映射到关系空间的方式为:
Figure BDA0003452669520000111
Figure BDA0003452669520000112
其中Mrh、Mrt为映射矩阵,rp表示关系的投影向量,I表示m×n大小的单位矩阵,
Figure BDA0003452669520000113
表示头部实体的投影转置向量,h表示映射后处于有效超平面法向方向上的头部实体的嵌入表示,/>
Figure BDA0003452669520000114
表示尾部实体的投影转置向量,t表示映射后有效超平面法向方向上的尾部实体的嵌入表示。
步骤232:基于特征表示和法向投影,得到投影表示。
具体地,将有效超平面法向方向上的法向投影(h,r,t)投影到对应时间超平面τ上,得到三元组的投影表示(hτ,rτ,tτ),将法向投影(h,r,t)投影到对应时间超平面τ上的方式为:
Figure BDA0003452669520000121
/>
Figure BDA0003452669520000122
Figure BDA0003452669520000123
其中,hτ表示投影后的头实体投影表示向量;rτ表示投影后的关系投影表示向量;tτ表示投影后的尾实体投影表示向量,(hτ,rτ,tτ)均融入了时间超平面τ的时间信息。
其中,若干时间超平面基于三元组集合中各三元组标注的有效时间划分得到,各时间超平面分别对应的时间域互不重合,且三元组的有效超平面对应的时间域与三元组标注的有效时间存在重合部分。
具体地,根据各种三元组集合中各三元组标注的有效时间划分为若干个时间超平面,每一时间超平面均对应一段时间域。其中,一方面,各时间超平面分别对应的时间域是连续的且不重合的。即一时间超平面对应的一段时间域为T1-T2,与其相邻的下一个时间超平面对应一段时间域为T2-T3,其中,T1<T2<T3。另一方面,可能存在三元组的时间戳跨度较广,其时间戳代表的时间段能够占据到至少一个有效超平面对应的时间域,即三元组的有效超平面对应的时间域与三元组标注的有效时间存在重合部分。例如,一种三元组集合中一个三元组标注的有效时间为T1-T3,该三元组的有效超平面有第一超平面和第二超平面,第一超平面的时间域为T1-T2,第二超平面的时间域为T2-T3,并且该三元组在第一超平面上的有效时间为T1-T2,在第二超平面上的有效时间为T2-T3。
其中,若干时间超平面分别被选择作为有效超平面的次数之间的差异低于预设值。
具体地,每一时间超平面均会作为至少一个三元组的有效超平面,并且每一时间超平面作为有效超平面所对应的至少一个三元组的数量的差异低于预设值。例如,一时间超平面被选择作为至少一个三元组的有效超平面,其对应的至少一个三元组的数量为S1个;另一时间超平面也被选择作为至少一个三元组的有效超平面,其对应的至少一个三元组的数量为S2个,则S1与S2的差异低于预设值。
步骤24:基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
具体地,利用翻译模型的假设,基于各种时间性质的三元组集合所提取得到的投影表示分别构建一知识表示学习模型,融合各种时间性质的三元组集合对应的知识表示学习模型学习到的知识表示,以得到三元组的知识表示。
在一实施例中,可利用TransE模型的假设构建知识表示学习模型。即假设三元组的投影表示满足hτ+rτ接近于tτ的关系,设计打分函数以构建知识表示学习模型。知识表示学习模型对应的打分函数可为:
fτ(h,r,t)=‖hτ+τ-τl1/l2
其中,利用该TransE模型设计的打分函数是通过计算投影表示之间的距离来判断实体间已存在的关系的置信度,即将两个实体向量之间的距离最小化,并以此衡量投影表示之间的距离。其中,l1和l2表示的距离衡量方式,l1表示曼哈顿距离和l2表示欧式距离。
在本实施例中,通过设置各时间超平面分别对应的时间域互不重合,且三元组的有效超平面对应的时间域与三元组标注的有效时间存在重合部分,以使若干时间超平面上所覆盖的三元组的时间戳更加合理,并且根据各三元组标注的有效时间划分若干时间超平面的更加准确;以及设置若干时间超平面分别被选择作为有效超平面的次数之间的差异低于预设值,能够根据时序时间图谱中所有三元组标注的有效时间情况,将时间分割为若干个超平面,使得每个时间超平面上有效的三元组的数量基本平均,便于超平面的管理。
将上述各个可选实施方式进行结合,并基于上述技术方案进一步优化与扩展,以得到本申请提供的知识抽取方法的第三实施方式,该方法包括:
步骤31:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间。
步骤32:基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种。
步骤33:对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到。
步骤34:基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
其中,特征表示是预先经若干轮训练得到的,且在每轮训练过程中,执行在各有效超平面上进行特征投影的步骤,并基于投影表示的置信分值调整特征表示。其中,特征投影基于时间超平面的法向表示得到。
参阅图5,图5是训练特征表示一实施例的流程示意图。特征表示的训练步骤具体包括:
步骤a1:将按时间排序的时间超平面,分别作为当前超平面,并将当前超平面的前一时间超平面作为参考超平面。
可选地,当前超平面的法向表示为ωτ+1,其代表当前超平面;参考超平面的法向表示为ωτ,其代表参考超平面。
步骤a2:基于参考超平面的法向表示,得到参考超平面在时间维度演化下一时间域的预测表示。
具体地,将参考超平面的法向表示输入一循环神经网络模型中以建模参考超平面随时间的演化,根据模型演化的输出得到参考超平面在时间维度演化的下一时间域(即当前超平面)的预测表示。
参阅图6,图6是预测超平面在时间维度演化下一时间域的预测表示一实施例的结构示意图。其中,选用的循环神经网络模型为GRU神经网络模型。首先将参考超平面的法向表示ωτ和隐层表示pτ输入GRU循环神经网络模型中训练,以输出ωτ在下一时间域的预测表示以及下一时间域的隐层表示pτ+1。再依次将下一时间域超平面的法向表示ωτ+1和下一时间域超平面的隐层表示pτ+1输入GRU循环神经网络模型中训练,以得到对应的预测表示和隐层表示。
步骤a3:基于参考超平面对应的预测表示与当前超平面的法向表示之间的表示差异,得到第一损失,并基于投影表示的置信分值,得到第二损失。
具体地,引入循环神经网络模型的辅助损失,将一时刻循环神经网络模型的隐层输出,用于监督其下一时刻的超平面的学习,即将参考超平面对应的预测表示减去当前超平面的法向表示得到的表示差异为第一损失。
参阅图7,图7是计算第一损失一实施例的流程示意图。计算步骤具体包括:
步骤b1:对于各三元组集合,分别获取三元组集合的相邻时间超平面之间的表示差异,并基于各个表示差异,得到子损失。
以GRU神经网络模型为例,基于时序知识图谱中若干三元组分别标注的有效时间进行聚类,以得到闭区间性质的三元组集合(用sub-KG1表示)、开区间性质的三元组集合(用sub-KG2表示)和瞬时性质的三元组集合(用sub-KG3表示)。采用辅助分割预测损失函数Laux作为GRU神经网络模型的辅助损失,即Laux表示三元组集合的相邻时间超平面之间的表示差异。具体地,辅助分割预测损失函数为:
Figure BDA0003452669520000151
其中,Lauxi中的i为1、2和3,其对应的Laux分别表示在训练期间sub-KG1、sub-KG2和sub-KG3的辅助损失,即各个三元组集合的表示差异对应的子损失。Pi,τ分别表示在训练期间sub-KG1、sub-KG2和sub-KG3GRU神经网络模型输出的隐层表示,其包含了第一个超平面对应的时间域到τ时刻的时序知识图谱中的信息。ωi,τ+1为τ+1时刻的超平面的法向量(即代表τ+1时刻的超平面)。
步骤b2:基于各三元组集合分别对应的子损失,获取第一损失。
将sub-KG1、sub-KG2和sub-KG3对应的子损失Lauxi进行累加,以得到第一损失。
进一步地,根据投影表示的置信分值,计算出知识表示学习模型的损失函数,以得到第二损失。
可选地,知识表示学习模型的置信分值为构建margin-based训练模型得到的结构损失Lemb。具体地,margin-based的结构损失为:
Figure BDA0003452669520000161
其中,3[]为sub-KG1、sub-KG2和sub-KG3对应的置信分值进行累加。
Figure BDA0003452669520000162
为正样例集合,代表超平面τ上存在的三元组的集合;/>
Figure BDA0003452669520000163
为负样例集合,代表超平面τ上不存在的三元组的集合。γ为正负样例集合之间的最小间隔。
步骤a4:基于第一损失和第二损失,调整特征表示。
其中,融合得到三元组的知识表示最终的损失为各个三元组集合的第一损失和第二损失的加和,即
Figure BDA0003452669520000164
根据L以调整特征表示。
在本实施例中,通过将特征表示预先经若干轮训练,且在每轮训练过程中,执行在各有效超平面上进行特征投影的步骤,考虑了时序知识图谱在表示中的实体或关系会随时间演化的重要特征,以使获得各个三元组集合特征表示的辅助损失;再构建知识表示模型的结构损失函数,计算出训练模型投影表示的置信分值。最后通过各个三元组集合特征表示的辅助损失和投影表示的置信分值,能够调整模型输出的特征表示,进而使得知识表示的事实更加精准。
参阅图8,图8是本申请提供的知识抽取方法的第四实施方式的结构示意图。其中,分别从sub-KG1、sub-KG2和sub-KG3三元组集合中提取出三元组(头实体、关系、尾实体),其中三元组中的关系标注有关系的有效时间。将三元组的特征表示分别在三元组的各个有效超平面上的投影表示,以将三元组融入时间信息得到三元组的投影表示(hτ,rτ,tτ)。再将参考超平面的法向表示ωτ和隐层表示pτ输入GRU循环神经网络模型中训练,以输出ωτ在下一时间域的预测表示以及下一时间域的隐层表示pτ+1。再依次将下一时间域超平面的法向表示ωτ+1和下一时间域超平面的隐层表示pτ+1输入GRU循环神经网络模型中训练,以得到对应的预测表示和隐层表示。
参阅图9,图9是本申请提供的问答方法一实施例的流程示意图。
该方法包括:
步骤c1:获取用户问题。
具体地,通过一接收端获取用户的问题。例如,用户通过一语音识别器向接收端输入“城市A有哪些大学?”的问题,接收端获取并储存该问题。
步骤c2:将用户问题转换成规则化问题。
具体地,对用户问题对应的文本数据进行处理。可选地,在这里可以采用jieba进行分词、词性标注操作,然后提取关键字,以得到问题的实体和关系。如上述实施例中的“1950年城市A有多少人口?”,通过jieba进行词性标注再提取关键字,得到一个头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”。
步骤c3:将规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
其中,该知识表示模型输出的知识表示包括头实体表示、尾实体表示和关系表示,且知识表示利用上述技术方案中的知识抽取方法得到。这里不再赘述。
具体地,将规则化问题输入神经网络模型识别中,提取出规则化问题的实体和关系的向量表示,即得到一个缺实体或关系的三元组。再将神经网络提取出的三元组与知识表示模型抽取的知识表示对应的三元组进行问题匹配,借助得分函数计算出与缺实体或关系的三元组相似度最高的事实三元组,将该事实三元组中与缺实体或关系的三元组对应的实体或关系作为最终答案输出。
如上述实施例中的“1950年城市A有多少人口?”,通过神经网络提取出的三元组为缺尾实体的三元组(h,r,?,[1950])。将(h,r,?,[1950])与知识表示模型抽取的知识表示对应的三元组进行问题匹配,计算出知识表示对应的三元组与(h,r,?,[1950])相似度最高的事实三元组(h,r,t,[1950]),最后将尾实体t作为最终答案输出。
在本实施例中,在知识表示模型输出的知识表示中融入了时间性质,通过由知识抽取方法得到的知识表示与用户问题进行匹配,进而输出的最终答案更加完整和精确,能够满足用户对关系的有效时间匹配的需求。
参阅图10,图10是本申请提供的推荐方法一实施例的流程示意图。
该方法包括:
步骤d1:获取商品信息以及用户的交互信息。
具体地,用户交互信息主要包括:用户对于商品的购买记录、用户对于商品的评分记录、用户对于商品的加购、收藏以及浏览记录,用户购买、加购、收藏或浏览商品的类型、风格、材质等。
步骤d2:根据商品信息和交互信息建立时序知识图谱。
具体地,首先将提取的商品信息和交互信息数据进行转化,全部变成可以处理的结构化数据,再通过对齐、建边等方式得到知识库;最后将知识库进行关系挖掘、实体链接、知识推理、知识问答操作,得到最终的时序知识图谱。其中,实体链接主要是将相似度高的实体之间建立连接关系,因此在进行实体链接之前,需要通过神经网络计算各个实体之间的相似度(即知识图谱相似度)。
其中,时序知识图谱的形式为三元组形式,由头实体、关系、尾实体构成,或者由实体、类型、属性构成。其中,三元组中的关系或者类型标注有关系或者类型的有效时间。
步骤d3:获取时序知识图谱中各三元组的知识表示。
其中,各三元组的知识表示包括头实体表示、尾实体表示和关系表示,且知识表示利用上述技术方案中的知识抽取方法得到。这里不再赘述。
步骤d4:根据知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果。
具体地,基于知识表示对应的三元组通过推荐算法对三元组进行评分预测,得到的评分预测结果即为三元组对应商品的推荐分数。最后根据推荐分数排序,作为商品的推荐结果。
在本实施例中,根据商品信息和交互信息建立时序知识图谱,为推荐的商品融入了时间性质,再通过由知识抽取方法得到的知识表示,对商品进行评分预测,使得最终推荐的商品能够更加符合用户对事实关系或者类型的有效时间需求。
参阅图11,图11是本申请提供的知识抽取装置一实施例的结构示意图。该知识抽取装置200包括图谱获取模块210、聚类模块220、投影模块230以及融合模块240。
其中,图谱获取模块210用于获取时序知识图谱。其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间。
具体地,图谱获取模块210从知识库中获取时序知识图谱。其中,时序知识图谱中的每个三元组的结构为头实体-关系-尾实体的形式来表示知识,并且三元组中的关系标注有关系的有效时间。因此,该三元组在形式上可表示为四元组。四元组的结构为头实体-关系-尾实体-时间戳的形式,其中,时间戳可通过[ts-te]表示,ts为关系标注的有效时间的开始时间,te为关系标注的有效时间的结束时间。
其中,聚类模块220用于基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合。其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种。
具体地,每个三元组的关系标注的有效时间具有其对应的时间性质,聚类模块220分别将具有同一时间性质的三元组聚集为一类,即形成为若干个子时序知识图谱,每一个子时序知识图谱即代表一种时间性质的三元组集合。
其中,闭区间性质是指事实在一时间段内有效,即结束时间大于开始时间。开区间性质是指事实从某个时刻开始有效或者直到某一时刻有效,即该事实的有效时间只有开始时间(使用since表示)或者该事实的有效时间只有结束时间(使用until表示)。其中,瞬时性质是指事实在某个时刻发生,即该事实的有效时间为某个时刻(即开始时间等于结束时间)。
其中,投影模块230用于对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示。其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到。
具体地,投影模块230对于各种时间性质的三元组集合,分别根据其时间建模为若干个时间超平面,投影模块230将每个三元组的特征表示在其对应的有效超平面上进行投影,以得到三元组的特征表示在三元组的有效超平面上的投影表示。
其中,融合模块240用于基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
具体地,融合模块240将各种时间性质的三元组集合中的三元组的投影表示提取出来分别建立知识表示模型,融合模块240将若干种知识表示模型融合,以得到时序知识图谱的三元组的知识表示。
区别于现有技术,在本实施例中,一方面,知识抽取装置200从关系的角度利用三元组的时间性质聚类得到若干种时间性质的三元组集合,从而将关系所携带的时间语义信息纳入模型结构中,融合各种时间性质的三元组集合的投影表示,使得知识表示的事实更加精准。另一方面,知识抽取装置200根据三元组标注的有效时间选择其对应的有效超平面,从而建立的知识表示模型更加稳定和准确。
参阅图12,图12是本申请提供的问答装置一实施例的结构示意图。该问答装置300包括问题获取模块310、转化模块320以及匹配模块330。
其中,问题获取模块310用于获取用户问题;转化模块320用于将用户问题转换成规则化问题;匹配模块330用于将规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案。
在一实施例中,问题获取模块310获取用户问题“1950年城市A有多少人口?”。转化模块320通过jieba对该问题进行词性标注再提取关键字,并将该问题转化为一个头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”。匹配模块330再将头实体“城市A”和关系“人口”以及关系标注的有效时间“1950年”通过神经网络,提取出缺尾实体的三元组(h,r,?,[1950])。匹配模块330再将(h,r,?,[1950])与知识表示模型抽取的知识表示对应的三元组进行问题匹配,计算出知识表示对应的三元组与(h,r,?,[1950])相似度最高的事实三元组(h,r,t,[1950]),最后问答装置300将尾实体t作为最终答案输出。
在本实施例中,在知识表示模型输出的知识表示中融入了时间性质,通过由知识抽取装置得到的知识表示与用户问题进行匹配,进而输出的最终答案更加完整和精确,能够满足用户对关系的有效时间匹配的需求。
参阅图13,图13是本申请提供的推荐装置一实施例的结构示意图。该推荐装置400包括信息获取模块410、知识抽取模块420以及评分模块430。
其中,信息获取模块410用于获取商品信息以及用户的交互信息;知识抽取模块420用于根据商品信息和交互信息建立时序知识图谱,并获取时序知识图谱中各三元组的知识表示;评分模块430用于根据知识表示,对商品进行评分预测,最终根据评分顺序得到商品的推荐结果。
在一实施例中,信息获取模块410获取电商平台的全部商品信息以及一用户的个人交互信息。其中,该用户的个人交互信息包括商品的购买记录、商品的评分记录;商品的加购、收藏以及浏览记录等。知识抽取模块420首先将提取的商品信息和交互信息数据进行转化,全部变成可以处理的结构化数据,再通过对齐、建边等方式得到知识库;最后将知识库进行关系挖掘、实体链接、知识推理、知识问答操作,得到最终的时序知识图谱。知识抽取模块420再通过知识抽取装置200获取时序知识图谱中各三元组的知识表示。最后评分模块430基于知识表示对应的三元组通过推荐算法对三元组进行评分预测,得到的评分预测结果即为三元组对应商品的推荐分数,并根据推荐分数排序,作为商品的推荐结果。
在本实施例中,知识抽取模块420根据商品信息和交互信息建立时序知识图谱,为推荐的商品融入了时间性质,评分模块430再通过由知识抽取方法得到的知识表示,对商品进行评分预测,使得最终推荐装置400推荐的商品能够更加符合用户对事实关系或者类型的有效时间需求。
参阅图14,图14是本申请提供的一种电子设备的结构示意图,该电子设备100包括处理器101以及与处理器101连接的存储器102,其中,存储器102中存储有程序数据,处理器101调取存储器102存储的程序数据,以执行上述的知识抽取方法,或执行上述的问答方法,或执行上述的推荐方法。
可选地,在一实施例中,处理器101用于执行程序数据以实现如下方法:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间;基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
其中,处理器101还可以称为CPU(Central Processing Unit,中央处理单元)。处理器101可能是一种电子芯片,具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以为内存条、TF卡等,可以存储电子设备100中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器102中。它根据处理器101指定的位置存入和取出信息。有了存储器102,电子设备100才有记忆功能,才能保证正常工作。电子设备100的存储器102按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的电子设备100的实施方式仅仅是示意性的,例如,确定每个关系所在的三元组的时间性质,根据三元组标注的有效时间在三元组集合的若干时间超平面中选择三元组的有效超平面的方式等,从而进行不同的分类策略,仅仅为一种集合的方式,实际实现时可以有另外的划分方式,例如聚类的若干种时间性质的三元组集合可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。
另外,在本申请各个实施例中的各功能模块(如为关系赋予时间性质模块和融入时间信息的投影模块等)可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
参阅图15,图15是本申请提供的计算机可读存储介质一实施例的结构示意图,该计算机可读存储介质110中存储有能够实现上述所有方法的程序指令111。
在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质110中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质110在一个程序指令111中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等移动终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。
可选地,在一实施例中,程序指令111在被处理器执行时,用以实现如下方法:获取时序知识图谱;其中,时序知识图谱包含若干三元组,且各三元组中的关系标注有关系的有效时间;基于若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;对于各种时间性质的三元组集合,获取三元组的特征表示分别在三元组的各个有效超平面上的投影表示;其中,三元组的有效超平面基于三元组标注的有效时间在三元组集合的若干时间超平面选择得到;基于三元组分别在各种时间性质的三元组集合所提取得到的投影表示,融合得到三元组的知识表示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质110(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质110实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质110到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令111产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机可读存储介质110也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储介质110中的程序指令111产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机可读存储介质110也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令111提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一实施例中,这些可编程数据处理设备上包括处理器和存储器。处理器还可以称为CPU(Central Processing Unit,中央处理单元)。处理器可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以为内存条、TF卡等,它根据处理器指定的位置存入和取出信息。存储器按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (15)

1.一种知识抽取方法,其特征在于,包括:
对文本数据进行处理以获取时序知识图谱;其中,所述时序知识图谱包含若干三元组,且各所述三元组中的关系标注有所述关系的有效时间;
基于所述若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,所述若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;
对于各种所述时间性质的三元组集合,获取所述三元组的特征表示分别在所述三元组的各个有效超平面上的投影表示;其中,所述三元组的有效超平面基于所述三元组标注的有效时间在所述三元组集合的若干时间超平面选择得到;
基于所述三元组分别在各种所述时间性质的三元组集合所提取得到的投影表示,融合得到所述三元组的知识表示。
2.根据权利要求1所述的方法,其特征在于,所述若干时间超平面基于所述三元组集合中各所述三元组标注的有效时间划分得到,各所述时间超平面分别对应的时间域互不重合,且所述三元组的有效超平面对应的时间域与所述三元组标注的有效时间存在重合部分。
3.根据权利要求1所述的方法,其特征在于,所述若干时间超平面分别被选择作为所述有效超平面的次数之间的差异低于预设值。
4.根据权利要求1所述的方法,其特征在于,所述获取所述三元组的特征表示分别在所述三元组的各个有效超平面上的投影表示,包括:
基于所述有效超平面的法向表示,获取所述特征表示在所述有效超平面法向方向上的法向投影;
基于所述特征表示和所述法向投影,得到所述投影表示。
5.根据权利要求1所述的方法,其特征在于,所述基于所述若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合,包括:
基于所述三元组所标注的有效时间,确定所述三元组所属的时间性质;
基于所述三元组所属的时间性质,聚类得到所述若干种时间性质的三元组集合。
6.根据权利要求1所述的方法,其特征在于,所述特征表示是预先经若干轮训练得到的,且在每轮训练过程中,执行在各所述有效超平面上进行特征投影的步骤,并基于所述投影表示的置信分值调整所述特征表示。
7.根据权利要求6所述的方法,其特征在于,所述特征投影基于所述时间超平面的法向表示得到,所述特征表示的训练步骤包括:
将按时间排序的时间超平面,分别作为当前超平面,并将所述当前超平面的前一所述时间超平面作为参考超平面;
基于所述参考超平面的法向表示,得到所述参考超平面在时间维度演化下一时间域的预测表示;
基于所述参考超平面对应的预测表示与所述当前超平面的法向表示之间的表示差异,得到第一损失,并基于所述投影表示的置信分值,得到第二损失;
基于所述第一损失和所述第二损失,调整所述特征表示。
8.根据权利要求7所述的方法,其特征在于,所述基于所述参考超平面对应的预测表示与所述当前超平面的法向表示之间的表示差异,得到第一损失,包括:
对于各所述三元组集合,分别获取所述三元组集合的相邻所述时间超平面之间的表示差异,并基于各个所述表示差异,得到子损失;
基于各所述三元组集合分别对应的子损失,获取所述第一损失。
9.一种问答方法,其特征在于,包括:
获取用户问题;
将所述用户问题转换成规则化问题;
将规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案;
其中,所述知识表示模型输出的知识表示包括头实体表示、尾实体表示和关系表示,且所述知识表示利用权利要求1至8任一项所述的知识抽取方法得到。
10.一种推荐方法,其特征在于,包括:
获取商品信息以及用户的交互信息;
根据所述商品信息和所述交互信息建立时序知识图谱;
获取所述时序知识图谱中各三元组的知识表示;
根据所述知识表示,对商品进行评分预测,最终根据评分顺序得到所述商品的推荐结果;
其中,所述三元组的知识表示包括头实体表示、尾实体表示和关系表示,且所述知识表示利用权利要求1至8任一项所述的知识抽取方法得到。
11.一种知识抽取装置,其特征在于,包括:
图谱获取模块,用于获取时序知识图谱;其中,所述时序知识图谱包含若干三元组,且各所述三元组中的关系标注有所述关系的有效时间;
聚类模块,用于基于所述若干三元组分别标注的有效时间进行聚类,得到若干种时间性质的三元组集合;其中,所述若干种时间性质包括闭区间性质、开区间性质和瞬时性质中的至少一种;
投影模块,用于对于各种所述时间性质的三元组集合,获取所述三元组的特征表示分别在所述三元组的各个有效超平面上的投影表示;其中,所述三元组的有效超平面基于所述三元组标注的有效时间在所述三元组集合的若干时间超平面选择得到;
融合模块,用于基于所述三元组分别在各种所述时间性质的三元组集合所提取得到的投影表示,融合得到所述三元组的知识表示。
12.一种问答装置,其特征在于,包括:
问题获取模块,用于获取用户问题;
转化模块,用于将所述用户问题转换成规则化问题;
匹配模块,用于将所述规则化问题与基于知识表示模型输出的知识表示进行问题匹配,将相似度最高的匹配结果确定为答案,其中,所述知识表示模型输出的知识表示包括头实体表示、尾实体表示和关系表示,且所述知识表示利用权利要求1至8任一项所述的知识抽取方法得到。
13.一种推荐装置,其特征在于,包括:
信息获取模块,用于获取商品信息以及用户的交互信息;
知识抽取模块,用于根据所述商品信息和所述交互信息建立时序知识图谱,并获取所述时序知识图谱中各三元组的知识表示;
评分模块,用于根据所述知识表示,对商品进行评分预测,最终根据评分顺序得到所述商品的推荐结果;
其中,所述三元组的知识表示包括头实体表示、尾实体表示和关系表示,且所述知识表示利用权利要求1至8任一项所述的知识抽取方法得到。
14.一种电子设备,其特征在于,所述电子设备包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器调取所述存储器存储的所述程序数据,以执行如权利要求1-8任意一项所述的知识抽取方法,或执行权利要求9所述的问答方法,或执行权利要求10所述的推荐方法。
15.一种计算机可读存储介质,内部存储有程序指令,其特征在于,所述程序指令被执行以实现如权利要求1-8任一项所述的知识抽取方法,或执行权利要求9所述的问答方法,或执行权利要求10所述的推荐方法。
CN202111669881.2A 2021-12-31 2021-12-31 知识抽取、问答及推荐方法和相关装置、设备、介质 Active CN114357191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111669881.2A CN114357191B (zh) 2021-12-31 2021-12-31 知识抽取、问答及推荐方法和相关装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111669881.2A CN114357191B (zh) 2021-12-31 2021-12-31 知识抽取、问答及推荐方法和相关装置、设备、介质

Publications (2)

Publication Number Publication Date
CN114357191A CN114357191A (zh) 2022-04-15
CN114357191B true CN114357191B (zh) 2023-05-30

Family

ID=81105628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111669881.2A Active CN114357191B (zh) 2021-12-31 2021-12-31 知识抽取、问答及推荐方法和相关装置、设备、介质

Country Status (1)

Country Link
CN (1) CN114357191B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238100A (zh) * 2022-09-21 2022-10-25 科大讯飞(苏州)科技有限公司 一种实体对齐方法、装置、设备和计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN111966793B (zh) * 2019-05-20 2024-03-15 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN111209408A (zh) * 2019-12-23 2020-05-29 华东师范大学 一种基于混合翻译模型的带时间知识图谱嵌入方法
CN111460048A (zh) * 2020-03-13 2020-07-28 中国科学院电子学研究所苏州研究院 一种面向时序切面的知识图谱要素组织方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN113822494B (zh) * 2021-10-19 2022-07-22 平安科技(深圳)有限公司 风险预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114357191A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
Kim et al. Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information
Lin et al. Cross-view retrieval via probability-based semantics-preserving hashing
Tang et al. Tri-clustered tensor completion for social-aware image tag refinement
US9286548B2 (en) Accurate text classification through selective use of image data
CN112612973B (zh) 结合知识图谱的个性化智能服装搭配推荐方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN111859909B (zh) 一种语义场景一致性识别阅读机器人
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN111428503A (zh) 同名人物的识别处理方法及处理装置
Wong et al. Learning to extract and summarize hot item features from multiple auction web sites
CN114357191B (zh) 知识抽取、问答及推荐方法和相关装置、设备、介质
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
Li et al. Bi-CMR: bidirectional reinforcement guided hashing for effective cross-modal retrieval
Chen et al. Feature constraint reinforcement based age estimation
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
Peng et al. Unsupervised visual–textual correlation learning with fine-grained semantic alignment
CN113065329A (zh) 数据的处理方法和装置
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
Huang et al. Modeling Multiple Aesthetic Views for Series Photo Selection
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant