CN111552811B - 知识图谱中信息补全的方法、装置、计算机设备和存储介质 - Google Patents

知识图谱中信息补全的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111552811B
CN111552811B CN202010334805.5A CN202010334805A CN111552811B CN 111552811 B CN111552811 B CN 111552811B CN 202010334805 A CN202010334805 A CN 202010334805A CN 111552811 B CN111552811 B CN 111552811B
Authority
CN
China
Prior art keywords
text
word
complement
time step
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010334805.5A
Other languages
English (en)
Other versions
CN111552811A (zh
Inventor
周阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Original Assignee
Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shuliantianxia Intelligent Technology Co Ltd filed Critical Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority to CN202010334805.5A priority Critical patent/CN111552811B/zh
Publication of CN111552811A publication Critical patent/CN111552811A/zh
Application granted granted Critical
Publication of CN111552811B publication Critical patent/CN111552811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种知识图谱中信息补全的方法、装置、计算机设备和存储介质,包括:首先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果;进一步的,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,生成所述待补全信息对应的补全文本;最后,利用所述补全文本在所述知识图谱中补全所述待补全信息。本发明能够减少人工在补全知识图谱时的工作量。

Description

知识图谱中信息补全的方法、装置、计算机设备和存储介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱中信息补全的方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的进步与发展,人们期望机器能够像人一样可以去理解海量的网络信息,期望机器可以更快、更准确、更智能的获取到自己需要的信息,为了满足这种需求,智能化的知识图谱应运而生。
但是,由于知识图谱是由文本数据得到的,知识图谱中的信息通常带有大量的错误与缺失,例如,美容领域的知识图谱中有产品名称和产品品牌两个,但是实际情况就是,并不是所有的信息都包含产品名称和产品品牌。因此,需要对知识图谱中缺失的内容进行补全。
现有的补全方法,主要还是通过人工进行的,这样的方式不仅效率低下,而且浪费大量的人力,最后,由于知识图谱中有新的信息不断加入,还需要定期对知识图谱进行补全,以保证知识图谱中信息的完整性。
发明内容
基于此,有必要针对上述问题,提出一种知识图谱中信息补全的方法、装置、计算机设备和存储介质,以减少人工补全的工作量,提高知识图谱的补全效率。
第一方面,提供了一种知识图谱中信息补全的方法,所述方法包括:获取知识图谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。
在一个实施例中,所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量,包括:对所述已知文本进行字分割,得到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
在一个实施例中,所述基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,包括:基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本,包括:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率,包括:从所述时间步对应的概率分布中挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
在一个实施例中,在所述获取知识图谱中的待补全信息对应的已知文本之前,还包括:获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
第二方面,提供了一种知识图谱中信息补全的装置,包括:文本获取模块,用于获取知识图谱中的待补全信息对应的已知文本;文本向量模块,用于根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;单字标注模块,用于基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;第一补全模块,用于当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;第二补全模块,用于当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;图谱补全模块,用于利用所述补全文本在所述知识图谱中补全所述待补全信息。
在一个实施例中,所述文本向量模块,具体用于:对所述已知文本进行字分割,得到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
在一个实施例中,所述单字标注模块,具体用于:基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;所述第二补全模块,具体用于:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
在一个实施例中,所述第二补全模块,具体用于:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
在一个实施例中,所述第二补全模块,具体用于:从所述时间步对应的概率分布中挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
在一个实施例中,所述装置,还包括:调整模块;所述调整模块,具体用于:获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取知识图谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。
第四方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取知识图谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。
实施本发明实施例,将具有如下有益效果:
本发明提出了一种知识图谱中信息补全的方法、装置、计算机设备和存储介质,首先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果;进一步的,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,生成所述待补全信息对应的补全文本;最后,利用所述补全文本在所述知识图谱中补全所述待补全信息。可见,对于知识图谱中的待补全信息,根据待补全信息的已知文本,从已知文本里面找到待补全信息的补全文本,然后使用补全文本补全该待补全信息,进一步的,当已知文本里面没有补全文本的时候,还能根据该已知文本,生成补全文本,从而实现信息补全。通过上述方式,能够实现知识图谱的自动补全,大大的减少了人工工作量,并且提高了补全效率,不需要人工进行随时的检测,也能保证知识图谱中的信息的完整性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中知识图谱中信息补全的方法的实现流程示意图;
图2为一个实施例中步骤104的实现流程示意图;
图3为一个实施例中步骤106的实现流程示意图;
图4为一个实施例中步骤110的实现流程示意图;
图5为一个实施例中步骤110C的实现流程示意图;
图6为一个实施例中时间步、预设字以及补全文本的对应关系的示意图;
图7为一个实施例中步骤110C2的实现流程示意图;
图8为一个实施例中运算次数的示意图;
图9为一个实施例中知识图谱中信息补全的装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,提供了一种知识图谱中信息补全的方法,本发明实施例所述的知识图谱中信息补全的方法的执行主体为能够实现本发明实施例所述的知识图谱中信息补全的方法的设备,该设备可以包括但不限于终端和服务器。其中,终端包括台式终端和移动终端,台式终端包括但不限于台式电脑和车载电脑;移动终端包括但不限于手机、平板、笔记本电脑和智能手表。服务器包括高性能计算机和高性能计算机集群。
如图1所示,本发明实施例所述的知识图谱中信息补全的方法,具体包括:
步骤102,获取知识图谱中的待补全信息对应的已知文本。
其中,知识图谱,主要用来描述各个实体之间的关联关系。知识图谱中记录有大量的信息,例如,科比与湖人队之间的关系,知识图谱记录的信息为“科比,属于,湖人队”;再如,周杰伦与台湾的关系,知识图谱中记录的信息为“周杰伦,出生于,台湾”。
其中,待补全信息,为知识图谱中出现信息缺失情况的信息,对于出现信息缺失情况的信息,需要将缺失的内容进行补全。知识图谱中记录的信息可能会出现缺失,例如,完整的信息为“周杰伦,出生于,台湾”,但是,由于信息缺失,知识图谱中记录的信息变成了“周杰伦,出生于,[]”,于是,将“周杰伦,出生于,[]”作为待补全信息,需要对“[]”进行补全。
其中,已知文本,为待补全信息中已知的信息。例如,待补全信息为“科颜氏坚果顺滑发膜(产品名称),[](产品品牌)”,则“科颜氏坚果顺滑发膜”为已知文本,“[]”为需要补全的文本。
为了实现自动确定知识图谱中的待补全信息,对知识图谱中的信息的类别进行检测,根据信息的类别确定知识图谱中的待补全信息,提高待补全信息的检测效率,降低人工检测成本。具体的,对知识图谱中的信息的类别进行标记,例如,将知识图谱中信息的类别标记为:完整类别(指示信息内容完整,不需要补全)和待补全类别(指示信息内容缺失,需要补全),将标记为待补全类别的信息作为待补全信息,系统自动对知识图谱中各个信息的类别进行检测,从而发现知识图谱中的待补全信息。
步骤104,根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量。
其中,预设的字表矩阵,为预先设置的字表矩阵,字表矩阵中记录了不同的字对应的字向量,在机器领域,用字向量来表示一个字,以便机器识别不同的字。可以预先构建一个大的字表矩阵,该字表矩阵记录各个领域的字对应的字向量,以便于根据该大的字表矩阵,实现对各个领域的字的字向量的查询;也可以为不同的领域构建不同的字表矩阵,该构建的字表矩阵只用于记录该领域的字对应的字向量,以便根据不同领域的字表矩阵查询不同领域的字的字向量,提高字向量的查询效率。由于字表矩阵中记录了不同的字对应的字向量,因此,当已知文本确定的时候,已知文本中的每个字就已经确定,此时,便可以通过字表矩阵查询到已知文本中每个字对应的字向量,进而生成已知文本对应的文本向量。
在一个实施例中,提高了一种生成已知文本对应的文本向量的方法,能够通过字标识,快速生成文本向量。如图2所示,步骤104所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量,包括:
步骤104A,对所述已知文本进行字分割,得到所述已知文本中的每个字。
示例性的,采用特征提取的方法,实现对已知文本中的字的分割和识别,得到已知文本中的各个字。
步骤104B,根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量。
其中,字标识,用于唯一标识一个字。预先为不同的字建立字标识,后续在查询字向量的时候,就可以根据字标识从预设的字表矩阵中查询到每个字对应的字向量。例如,某一个的字的字标识为50,意味着预设的字表矩阵中第50行对应的向量为该字的字向量。
步骤104C,根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
其中,已知文本对应的文本向量,实质是一个矩阵。例如,已知文本为ABC,该已知文本总共有3个字,A对应的字向量为[a1,a2,a3],B对应的字向量为[b1,b2,b3],C对应的字向量为[c1,c2,c3],于是,根据A、B和C在已知文本中的位置,将A、B和C对应的字向量进行组合,得到已知文本ABC对应的文本向量[[a1,a2,a3],[b1,b2,b3], [c1,c2,c3]]。
步骤106,基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个。
其中,补全结果,指示该字可以用于生成补全文本;非补全结果,指示该字无法用于生成补全文本。
例如,待补全信息中缺失品牌,已知文本为:科颜氏坚果顺滑发膜,则对该已知文本中每个字的标注结果为:[B_brand,I_brand,I_brand,O,O,O,O,O,O],用B_brand和I_brand代表标注结果为补全结果,O代表标注结果为非补全结果,由于标注结果包含了补全结果,因此,可以根据该补全结果得到补全文本;再如,已知文本为:天竺葵柔顺洗发水,则对该已知文本中每个字的标注结果为:[O,O,O,O,O,O,O,O],由于O代表非补全结果,由于标注结果只包含非补全结果,因此,无法直接根据该已知文本得到补全文本。
步骤108,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本。
当已知文本对应的各个标注结果中存在至少一个补全结果时,认为该已知文本包含了补全文本,可以从该已知文本中提取出补全文本,从而补全待补全信息。例如,已知文本中每个字的标注结果为:[B_brand,I_brand,I_brand,O,O,O,O,O,O],其中,B_brand和I_brand代表标注结果为补全结果,于是,将B_brand和I_brand对应的字从已知文本中提取出来,假设从已知文本中提取出来的字为:科、颜、氏,则生成的补全文本为:科颜氏。
示例性的,当生成的补全文本超过了知识图谱中记载的信息的范围时,需要人工确认并同时调整权重参数和权重矩阵。具体的,假设知识图谱中的全部信息用A表示,若根据补全结果得到的补全文本不包含于A,则生成人工提示信息,以提示工作人员确认根据该补全结果得到的补全文本,若工作人员确认该补全文本是正确的补全文本,则使用该已知文本和该补全文本对后续提到的第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵进行调整,使得经过调整后的权重参数和权重矩阵能够实现更大范围以及更高准确度的预测。
步骤110,当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本。
当已知文本对应的各个标注结果均为非补全结果时,认为该已知文本中没有包含补全文本,此时,为了补全待补全信息,需要生成该待补全信息对应的补全文本。例如,已知文本中每个字的标注结果为:[O,O,O,O,O,O,O],其中,O代表非补全结果,由于该标注结果没有包含补全结果,以为无法从已知文本中找到补全文本,此时,需要采用一定的方法去生成补全文本,从而补全待补全信息。
步骤112,利用所述补全文本在所述知识图谱中补全所述待补全信息。
例如,补全文本为:台湾,待补全信息为:周杰伦,[],将补全文本“台湾”填入待补全信息中,即可实现在知识图谱中补全该待补全信息。
示例性的,虽然生成了补全文本,但是为了保证补全的准确性,还是需要人工进行补全文本的确认。具体的,假设知识图谱中的全部信息用A表示,若已知文本对应的各个标注结果均为非补全结果并且根据文本特征向量生成了待补全信息对应的补全文本时,所述利用所述补全文本在所述知识图谱中补全所述待补全信息,包括:若所述补全文本包含于A,则发送包含所述已知文本和所述补全文本的人工提示信息;获取所述人工提示信息对应的反馈结果,若反馈结果为正确,则利用所述补全文本在所述知识图谱中补全所述待补全信息,若所述反馈结果为错误,则获取所述反馈结果中的校对文本,所述校对文本为人工输入的所述已知文本对应的补全文本,利用所述校对文本在所述知识图谱中补全所述待补全信息,并根据所述已知文本和所述校对文本对后续提到的第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵进行调整。
示例性的,已知文本中没有补全结果并且没有生成补全文本时,需要寻求人工帮助补全该待补全信息。具体的,当所述已知文本对应的各个标注结果均为所述非补全结果并且根据所述文本特征向量没有生成所述待补全信息对应的补全文本时,获取所述已知文本对应的人工补全结果,根据所述人工补全结果在所述知识图谱中补全所述待补全信息。进一步的,在已知文本中不包含补全结果且也没有生成补全文本时,根据已知文本和该已知文本对应的人工补全结果对后续提到的第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵进行调整。
上述知识图谱中信息补全的方法,首先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果;进一步的,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,生成所述待补全信息对应的补全文本;最后,利用所述补全文本在所述知识图谱中补全所述待补全信息。可见,对于知识图谱中的待补全信息,根据待补全信息的已知文本,从已知文本里面找到待补全信息的补全文本,然后使用补全文本补全该待补全信息,进一步的,当已知文本里面没有补全文本的时候,还能根据该已知文本,生成补全文本,从而实现信息补全。通过上述方式,能够实现知识图谱的自动补全,大大的减少了人工工作量,并且提高了补全效率,不需要人工进行随时的检测,也能保证知识图谱中的信息的完整性。
在一个实施例中,提供了一种确定字的标注结果的方法,在具体的标注过程中,后一个字对应的字特征向量可以根据前一个字对应的字特征向量得到,这样的方式将使得字特征向量充分融入上下文信息,最终得到的字特征向量将更能反映字特征,从而提高字标注结果的准确率。如图3所示,步骤106所述基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,包括:
步骤106A,基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量。
其中,第一权重参数,为包含多个权重值的集合,通过第一权重参数的处理,能够得到已知文本中每个字对应的字特征向量;字特征向量,为通过第一权重参数处理后得到的反映字的特征的向量。
将第一权重参数与文本向量做函数运算,即可得到已知文本中每个字对应的字特征向量。例如,第一权重参数为We,X表示文本向量,将X与We做函数运算,即可得到已知文本中每个字对应的字特征向量。例如,将We和X1做函数运算,得到已知文本中第一个字对应的字特征向量h1,其中,X1为已知文本中第一个字对应的字向量,进一步的,将h1与X2做函数运算,得到已知文本中第二个字对应的字特征向量h2,将h2与X3做函数运算,得到已知文本中第三个字对应的字特征向量h3,由此可以得到已知文本中每个字对应的字特征向量;再如,将We和X1做函数运算,得到已知文本中第一个字对应的字特征向量h1,将We和X2做函数运算,得到已知文本中第二个字对应的字特征向量h2,将We和X3做函数运算,得到已知文本中第三个字对应的字特征向量h3,由此可以得到已知文本中每个字对应的字特征向量。
步骤106B,将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵。
其中,第一权重矩阵,为包含多个权重值的矩阵,通过第一权重矩阵的处理,能够得到已知文本中每个字对应的字特征矩阵;已知文本中的字对应的字特征矩阵,为反映字的特征的矩阵,每个字对应的字特征矩阵不同,根据已知文本中的字对应的字特征矩阵,实现对字的分类和标注。例如,某个字的字特征向量为ht,第一权重矩阵为Wa,将ht与Wa相乘(矩阵乘法),得到该字对应的字特征矩阵:M=ht·Wa,其中,M为计算得到的字特征矩阵。
为了实现softmax对该字特征矩阵的归一化处理,从而根据归一化处理后得到的概率分布确定字的标注结果,对第一权重矩阵Wa和字特征向量ht的维度关系进行说明。具体的,第一权重矩阵Wa的行数等于字特征向量ht的维度,例如,字特征向量ht的维度为n,即字特征向量ht为1×n的向量,则第一权重矩阵Wa的行数为n;第一权重矩阵Wa的列数等于字的标注结果对应的标签的数量,例如,字的标注结果的标签有:B_brand、I_brand和O,即标签的数量为3,于是,第一权重矩阵Wa的列数为3。步骤106C,对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
由于字特征矩阵反映了这个字的特征,因此,根据字特征矩阵能够实现对字的分类,从而得到该字的标注结果。
示例性的,将字特征矩阵作为softmax函数的输入,即可得到softmax函数输出的多个概率,softmax函数输出的概率反映了已知文本中的字的标注结果为某个标注结果的可能性的大小。在得到softmax输出的多个概率之后,获取softmax函数输出的最大概率,然后将最大概率对应的标注结果作为对字的标注结果。例如,softmax函数输出的3个概率为[0.89,0.05,0.06],其中,0.89指示已知文本中的某个字P的标注结果为B_brand的可能性的大小,0.05指示该字P的标注结果为I_brand的可能性的大小,0.06指示该字P的标注结果为O的可能性的大小。于是,将标注结果B_brand作为对字P的标注结果。
在一个实施例中,提供了一种生成补全文本的方法,该方法基于整个文本的文本特征向量来生成相应的补全文本,由于考虑到了整个文本的信息,可以使得最终生成的补全文本更加的准确。所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的,其中,文本特征向量,为反映已知文本的整体特征的向量。例如,已知文本中各个字的字特征向量分别为h 1h 2,…h n,其中,n代表已知文本有n个字,定义函数L,通过函数L将各个字特征向量进行组合,得到文本特征向量h 0=L(h 1h 2,…h n),函数L如何实现对h 1h 2,…h n的组合,在此不做具体的限定。如图4所示,步骤110所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:
步骤110A,基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本。
其中,第二权重参数,为包含多个权重值的集合,通过第二权重参数的处理,能够得到各个时间步对应的字特征向量;时间步,用于生成候选字,时间步的数量需要预先设置。示例性的,时间步的数量可以根据知识图谱对应的领域进行设置,例如,知识图谱对应的领域为歌星领域,该知识图谱中的信息包括歌星的名字和歌星的省份,于是,可以根据歌星的名字中包含的字的个数和/或歌星的省份中包含的字的个数确定时间步的数量,例如,统计得到,歌星的名字中包含的字的最大个数为5,歌星的省份中包含的字的最大个数为6,于是,设置时间步的数量为6;时间步对应的字特征向量,反映时间步对应的字的特征,后续通过对该特征进行分类分析,可以确定该时间步对应的候选字;候选字,指用于生成补全文本的字,具体的,若想要得到补全文本,则需要首先得到补全文本中每个字对应的候选字,然后将得到的各个候选字进行组合得到补全文本。
将该第二权重参数与所述文本特征向量做函数运算,即可得到各个时间步对应的字特征向量。例如,第二权重参数为Wgh 0表示文本特征向量,将h 0与Wg做函数运算,即可得到各个时间步对应的字特征向量。具体的,例如,将Wgh 0做函数运算,得到已知文本中第一个字对应的字特征向量y1,将Wg和y1做函数运算,得到已知文本中第二个字对应的字特征向量y2,将Wg和y2做函数运算,得到已知文本中第三个字对应的字特征向量y3,由此可以得到已知文本中每个字对应的字特征向量。
步骤110B,将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵。
其中,第二权重矩阵,为包含多个权重值的矩阵,通过第二权重矩阵的处理,能够得到每个时间步对应的字特征矩阵;时间步对应的字特征矩阵,反映候选字的特征的矩阵,不同时间步对应的字特征矩阵不同,根据时间步对应的字特征矩阵,可以生成时间步对应的候选字,从而得到补全文本。例如,某个时间步对应的字特征向量为yt,第二权重矩阵为Wb,将yt与Wb相乘(矩阵乘法),得到该时间步对应的字特征矩阵N=yt·Wb
同样的,为了实现softmax对时间步对应的字特征矩阵的归一化处理,从而根据归一化处理后得到的概率分布确定补全文本,对第二权重矩阵Wb和时间步对应的字特征向量yt的维度关系进行说明。具体的,第二权重矩阵Wb的行数等于时间步对应的字特征向量yt的维度,例如,时间步对应的字特征向量yt的维度为n,即时间步对应的字特征向量yt为1×n的向量,则第二权重矩阵Wb的行数为n;第二权重矩阵Wb的列数等于预设字的总数量,例如,所有的预设字为:pad、unk、A、B、C、D、…、M,即预设字的总数量为15,于是,第二权重矩阵Wb的列数为15。
步骤110C,根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
由于时间步对应的字特征矩阵反映了候选字的特征,因此,根据时间步对应的字特征矩阵能够实现对候选字的预测,从而生成补全文本。
示例性的,将时间步对应的字特征矩阵作为softmax函数的输入,即可得到softmax函数输出的多个概率,此时,softmax函数输出的概率反映了生成该时间步对应的字的可能性的大小。在得到softmax输出的多个概率之后,获取softmax函数输出的最大概率,然后将最大概率对应的候选字作为该时间步对应的候选字。例如,softmax函数输出的4个概率为[0.89,0.01,0.05,0.05],其中,0.89指示该时间步对应的字为字A的概率,0.01指示该时间步对应的字为字B的概率,第一个0.05指示该时间步对应的字为字C的概率,第二个0.05指示该时间步对应的字为字D的概率,由于概率0.89最大,因此,将概率0.89对应的字作为该时间步对应的候选字。
在一个实施例中,提供了一种生成补全文本的方法,该方法首先根据每个时间步对应的概率分布,得到用于确定所述补全文本的最大概率,然后将最大概率对应的文本作为补全文本,由于是将最大概率对应的文本作为补全文本,使得最终得到的补全文本更加的准确;进一步的,由于在生成补全文本的过程中还可能生成字表矩阵没有记录的字,对于字表矩阵没有记录的字采用unk来表示,也就是说,即使生成了未被字表矩阵记录的字,按照本方法也能实现对补全文本的预测,而不会出现预测出错或者预测终止的情况,保证补全文本顺利生成;最后,如果确实生成了unk,还能对工作人员进行提示,让工作人员进行具体的确认,保证了最终的补全文本的准确性。如图5所示,步骤110C所述根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本,包括:
步骤110C1,对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字。
其中,填充字,为在生成的补全文本中的字的数量小于时间步的数量时,填充时间步的字,例如,使用pad作为填充字,当检测到某个时间步生成的候选字为pad时,便知道该时间步生成的候选字为填充字,不会利用该填充字去补全待补全信息;未被所述字表矩阵记录的字,指生成的字超过了字表矩阵记录的字的范围,可以理解的是,随着对各个权重参数和权重矩阵的不断更新调整,最终通过这些权重参数和权重矩阵生成的字可能会超出字表矩阵记录的范围,此时,可以用unk来表示未被所述字表矩阵记录的字,当检测到某个时间步生成的候选字为unk时,便知道该时间步生成的候选字为不被字表矩阵记录的字,此时,可以根据unk生成提示信息,以对工作人员进行提示,让工作人员知晓生成了新的字,并确认这些新的字是否可以用于补全待补全信息。
示例性的,采用softmax函数实现归一化处理。
预先建立时间步、预设字以及补全文本之间的对应关系,具体的,如图6所示,1个时间步对应n个预设字,根据每个时间步对应的概率分布,得到该时间步对应的最大概率,将最大概率对应的预设字作为该时间步对应的候选字,最后根据各个时间步对应的候选字,即可得到补全文本,例如,各个时间步对应的候选字为A、B、C、unk、pad、pad,则补全文本为“A”“B”“C”“unk”。
步骤110C2,根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率。
其中,补全文本的最大概率,反映了对补全文本的预测结果,即反映了补全文本最可能为什么文本。
步骤110C3,将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
根据补全文本的最大概率,可以得到组成该最大概率的各个时间步的概率,从而根据该各个时间步的概率,获取到各个时间步对应的候选字,进而通过将各个时间步对应的候选字进行组合得到补全文本。
在一个实施例中,从相邻的两个时间步对应的概率分布中分别挑选出预设数量的最大概率,得到多个概率结果,然后继续从多个概率结果中挑选出预设数量的最大概率作为下一时间步对应的预设数量的更新概率,通过不断执行这样的操作,可以得到结束时间步对应的预设数量的更新概率,进而得到补全文本对应的最大概率,简化了计算复杂度。如图7所示,步骤110C2所述根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率,包括:
步骤110C2_1,从所述时间步对应的概率分布中挑选出预设数量的最大概率。
其中,预设数量,为预先设置的数量,例如,预设数量为2,某个时间步对应的概率分布为:[0.1,0.3,0.6],则挑选出的预设数量的最大概率为:[0.3,0.6]。
步骤110C2_2,根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步。
其中,当前时间步,为当前正在处理的时间步;下一时间步,为与当前时间步相邻且时间步的序号大于当前时间步的序号的时间步;概率结果,为根据当前时间步中的某个概率和下一时间步中的某个概率计算得到的概率。
步骤110C2_3,从所述多个概率结果中获取到所述预设数量的最大概率。
从多个概率结果中获取到预设数量的最大概率的目的在于,将获取到的预设数量的最大概率作为下一时间步对应的预设数量的更新概率,以保证当前时间步与下一时间步进行概率结果的计算时,都只用到固定数量的概率,从而降低计算复杂度。
步骤110C2_4,将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率。
例如,当前时间步对应的预设数量的最大概率为:[0.3,0.6],下一时间步对应的预设数量的最大概率为:[0.4,0.5],则多个概率计算结果为[0.12,0.24,0.15,0.3],从中挑选出预设数量的最大概率为:[0.24,0.3],将[0.24,0.3]作为下一时间步对应的预设数量的更新概率。
进一步的,为了简化计算,概率的相乘由log函数替换进行,即将概率A×B转换为log(A×B)=log(A)+log(B)。例如,经过转换,多个概率计算结果将变为:[log(0.3)+log(0.4),log(0.6)+log(0.4),log(0.3)+log(0.5),log(0.6)+log(0.5)],由于转换为了log进行计算,所以,最终得到的概率计算结果为负数,此时,负的越少,概率也就越高。
步骤110C2_5,根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
其中,结束时间步,为多个时间步中的最后一个时间步,也是各个时间步中序号最大的时间步。
下面说明下通过上述方法如何降低了计算复杂度。如图8所示,假设预设字总共有3个,时间步的数量总共有3个,三个时间步对应的概率分布(这里的概率分布中的数字是为了方便说明计算复杂度随意设置的)分别为:[1,3,2],[2,3,3]以及[4,2,1],于是,在不采用上述方法进行补全文本对应的最大概率的计算时,计算次数为33,而在采用了上述方法进行补全文本对应的最大概率的计算时,即预设数量为2时,计算次数为23,大大的降低了计算复杂度。
在一个实施例中,提供了一种调整权重参数和权重矩阵的方法,根据第一损失和第二损失之和,对第一权重参数、第二权重参数、第一权重矩阵以及第二权重矩阵进行调整,相较于根据第一损失调整第一权重参数和第一权重矩阵同时根据第二损失调整第二权重参数和第二权重矩阵的方式,这样的调整方式,加强了标注过程和文本生成过程之间的相互感知能力,使得最终生成的补全文本更加的准确,并且,不需要单独对第一权重参数、第一权重矩阵以及第二权重参数、第二权重矩阵进行,而能够同时对第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵,也提高了参数调整的效率。具体的,在步骤102所述获取知识图谱中的待补全信息对应的已知文本之前,还包括:
步骤114,获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
其中,已知训练文本,为在调整第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵的过程中用到的文本;人工标注结果,为人工标注的结果,即最准确的标注结果,后续将根据已知训练文本的预测标注结果和人工标注结果计算第一损失;补全训练文本,为与该已知训练文本对应的补全文本。需要对补全训练文本进行预测结果的标注,后续将根据补全训练文本的参数预测结果和人工指定结果计算第二损失,从而根据第二损失调整各个参数;人工指定结果,为人工指定的补全结果,后续将根据补全训练文本中每个字参数预测结果和人工指定结果计算第二损失。
例如,已知训练文本为“天竺葵柔顺洗发水”,对应的人工标注结果为[O,O,O,O,O,O,O,O],补全训练文本为“玛汀露丝”,对应的人工指定结果为[玛,汀,露,丝,pad,pad,pad,pad],其中,pad为填充字。
步骤116,根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失。
其中,预测标注结果,为根据调整前的即非最终的第一权重参数、第一权重矩阵以及已知训练文本对应的文本向量得到的已知训练文本对应的标注结果;第一损失,用于衡量已知训练文本对应的预测标注结果与人工标注结果的差异的大小。
具体的,第一损失可以用交叉熵的形式表示,其中,交叉熵用于度量两个概率分布间的差异,即通过交叉熵可以度量预测标注结果和人工标注结果之间的概率分布的差异,从而确定预测标注结果和人工标注结果之间的差异的大小。例如,第一损失用L(y1,y)表示,其中,y1为预测标注结果的,y为人工标注结果,假设预测标注结果(概率分布)y1=[y11,y12,…y1n],人工标注结果(概率分布)y=[y1,y2,…yn],则第一损失
Figure SMS_1
根据步骤106A到106C可以得到已知训练文本中每个字的预测标注结果,在此不再详述。
步骤118,根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失。
其中,参数预测结果,为根据调整前的即非最终的第二权重参数、第二权重矩阵以及已知训练文本对应的文本向量得到的补全训练文本的预测结果;第二损失,用于衡量补全训练文本对应的参数预测结果与人工指定结果的差异的大小。同样,第二损失也可以用交叉熵的形式表示,即通过交叉熵度量参数预测结果和人工指定结果之间的概率分布的差异,从而确定参数预测结果与人工指定结果之间的差异的大小。第二损失的计算方法和上述例子相同,在此不再详述。
在步骤106A的基础上,根据步骤110A到110C可以得到补全训练文本对应的参数预测结果,在此不再详述。
步骤120,根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
将第一损失和第二损失求和,得到一个综合的损失,然后根据综合的损失,对第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵进行调整,使得预测标注结果不断逼近人工标注结果同时参数预测结果逼近人工指定结果,在预测标注结果与人工标注结果差异最小且参数预测结果与人工指定结果差异最小的时候,得到最终的第一权重参数、第一权重矩阵、第二权重参数以及第二权重矩阵。
如图9所示,提供了一种知识图谱中信息补全的装置900,具体包括:文本获取模块902,用于获取知识图谱中的待补全信息对应的已知文本;文本向量模块904,用于根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;单字标注模块906,用于基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;第一补全模块908,用于当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;第二补全模块910,用于当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;图谱补全模块912,用于利用所述补全文本在所述知识图谱中补全所述待补全信息。
上述知识图谱中信息补全的装置,首先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果;进一步的,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,生成所述待补全信息对应的补全文本;最后,利用所述补全文本在所述知识图谱中补全所述待补全信息。可见,对于知识图谱中的待补全信息,根据待补全信息的已知文本,从已知文本里面找到待补全信息的补全文本,然后使用补全文本补全该待补全信息,进一步的,当已知文本里面没有补全文本的时候,还能根据该已知文本,生成补全文本,从而实现信息补全。通过上述方式,能够实现知识图谱的自动补全,大大的减少了人工工作量,并且提高了补全效率,不需要人工进行随时的检测,也能保证知识图谱中的信息的完整性。
在一个实施例中,所述文本向量模块904,具体用于:对所述已知文本进行字分割,得到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
在一个实施例中,所述单字标注模块906,具体用于:基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;所述第二补全模块910,具体用于:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
在一个实施例中,所述第二补全模块910,具体用于:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
在一个实施例中,所述第二补全模块910,具体用于:从所述时间步对应的概率分布中挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
在一个实施例中,所述装置900,还包括:调整模块;所述调整模块,具体用于:获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现知识图谱中信息补全的方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行知识图谱中信息补全的方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的知识图谱中信息补全的方法可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成知识图谱中信息补全的装置的各个程序模板。比如,文本获取模块902、文本向量模块904和单字标注模块906。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取知识图谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。
在一个实施例中,所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量,包括:对所述已知文本进行字分割,得到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
在一个实施例中,所述基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,包括:基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本,包括:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率,包括:从所述时间步对应的概率分布中挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于:在所述获取知识图谱中的待补全信息对应的已知文本之前,获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取知识图谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。
在一个实施例中,所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量,包括:对所述已知文本进行字分割,得到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
在一个实施例中,所述基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,包括:基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本,包括:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
在一个实施例中,所述根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率,包括:从所述时间步对应的概率分布中挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于:在所述获取知识图谱中的待补全信息对应的已知文本之前,获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
需要说明的是,上述知识图谱中信息补全的方法、知识图谱中信息补全的装置、计算机设备及计算机可读存储介质属于一个总的发明构思,知识图谱中信息补全的方法、知识图谱中信息补全的装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种知识图谱中信息补全的方法,其特征在于,包括:
获取知识图谱中的待补全信息对应的已知文本;
根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;
基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;
当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;
当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;
其中,所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:
基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;
将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;
根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本;
利用所述补全文本在所述知识图谱中补全所述待补全信息。
2.如权利要求1所述的方法,其特征在于,所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量,包括:
对所述已知文本进行字分割,得到所述已知文本中的每个字;
根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知文本中每个字对应的字向量;
根据每个字在所述已知文本中的位置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。
3.如权利要求1所述的方法,其特征在于,所述基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,包括:
基于预设的第一权重参数对所述文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;
将所述已知文本中每个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征矩阵;
对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每个字对应的标注结果。
4.如权利要求1所述的方法,其特征在于,所述根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本,包括:
对每个所述时间步对应的字特征矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记录的字;
根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;
将所述最大概率对应的文本作为所述待补全信息对应的补全文本。
5.如权利要求4所述的方法,其特征在于,所述根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率,包括:
从所述时间步对应的概率分布中挑选出预设数量的最大概率;
根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;
从所述多个概率结果中获取到所述预设数量的最大概率;
将从所述多个概率结果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率;
根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。
6.如权利要求3所述的方法,其特征在于,在所述获取知识图谱中的待补全信息对应的已知文本之前,还包括:
获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;
根据所述第一权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本中每个字对应的人工标注结果确定第一损失;
根据所述第二权重参数、所述第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第二损失;
根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果。
7.一种知识图谱中信息补全的装置,其特征在于,包括:文本获取模块,用于获取知识图谱中的待补全信息对应的已知文本;文本向量模块,用于根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向量;单字标注模块,用于基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;第一补全模块,用于当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;第二补全模块,用于当所述已知文本对应的各个标注结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本,所述文本特征向量是由所述已知文本中每个字对应的字特征向量组成的;其中,所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:基于预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本;图谱补全模块,用于利用所述补全文本在所述知识图谱中补全所述待补全信息。
8.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述知识图谱中信息补全的方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述知识图谱中信息补全的方法的步骤。
CN202010334805.5A 2020-04-24 2020-04-24 知识图谱中信息补全的方法、装置、计算机设备和存储介质 Active CN111552811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010334805.5A CN111552811B (zh) 2020-04-24 2020-04-24 知识图谱中信息补全的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010334805.5A CN111552811B (zh) 2020-04-24 2020-04-24 知识图谱中信息补全的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111552811A CN111552811A (zh) 2020-08-18
CN111552811B true CN111552811B (zh) 2023-06-02

Family

ID=71998583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010334805.5A Active CN111552811B (zh) 2020-04-24 2020-04-24 知识图谱中信息补全的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111552811B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015916B (zh) * 2020-09-01 2023-07-21 中国银行股份有限公司 知识图谱的补全方法、装置、服务器和计算机存储介质
CN112560476B (zh) * 2020-12-09 2024-10-15 科大讯飞(北京)有限公司 文本补全方法以及电子设备、存储装置
CN112560477B (zh) * 2020-12-09 2024-04-16 科大讯飞(北京)有限公司 文本补全方法以及电子设备、存储装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110390021A (zh) * 2019-06-13 2019-10-29 平安科技(深圳)有限公司 药品知识图谱构建方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110390021A (zh) * 2019-06-13 2019-10-29 平安科技(深圳)有限公司 药品知识图谱构建方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOJUN KANG,etc.TDN: An Integrated Representation Learning Model of Knowledge Graphs.《IEEE》.2019,全文. *
鲍开放.基于结构与文本联合表示的知识图谱补全方法.《计算机工程》.2018,全文. *

Also Published As

Publication number Publication date
CN111552811A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111552811B (zh) 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN111797629B (zh) 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN110008251B (zh) 基于时序数据的数据处理方法、装置和计算机设备
WO2021043076A1 (zh) 网络发布数据处理方法、装置、计算机设备和存储介质
CN110782123A (zh) 决策方案的匹配方法、装置、计算机设备及存储介质
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
CN111898682B (zh) 基于多个源模型修正新模型的方法、装置以及计算机设备
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN114241499A (zh) 表格图片识别方法、装置、设备和可读存储介质
CN113360644B (zh) 文本模型再训练的方法、装置、设备及存储介质
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN111552812A (zh) 确定实体之间关系类别的方法、装置和计算机设备
CN110597874B (zh) 数据分析模型的创建方法、装置、计算机设备和存储介质
CN115129590A (zh) 一种测试用例的生成方法及装置、电子设备、存储介质
CN110780850B (zh) 需求用例辅助生成方法、装置、计算机设备及存储介质
CN111177515B (zh) 产品标签匹配方法、装置、计算机设备及存储介质
CN114513578A (zh) 外呼方法、装置、计算机设备及存储介质
CN112528662A (zh) 基于元学习的实体类别识别方法、装置、设备和存储介质
CN113239128B (zh) 基于隐式特征的数据对分类方法、装置、设备和存储介质
CN112613407B (zh) 基于联邦学习的人脸活体检测训练优化方法、装置及设备
CN113377712B (zh) 埋点数据查询方法、装置、设备及计算机可读存储介质
CN113743121A (zh) 长文本实体关系抽取方法、装置、计算机设备及存储介质
CN117612181A (zh) 图像识别方法、装置、计算机设备和存储介质
CN118228993A (zh) 需求优先级的确定方法、装置、计算机设备和存储介质
CN116703799A (zh) 医学影像的特征学习方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant