CN110704637B

CN110704637B - 一种多模态知识库的构建方法、装置及计算机可读介质

Info

Publication number: CN110704637B
Application number: CN201910931395.XA
Authority: CN
Inventors: 王东升; 范红杰; 林凤绿; 柳泽明
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-05-12
Anticipated expiration: 2039-09-29
Also published as: CN110704637A

Abstract

本发明公开了一种多模态知识库的构建方法、装置及计算机可读介质，包括：接收训练数据；提取所接收的训练数据中所有的实体，得到实体集；针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练，得到对应于实体且相互映射的词向量和图片向量；根据所得到的图片向量，生成用于将图片向量映射于图片的图片索引。查询时，知识库根据查询信息反馈文本信息，从文本信息中提取实体，根据实体得到词向量，词向量通过映射关系查询图片向量，图片向量通过图片索引找到对应的图片，反馈该图片。本知识库在查询时既能反馈文本信息，还能反馈图片信息，使得查询结果全面。

Description

一种多模态知识库的构建方法、装置及计算机可读介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多模态知识库的构建方法、装置及计算机可读介质。

背景技术

目前大多数知识库仅仅使用文本数据，基于知识库的查询只能返回文本结果，知识描述方式单一，难以全面。

发明内容

本发明实施例提供了一种多模态知识库的构建方法、装置及计算机可读介质，查询时，在返回文本结果的基础上还能返回对应的图片信息，使得查询结果变得丰富、全面。

本发明一方面提供一种多模态知识库的构建方法，所述方法包括：接收训练数据；提取所接收的训练数据中所有的实体，得到实体集；针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，得到对应于所述实体且相互映射的词向量和图片向量；根据所得到的图片向量，生成用于将所述图片向量映射于所述图片的图片索引。

在一可实施方式中，所述联合模型包括词向量模型和视觉模型；所述将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，包括：将所述实体集中的每一个实体作为所述词向量模型的输入进行训练，得到对应于所述实体的词向量；将对应于所述实体的图片作为所述视觉模型的输入进行训练，得到对应于所述实体的图片向量；根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息。

在一可实施方式中，所述根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息，包括：将所得到的对应于所述实体的词向量和图片向量通过代价函数进行计算，得到损失值；根据所得到的损失值和历史损失值，更新所述联合模型中的参数信息。

在一可实施方式中，所述根据所得到的损失值和历史损失值，更新所述联合模型中的参数信息，包括：计算所得到的损失值和历史损失值在设定时间段内的损失变化率；若判定所计算得到的损失变化率大于预设值时，则更新所述联合模型中的参数信息。

在一可实施方式中，所述方法还包括：利用关系抽取模型获得所述实体集中每一个实体之间的关系。

本发明另一方面提供一种多模态知识库的构建装置，所述装置包括：接收模块，用于接收训练数据；提取模块，用于提取所接收的训练数据中所有的实体，得到实体集；获取模块，用于针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；训练模块，用于将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，得到对应于所述实体且相互映射的词向量和图片向量；生成模块，用于根据所得到的图片向量，生成用于将所述图片向量映射于所述图片的图片索引。

在一可实施方式中，所述联合模型包括词向量模型和视觉模型；所述训练模块具体用于：将所述实体集中的每一个实体作为所述词向量模型的输入进行训练，得到对应于所述实体的词向量；将对应于所述实体的图片作为所述视觉模型的输入进行训练，得到对应于所述实体的图片向量；根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息。

在一可实施方式中，所述训练模块在根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息的过程中，还具体用于：将所得到的对应于所述实体的词向量和图片向量通过代价函数进行计算，得到损失值；计算所得到的损失值和历史损失值在设定时间段内的损失变化率；若判定所计算得到的损失变化率大于预设值时，则更新所述联合模型中的参数信息。

在一可实施方式中，所述装置还包括：识别模块，用于利用关系抽取模型识别所述实体集中每一个实体之间的关系。

本发明一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行一种多模态知识库的构建方法。

在本发明实施例中，用户在基于本知识库进行查询时，知识库根据用户所提供的查询信息反馈文本信息，并利用实体识别模型在从所反馈的文本信息中提取所有的实体，并根据所提取到的实体得到对应于每一个实体的词向量，再根据每一个词向量在同一个语义空间内查询到设定距离范围内一个或者多个图片向量，最后根据所查询的图片向量通过图片索引找到对应的图片，知识库反馈最终得到的图片。由此，本知识库在查询时不仅能反馈文本类型的信息，还能返回对应该文本信息的图片信息，使得查询结果全面。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种多模态知识库的构建方法的实现流程示意图；

图2为本发明实施例一种多模态知识库的构建装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种多模态知识库的构建方法的实现流程示意图。

参考图1，本发明实施例一方面提供一种多模态知识库的构建方法，方法包括：

步骤101，接收训练数据；

步骤102，提取所接收的训练数据中所有的实体，得到实体集；

步骤103，针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；

步骤104，将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练，得到对应于实体且相互映射的词向量和图片向量；

步骤105，根据所得到的图片向量，生成用于将图片向量映射于图片的图片索引。

本实施例中，首先接收训练数据，训练数据为文本数据并且是非结构化文本，其来源可以从网页、文件、数据集等中获取。

接着提取所接收的训练数据中的所有实体，实体的识别方法非常多，包括使用基于规则的实体识别方法、传统统计模型方法、基于深度学习的方法实体识别。本实施例以基于深度学习的方法实体识别为例，其典型模型是双向长短期记忆网络-条件随机场模型，首先将训练数据通过词嵌入模型如Word2vec生成对应的词向量，将词向量输入于双向长短期记忆网络-条件随机场模型，最后得到训练数据中的实体。所有训练数据经过实体识别后得到大量实体，合并后形成实体集。

然后针对实体集中的每一个实体，从线上或者线下数据库中获取指定数量的图片。

然后将每一个实体和多个对应该实体的图片作为联合模型的输入进行训练，得到对应于实体的词向量和图片向量，此联合模型用于将对应于词向量和图片向量在同一个语义空间的位置尽可能相近，从而使词向量和图片向量在指定距离范围内形成映射关系，即在同一语义空间内，词向量可根据距离条件搜索到设定距离范围内的所有图片向量(当然图片向量也可以根据距离条件搜索到设定距离范围内所有的词向量)。

根据所得到的多个图片向量，生成用于将该图片向量映射于图片的图片索引。

最后根据从训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量，建立多模态知识库，便于知识查询、为上层应用提供服务。

用户在基于多模态知识库进行查询时，知识库根据用户所提供的查询信息反馈文本信息，并利用实体识别模型在从所反馈的文本信息中提取所有的实体，并根据所提取到的实体得到对应于每一个实体的词向量，再根据每一个词向量在同一个语义空间内查询到设定距离范围内一个或者多个图片向量，最后根据所查询的图片向量通过图片索引找到对应的图片，知识库反馈最终得到的图片。由此，本知识库在查询时不仅能反馈文本类型的信息，还能返回对应该文本信息的图片信息，使得查询结果全面。

在一可实施方式中，方法还包括：

步骤106，利用关系抽取模型获得实体集中每一个实体之间的关系。

本实施例中，现有的关系抽取模型很多，如PCNN模型，用于识别所提取的所有实体之间的关系，实体之间的关系最终采用RDF三元组形式：<头实体，关系，尾实体>，即头实体和尾实体之间通过“关系”进行相关联。

相应的，在上述步骤中根据从训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量，建立多模态知识库的过程中，还将所识别出来的实体之间的关系也保存到知识库中。

使用时，知识库在从所反馈的文本信息中提取所有的实体后，还根据所提取的实体查找与其有关系连接的其他实体，知识库将根据所提取到的实体和其他实体搜索对应的图片，将文本信息中的实体和与其他实体对应的图片一并反馈给用户。

在一可实施方式中，联合模型包括词向量模型和视觉模型；

将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练，包括：

将实体集中的每一个实体作为词向量模型的输入进行训练，得到对应于实体的词向量；

将对应于实体的图片作为视觉模型的输入进行训练，得到对应于实体的图片向量；

根据所得到的对应于实体的词向量和图片向量，更新联合模型中的参数信息。

本实施例中，词向量模型可以采用现有的Word2vec、WordRank等模型。视觉模型可以采用现有的如AlexNet、VGG等模型。

在一可实施方式中，根据所得到的对应于实体的词向量和图片向量，更新联合模型中的参数信息，包括：

将所得到的对应于实体的词向量和图片向量通过代价函数进行计算，得到损失值；

根据所得到的损失值和历史损失值，更新联合模型中的参数信息。

本实施例中，上述步骤中所提到的的根据所得到的对应于实体的词向量和图片向量，更新联合模型中的参数信息的具体步骤为：

将所得到的对应于实体的词向量和图片向量作为代价函数的输入值，计算输出得到一个损失值。其中，代价函数可以是自定义的，也可以是现有的代价函数。

在模型以往的训练过程中，会得到多个损失值，即历史损失值，根据当前得到的损失值和历史损失值，来更新联合模型中的参数信息，此步骤的目的是将对应于实体的词向量和图片向量在同一个语义空间内的位置尽可能接近。

在一可实施方式中，根据所得到的损失值和历史损失值，更新联合模型中的参数信息，包括：

计算所得到的损失值和历史损失值在设定时间段内的损失变化率；

若判定所计算得到的损失变化率大于预设值时，则更新联合模型中的参数信息。

本实施例中，上述步骤中根据所得到的损失值和历史损失值，更新联合模型中的参数信息的具体步骤为：将当前得到的损失值和历史损失值按照时间线在二维坐标轴上排布，计算设定的两个时间端点之间的损失变化率，两个时间端点中一个可以是当前得到损失值的端点，另一个可以是以往某一个时间端点。

当计算得到的损失变化率大于设定值时，说明输出的词向量和多个图片向量在同一语义空间中的位置距离不满足预设要求，需要更新联合模型中的参数信息，参数更新完成后，对更新后的联合模型再次进行训练。

当计算得到的损失变化率小于设定值时，说明词向量和多个图片向量在空间中的位置距离接近，表明对应于实体的词向量和图片向量是相关联的，此时联合模型训练完成。

进一步地，在联合模型训练完成后，创建用于将实体映射于词向量的词向量索引，并生成[实体，词向量]查找表，实体可通过词向量索引查询到对应的词向量索引。

相应的，在创建多模态知识库的过程中，还将[实体，词向量]查找表保存到知识库中，当知识库提取文本信息中的实体后，可通过查找表快速找到对应的词向量。

图2为本发明实施例一种多模态知识库构建装置的结构组成示意图。

参考图2，基于上文提供的一种多模态知识库的构建方法，本发明实施例还提供一种多模态知识库的构建装置，装置包括：

接收模块201，用于接收训练数据；

提取模块202，用于提取所接收的训练数据中所有的实体，得到实体集；

获取模块203，用于针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；

训练模块204，用于将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练，得到对应于实体且相互映射的词向量和图片向量；

生成模块205，用于根据所得到的图片向量，生成用于将图片向量映射于图片的图片索引。

本实施例中，首先通过接收模块201接收训练数据，训练数据为文本数据并且是非结构化文本，其来源可以从网页、文件、数据集等中获取。

接着通过提取模块202提取所接收的训练数据中的所有实体，实体的识别方法非常多，包括使用基于规则的实体识别方法、传统统计模型方法、基于深度学习的方法实体识别。本实施例以基于深度学习的方法实体识别为例，其典型模型是双向长短期记忆网络-条件随机场模型，首先将训练数据通过词嵌入模型如Word2vec生成对应的词向量，将词向量输入于双向长短期记忆网络-条件随机场模型，最后得到训练数据中的实体。所有训练数据经过实体识别后得到大量实体，合并后形成实体集。

然后通过训练模块204针对实体集中的每一个实体，从线上或者线下数据库中获取指定数量的图片。

然后通过训练模块204将每一个实体和多个对应该实体的图片作为联合模型的输入进行训练，得到对应于实体的词向量和图片向量，此联合模型用于将对应于词向量和图片向量在同一个语义空间的位置尽可能相近，从而使词向量和图片向量在指定距离范围内形成映射关系，即在同一语义空间内，词向量可根据距离条件搜索到设定距离范围内的所有图片向量(当然图片向量也可以根据距离条件搜索到设定距离范围内所有的词向量)。

然后生成模块205根据所得到的多个图片向量，生成用于将该图片向量映射于图片的图片索引。

生成模块205还用于根据从训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量，建立多模态知识库，便于知识查询、为上层应用提供服务。

在一可实施方式中，装置还包括：

识别模块206，用于利用关系抽取模型识别实体集中每一个实体之间的关系。

本实施例中，现有的关系抽取模型很多，如PCNN模型，识别模块206利用关系抽取模型识别所提取的所有实体之间的关系，实体之间的关系最终采用RDF三元组形式：<头实体，关系，尾实体>，即头实体和尾实体之间通过“关系”进行相关联。

相应的，生成模块205在根据从训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量，建立多模态知识库的过程中，还将所识别出来的实体之间的关系也保存到知识库中。

在一可实施方式中，联合模型包括词向量模型和视觉模型；训练模块204具体用于：

在一可实施方式中，训练模块204在根据所得到的对应于实体的词向量和图片向量，更新联合模型中的参数信息的过程中，还具体用于：

本实施例中，训练模块204在将所提到的的根据所得到的对应于实体的词向量和图片向量，更新联合模型中的参数信息的具体过程为：

将所得到的对应于实体的词向量和图片向量作为代价函数的输入值，计算输出得到一个损失值。其中，代价函数可以是自定义的，也可以是现有的代价函数。此步骤的目的是将对应于实体的词向量和图片向量在同一个语义空间内的位置尽可能接近。

在模型以往的训练过程中，会得到多个损失值，即历史损失值，将当前得到的损失值和历史损失值按照时间线在二维坐标轴上排布，计算设定的两个时间端点之间的损失变化率，两个时间端点中一个可以是当前得到损失值的端点，另一个可以是以往某一个时间端点。

基于上文提供的一种多模态知识库的构建方法，本发明实施例另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行：接收训练数据；提取所接收的训练数据中所有的实体，得到实体集；针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练，得到对应于实体且相互映射的词向量和图片向量；根据所得到的图片向量，生成用于将图片向量映射于图片的图片索引。

用户在基于多模态知识库进行查询时，知识库根据用户所提供的查询信息反馈文本信息，并利用实体识别模型在从所反馈的文本信息中提取所有的实体，并根据所提取到的实体得到对应于每一个实体的词向量，再根据每一个词向量在同一个语义空间内查询到设定距离范围内一个或者多个图片向量，最后根据所查询的图片向量通过图片索引找到对应的图片，知识库反馈最终得到的图片。由此，多模态知识库在查询时不仅能反馈文本类型的信息，还能返回对应该文本信息的图片信息，使得查询结果全面。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态知识库的构建方法，其特征在于，所述方法包括：

接收训练数据，所述训练数据为非结构化文本数据；

提取所接收的训练数据中所有的实体，得到实体集；

针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；

将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，得到对应于所述实体且相互映射的词向量和图片向量；

根据所得到的图片向量，生成用于将所述图片向量映射于所述图片的图片索引；

利用关系抽取模型获得所述实体集中每一个实体之间的关系；

根据从所述训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量以及实体之间的关系，建立多模态知识库；

所述多模态知识库根据用户提供的查询信息反馈文本信息，从所述文本信息中提取查询实体；

根据所述查询实体查找与其有关系连接的其他实体，得到每个实体的词向量；

根据所述词向量通过映射关系查询图片向量，根据所述图片向量通过图片索引找到对应的图片，反馈所述查询实体、所述其他实体以及所述图片。

2.根据权利要求1所述的方法，其特征在于，所述联合模型包括词向量模型和视觉模型；

所述将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，包括：

将所述实体集中的每一个实体作为所述词向量模型的输入进行训练，得到对应于所述实体的词向量；

将对应于所述实体的图片作为所述视觉模型的输入进行训练，得到对应于所述实体的图片向量；

根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息，包括：

将所得到的对应于所述实体的词向量和图片向量通过代价函数进行计算，得到损失值；

根据所得到的损失值和历史损失值，更新所述联合模型中的参数信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所得到的损失值和历史损失值，更新所述联合模型中的参数信息，包括：

若判定所计算得到的损失变化率大于预设值时，则更新所述联合模型中的参数信息。

5.一种多模态知识库的构建装置，其特征在于，所述装置包括：

接收模块，用于接收训练数据，所述训练数据为非结构化文本数据；

提取模块，用于提取所接收的训练数据中所有的实体，得到实体集；

获取模块，用于针对所得到的实体集中的每一个实体，获取对应于每一个实体的图片；

训练模块，用于将所述实体集中的每一个实体和对应于所述实体的图片作为联合模型的输入进行训练，得到对应于所述实体且相互映射的词向量和图片向量；

生成模块，用于根据所得到的图片向量，生成用于将所述图片向量映射于所述图片的图片索引；

识别模块，用于利用关系抽取模型获得所述实体集中每一个实体之间的关系；

根据从所述训练数据中所获取到的实体、对应的词向量、图片和对应的图片向量以及实体之间的关系，建立多模态知识库；所述多模态知识库根据用户提供的查询信息反馈文本信息，从所述文本信息中提取查询实体；根据所述查询实体查找与其有关系连接的其他实体，得到每个实体的词向量；根据所述词向量通过映射关系查询图片向量，根据所述图片向量通过图片索引找到对应的图片，反馈所述查询实体、所述其他实体以及所述图片。

6.根据权利要求5所述的装置，其特征在于，所述联合模型包括词向量模型和视觉模型；所述训练模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述训练模块在根据所得到的对应于所述实体的词向量和图片向量，更新所述联合模型中的参数信息的过程中，还具体用于：

8.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行如权利要求1-4任一项所述的多模态知识库的构建方法。