CN105138631A

CN105138631A - 知识库的构建方法及装置

Info

Publication number: CN105138631A
Application number: CN201510515887.2A
Authority: CN
Inventors: 汪平仄; 陈志军; 龙飞
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2015-12-09
Anticipated expiration: 2035-08-20
Also published as: MX2016004590A; EP3133504A3; WO2017028422A1; CN105138631B; US20170052995A1; RU2638013C2; EP3133504A2; US10331648B2; RU2016113502A; KR101757900B1; JP2017532704A

Abstract

本公开是关于一种知识库的构建方法及装置，其中，知识库的构建方法包括：获取文本语料，根据预设属性描述模式判断文本语料中是否包含第一信息，第一信息包括预设实体集合中的实体的属性信息；在确定文本语料中包含第一信息时，提取第一信息，根据第一信息和第一信息所对应的实体构建知识库。本公开实施例，在构建知识库的过程中不需要通过人工的方式进行知识挖掘，节省了人力且提高了知识库的构建速度。

Description

知识库的构建方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种知识库的构建方法及装置。

背景技术

命名实体识别(NamedEntityRecognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

食物的营养价值是一种特殊的命名实体，包括营养成分名及其含量，例如“碳水化合物”、“20克”。

目前，论坛、留言、博客、新闻和百科上经常会介绍一些食物的营养价值，这些数据对于食物营养价值知识库的构建具有很大的价值。但是，通过人工的方式进行知识挖掘，需要耗费较大的人力且知识库的构建速度慢。

发明内容

本公开实施例提供一种知识库的构建方法及装置，用以解决通过人工方式构建知识库浪费人力且速度慢的问题。

根据本公开实施例的第一方面，提供一种知识库的构建方法，包括：

获取文本语料，根据预设属性描述模式判断所述文本语料中是否包含第一信息，所述第一信息包括预设实体集合中的实体的属性信息；

在确定所述文本语料中包含所述第一信息时，提取所述第一信息，根据所述第一信息和所述第一信息所对应的实体构建所述知识库。

在一实施例中，所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合；

所述根据预设属性描述模式判断所述文本语料中是否包含第一信息，包括：

根据命名实体识别算法，从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合；

根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息，所述候选第一信息包括预设实体集合中的实体的属性信息；

对所述候选第一信息的出现次数进行统计，当所述候选第一信息的出现次数大于预设阈值时，将所述候选第一信息确定为所述第一信息。

根据所述预设属性描述模式从所述第一句子集合中获得多个候选第一信息，所述多个候选第一信息包括所述实体的属性信息；

将所述第一句子集合中包含的所述实体及其对应的多个候选第一信息组成二元组集合；

统计每个候选第一信息的出现次数，从所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组，根据当前二元组集合中包含的二元组元素确定为所述第一信息。

在一实施例中，所述方法还包括：

根据所述预设属性描述模式和所述第一信息，确定所述文本语料中是否包含第二信息，所述第二信息包括所述第一信息的属性信息；

在确定所述文本语料中包含所述第二信息时，提取所述第二信息，根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。

在一实施例中，所述根据所述预设属性描述模式和所述第一信息，确定所述文本语料中是否包含第二信息，包括：

根据所述预设属性描述模式，从所述文本语料中获得包含所述第一信息的第二句子集合；

在所述第二句子集合中包括提取数量型实体时，将所述数量型实体提取为候选第二信息；

将所述实体、所述第一信息和所述候选第二信息组成三元组集合；

针对当前三元组集合中每个实体的每个第一信息，统计对应的每个候选第二信息的出现次数，将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。

根据本公开实施例的第二方面，提供一种知识库的构建装置，包括：

获取判断模块，被配置为获取文本语料，根据预设属性描述模式判断所述文本语料中是否包含第一信息，所述第一信息包括预设实体集合中的实体的属性信息；

第一确定提取添加模块，被配置为在所述获取判断模块确定所述文本语料中包含所述第一信息时，提取所述第一信息，根据所述第一信息和所述第一信息所对应的实体构建所述知识库。

所述获取判断模块包括：

筛选子模块，被配置为根据命名实体识别算法，从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合；

获得子模块，被配置为根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述筛选子模块筛选出的所述第一句子集合中获得候选第一信息，所述候选第一信息包括预设实体集合中的实体的属性信息；

统计确定子模块，被配置为对所述获得子模块获得的所述候选第一信息的出现次数进行统计，当所述候选第一信息的出现次数大于预设阈值时，将所述候选第一信息确定为所述第一信息。

所述获取判断模块包括：

获得子模块，被配置为根据所述预设属性描述模式从所述筛选子模块筛选出的所述第一句子集合中获得多个候选第一信息，所述多个候选第一信息包括所述实体的属性信息；

组成子模块，被配置为将所述第一句子集合中包含的所述实体及其对应的所述获得子模块获得的多个候选第一信息组成二元组集合；

统计删除确定子模块，被配置为统计每个候选第一信息的出现次数，从所述组成子模块组成的所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组，根据当前二元组集合中包含的二元组元素确定为所述第一信息。

在一实施例中，所述装置还包括：

确定模块，被配置为根据所述预设属性描述模式和所述第一信息，确定所述文本语料中是否包含第二信息，所述第二信息包括所述第一信息的属性信息；

第二确定提取添加模块，被配置为在所述确定模块确定所述文本语料中包含所述第二信息时，提取所述第二信息，根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。

在一实施例中，所述确定模块包括：

获得子模块，被配置为根据所述预设属性描述模式，从所述文本语料中获得包含所述第一信息的第二句子集合；

提取子模块，被配置为在所述第二句子集合中包括数量型实体时，将所述数量型实体提取为候选第二信息；

组成子模块，被配置为将所述实体、所述第一信息和所述提取子模块提取的所述候选第二信息组成三元组集合；

统计确定子模块，被配置为针对所述组成子模块组成的当前三元组集合中每个实体的每个第一信息，统计对应的每个候选第二信息的出现次数，将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。

根据本公开实施例的第三方面，提供一种知识库的构建装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取文本语料，并在确定文本语料中包含第一信息时，提取第一信息，并根据第一信息和第一信息所对应的实体构建知识库，从而完成知识库的自动构建，实现过程中不需要通过人工的方式进行知识挖掘，节省了人力且提高了知识库的构建速度。

通过对获得的候选第一信息的出现次数进行统计，并将出现次数大于预设阈值的候选第一信息确定为第一信息，即去除出现次数少的候选第一信息，从而有效去除不属于食物营养成分的物质，提高知识库的准确性。

通过二元组表示实体和第一信息之间的关系，使得二者之间的关系清楚，更易于删除对应实体无效的第一信息。

在确定文本语料中包含第二信息例如食物营养成分的含量时，可以从文本语料中提取第二信息，并根据第一信息、第二信息和第一信息所对应的实体更新知识库，从而更好地完善了知识库。

通过三元组表示实体、第一信息和第二信息之间的关系，使得三者之间的关系清楚，更易于获得对应实体第一信息的第二信息，同时，将出现次数最多的候选第二信息确定为第二信息，从而提高了第二信息的准确率，进而提高了知识库的准确性。提供了预设属性描述模式的多种内容，方便后续从文本语料中筛选出第一信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种知识库的构建方法的流程图。

图2是根据一示例性实施例示出的另一种知识库的构建方法的流程图。

图3是根据一示例性实施例示出的一种知识库的构建方法的场景图。

图4是根据一示例性实施例示出的一种判断文本语料中是否包含第一信息的流程图。

图5是根据一示例性实施例示出的另一种判断文本语料中是否包含第一信息的流程图。

图6是根据一示例性实施例示出的一种确定文本语料中是否包含第二信息的流程图。

图7是根据一示例性实施例示出的一种知识库的构建装置的框图。

图8是根据一示例性实施例示出的另一种知识库的构建装置的框图。

图9是根据一示例性实施例示出的另一种知识库的构建装置的框图。

图10是根据一示例性实施例示出的又一种知识库的构建装置的框图。

图11是根据一示例性实施例示出的再一种知识库的构建装置的框图。

图12是根据一示例性实施例示出的一种用于知识库的构建装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种知识库的构建方法的流程图，如图1所示，该知识库的构建方法可应用于服务器上，包括以下步骤S101-S102：

在步骤S101中，获取文本语料，根据预设属性描述模式判断文本语料中是否包含第一信息。

在该实施例中，预设属性描述模式可以包括用于确定文本语料中包含第一信息的词汇、句式或二者的结合，第一信息可以包括预设实体集合中的实体的属性信息。

在一实施例中，预设实体集合中的实体可以包括但不局限于食物、空气、运动等，食物的属性信息可以为食物的营养成分，空气的属性信息可以为空气的组成成分，运动的属性可以是对应运动每小时可消耗的能量等。由此可见，第一信息可以包括但不局限于食物的营养成分。

例如，以该实施例中的实体为食物，构建有关食物的营养价值的知识库为例，则预设属性描述模式可以包括但不局限于以下模式中的一种或几种：

在该实施例中，服务器可以使用爬虫爬取网页中的文本语料，并根据上述预设属性描述模式判断文本语料中是否包含食物的营养成分。

在步骤S102中，在确定文本语料中包含第一信息时，提取第一信息，根据第一信息和第一信息所对应的实体构建知识库。

在该实施例中，当确定文本语料中包含食物的营养成分时，可以提取营养成分，并将食物及其对应的营养成分写入数据库中。

上述知识库的构建方法实施例，通过获取文本语料，并在确定文本语料中包含第一信息时，提取第一信息，并根据第一信息和第一信息所对应的实体构建知识库，从而完成知识库的自动构建，实现过程中不需要通过人工的方式进行知识挖掘，节省了人力且提高了知识库的构建速度。

图2是根据一示例性实施例示出的另一种知识库的构建方法的流程图，如图2所示，在上述步骤S102之后，该方法还可以包括如下步骤S103-S104：

在步骤S103中，根据预设属性描述模式和第一信息，确定文本语料中是否包含第二信息。

其中，第二信息包括第一信息的属性信息。例如，当第一信息为食物的营养成分时，第一信息的属性信息可以为营养成分的含量，即第二信息可以为营养成分的含量。

在该实施例中，可以根据上述预设属性描述模式和食物的营养成分，判断文本语料中是否包含食物营养成分的含量。

在步骤S104中，在确定文本语料中包含第二信息时，提取第二信息，根据第一信息、第二信息和第一信息所对应的实体更新知识库。

在该实施例中，在确定文本语料中包含第二信息例如食物营养成分的含量时，可以从文本语料中提取第二信息，并根据第一信息、第二信息和第一信息所对应的实体构建知识库，从而完成知识库的构建。

上述知识库的构建方法实施例，通过确定文本语料中是否包含第二信息，并在确定文本语料中包含第二信息时，提取第二信息，并根据第一信息、第二信息和第一信息所对应的实体构建知识库，从而更好地完善了知识库。

以构建有关食物的营养价值的知识库为例，下面结合图3对本公开进行示例性说明。

如图3所示，设备31可以使用爬虫从服务器32爬取网页中的文本语料。在本实施例中，设备31可以为服务器，或者个人计算机(PC)等设备，本公开不以此为限。在一实施例中，服务器32可以为维基、百度、新浪、网易等Web服务器。设备31根据命名实体识别等算法从文本语料中获取包括食物名的文本语料，根据预设属性描述模式判断获取的文本语料中是否包含食物的营养成分。若包含食物的营养成分，则提取食物的营养成分，并根据该食物、该食物所对应的营养成分构建食物营养价值知识库。设备31还可以根据预设属性描述模式和食物的营养成分判断上述文本语料中是否包含食物营养成分的含量。若文本语料中包含食物营养成分的含量，则提取食物营养成分的含量，并将食物营养成分的含量对应添加入知识库中，构建食物营养价值知识库。

图4是根据一示例性实施例示出的一种判断文本语料中是否包含第一信息的流程图，如图4所示，该方法包括：

在步骤S401中，根据命名实体识别算法，从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。

在一实施例中，命名实体识别算法可以包括但不局限于条件随机场(ConditionalRandomField，CRF)、字典法和混合方法。预设实体集合例如可以包括食物集合、空气成分集合、运动集合等。

以预设实体集合为食物集合为例，可以基于CRF方法从文本语料中筛选出包含食物的第一句子集合。在本实施例中，还可以基于“关键字识别算法等筛选出包含食物的第一句子集合。

在步骤S402中，根据预设属性描述模式中的词汇、句式或二者的结合从第一句子集合中获得候选第一信息，候选第一信息包括预设实体集合中的实体的属性信息。

其中，预设属性描述模式可以为词汇-句法模式(lexico-syntacticpatterns)，词汇-句法模式包括但不局限于以下模式中的一种或几种：“含*量”(例如，含糖量)、“<含有|含>*<#NUM>克”(例如，含碳水化合物20克)、“*<中|里><含有|含|富含>*”(例如，猕猴桃中富含维生素C)等。

在筛选出包含食物的第一句子集合之后，可以根据上述预设属性描述模式从第一句子集合中获得候选营养成分，例如，获得西红柿的候选营养成分为胡萝卜素、维生素C、纳、钙，获得胡萝卜的候选营养成分为胡萝卜素、维生素C、糖，……，获得牛肉的候选营养成分为钾、磷、纳、钙、石头。

在步骤S403中，对候选第一信息的出现次数进行统计，当候选第一信息的出现次数大于预设阈值时，将候选第一信息确定为第一信息。

预设阈值可以根据需要灵活设置。在一实施例中，预设阈值例如可以设置为1次～10次等，但本公开不以此为限，根据具体应用情况，预设阈值还可以设置为10次以上的其他次数。

在该实施例中，假设预设阈值为2次，则对候选营养成分的出现次数进行统计之后，发现石头的出现次数为1次，其余候选营养成分的出现次数均大于1次，因此，将其余候选营养成分确定为营养成分。这样，可以有效去除不属于食物营养成分的物质。

但本公开不以此为限，步骤S403还可以实施为：

对候选第一信息的出现次数进行统计，当候选第一信息的出现次数小于预设阈值时，确定候选第一信息不是第一信息；当候选第一信息的出现次数大于或等于预设阈值时，确定候选第一信息是第一信息。

在该实施例中，预设阈值例如可以设置为10次等，但本公开不以此为限，根据具体应用情况，预设阈值还可以设置为10次以上或10次以下等其他次数。

在该实施例中，对候选营养成分的出现次数进行统计之后，发现石头的出现次数为1次，其余候选营养成分的出现次数均大于10次，因此，将其余候选营养成分确定为营养成分，石头不为营养成分。这样，可以有效去除不属于食物营养成分的物质。

由此可见，通过上述过程，可以判断文本语料中是否包含第一信息。

上述实施例，通过对获得的候选第一信息的出现次数进行统计，并将出现次数大于预设阈值的候选第一信息确定为第一信息，即去除出现次数少的候选第一信息，从而有效去除不属于食物营养成分的物质，提高知识库的准确性。

图5是根据一示例性实施例示出的另一种判断文本语料中是否包含第一信息的流程图，如图5示，该方法包括：

在步骤S501中，根据命名实体识别算法，从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。

在步骤S502中，根据预设属性描述模式从第一句子集合中获得多个候选第一信息，多个候选第一信息包括实体的属性信息。

在步骤S503中，将第一句子集合中包含的实体及其对应的多个候选第一信息组成二元组集合。

假定，预设实体集合为食物实体集合E，则可以从文本语料中筛选出包含E的句子集合，其中匹配成功的实体为E_i，并从句子的上下文环境中，通过词汇-句法模式得到候选的营养成分NC，构成二元组集合T，则二元组集合T中的每个元素为：(E_i，NC_ij)，其中，E_i对应的候选营养成分为{NC_i1，NC_i2…NC_in}。

在步骤S504中，统计每个候选第一信息的出现次数，从二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组，根据当前二元组集合中包含的二元组元素确定为第一信息。

统计每个营养成分NC_ij的出现次数，并将出现次数小于预设阈值例如2次的营养成分所在的二元组从T中删除掉，得到新的二元组集合T，并将当前二元组集合中包含的二元组元素确定为第一信息。

上述实施例，通过二元组表示实体和第一信息之间的关系，使得二者之间的关系清楚，更易于删除对应实体无效的第一信息。

图6是根据一示例性实施例示出的一种确定文本语料中是否包含第二信息的流程图，如图6示，该方法包括：

在步骤S601中，根据预设属性描述模式，从文本语料中获得包含第一信息的第二句子集合。

在该实施例中，可以根据词汇-句法模式从文本语料中获得包含食物营养成分的第二句子集合。

例如，可以从文本语料中筛选出上下文环境中包含E_i和NC_ij的句子集合。

在步骤S602中，在第二句子集合中包括提取数量型实体时，将数量型实体提取为候选第二信息。

由于营养成分的含量一般都是数量型的值，例如“80克”，“70％”等。因此，可以从第二句子集合中提取数量型实体，以获得候选第二信息。

另外，营养成分的含量经常以每100克为计量基数，例如，“香蕉果肉营养价值颇高，每100克果肉含碳水化合物20克、蛋白质1.2克、脂肪0.6克”。

在步骤S603中，将实体、第一信息和候选第二信息组成三元组集合。

在步骤S604中，针对当前三元组集合中每个实体的每个第一信息，统计对应的每个候选第二信息的出现次数，将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。

该实施例，可以将实体、第一信息和候选第二信息组成三元组集合，然后针对当前三元组集合中每个实体的每个第一信息，统计对应的每个候选第二信息的出现次数，将出现次数最多的第二候选信息作为当前实体当前第一信息的第二信息。

例如，在从第二句子集合中提取数量型实体之后，可以生成三元组集合T_r，该集合中的每个元素为：(E_i，NC_ij,V_ijk)，其中，E_i对应的候选营养成分NC_ij的含量为{V_ij1，V_ij2…V_ijm}。然后，针对所有E_i的每种营养成分NC_ij的含量V_ijk，统计其在{V_ij1，V_ij2…V_ijm}中的出现次数，仅保留出现次数最高的V_ijk对应的1个3元组，其余的V_ijr则全部从{V_ij1，V_ij2…V_ijm}中删除，也即从三元组T_r中删除，得到新的三元组集合T_r，当前T_r中包含的候选含量作为对应食物营养成分的含量。

通过三元组表示实体、第一信息和第二信息之间的关系，使得三者之间的关系清楚，更易于获得对应实体第一信息的第二信息，例如，更易于获得对应食物营养成分的含量。

假设，从文本语料中获得的西红柿的维生素A的含量为10g的次数是50次，西红柿的维生素A的含量为8g的次数是10次，西红柿的维生素A的含量为1g的次数是3次，由于50次为最大值，因此，确定西红柿的维生素A的含量为10g。

上述实施例，通过对获得的候选第二信息的出现次数进行统计，并将出现次数最多的候选第二信息确定为第二信息，从而提高了第二信息的准确率，进而提高了知识库的准确性。

与前述知识库的构建方法实施例相对应，本公开还提供了知识库的构建装置实施例。

图7是根据一示例性实施例示出的一种知识库的构建装置的框图，如图7所示，知识库的构建装置包括：获取判断模块71和第一确定提取添加模块72。

获取判断模块71被配置为获取文本语料，根据预设属性描述模式判断文本语料中是否包含第一信息，第一信息包括预设实体集合中的实体的属性信息。

第一确定提取添加模块72被配置为在获取判断模块71确定文本语料中包含第一信息时，提取第一信息，根据第一信息和第一信息所对应的实体构建知识库。

图7所示装置构建知识库的过程可参见图1所示方法实施例，此处不赘述。

上述知识库的构建装置实施例，通过获取判断模块获取文本语料，并在第一确定提取添加模块确定文本语料中包含第一信息时，提取第一信息，并根据第一信息和第一信息所对应的实体构建知识库，从而完成知识库的自动构建，实现过程中不需要通过人工的方式进行知识挖掘，节省了人力且提高了知识库的构建速度。

图8是根据一示例性实施例示出的另一种知识库的构建装置的框图，如图8所示，在上述图7所示实施例的基础上，获取判断模块71可包括：筛选子模块711、获得子模块712和统计确定子模块713。

筛选子模块711被配置为根据命名实体识别算法，从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。

获得子模块712被配置为根据预设属性描述模式中的词汇、句式或二者的结合从筛选子模块711筛选出的第一句子集合中获得候选第一信息，候选第一信息包括预设实体集合中的实体的属性信息。

统计确定子模块713被配置为对获得子模块712获得的候选第一信息的出现次数进行统计，当候选第一信息的出现次数大于预设阈值时，将候选第一信息确定为第一信息。

其中，预设属性描述模式包括用于确定文本语料中是否包含第一信息的词汇、句式或二者的结合。

图8所示装置构建知识库的过程可参见图4所示方法实施例，此处不赘述。

上述实施例，通过统计确定子模块对获得的候选第一信息的出现次数进行统计，并将出现次数大于预设阈值的候选第一信息确定为第一信息，即去除出现次数少的候选第一信息，从而有效去除不属于食物营养成分的物质，提高知识库的准确性。

图9是根据一示例性实施例示出的另一种知识库的构建装置的框图，如图9所示，在上述图7所示实施例的基础上，获取判断模块71可包括：筛选子模块711、获得子模块712、组成子模块713和统计删除确定子模块714。

获得子模块712被配置为根据预设属性描述模式从筛选子模块711筛选出的第一句子集合中获得多个候选第一信息，多个候选第一信息包括实体的属性信息。

组成子模块713被配置为将第一句子集合中包含的实体及其对应的获得子模块712获得的多个候选第一信息组成二元组集合。

统计删除确定子模块714被配置为统计每个候选第一信息的出现次数，从组成子模块713组成的二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组，将当前二元组集合中包含的二元组元素确定为第一信息。

图9所示装置构建知识库的过程可参见图5所示方法实施例，此处不赘述。

图10是根据一示例性实施例示出的又一种知识库的构建装置的框图，如图10所示，在上述图7所示实施例的基础上，知识库的构建装置还可包括：确定模块73和第二确定提取添加模块74。

确定模块73，被配置为根据预设属性描述模式和第一信息，确定文本语料中是否包含第二信息，第二信息包括第一信息的属性信息；

第二确定提取添加模块74，被配置为在确定模块73确定文本语料中包含第二信息时，提取第二信息，根据第一信息、第二信息和第一信息所对应的实体更新知识库。

图10所示装置构建知识库的过程可参见图2所示方法实施例，此处不赘述。

上述知识库的构建方法实施例，通过确定模块确定文本语料中是否包含第二信息，并通过第二确定提取添加模块在确定文本语料中包含第二信息时，提取第二信息，并根据第一信息、第二信息和第一信息所对应的实体构建知识库，从而更好地完善了知识库。

图11是根据一示例性实施例示出的再一种知识库的构建装置的框图，如图11所示，在上述图10所示实施例的基础上，确定模块73可包括：确定模块73获得子模块731、提取子模块732、组成子模块733和统计确定子模块734。

获得子模块731，被配置为根据预设属性描述模式，从文本语料中获得包含第一信息的第二句子集合。

提取子模块732，被配置为从获得子模块731获得的第二句子集合中包括数量型实体时，将数量型实体提取为候选第二信息。

组成子模块733，被配置为将实体、第一信息和提取子模块732提取的候选第二信息组成三元组集合。

统计确定子模块734，被配置为针对组成子模块733组成的当前三元组集合中每个实体的每个第一信息，统计对应的每个候选第二信息的出现次数，将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。

图11所示装置构建知识库的过程可参见图6所示方法实施例的对应部分，此处不赘述。

上述实施例，通过三元组表示实体、第一信息和第二信息之间的关系，使得三者之间的关系清楚，更易于获得对应实体第一信息的第二信息。

关于上述实施例中的装置，其中各个模块、子模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于知识库的构建装置1200的框图。例如，装置1200可以被提供为一服务器。参照图12，装置1200包括处理组件1222，其进一步包括一个或多个处理器，以及由存储器1232所代表的存储器资源，用于存储可由处理部件1222的执行的指令，例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1222被配置为执行指令，以执行上述知识库的构建方法。

装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理，一个有线或无线网络接口1250被配置为将装置1200连接到网络，和一个输入输出(I/O)接口1258。装置1200可以操作基于存储在存储器1232的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种知识库的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的知识库的构建方法，其特征在于，所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合；

根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息，所述候选第一信息包括预设实体集合中的所述实体的属性信息；

3.根据权利要求1所述的知识库的构建方法，其特征在于，所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合；

4.根据权利要求1-3任一项所述的知识库的构建方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的知识库的构建方法，其特征在于，所述根据所述预设属性描述模式和所述第一信息，确定所述文本语料中是否包含第二信息，包括：

在所述第二句子集合中包括数量型实体时，将所述数量型实体提取为候选第二信息；

7.一种知识库的构建装置，其特征在于，所述装置包括：

8.根据权利要求7所述的知识库的构建装置，其特征在于，所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合；

所述获取判断模块包括：

获得子模块，被配置为根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述筛选子模块筛选出的所述第一句子集合中获得候选第一信息，所述候选第一信息包括预设实体集合中的所述实体的属性信息；

9.根据权利要求7所述的知识库的构建装置，其特征在于，所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合；

所述获取判断模块包括：

10.根据权利要求7-9任一项所述的知识库的构建装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的知识库的构建装置，其特征在于，所述确定模块包括：

13.一种知识库的构建装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：