CN111753095A

CN111753095A - 用于生成知识库的方法和装置

Info

Publication number: CN111753095A
Application number: CN201910249272.8A
Authority: CN
Inventors: 房璐; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-10-09
Also published as: JP2020166825A

Abstract

公开了用于生成知识库的方法和装置。该方法包括：确定包括多个单位的单位表；从文本中提取属性值，该属性值是数字和单位表中的单位的组合；基于属性值之前和/或之后的词来确定与属性值相关联的候选属性；在包含有该多个单位的定义的文档中搜索候选属性，并且将能够被搜索到的候选属性确定为与属性值对应的正式属性；基于文本中出现的包含属性值和正式属性的语句构建属性模板；利用属性模板在文本中确定另外的属性。

Description

用于生成知识库的方法和装置

技术领域

本发明涉及用于生成知识库的方法和装置，更具体地，涉及通过在文献中提取属性和属性值以生成知识库的方法和装置。

背景技术

目前，基于知识库的应用(例如语义搜索、自动问答系统等)已得到很大发展，相应地，自动构建大规模知识库也成为研究的热点。然而，对于构建科技领域(例如化学、物理领域)的知识库的研究还不多。

属性和属性值的提取是构建知识库的关键之一。传统的基于有监督学习的方法需要大量的已由人工标注的训练语料来进行属性和属性值的提取。然而，对于海量的文献，尤其是专业性很强的科技文献，人工标注几乎是不可能的。因此，不使用人工标注的训练语料来实现高性能的属性和属性值提取成为研究的重点。

发明内容

针对上述问题，本发明提供了一种用于生成知识库的方法，包括：确定包括多个单位的单位表；从文本中提取属性值，所述属性值是数字和所述单位表中的单位的组合；基于所述属性值之前和/或之后的词来确定与所述属性值相关联的候选属性；在包含有所述多个单位的定义的文档中搜索所述候选属性，并且将能够被搜索到的候选属性确定为与所述属性值对应的正式属性；基于所述文本中出现的包含所述属性值和所述正式属性的语句构建属性模板；利用所述属性模板在所述文本中确定另外的属性。

本发明还提供了一种用于生成知识库的装置，包括：存储器，以及一个或多个处理器，所述处理器被配置为：确定包括多个单位的单位表；从文本中提取属性值，所述属性值是数字和所述单位表中的单位的组合；基于所述属性值之前和/或之后的词来确定与所述属性值相关联的候选属性；在包含有所述多个单位的定义的文档中搜索所述候选属性，并且将能够被搜索到的候选属性确定为与所述属性值对应的正式属性；基于所述文本中出现的包含所述属性值和所述正式属性的语句构建属性模板；利用所述属性模板在所述文本中确定另外的属性。

此外，本发明还提供了一种存储有程序的记录介质，所述程序在被计算机执行时，使得计算机实现如上所述的用于生成知识库的方法。

附图说明

图1示出了根据本发明一个实施例的生成知识库的方法的总体流程图。

图2示出了根据该实施例的确定与属性值对应的属性的处理流程。

图3示出了根据该实施例的构建属性模板的处理流程。

图4示出了根据该实施例的利用属性模板获得新的属性的处理流程。

图5示出了根据该实施例的确定一个词是否与相邻词构成组合词的处理流程。

图6示出了实现本发明的计算机硬件的示例性配置框图。

具体实施方式

图1示出了根据本发明的生成知识库的方法的总体流程。如图1所示，首先在步骤S110确定单位表，例如，可以根据国家标准《国际单位制及其应用》来确定单位表。该单位表中可以包括字母形式和汉字形式的单位，例如“mol/kg”和“摩尔每千克”。此外应理解的是，该单位表还可以包括其它语言形式的单位。

然后，针对给定文本，例如一篇科技文献，对该文本中的字符进行归一化处理，以使得归一化后的字符与单位表中的字符一致。例如，将符号“·”(其Unicode编码为2219)转换为“·”(其编码为00B7)”，将“㎞”(一个字符，其编码为339E)转换为“km”(字母k和m的组合)，将“℃”(两个字符的组合)转换为“℃”(一个字符，其编码为2103)等等。

利用在步骤S110中确定的单位表，在归一化后的文本中提取由数字和单位表中的单位组成的属性值，例如“300Hz”，“25伏特”，如步骤S120所示。此外，数字之间可以由“.”、“-”、“×”等符号连接。

然后在步骤S130，针对所提取的某一属性值，在文本中确定该属性值之前和/或之后的多个词，并且基于该多个词来确定与该属性值对应的属性。以下将结合图2来具体描述步骤S130的处理。

图2具体示出了确定与所提取的属性值相对应的属性的处理流程。如图2所示，首先在步骤S210对文本进行断句、分词和词性标注等处理。然后在步骤S220，在文本中确定包含所提取的属性值的一个句子，该句子可以包括位于该属性值之前和/或之后的、且与该属性值相距预定距离以内的多个词。例如，该句子可以包括属性值之前的N个词和/或之后的N个词。该句子可以被表示为S＝{w₁,w₂,…,属性值,…,w_n}，其中w₁，w₂等表示词。

在步骤S230，在该句子中去除被标注为介词、副词等的词，并且利用所去除的词将剩余的词划分为多个组。

假设一个组被表示为{w_i,w_i+1,…w_i+k}，可以将该组中所包含的词的各种组合分别确定为候选属性，例如可以将<w_i>，<w_i,w_i+1>，<w_i,w_i+1,…,w_i+k>，<w_i+1,w_i+2>，<w_i+1,w_i+2,…w_i+k>都确定为候选属性，如步骤S240所示。

具体地，假设在文本中提取的属性值是“60℃”，包含该属性值的句子是“测量的水温是60℃左右”，分组后得到的一个组是“水温是”，因此可以将“水”、“水温”、“水温是”、“温是”都确定为候选属性。

然后在步骤S250，例如利用网络搜索引擎在网络百科知识库(诸如百度百科、互动百科)中搜索所确定的每个候选属性，并且将能够获得搜索结果的候选属性确定为正式属性。以上示例中的候选属性“水温是”、“温是”由于不是有意义的术语，因此不能得到搜索结果。

在多个候选属性都能够获得搜索结果的情况下，可以根据候选属性的长度或候选属性与属性值之间的距离来确定正式属性。例如，可以优先选择长度大的候选属性作为正式属性，而在长度相同的情况下，可以选择距属性值更近的候选属性作为正式属性。例如，在以上示例中的“水”和“水温”都能够获得搜索结果的情况下，可以将“水温”确定为正式属性。

此外，需要说明的是，本发明并不限于利用网络百科知识库来进行搜索，而是也可以利用其它线下的知识库或数据库来进行搜索，只要该知识库或数据库包含与属性值中的单位相对应的定义即可。

返回参考图1，在获得了属性值以及相对应的属性之后，可以在步骤S140基于该属性和属性值来构建属性模板。以下将结合图3来详细描述步骤S140的处理。

图3具体示出了利用所获得的属性和属性值来构建属性模板的处理流程。如图3所示，在步骤S310，在文本中确定包含该属性和属性值的语句，例如“测量的水温是60℃左右”。然后在步骤S320确定该语句中与属性或属性值相邻的一个或多个字符串，例如，“测量的”、“是”、“左右”。然后在步骤S330，将该语句中的属性和属性值替换为通配符，从而构建出一个候选属性模板，例如“测量的*是*左右”。

以上以示例的方式构建了一个“字符串1_属性_字符串2_属性值_字符串3”形式的候选属性模板。然而，在步骤S310中还可能在文本中获得包含该属性和属性值的其它语句，基于这些语句可以构建出其它形式的候选属性模板。例如，可以包括以下形式：“属性_字符串_属性值”、“属性值_字符串_属性”、“属性_字符串1_属性值_字符串2”、“属性值_字符串1_属性_字符串2”、“字符串1_属性_字符串2_属性值”、“字符串1_属性值_字符串2_属性”、“字符串1_属性值_字符串2_属性_字符串3”等等。

在以上候选属性模板中，属性和属性值被以通配符(例如“*”)来表示，字符串包含具体的字符，并且其长度不超过预定阈值。

一个候选属性模板在文本中出现的次数越多，表明该候选属性模板是通用性更好的模板。因此，在步骤S340确定每个候选属性模板在文本中出现的次数，然后可以基于该出现次数来确定是否将其设置为正式的属性模板。具体来说，假设候选属性模板组成的集合被表示为P，针对候选属性模板集合P中的每一个候选属性模板P_i，可以通过以下等式(1)来计算其置信度conf(P_i)：

其中，freq(P_i)表示候选属性模板P_i在文本中的出现次数。在所计算的置信度conf(P_i)大于预定阈值的情况下，将该候选属性模板P_i确定为属性模板，如步骤S350所示。反之，置信度不大于预定阈值的候选属性模板将不被采用作为正式的属性模板。

返回参考图1，在确定了属性模板之后，在步骤S150可以利用该属性模板来提取另外的(新的)属性。以下将结合图4来详细描述步骤S150的处理。

图4具体示出了利用属性模板来获得新的属性的处理流程。如图4所示，首先在步骤S410，在文本中查找与属性模板相匹配的匹配语句。特别地，此处的文本可以是在上文中描述的用于生成属性模板的文本，也可以是另外不同的文本。

作为一个示例，利用上述属性模板“测量的*是*左右”，例如可以获得匹配语句“测量的电压是25V左右”。在该匹配语句中，词“电压”是新的属性，并且其位于属性模板的两个字符串“测量的”和“是”之间。因此，如图4的步骤S420所示，如果匹配语句中存在位于两个字符串之间的第一词，则可以将其直接确定为新的属性。

更一般地，利用以下形式的属性模板而获得的匹配语句都可以适用于以上情况：“属性值_字符串1_属性_字符串2”、“字符串1_属性_字符串2_属性值”、“字符串1_属性_字符串2_属性值_字符串3”、“字符串1_属性值_字符串2_属性_字符串3”。

另一方面，如果在匹配语句中没有由两个字符串限定边界的词，则不能直接确定新的属性。例如，在利用“属性_字符串_属性值”形式的属性模板而获得的匹配语句中，由于不能确定在字符串之前的多少个字符构成表示属性的术语，因此需要执行步骤S430的处理。

具体来说，在步骤S430，针对与一个字符串相邻的第二词，确定该第二词是否与其相邻词构成组合词，其中该相邻词在与字符串相反的另一侧与该第二词相邻。稍后将结合图5来详细描述步骤S430的处理。

当步骤S430的确定结果为“否”时，说明该第二词本身是完整的词，而不是某一组合词的一部分，因此可以将该第二词确定为新的属性，如步骤S440所示。

当步骤S430的确定结果为“是”时，说明该第二词与相邻词构成一个组合词，然而此时并不能确定该组合词是完整的词还是另一个组合词的一部分。因此，需要考察该组合词与下一个相邻词是否构成另一个组合词。在这里，“下一个相邻词”是指在与字符串相反的另一侧与该组合词相邻的词。

因此，在步骤S450确定该组合词是否与下一个相邻词构成另一个组合词。当确定结果为“否”时，说明该组合词本身是完整的词，因此在步骤S460将该组合词确定为新的属性。反之，当确定结果为“是”时，说明该组合词是另一个组合词的一部分，因此需要继续考察该另一个组合词与再下一个相邻词的关系。然后可以按照与步骤S450和S460相同的方式继续执行处理，直到能够获得完整的词并将其确定为新的属性。

以上描述了在匹配语句中确定新的属性的示例。作为提取新的属性值的示例，可以识别匹配语句中出现的数值或数值与单位的组合(例如上述“25V”)，并将其直接确定为新的属性值。

下面将结合图5来详细描述步骤S430的处理，即，确定第二词是否与相邻词构成组合词的处理。

在匹配语句中不存在由两个字符串限定边界的词的情况下，首先确定位于一个字符串之前或之后的预定距离内的多个词，然后利用该多个词之中的介词、副词等词将剩余的词划分为多个组，如步骤S510所示。该处理与先前描述的步骤S230的处理相似。

为了便于描述，以下将在对字符串之前的多个词进行分组的情况下描述处理，但是本领域技术人员易于理解的是，同样的处理方法也可以应用于对字符串之后的多个词进行分组的情况。

假设位于字符串之前的一个组被表示为{w₁,w₂,…,w_j,w_i}，其中w_i表示与字符串相邻的第二词，w_j表示在第二词w_i之前与其相邻的词。在步骤S520，根据以下等式(2)来确定第二词w_i与其相邻词w_j同时出现的第一概率：

其中，c(w_jw_i)表示第二词w_i与相邻词w_j同时出现的次数，c(w_i)表示第二词w_i出现的次数。

然后在步骤S530，根据以下等式(3)来计算第二词w_i与该组中的每一个词w_n共同出现的第二概率的平均值：

其中，K表示在该组中位于第二词w_i之前的词的数目。

然后在步骤S540判断第一概率p(w_j|w_i)是否小于第二概率的平均值E(wn)。在第一概率p(w_j|w_i)小于平均值E(wn)的情况下，在步骤S550确定第二词w_i没有与相邻词w_j构成组合词。然后，根据图4的步骤S440，可以将该第二词w_i确定为新的属性。

另一方面，在第一概率p(w_j|w_i)不小于平均值E(wn)的情况下，在步骤S560确定第二词w_i与相邻词w_j构成一个组合词。然后，根据图4的步骤S450，需要进一步判断由第二词w_i和相邻词w_j构成的组合词是否与下一个相邻词构成另一个组合词。

需要说明的是，虽然图5示出了用于确定第二词是否与相邻词构成组合词的处理，但是本领域技术人员易于理解的是，也可以在图4的步骤S450中使用相同的处理来确定组合词是否与下一个相邻词构成另一个组合词，并且在这种情况下，可以将组合词视为图5中的第二词，将下一个相邻词视为图5中的相邻词。

以上已经结合图2-图5详细地描述了图1所示的生成知识库的方法。该方法利用基于某一文本构建的属性模板，在该文本或其它文本中提取更多的新的属性，进而可以利用这些属性来构建知识库。本发明的方法能够在不使用人工标注的训练语料的情况下高效地提取属性和属性值，在应用于科技文献时更具有明显的优势。

在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例，在执行期间，这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行，从而实现在本文中描述的各种处理。

图6示出了根据程序执行本发明的方法的计算机硬件的示例配置框图，该计算机硬件是根据本发明的用于生成知识库的装置的一个示例。

如图6所示，在计算机600中，中央处理单元(CPU)601、只读存储器(ROM)602以及随机存取存储器(RAM)603通过总线604彼此连接。

输入/输出接口605进一步与总线604连接。输入/输出接口605连接有以下组件：以键盘、鼠标、麦克风等形成的输入单元606；以显示器、扬声器等形成的输出单元607；以硬盘、非易失性存储器等形成的存储单元608；以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元609；以及驱动移动介质611的驱动器610，该移动介质611例如是磁盘、光盘、磁光盘或半导体存储器。

在具有上述结构的计算机中，CPU 601将存储在存储单元608中的程序经由输入/输出接口605和总线604加载到RAM 603中，并且执行该程序，以便执行上文中描述的方法。

要由计算机(CPU 601)执行的程序可以被记录在作为封装介质的移动介质611上，该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外，要由计算机(CPU 601)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。

当移动介质611安装在驱动器610中时，可以将程序经由输入/输出接口605安装在存储单元608中。另外，可以经由有线或无线传输介质由通信单元609来接收程序，并且将程序安装在存储单元608中。可替选地，可以将程序预先安装在ROM 602或存储单元608中。

由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序，或者可以是并行地执行处理或当需要时(诸如，当调用时)执行处理的程序。

本文中所描述的单元或装置仅是逻辑意义上的，并不严格对应于物理设备或实体。例如，本文所描述的每个单元的功能可能由多个物理实体来实现，或者，本文所描述的多个单元的功能可能由单个物理实体来实现。此外，在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例，而是也可以应用于其它实施例，例如替代其它实施例中的特定特征、部件、元素、步骤等，或者与其相结合。

本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是，取决于设计要求和其他因素，在不偏离本发明的原理和精神的情况下，可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。

附记：

(1).一种生成知识库的方法，包括：

确定包括多个单位的单位表；

从文本中提取属性值，所述属性值是数字和所述单位表中的单位的组合；

基于所述属性值之前和之后的词来确定与所述属性值相关联的候选属性；

在包含有所述多个单位的定义的文档中搜索所述候选属性，并且将能够被搜索到的候选属性确定为与所述属性值对应的正式属性；

基于所述文本中出现的包含所述属性值和所述正式属性的语句构建属性模板；

利用所述属性模板在所述文本中确定另外的属性。

(2).根据(1)所述的方法，还包括：

对所述文本中的字符进行归一化处理，以使得所述文本中包含的单位是所述单位表中的单位。

(3).根据(1)所述的方法，其中，所述属性值之前和之后的词包括与所述属性值相距预定距离以内的多个词。

(4).根据(1)所述的方法，还包括：

将所述属性值之前和之后的词划分为多个组；

确定每个组中所包含的词的所有组合，并且将每个组合确定为一个候选属性。

(5).根据(4)所述的方法，还包括：

在所述属性值之前和之后的词中去除介词和副词，并且利用所去除的介词和副词将剩余的词划分为所述多个组。

(6).根据(1)所述的方法，还包括：

在能够搜索到多个候选属性的情况下，根据所述候选属性的长度或所述候选属性与所述属性值之间的距离来确定与所述属性值对应的正式属性。

(7).根据(1)所述的方法，其中，所述文本中出现的包含所述属性值和所述正式属性的语句还包含与所述属性值或所述正式属性相邻的一个或多个字符串，

所述方法还包括：

在所述字符串的长度小于或等于第一阈值的情况下，用通配符来替换所述语句中包含的所述属性值和所述正式属性，并且基于所述通配符和所述字符串来构建候选属性模板；

确定所述候选属性模板在所述文本中的出现次数，并且基于所述出现次数确定所述候选属性模板的置信度；

在所述置信度大于第二阈值的情况下，将所述候选属性模板确定为所述属性模板。

(8).根据(7)所述的方法，还包括：

在所述文本中搜索与所述属性模板匹配的匹配语句；

在所述匹配语句中，

当存在位于两个字符串之间的一个或多个第一词时，将所述一个或多个第一词确定为所述另外的属性，以及

当不存在位于两个字符串之间的词时，确定仅与一个字符串相邻的第二词是否与相邻词构成组合词，以及根据确定结果来确定所述第二词是否是所述另外的属性，其中，所述相邻词在与所述一个字符串相反的另一侧与所述第二词相邻。

(9).根据(8)所述的方法，还包括：当不存在位于两个字符串之间的词时，

对与所述一个字符串相距预定距离以内的多个词进行分组；

在包括所述第二词的组中，确定所述第二词与所述相邻词同时出现的第一概率；

在包括所述第二词的所述组中，计算每个词与所述第二词同时出现的第二概率的平均值；

在所述第一概率小于所述平均值的情况下，确定所述第二词不与所述相邻词构成组合词，以及在所述第一概率大于或等于所述平均值的情况下，确定所述第二词与所述相邻词构成组合词。

(10).根据(8)所述的方法，还包括：

在所述第二词不与所述相邻词构成组合词的情况下，将所述第二词确定为所述另外的属性，以及

在所述第二词与所述相邻词构成组合词的情况下，确定所述组合词是否与下一个相邻词构成另一组合词，并且在没有构成所述另一组合词的情况下将所述组合词确定为所述另外的属性，其中所述下一个相邻词在与所述一个字符串相反的另一侧与所述组合词相邻。

(11).一种用于生成知识库的装置，包括：存储器，以及一个或多个处理器，所述处理器被配置为：

确定包括多个单位的单位表；

利用所述属性模板在所述文本中确定另外的属性。

(12).一种存储有程序的记录介质，所述程序在被计算机执行时，使得计算机实现根据(1)-(10)所述的用于生成知识库的方法。

Claims

1.一种生成知识库的方法，包括：

确定包括多个单位的单位表；

利用所述属性模板在所述文本中确定另外的属性。

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1所述的方法，其中，所述属性值之前和之后的词包括与所述属性值相距预定距离以内的多个词。

4.根据权利要求1所述的方法，还包括：

将所述属性值之前和之后的词划分为多个组；

5.根据权利要求4所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，其中，所述文本中出现的包含所述属性值和所述正式属性的语句还包含与所述属性值或所述正式属性相邻的一个或多个字符串，

所述方法还包括：

8.根据权利要求7所述的方法，还包括：

在所述文本中搜索与所述属性模板匹配的匹配语句；

在所述匹配语句中，

9.根据权利要求8所述的方法，还包括：当不存在位于两个字符串之间的词时，

对与所述一个字符串相距预定距离以内的多个词进行分组；

10.根据权利要求8所述的方法，还包括：