CN108009182B

CN108009182B - 一种信息提取方法和装置

Info

Publication number: CN108009182B
Application number: CN201610972874.2A
Authority: CN
Inventors: 张振中
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2020-03-10
Anticipated expiration: 2036-10-28
Also published as: US20190005026A1; US10657330B2; WO2018076774A1; EP3535672A1; CN108009182A; EP3535672A4

Abstract

本发明提供一种信息提取方法和装置，涉及智能设备技术领域，可提高信息提取的准确率。所述信息提取方法包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

Description

一种信息提取方法和装置

技术领域

本发明涉及智能设备技术领域，尤其涉及一种信息提取方法和装置。

背景技术

在各个技术领域，大部分的知识来源于非结构化的文本，随着各领域的快速发展，研究文献以指数级增长，丰富了各领域的相关知识。

但是，研究文献爆炸式的增长速度远远超过人们对文献分析的速度，使得研究者很难从文献库中找到所需信息。因此，帮助研究者从海量的文献中挖掘有用信息已经引起学术界和工业界的广泛关注。

目前，有技术人员通过语义关系抽取的方式帮助研究者从海量的文献中挖掘有用信息，但由于用来训练模型的样本数据准确度较低，使得训练出的模型准确度较低，导致最终获取的信息普遍存在着准确率较低等问题。

发明内容

本发明的实施例提供一种信息提取方法和装置，可提高信息提取的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种信息提取方法，包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

优选的，根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例，包括：根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的第一实例。

优选的，对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例，包括：根据所述实体对，对每个所述第一实例进行第一特征抽取，构建第一实例-特征矩阵M_nf，n为所述第一实例的个数，f为所有所述第一特征的个数；其中，所述第一特征包括词汇特征和/或句法特征；构建语义关系-第一实例矩阵M_rn；r为所述语义关系的个数；构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf；通过非负矩阵分解方法将语义关系-特征矩阵M_rf分解为M_rk*M_kf，k＜f；M_rk为所述语义关系在潜在语义空间中的表示矩阵；将M_nf*M_kf ^T，得到M_nk；其中，M_nk为所述第一实例在潜在语义空间中的表示矩阵；根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度；根据所述相似度，在所述第一实例中，筛选出所述第二实例。

进一步优选的，根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度，包括：根据M_nk与M_rk ^T，通过余弦相似度，得到所述第一实例与所述语义关系的相似度。

优选的，根据所述相似度，在所述第一实例中，筛选出所述第二实例，包括：对所述相似度进行归一化处理，使每个所述第一实例与所有所述语义关系的相似度之和为1；根据每个所述第一实例对应的归一化处理后的相似度，计算每个所述第一实例的信息熵；选取信息熵小于预定阈值的所述第一实例作为所述第二实例。

优选的，所述方法还包括：根据所述实体对，对每个所述第二实例进行第二特征的抽取，训练出分类器，所述分类器的目标分类为给定的所述语义关系；其中，所述第二特征包括词汇特征和/或句法特征；根据所述分类器，从文本语句中识别给定的所述语义关系并分类。

进一步优选的，根据所述分类器，从文本语句中识别给定的所述语义关系并分类，包括：使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的文本语句；根据所述分类器，识别所述文本语句中的所述实体对对应的所述语义关系并分类。

基于上述，优选的，所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种；其中，X≥0；所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种；其中，Y≥0。

第二方面，提供一种信息提取装置，包括：获取模块和筛选模块；获取模块，用于根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；筛选模块，用于对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

优选的，所述获取模块具体用于：根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的第一实例。

优选的，所述筛选模块具体用于：根据所述实体对，对每个所述第一实例进行第一特征抽取，构建第一实例-特征矩阵M_nf，n为所述第一实例的个数，f为所有所述第一特征的个数；其中，所述第一特征包括词汇特征和/或句法特征；构建语义关系-第一实例矩阵M_rn；r为所述语义关系的个数；构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf；通过非负矩阵分解方法将语义关系-特征矩阵M_rf分解为M_rk*M_kf，k＜f；M_rk为所述语义关系在潜在语义空间中的表示矩阵；将M_nf*M_kf ^T，得到M_nk；其中，M_nk为所述第一实例在潜在语义空间中的表示矩阵；根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度；根据所述相似度，在所述第一实例中，筛选出所述第二实例。

进一步优选的，所述筛选模块，用于根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度，具体包括：根据M_nk与M_rk ^T，通过余弦相似度，得到所述第一实例与所述语义关系的相似度。

优选的，所述筛选模块，用于根据所述相似度，在所述第一实例中，筛选出所述第二实例，具体包括：对所述相似度进行归一化处理，使每个所述第一实例与所有所述语义关系的相似度之和为1；根据每个所述第一实例对应的归一化处理后的相似度，计算每个所述第一实例的信息熵；选取信息熵小于预定阈值的所述第一实例作为所述第二实例。

优选的，所述装置还包括分类器训练模块和信息提取模块；所述分类器训练模块，用于根据所述实体对，对每个所述第二实例进行第一特征抽取，训练出分类器，所述分类器的目标分类为给定的所述语义关系；其中，所述第一特征包括词汇特征和/或句法特征；信息提取模块，用于根据所述分类器，从文本语句中识别给定的所述语义关系并分类。

进一步优选的，所述信息提取模块，具体用于：使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的文本语句；根据所述分类器，识别所述文本语句中的所述实体对对应的所述语义关系并分类。

本发明实施例提供一种信息提取方法和装置，通过给定的语义关系，获取对应所述语义关系的实体对，根据所述实体对获取第一实例，在此基础上，对第一实例进行筛选，将不具有给定语义关系的第一实例剔除，筛选出具有给定语义关系的第一实施例作为第二实例，从而剔除样本数据中的噪音数据，这样一来，当将样本数据用于训练模型时，可提高模型的准确度，从而提高获取的信息的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息提取方法的流程图一；

图2为本发明实施例提供的一种从数据库中获取包含实体对的第一实例的方法的流程图；

图3为本发明实施例提供的一种从第一实例中筛选出第二实例的方法的流程图；

图4为本发明实施例提供的一种根据相似度从第一实例中筛选出第二实例的方法的流程图；

图5为本发明实施例提供的一种信息提取方法的流程图二；

图6为本发明实施例提供的一种根据分类器对语义关系进行识别分类的方法的流程图；

图7为本发明实施例提供的一种信息提取装置的结构示意图一；

图8为本发明实施例提供的一种信息提取装置的结构示意图二。

附图标记：

10-获取模块；20-筛选模块；30-分类器训练模块；40-信息提取模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种信息提取方法，如图1所示，所述方法包括：

S10、根据给定的语义关系，获取与语义关系对应的实体对，根据实体对获取第一实例；第一实例为含有实体对的语句。

其中，不对语义关系和实体对所属的技术领域进行限定，有语义关系数据库和与语义关系对应的实体对数据库即可。此处的数据库可以是选择现有的数据库，也可以是根据需要制作出的新的数据库。本发明实施例中以医学领域进行举例说明。

此外，不对第一实例的具体获取方式进行限定，获取的第一实例为含有所述实体对的语句即可。

S20、对第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

即，将第一实例中不具有给定语义关系的语句剔除。通常将不具有给定语义关系的语句称为噪音数据，将剔除噪音数据后的实例作为第二实例。

其中，不对剔除噪音数据的具体方式进行限定。

本发明实施例提供一种信息提取方法，通过给定的语义关系，获取对应所述语义关系的实体对，根据所述实体对获取第一实例，在此基础上，对第一实例进行筛选，将不具有给定语义关系的第一实例剔除，筛选出具有给定语义关系的第一实施例作为第二实例，从而剔除样本数据中的噪音数据，这样一来，当将样本数据用于训练模型时，可提高模型的准确度，从而提高获取的信息的准确度。

优选的，如图2所示，上述S10，具体包括：

S11、根据给定的语义关系，从知识库中获取对应所述语义关系的实体对。

在医学领域中，一体化语言系统(Unified Medical Language System，简称UMLS)包括四个部分:超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)和专家词典(SPECIALIST Lexicon)，给定的语义关系为语义网络中分类的54种语义关系中的至少一种。

知识库为预先选定或制作的知识库，例如可以是UMLS等本领域技术人员惯用的知识库。实体对为知识库中总结出的具有一定语义关系的两个实体，实体例如可以是疾病、药物、基因等。其中，本发明实施例所指的实体对，可以是多个实体对，只要每个实体对与给定的语义关系对应即可。

数据库为含有文本的数据库，例如可以是知网、万方等现有的数据库。此处，不对文本的种类进行限定，例如可以是论文、期刊、书本等。

此外，本发明的实施例中，从数据库中获取的包含所述实体对的第一实例应为一个或多个，但并不是每个语句均是表达所给定的语义关系。例如，给定的语义关系为“治疗”，从知识库中寻找出的具有该语义关系的实体对有“二甲双胍”和“妊娠糖尿病”、“阿司匹林”和“感冒”，检索出的实例一为“阿司匹林可以用来治疗感冒”，检索出的实例二为“科学家称阿司匹林是1981年感冒流行的罪魁祸首之一”，检索出的实例三为“二甲双胍是治疗妊娠糖尿病的第一选择”，从实例一和实例三中可以读出实体对之间的语义关系为“治疗”，但从实例二中可以读出实体对之间的语义关系为“引起”而不是“治疗”。实例二即为噪音数据，将其剔除，只筛选出实例一和实例三作为第二实例

S12、使用命名实体识别工具，对数据库中包含命名实体的语句进行标记。

其中，命名实体识别(Named Entity Recognition，简称NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词、药名、基因、疾病名称等。使用命名实体识别工具时，语句中包含的上述具有特定意义的实体会被标记出来。通过对语句中的实体进行标记，实现对包含命名实体的语句进行标记。

S13、从标记的语句中检索出包含所述实体对的第一实例。

即，只在S12步骤标记出的语句中检索出包含给定实体对(即S11中获取的实体对)的语句，其他语句均剔除掉。若语句中只包含给定实体对中的一个实体，该语句也会被剔除。

本发明实施例通过采用命名实体识别工具从数据库中获取包含实体对的第一实例，技术成熟，效率高，成本低。

优选的，如图3所示，上述S20，具体包括：

S21、根据所述实体对，对每个第一实例进行第一特征抽取，构建第一实例-特征矩阵M_nf，n为第一实例的个数，f为所有第一特征的个数；其中，第一特征包括词汇特征和/或句法特征。

其中，对每个第一实例进行第一特征抽取，抽取出的第一特征可以是：将第一实例中实体对在每个语句中具有的词汇特征和/或句法特征抽取出来后取交集或并集，当然还可以是其他抽取方式。

构建第一实例-特征矩阵M_nf，即判断每个第一实例是否具有抽取出的第一特征。在第一实例-特征矩阵M_nf中，每行数据可表示该行对应的第一实例是否具有抽取出的第一特征。例如可以用“1”表示该第一实例具有某一第一特征，用“0”表示该第一实例不具有某一第一特征。以下实施例中以第一实例具有某一第一特征则为“1”，第一实例不具有某一第一特征则为“0”来表示。

例如，有四个第一实例，即n＝4，抽取出了六个第一特征，即f＝6，实例一具有第一个和第三个第一特征，实例二具有第一个和第四个第一特征，实例三具有第五个和第六个第一特征，实例四具有第二个和第三个第一特征。则得到的第一实例-特征矩阵M_nf为：

S22、构建语义关系-第一实例矩阵M_rn；r为语义关系的个数。

其中，在语义关系-第一实例矩阵M_rn中，给定多个语义关系，矩阵中的每列数据可表示该列对应的第一实例是否属于每个语义关系。例如可以用“1”表示第一实例属于某一语义关系，用“0”表示第一实例不属于某一语义关系。

例如，给定了五个语义关系，即r＝5，有四个第一实例，实例一和实例二属于第一个语义关系，实例一和实例三属于第二个语义关系，实例一和实例四属于第三个语义关系，实例二和实例三属于第四个语义关系，实例三和实例四属于第五个语义关系，则得到的语义关系-第一实例矩阵M_rn为：

S23、构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf。

即，根据矩阵的乘法，将语义关系-第一实例矩阵M_rn和第一实例-特征矩阵M_rf相乘，得到语义关系-特征矩阵M_rf。

例如，基于上述例子，将M₄₆和M₅₄相乘，则得到语义关系-特征矩阵M_rf为：

S24、通过非负矩阵分解方法将语义关系-特征矩阵M_rf分解为M_rk*M_kf，k＜f；M_rk为语义关系在潜在语义空间中的表示矩阵。

其中，非负矩阵分解(Nonnegtive Matrix Factorization，简称NMF)，即找到两个低秩的非负矩阵M_rk和M_kf，使得M_rf＝M_rk*M_kf。非负矩阵分解的过程可以采用现有技术中的MATLAB、C、C++等语言程序来实现。

此处，对语义关系-特征矩阵M_rf进行非负矩阵分解，可以是将步骤S21中抽取出的f个第一特征进行筛选，选择出重复率较高或较重要的k个第一特征。即将语义关系-特征矩阵M_rf映射到潜在语义空间中，得到语义关系在潜在语义空间中的表示矩阵M_rk，和第一特征在潜在语义空间中的表示矩阵M_kf ^T。M_rf经非负矩阵分解得到的矩阵M_rk和M_kf，对M_kf进行转置，即可得到M_kf ^T。其中，本领域技术人员应该明白，在实际操作中，为了提高样本的可取性，n、r、f均为较大的数值，因此，在实际操作中，k可能会远远小于f。

例如，k＝3，则将M₅₆分解为M₅₆＝M₅₃*M₃₆。

S25、将M_nf*M_kf ^T，得到M_nk；其中，M_nk为第一实例在潜在语义空间中的表示矩阵。

即，将第一实例-特征矩阵M_nf和第一特征在潜在语义空间中的表示矩阵M_kf ^T相乘即可得到第一实例在潜在语义空间中的表示矩阵M_nk。

例如，M₄₃＝M₄₆*M₃₆ ^T。

S26、根据M_nk与M_rk ^T，得到第一实例与语义关系的相似度。

其中，可以将M_nk与M_rk ^T相乘，得到第一实例-语义关系在潜在语义空间中的表示矩阵，矩阵中每一行的数值，即表示该行代表的第一实例与每个语义关系的相似度。当然，也可以采用其他的计算方式得到第一实例与语义关系的相似度。

例如，将M_nk与M_rk ^T相乘，得到第一实例-语义关系在潜在语义空间中的表示矩阵

矩阵第一行的数值(2,3,7,4)则表示实例一与第一个语义关系的相似度为2、与第二个语义关系的相似度为3、与第三个语义关系的相似度为7、与第四个语义关系的相似度为4。以此类推，能够得到每个实例与每个语义关系的相似度。

S27、根据所述相似度，在第一实例中，筛选出第二实例。

即，根据步骤S26计算出的每个第一实例与每个语义关系的相似度，筛选出相似度区分性比较明显的第一实例作为第二实例。

例如，上述举出的代表三个第一实例分别与四个语义关系的相似度的矩阵

中，实例一与第三个语义关系的相似度较高，明显能够判断出其属于第三个语义关系、实例二则与四个语义关系的相似度相差不大，不能明显的判断出其属于哪一个语义关系、实例三则与第四个语义关系的相似度较高，明显能够判断出其属于第四个语义关系。因此，筛选出第一实例中的实例一和实例三作为第二实例。

本发明实施例通过先采用非负矩阵分解方法将语义关系、实例、特征均映射到潜在的语义空间中，然后在潜在语义空间中得到第一实例与语义关系的相似度，再根据所述相似度是否具有明显的区分性，即通过所述相似度是否能够明显的判断出某一实例属于某种语义关系，在第一实例中筛选出第二实例，这种基于矩阵分解的数据选取方法，在剔除噪音数据过程中，计算量小，效率高。

优选的，根据M_nk与M_rk ^T，得到第一实例与语义关系的相似度，具体包括：

根据M_nk与M_rk ^T，通过余弦相似度，得到第一实例与语义关系的相似度。

其中，余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。本发明中将M_nk中的每行数据和M_rk ^T中的每列数据分别作为一个向量，通过余弦相似度的算法，得到第一实例与语义关系的相似度。

本发明实施例通过采用余弦相似度的计算方法得到第一实例与语义关系的相似度，效果好，速度快，简单方便。

优选的，如图4所示，根据所述相似度，在第一实例中，筛选出第二实例，具体包括：

S271、对所述相似度进行归一化处理，使每个第一实例与所有语义关系的相似度之和为1。

其中，归一化即：把括号里的一组数据均映射到0～1范围之内处理，并使括号里面数据的总和变成1，然后写出每个数的比例。通过对所述相似度进行归一化处理，可以将第一实例与所有语义关系的相似度看作概率分布。

例如，通过步骤S26计算出的实例一与所有语义关系的相似度分别为(2,3,7,4)，通过归一化处理得到实例一与所有语义关系的相似度为：

即(0.125，0.1875，0.4375，0.25)。

S272、根据每个第一实例对应的归一化处理后的相似度，计算每个第一实例的信息熵。

即，将第一实例与所有语义关系的相似度看作概率分布，根据信息熵的计算公式，计算每个第一实例的信息熵。

其中，信息是个抽象的概念，熵表示物质系统状态的一个物理量，它表示该状态可能出现的程度，信息熵

p(x)为第一实例属于某个语义关系的概率，即归一化后的第一实例与每个语义关系的相似度。

例如，实例一与所有语义关系的相似度分别为(0.125，0.1875，0.4375，0.25)，则实例一的信息熵H＝-(0.125log0.125+0.1875log0.1875+0.4375log0.4375+0.25log0.25)＝0.5567856。

S273、选取信息熵小于预定阈值的第一实例作为第二实例。

其中，信息熵越低表示第一实例所包含的信息越确定，该信息熵对应的实例就越有利于训练模型。因此，信息熵大于预定阈值的第一实例即为噪音数据，从而根据每个第一实例的信息熵，从第一实例中挑选出实例二，达到去除噪音数据的效果。

此外，不对信息熵的预定阈值的取值进行限定，根据数据量合理确定即可。

例如，若信息熵的预定阈值为0.6，则上述信息熵为0.5567856的实例一则会被选取出来作为第二实例。若信息熵的预定阈值为0.5，则上述信息熵为0.5567856的实例一则不会被选取出来作为第二实例，而是作为噪音数据剔除。

本发明实施例通过对相似度进行归一化处理，使每个第一实例与所有语义关系的相似度之和为1，然后将相似度看作概率分布，计算出每个实例的信息熵，并通过选取满足预定阈值信息熵的方式，对噪音数据进行剔除，从第一实例中选取出第二实例，计算量小，获取方便。

优选的，如图5所示，所述方法还包括：

S30、根据所述实体对，对每个第二实例进行第二特征抽取，训练出分类器，所述分类器的目标分类为给定的语义关系；其中，第二特征包括词汇特征和/或句法特征。

其中，第二特征的抽取可以是：将第二实例中实体对在每个语句中具有的词汇特征和/或句法特征均抽取出来后取交集或并集，当然还可以是其他抽取方式。通过抽取出的第二特征，来训练出分类器。此处，不对词汇特征和句法特征的种类进行限定。

此外，训练分类器采用的是现有技术中惯用的手段，分类器所用的特征为上述抽取出的第二特征，分类器最终的输出结果是将文本语句分类到具体的语义关系中。

S40、根据分类器，从文本语句中识别语义关系并分类。

即，将训练好的分类器应用到数据库中，实现对文本语句中的实体对之间的语义关系的识别，并进行分类。

本发明实施例通过使用剔除噪音数据后的第二实例(样本数据)来训练出分类器，使得通过第二实例训练出的分类器的参数的可取性更高，从而提高了利用分类器对文本语句进行信息提取的准确率。

此外，通过利用训练好的分类器，对已有的数据库进行远距离监督学习，自动对文本语句中的实体对之间的语义关系进行识别并分类，代替人工标注数据，降低标注成本，提高语义关系抽取的覆盖度，解决数据稀疏问题。

优选的，如图6所示，上述S40，具体包括：

S41、使用命名实体识别工具，对数据库中包含命名实体的语句进行标记。

S42、从标记的语句中检索出包含所述实体对的文本语句。

S43、根据分类器，识别文本语句中的实体对对应的语义关系并分类。

即，对步骤S42抽取出的每个文本语句进行信息提取，最终的输出结果为文本语句中的实体对属于哪一种语义关系。

例如，属于某一种语义关系，则为“1”，不属于某一种语义关系，则为“0”。

本发明实施例通过使用命名实体识别工具对数据库中包含命名实体的语句进行标记，然后检索出包含实体对的文本语句，并使用分类器对文本语句中的实体对对应的语义关系进行识别并分类，技术成熟，成本低，效率高。

基于上述，优选的，词汇特征包括实体对在语句中的位置、实体对之间的词序列、实体对之间的词性序列、实体对的大小为X的左窗口、以及实体对的大小为X的右窗口中至少一种；其中，X≥0。

句法特征包括实体对之间的最短依存路径、实体对的大小为Y的左窗口、以及实体对的大小为Y的右窗口中至少一种；其中，Y≥0。

其中，实体对在语句中的位置是指实体对在一句话中是紧挨着还是中间间隔其他词；实体对之间的词序列是指实体分别是语句中的第几个词；实体对之间的词性序列是指实体前后的词分别是什么词性(例如名词、动词等)；实体对的大小为X的左窗口是指位于前面的实体距离句首有几个词；实体对的大小为X的右窗口是指前面的实体距离后面的实体有几个词；实体对之间的最短依存路径是指实体对之间间隔几个词；实体对的大小为Y的左窗口是指在根据句法特征列出的树状图中，位于语句前面的实体距离句首有几个词；实体对的大小为Y的右窗口是指在根据句法特征列出的树状图中，前面的实体距离后面的实体有几个词。

此处，可以是一种特征即为一个特征，也可以是多种特征组合为一个特征。当一种特征即为一个特征时，文本语句中只要包含这种特征，即具有该特征；当两种特征组合为一个特征时，文本语句中两种特征都包含时，才认为包含该特征。

此外，实体对的大小为X的左窗口、以及实体对的大小为X的右窗口中，X的取值可以相同，可以不同；实体对的大小为Y的左窗口、以及实体对的大小为Y的右窗口中，Y的取值可以相同，可以不同；X和Y的取值可以相同，可以不同。

需要说明的是，一种特征，可以通过变换参数，来作为多个特征。例如对于实体对的大小为X的左窗口的特征，实体对的大小为3的左窗口、实体对的大小为5的左窗口、实体对的大小为6的左窗口均可以作为一个特征。

例如，检索出的文本语句为“科学家称阿司匹林是1981年感冒流行的罪魁祸首之一”，该文本语句中实体对在语句中的位置为不相邻，若抽取的特征是实体对在语句中的位置为相邻，则文本语句的该特征为“0”；该文本语句中实体对之间的词序列为第一个实体是第三个词，第二个实体是第六个词，若抽取的特征正好与上述特征相同，则文本语句的该特征为“1”；该文本语句中实体对之间的词性序列为动词、名词、名词，若抽取的特征与上述特征不同，则文本语句中的该特征为“0”；该文本语句中实体对的左窗口的大小为三，若抽取的特征与上述特征相同，则文本语句中的该特征为“1”；该文本语句中实体对的右窗口的大小为四，若抽取的特征与上述特征不同，则文本语句中的该特征为“0”；该文本语句中实体对之间的最短依存路径为实体对之间有三个词，若抽取的特征与上述特征不同，则文本语句中的该特征为“0”。

本发明实施例通过采用上述词汇特征和句法特征作为第一特征和第二特征，便于判别，应用简单。

本发明实施例还提供一种信息提取装置，如图7所示，包括获取模块10和筛选模块20。

获取模块10，用于根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句。

筛选模块20，用于对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

本发明实施例提供一种信息提取装置，获取模块10通过给定的语义关系，获取对应所述语义关系的实体对，根据所述实体对获取第一实例，在此基础上，筛选模块20对第一实例进行筛选，将不具有给定语义关系的第一实例剔除，筛选出具有给定语义关系的第一实施例作为第二实例，从而剔除样本数据中的噪音数据，这样一来，当将样本数据用于训练模型时，可提高模型的准确度，从而提高获取的信息的准确度。

优选的，获取模块10具体用于：根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；使用命名实体识别工具，对知识库中包含命名实体的语句进行标记；从标记的语句中检索出包含实体对的第一实例。

本发明实施例中获取模块10通过采用命名实体识别工具从数据库中获取包含实体对的第一实例，技术成熟，效率高，成本低。

优选的，筛选模块20具体用于：根据上述实体对，对每个第一实例进行第一特征抽取，构建第一实例-特征矩阵M_nf，n为第一实例的个数，f为所有第一特征的个数；其中，第一特征包括词汇特征和/或句法特征；构建语义关系-第一实例矩阵M_rn；r为语义关系的个数；构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf；通过非负矩阵分解方法将语义关系-特征矩阵M_rf分解为M_rk*M_kf，k＜f；M_rk为语义关系在潜在语义空间中的表示矩阵；将M_nf*M_kf ^T，得到M_nk；其中，M_nk为第一实例在潜在语义空间中的表示矩阵；根据M_nk与M_rk ^T，得到第一实例与语义关系的相似度；根据相似度，在第一实例中，筛选出第二实例。

本发明实施例中筛选模块20通过先采用非负矩阵分解方法将语义关系、实例、特征均映射到潜在的语义空间中，然后在潜在语义空间中得到第一实例与语义关系的相似度，再根据所述相似度是否具有明显的区分性，即通过所述相似度是否能够明显的判断出某一实例属于某种语义关系，在第一实例中筛选出第二实例，这种基于矩阵分解的数据选取方法，在剔除噪音数据过程中，计算量小，效率高。

进一步优选的，筛选模块20，用于根据M_nk与M_rk ^T，得到第一实例与语义关系的相似度，具体包括：根据M_nk与M_rk ^T，通过余弦相似度，得到第一实例与语义关系的相似度。

优选的，筛选模块20，用于根据所述相似度，在第一实例中，筛选出第二实例，具体包括：对所述相似度进行归一化处理，使每个第一实例与所有语义关系的相似度之和为1；根据每个第一实例对应的归一化处理后的相似度，计算每个第一实例的信息熵；选取信息熵小于预定阈值的第一实例作为第二实例。

优选的，如图7所示，所述装置还包括分类器训练模块30和信息提取模块40。

分类器训练模块30，用于根据所述实体对，对每个第二实例进行第一特征抽取，训练出分类器，所述分类器的目标分类为给定的语义关系；其中，第一特征包括词汇特征和/或句法特征。

信息提取模块40，用于根据上述分类器，从文本语句中识别给定的所述语义关系并分类。

本发明实施例通过使分类器训练模块30采用剔除噪音数据后的第二实例(样本数据)来训练出分类器，使得通过第二实例训练出的分类器的参数的可取性更高，当采用信息提取模块40对文本语句进行信息提取时，可提高信息提取的准确率。

优选的，信息提取模块40，具体用于：使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含实体对的文本语句；根据分类器，识别文本语句中的实体对对应的语义关系并分类。

本发明实施例中信息提取模块40通过使用命名实体识别工具对数据库中包含命名实体的语句进行标记，然后检索出包含实体对的文本语句，并使用分类器对文本语句中的实体对对应的语义关系进行识别并分类，技术成熟，成本低，效率高。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息提取方法，其特征在于，包括：

根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；

对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例，包括：

根据所述实体对，对每个所述第一实例进行第一特征抽取，构建第一实例-特征矩阵M_nf，n为所述第一实例的个数，f为所有所述第一特征的个数；其中，所述第一特征包括词汇特征和/或句法特征；

构建语义关系-第一实例矩阵M_rn；r为所述语义关系的个数；

构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf；

通过非负矩阵分解方法将语义关系-特征矩阵M_rf分解为M_rk*M_kf，k＜f；M_rk为所述语义关系在潜在语义空间中的表示矩阵；

将M_nf*M_kf ^T，得到M_nk；其中，M_nk为所述第一实例在潜在语义空间中的表示矩阵；

根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度；

根据所述相似度，在所述第一实例中，筛选出所述第二实例。

2.根据权利要求1所述的信息提取方法，其特征在于，根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例，包括：

根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；

使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；

从标记的语句中检索出包含所述实体对的第一实例。

3.根据权利要求1所述的信息提取方法，其特征在于，根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度，包括：

根据M_nk与M_rk ^T，通过余弦相似度，得到所述第一实例与所述语义关系的相似度。

4.根据权利要求1所述的信息提取方法，其特征在于，根据所述相似度，在所述第一实例中，筛选出所述第二实例，包括：

对所述相似度进行归一化处理，使每个所述第一实例与所有所述语义关系的相似度之和为1；

根据每个所述第一实例对应的归一化处理后的相似度，计算每个所述第一实例的信息熵；

选取信息熵小于预定阈值的所述第一实例作为所述第二实例。

5.根据权利要求1所述的信息提取方法，其特征在于，还包括：

根据所述实体对，对每个所述第二实例进行第二特征的抽取，训练出分类器，所述分类器的目标分类为给定的所述语义关系；其中，所述第二特征包括词汇特征和/或句法特征；

根据所述分类器，从文本语句中识别给定的所述语义关系并分类。

6.根据权利要求5所述的信息提取方法，其特征在于，根据所述分类器，从文本语句中识别给定的所述语义关系并分类，包括：

从标记的语句中检索出包含所述实体对的文本语句；

根据所述分类器，识别所述文本语句中的所述实体对对应的所述语义关系并分类。

7.根据权利要求1-6任一项所述的信息提取方法，其特征在于，

所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种；其中，X≥0；

所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种；其中，Y≥0。

8.一种信息提取装置，其特征在于，包括：获取模块和筛选模块；

所述获取模块，用于根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；

所述筛选模块，用于对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例；

所述筛选模块具体用于：

构建语义关系-第一实例矩阵M_rn；r为所述语义关系的个数；

构建语义关系-特征矩阵M_rf，M_rf＝M_rn*M_nf；

9.根据权利要求8所述的信息提取装置，其特征在于，所述获取模块具体用于：

从标记的语句中检索出包含所述实体对的第一实例。

10.根据权利要求8所述的信息提取装置，其特征在于，所述筛选模块，用于根据M_nk与M_rk ^T，得到所述第一实例与所述语义关系的相似度，具体包括：

11.根据权利要求8所述的信息提取装置，其特征在于，所述筛选模块，用于根据所述相似度，在所述第一实例中，筛选出所述第二实例，具体包括：

12.根据权利要求8所述的信息提取装置，其特征在于，还包括分类器训练模块和信息提取模块；

所述分类器训练模块，用于根据所述实体对，对每个所述第二实例进行第一特征抽取，训练出分类器，所述分类器的目标分类为给定的所述语义关系；其中，所述第一特征包括词汇特征和/或句法特征；

所述信息提取模块，用于根据所述分类器，从文本语句中识别给定的所述语义关系并分类。

13.根据权利要求12所述的信息提取装置，其特征在于，所述信息提取模块，具体用于：

从标记的语句中检索出包含所述实体对的文本语句；

14.根据权利要求8-13任一项所述的信息提取装置，其特征在于，所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种；其中，X≥0；