具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式所述的开放式实体及其类型识别方法,
步骤一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;
步骤二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;
步骤三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;
步骤四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。
开放域实体和传统命名实体相比有以下两个特点:类型更多,且不限定。例如:包括药品名、产品名、电影名、书名、音乐名等等,很难由人工制定完备。类型更细,且有层次。例如:传统命名实体包括机构名,但在开放域实体中机构名还可能继续细分,比如分为政府机关、学校、企业、球队、军队等更细的子类别。
实体边界识别的训练语料可以使用人工标注,但耗时耗力。因此,本实施方式采用自动构建的方法,例如“Root可口可乐公司成立于1892年,总部设在美国乔亚洲亚特兰大。”中的“可口可乐”和“公司”这个依存对,它们之间的依存关系为修饰关系,方向由“公司”指向“可口可乐”,因此它表示“可口可乐”依存于“公司”。通过这样的依存关系等确定实体的边界,生成实体边界识别的训练语料。
由于依存树库中的依存关系完全采用人工标注,准确度比自动得到的依存关系要高很多。而依存关系对于实体边界确定具有很大的帮助,这也是本实施方式使用该依存树库自动构建训练语料最重要的动机。
在生成训练语料后,选取合适的统计机器学习方法,即条件随机域(Conditional RandomField)模型,和有效的特征,训练模型。
语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明:模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式主要研究开放式命名实体的类别的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。
本实施方式的步骤一中所述汉语依存关系树库选择哈尔滨工业大学社会计算与信息检索实验中心人工标注的6万句汉语依存关系树库(HIT-IR Dependency Treebank)。
具体实施方式二:结合图2说明本实施方式,本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为:
利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;
利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例<实体,类型>进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中,M、N、I、J均为正整数,如图2中的虚线流程。
实体类型的获取可以采用上位词抽取或者上下位关系抽取技术,属于语义类(semantic class)抽取的范畴。如:水果和苹果是一对上下位关系,水果是苹果的上位词(hypernym),苹果是水果的下位词(hyponym)。我们的任务就是抽取这样的上下位关系,构成知识库。
语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明:模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式的开放式实体的类型的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。
初始时,可以给定一些种子,也可以给定几个简单的模式(pattern),然后开始在大规模生语料上迭代挖掘,利用种子可以抽取出新的模式,利用模式可以抽取新的实例,选择高质量的实例作为新的种子,采用bootstrapping方法如此迭代下去,不断扩充实例集和模式库。
若迭代从种子集开始,则需要由人工来制定上下位关系种子,可以表示为二元组,例如:<苹果,水果>,<咖啡,饮料>,<蒙古族,名族>等等。若迭代从模式库开始,则需人工制定一些模式,利用模式从语料库中抽取实例,并根据实例出现的频次等信息选择高质量的实例作为种子,然后再利用种子抽取更多的模式。
得到的上下位关系实例可以连接到已有的知识体系下,构成知识库,即实例集,举例如图3所示。在实际应用中,即可利用知识库,结合上下文信息为文本中的命名实体打上类别标签。
此外,由于数据稀疏问题,一部分实体的上位词无法由上述字符串模式抽取出来。也可以采用基于词汇相似度的方法将这部分实体也扩展到知识库中。首先从互联网抽取实体列表,然后计算列表中实体与知识库中实体或类型的相似度,将相似的实体链接到相同的位置,从而实现对知识库的扩展。
本实施方式中的M的取值范围1-10;N的取值范围1-10;I的取值范围10-50;J的取值范围10-50;具体实施方式三:本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定,利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中;利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中,M、N、I、J均为正整数,如图2中实线流程所示。
本实施方式中的M的取值范围1-10;N的取值范围1-10;I的取值范围10-50;J的取值范围10-50。
具体实施方式四:本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界。
但由于训练语料在时间和领域范围上的局限性,训练得到的统计模型很可能无法完全满足实际需要,一些专业的领域术语、新出现的实体名将无法被识别出来。
随着维基百科(Wikipedia)、百度百科、互动百科等在线百科知识库的兴起,越来越多的高质量的词条被收录其中,涵盖了各行各业的专有名词、领域术语等,并且更新及时。抽取这些百科知识库的标题等结构化的信息,作为名词符合短语词典资源。而这些资源对于命名实体边界的识别是有帮助的,比如一些新出现的命名实体边界,未包含在训练语料中,而构成又比较特殊,利用百科知识库判断其边界。因此,将以百科知识库为指导,与统计模型结合进行命名实体边界的识别。结合时,可以将词典匹配作为预处理,生成特征融入模型中;也可以作为后处理,对统计模型识别的结果进行修正。具体实施方式五:本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征;
所述上下文特征为前后窗口为5的范围内的词;
所述词性特征为前后窗口为5的范围内的词的词性;
所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间;
所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内,所述动词不可以出现在实体内,所述动词不确定是否出现在实体内。
采用的特征包括词汇、词性和动词的依存句法关系等。引入动词依存句法关系特征的原因是在汉语中,这种现象更为明显。汉语没有词形变化,因此动词不需要向英语中进行名词化或形容词化变形,即可包含在实体中,实体内的动词和实体外作为谓语的动词在词形上没有任何区别。例如“尼日利亚驻华大使馆”中的“驻”、“中国建设银行”中的“建设”。因此,本文采用了引入动词依存关系特征这种策略,期望通过提高对动词的判定准确度,与基本方法结合,以提高识别实体的效果。
只引入动词依存关系,而不引入其他词性的依存关系,主要有以下两点考虑:1)汉语依存关系判别准确率80%左右,如果全部引入用来识别实体,那么势必带来较大的错误累积。2)动词与周围词语发生依存关系的情况更多,可以综合考虑与某个动词发生的所有关系以决定该动词是否属于实体内部。
具体实施方式六:本实施方式是对具体实施方式五所述的开放式实体及其类型识别方法的进一步限定,所述三维特征值空间的确定方法为:
统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例,计算所述动词出现在实体内部的可能性分值A:
A=valueRelIn(rel)+valueRelOut(rel)
其中valueRelIn表示指向所述某个动词的依存关系rel的分值,valueRelOut表示由所述某个动词发出的依存关系rel的分值;
表示指向动词的某个依存关系;count of
in NEs表示实体内部
出现的次数;count of
in NEs表示实体内部的任一指向动词的依存关系
出现的次数;count of
out NEs表示实体外部
出现的次数;count of
out NEs表示实体外部的任一指向动词的依存关系
出现的次数;
表示由动词发出的某个依存关系;count of
in NEs表示实体内部
出现的次数;count of
in NEs表示实体内部的动词发出的任一的依存关系
出现的次数;count of
out NEs表示实体外部
出现的次数;count of
out NEs表示实体外部动词发出的任一依存关系
出现的次数;
若所述可能性分值大于0,则表示所述动词可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值小于0,则表示所述动词不可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值等于0,则表示所述动词不确定是否出现在实体内部,对应映射到所述三维特征值空间内。
三维特征值空间的确定方法是根据动词依存关系所制定的一个投票策略。对于每一种关系,其投票所占分值不尽相同。例如动词依存于另一个词的关系为“ATT”,则它作为实体内部组成部分的置信度较高,因此所投票属于支持票(正分)且可能性分值绝对值较大,如“Root中国驻俄罗斯大使馆”中的动词“驻”;又如若动词依存于另一个词的关系是“HED”,则它为句子核心谓语的概率很大,而它成为实体内部组成部分的置信度则较低,因此所投票属于反对票(负分)且可能性分值绝对值较大,如“Root北约打击利比亚”中的动词“打击”。各种依存关系的权重可以通过统计训练语料计算获得。
具体实施方式七:本实施方式是对具体实施方式二或三所述的开放式实体及其类型识别方法的进一步限定,其特征在于,所述大规模生语料为纯文本形式。
所述纯文本可以是半结构化的网页或查询日志。
具体实施方式八:本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定,步骤四中所述模式的形式为N<SBV>:{v}[是]:?{n}<VOB>,其中N表示实体,?表示类型,<SBV>表示主谓关系句法信息,<VOB>表示动宾关系句法信息,{v}表示动词词性信息,{n}表示名词词性信息,:为词语分隔符。
这样的模式包含了词汇、词性以及句法信息。比如该模式可以从“Root银河系是地球和太阳所属的星系”中抽取出<银河系,星系>这样的上下位关系实例。
在利用这些种子从语料中抽取获得模式后,还需要对模式进行合并泛化和选择。利用种子<咖啡:饮料>,可以从“咖啡是一种著名的饮料”抽取模板:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[著名]{a}<DE>:[的]{u}<ATT>:?{n}<VOB>
可以从“咖啡是一种提神的饮料”抽取模式:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[提神]{v}<DE>:[的]{u}<ATT>:?{n}<VOB>
硬模式泛化能力较差,然后模式之间两两泛化得到软模式,比如:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:*:?{n}<VOB>
其中,*表示通配符。所述对模式进行合并泛化和选择的方法,为本领域技术人员常用方法,然后根据泛化的代价以及模式出现的频次对生成的软模式进行综合打分,根据分值选择高质量的模式进入下一轮迭代。当获取的实体数不再增加时,迭代停止。