CN103034693A

CN103034693A - 开放式实体及其类型识别方法

Info

Publication number: CN103034693A
Application number: CN2012105099936A
Authority: CN
Inventors: 秦兵; 付瑞吉; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology Institute of artificial intelligence Co.,Ltd.
Priority date: 2012-12-03
Filing date: 2012-12-03
Publication date: 2013-04-10
Anticipated expiration: 2032-12-03
Also published as: CN103034693B

Abstract

开放式实体及其类型识别方法，涉及一种实体及其类型识别方法，为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括：一：通过依存句法关系信息和汉语依存关系树库，自动构建训练语料；二：利用训练语料的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界；三：查询实例集中是否存在步骤二中所述实体，若存在，输出所述实体及对应的类型，结束；若不存在，则转入步骤四；四：基于模式匹配的方法进行实体的语义类抽取，扩充实例集，转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。

Description

开放式实体及其类型识别方法

技术领域

本发明涉及一种实体及其类型识别方法，特别涉及一种开放式实体及其类型识别方法。

背景技术

自然语言文本中的实体是承载信息的重要语言单位，实体的识别和分析在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。1995年MUC-6会议第一次引入了命名实体的概念，主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类，包括人名、地名、机构名、时间、日期、货币和数量等。从应用需求看，传统命名实体的类别是远远不够的。例如：产品名(如：诺基亚N97)、会议名(如：20国集团伦敦峰会)、疾病名(如：甲型H1N1流感)、赛事名(如：2010南非世界杯)等在商务、新闻、医药和体育领域都非常重要。虽然命名实体细分类方面已经有一些工作。自动内容抽取评测ACE-2007(Automatic Content Extraction)把实体分为七大类(Person，Location，Organization，Geo-Political Entity，Facility，Vehicle和Weapon)、45小类；Sekine and Nobata设计了4级共200个类别。但是不同应用需要不同命名实体分类体系，这些实体的类型更多、更细，而且有些实体类别是未知、或者是随时间演化的，不可能固定一种统一的分类体系。

开放式实体的抽取和类型识别可以扩展和细化传统的实体类型，具有更加广泛的应用价值。由于传统的命名实体类别已经不能满足实际应用的需要，于是人们开始研究传统命名实体之外的实体识别。一般采用弱指导的方法抽取获得实体知识库资源，然后利用这些资源识别对应的实体。

Ni等人基于Linked Open Data(LOD)对开放域的实体划分类别，利用了LOD资源库中已存在的实体类别信息对未知的实体进行开放分类。但对于中文缺少这样的LOD，因此本课题将基于大规模的互联网语料，采用弱指导的模式匹配的方法抽取实体的类别，并可以构建出类似于本文LOD的实体类别层次知识库。

Jain和Pennacchiotti介绍了一种基于模式匹配和聚类的方法从搜索引擎查询日志中抽取开放式实体。张慧城介绍了几种抽取互联网半结构化列表中实体的方法。但并非所有的实体都存在规范化的列表式网页，因此该方法并不能覆盖所有类型的实体。

Mikl′os等人提出了一种从互联网数据中抽取开放式实体描述定义的方法，但未对实体的类型进行识别。齐振宇等人从句子结构出发，通过分类器得到含有命名实体的碎片序列，抽取文本中的中文开放式命名实体。但该文献也没有对获得的命名实体的类型进行识别，仅划分了边界。

卡塞拉等人提供了与提供小组件有关的方法、计算机程序产品以及系统，所述小组件基于根据提取器所定义的模式提取的实体来生成内容。但需要用户参与抽取模式的设定，而本项目所使用的方法无需用户参与。

Evans提出了一种开放域英文命名实体识别的方法框架。首先选取首字母大写的词串作为命名实体候选；然后构建启发式的Query到搜索引擎中检索上位词；在对上位词聚类，并打上类别标签作为实体类别；再对实体候选进行分类，完成开放域命名实体的识别，但是中文无字母大写等信息。

所以目前采用弱指导方法的实体识别方法还存在上述一些缺陷。

发明内容

本发明的目的是为了解决目前采用弱指导方法的实体识别方法存在上述缺陷的问题，本发明提供一种开放式实体及其类型识别方法。

本发明的一种开放式实体及其类型识别方法，

步骤一：通过依存句法关系信息和汉语依存关系树库，自动构建训练语料；

步骤二：利用训练语料的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界；

步骤三：查询实例集中是否存在步骤二中所述实体，若存在，输出所述实体及对应的类型，结束；若不存在，则转入步骤四；

步骤四：基于模式匹配的方法进行实体的语义类抽取，扩充实例集，转入步骤三。

本发明的优点在于，在边界识别时，利用训练语料资源的获取和统计模型形成方法以及特征的选取，命名实体知识库资源的获取及有效利用等；由于很难构建数量充足且类型完备的训练语料，本发明将结合开放域实体的特点，将重点研究弱指导的实体类型获取方法。此外，实体抽取和类型识别获得的结果可以按层次组织起来，形成实体语义知识库，即模式库。本发明实现对各种类型的实体的识别和分类，突破传统实体识别的局限性，并在此基础上构建一个大规模的实体类型层次的实例集，更好地为信息抽取、信息检索、机器翻译等上层应用提供支持。而本发明的方法面向整个互联网文本，覆盖范围更广。本发明将既进行边界划分，也进行类型识别。由于中文无字母大写等信息，所以本发明用机器学习的方法进行实体边界的识别，然后再采用步骤四模式匹配的方法识别其类别，并充分利用互联网信息的高冗余性保证准确率，并将构建实体层次知识库。

附图说明

图1为本发明所述的开放式实体及其类型识别方法的流程示意图。

图2为本发明所述的开放式实体及其类型识别方法中的基于模式匹配的方法进行实体的语义类抽取流程示意图。

图3为本发明所述的开放式实体及其类型识别方法中的一种知识库的结构示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式所述的开放式实体及其类型识别方法，

开放域实体和传统命名实体相比有以下两个特点：类型更多，且不限定。例如：包括药品名、产品名、电影名、书名、音乐名等等，很难由人工制定完备。类型更细，且有层次。例如：传统命名实体包括机构名，但在开放域实体中机构名还可能继续细分，比如分为政府机关、学校、企业、球队、军队等更细的子类别。

实体边界识别的训练语料可以使用人工标注，但耗时耗力。因此，本实施方式采用自动构建的方法，例如“Root可口可乐公司成立于1892年，总部设在美国乔亚洲亚特兰大。”中的“可口可乐”和“公司”这个依存对，它们之间的依存关系为修饰关系，方向由“公司”指向“可口可乐”，因此它表示“可口可乐”依存于“公司”。通过这样的依存关系等确定实体的边界，生成实体边界识别的训练语料。

由于依存树库中的依存关系完全采用人工标注，准确度比自动得到的依存关系要高很多。而依存关系对于实体边界确定具有很大的帮助，这也是本实施方式使用该依存树库自动构建训练语料最重要的动机。

在生成训练语料后，选取合适的统计机器学习方法，即条件随机域(Conditional RandomField)模型，和有效的特征，训练模型。

语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明：模式匹配方法更适合专有名词类语义类的抽取；分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式主要研究开放式命名实体的类别的抽取，即抽取命名实体的上位词，更适合使用模式匹配的方法。

本实施方式的步骤一中所述汉语依存关系树库选择哈尔滨工业大学社会计算与信息检索实验中心人工标注的6万句汉语依存关系树库(HIT-IR Dependency Treebank)。

具体实施方式二：结合图2说明本实施方式，本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定，步骤四中的基于模式匹配的方法进行实体的语义类抽取，扩充实例集的方法为：

利用种子集中的实例<实体，类型>在大规模生语料中抽取出模式，对所述模式进行过滤，选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中；

利用模式库中的模式在大规模生语料中抽取出新的实例<实体，类型>，所述新的实例<实体，类型>中的实体为步骤二中所述实体，将所述新的实例<实体，类型>扩充到实例集中，然后对所述实例集中的实例<实体，类型>进行过滤，选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体，类型>扩充到种子集中，M、N、I、J均为正整数，如图2中的虚线流程。

实体类型的获取可以采用上位词抽取或者上下位关系抽取技术，属于语义类(semantic class)抽取的范畴。如：水果和苹果是一对上下位关系，水果是苹果的上位词(hypernym)，苹果是水果的下位词(hyponym)。我们的任务就是抽取这样的上下位关系，构成知识库。

语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明：模式匹配方法更适合专有名词类语义类的抽取；分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式的开放式实体的类型的抽取，即抽取命名实体的上位词，更适合使用模式匹配的方法。

初始时，可以给定一些种子，也可以给定几个简单的模式(pattern)，然后开始在大规模生语料上迭代挖掘，利用种子可以抽取出新的模式，利用模式可以抽取新的实例，选择高质量的实例作为新的种子，采用bootstrapping方法如此迭代下去，不断扩充实例集和模式库。

若迭代从种子集开始，则需要由人工来制定上下位关系种子，可以表示为二元组，例如：<苹果，水果>，<咖啡，饮料>，<蒙古族，名族>等等。若迭代从模式库开始，则需人工制定一些模式，利用模式从语料库中抽取实例，并根据实例出现的频次等信息选择高质量的实例作为种子，然后再利用种子抽取更多的模式。

得到的上下位关系实例可以连接到已有的知识体系下，构成知识库，即实例集，举例如图3所示。在实际应用中，即可利用知识库，结合上下文信息为文本中的命名实体打上类别标签。

此外，由于数据稀疏问题，一部分实体的上位词无法由上述字符串模式抽取出来。也可以采用基于词汇相似度的方法将这部分实体也扩展到知识库中。首先从互联网抽取实体列表，然后计算列表中实体与知识库中实体或类型的相似度，将相似的实体链接到相同的位置，从而实现对知识库的扩展。

本实施方式中的M的取值范围1-10；N的取值范围1-10；I的取值范围10-50；J的取值范围10-50；具体实施方式三：本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定，利用模式库中的模式在大规模生语料中抽取出新的实例<实体，类型>，所述新的实例<实体，类型>中的实体为步骤二中所述实体，将所述新的实例<实体，类型>扩充到实例集中，然后对所述实例集中的实例进行过滤，选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体，类型>扩充到种子集中；利用种子集中的实例<实体，类型>在大规模生语料中抽取出模式，对所述模式进行过滤，选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中，M、N、I、J均为正整数，如图2中实线流程所示。

本实施方式中的M的取值范围1-10；N的取值范围1-10；I的取值范围10-50；J的取值范围10-50。

具体实施方式四：本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定，利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界。

但由于训练语料在时间和领域范围上的局限性，训练得到的统计模型很可能无法完全满足实际需要，一些专业的领域术语、新出现的实体名将无法被识别出来。

随着维基百科(Wikipedia)、百度百科、互动百科等在线百科知识库的兴起，越来越多的高质量的词条被收录其中，涵盖了各行各业的专有名词、领域术语等，并且更新及时。抽取这些百科知识库的标题等结构化的信息，作为名词符合短语词典资源。而这些资源对于命名实体边界的识别是有帮助的，比如一些新出现的命名实体边界，未包含在训练语料中，而构成又比较特殊，利用百科知识库判断其边界。因此，将以百科知识库为指导，与统计模型结合进行命名实体边界的识别。结合时，可以将词典匹配作为预处理，生成特征融入模型中；也可以作为后处理，对统计模型识别的结果进行修正。具体实施方式五：本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定，步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征；

所述上下文特征为前后窗口为5的范围内的词；

所述词性特征为前后窗口为5的范围内的词的词性；

所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间；

所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内，所述动词不可以出现在实体内，所述动词不确定是否出现在实体内。

采用的特征包括词汇、词性和动词的依存句法关系等。引入动词依存句法关系特征的原因是在汉语中，这种现象更为明显。汉语没有词形变化，因此动词不需要向英语中进行名词化或形容词化变形，即可包含在实体中，实体内的动词和实体外作为谓语的动词在词形上没有任何区别。例如“尼日利亚驻华大使馆”中的“驻”、“中国建设银行”中的“建设”。因此，本文采用了引入动词依存关系特征这种策略，期望通过提高对动词的判定准确度，与基本方法结合，以提高识别实体的效果。

只引入动词依存关系，而不引入其他词性的依存关系，主要有以下两点考虑：1)汉语依存关系判别准确率80％左右，如果全部引入用来识别实体，那么势必带来较大的错误累积。2)动词与周围词语发生依存关系的情况更多，可以综合考虑与某个动词发生的所有关系以决定该动词是否属于实体内部。

具体实施方式六：本实施方式是对具体实施方式五所述的开放式实体及其类型识别方法的进一步限定，所述三维特征值空间的确定方法为：

统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例，计算所述动词出现在实体内部的可能性分值A：

A＝valueRelIn(rel)+valueRelOut(rel)

其中valueRelIn表示指向所述某个动词的依存关系rel的分值，valueRelOut表示由所述某个动词发出的依存关系rel的分值；

表示指向动词的某个依存关系；count of

in NEs表示实体内部

出现的次数；count ofin NEs表示实体内部的任一指向动词的依存关系

出现的次数；count ofout NEs表示实体外部

出现的次数；count of

out NEs表示实体外部的任一指向动词的依存关系

出现的次数；

表示由动词发出的某个依存关系；count of

in NEs表示实体内部

出现的次数；count of

in NEs表示实体内部的动词发出的任一的依存关系

出现的次数；count of

out NEs表示实体外部出现的次数；count ofout NEs表示实体外部动词发出的任一依存关系

出现的次数；

若所述可能性分值大于0，则表示所述动词可以出现在实体内部，对应映射到所述三维特征值空间内；

若所述可能性分值小于0，则表示所述动词不可以出现在实体内部，对应映射到所述三维特征值空间内；

若所述可能性分值等于0，则表示所述动词不确定是否出现在实体内部，对应映射到所述三维特征值空间内。

三维特征值空间的确定方法是根据动词依存关系所制定的一个投票策略。对于每一种关系，其投票所占分值不尽相同。例如动词依存于另一个词的关系为“ATT”，则它作为实体内部组成部分的置信度较高，因此所投票属于支持票(正分)且可能性分值绝对值较大，如“Root中国驻俄罗斯大使馆”中的动词“驻”；又如若动词依存于另一个词的关系是“HED”，则它为句子核心谓语的概率很大，而它成为实体内部组成部分的置信度则较低，因此所投票属于反对票(负分)且可能性分值绝对值较大，如“Root北约打击利比亚”中的动词“打击”。各种依存关系的权重可以通过统计训练语料计算获得。

具体实施方式七：本实施方式是对具体实施方式二或三所述的开放式实体及其类型识别方法的进一步限定，其特征在于，所述大规模生语料为纯文本形式。

所述纯文本可以是半结构化的网页或查询日志。

具体实施方式八：本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定，步骤四中所述模式的形式为N<SBV>:{v}[是]:？{n}<VOB>，其中N表示实体，？表示类型，<SBV>表示主谓关系句法信息，<VOB>表示动宾关系句法信息，{v}表示动词词性信息，{n}表示名词词性信息，:为词语分隔符。

这样的模式包含了词汇、词性以及句法信息。比如该模式可以从“Root银河系是地球和太阳所属的星系”中抽取出<银河系，星系>这样的上下位关系实例。

在利用这些种子从语料中抽取获得模式后，还需要对模式进行合并泛化和选择。利用种子<咖啡:饮料>，可以从“咖啡是一种著名的饮料”抽取模板：

N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[著名]{a}<DE>:[的]{u}<ATT>:？{n}<VOB>

可以从“咖啡是一种提神的饮料”抽取模式：

N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[提神]{v}<DE>:[的]{u}<ATT>:？{n}<VOB>

硬模式泛化能力较差，然后模式之间两两泛化得到软模式，比如：

N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:*:？{n}<VOB>

其中，*表示通配符。所述对模式进行合并泛化和选择的方法，为本领域技术人员常用方法，然后根据泛化的代价以及模式出现的频次对生成的软模式进行综合打分，根据分值选择高质量的模式进入下一轮迭代。当获取的实体数不再增加时，迭代停止。

Claims

1.开放式实体及其类型识别方法，其特征在于，它包括如下步骤：

2.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，步骤四中的基于模式匹配的方法进行实体的语义类抽取，扩充实例集的方法为：

利用模式库中的模式在大规模生语料中抽取出新的实例<实体，类型>，所述新的实例<实体，类型>中的实体为步骤二中所述实体，将所述新的实例<实体，类型>扩充到实例集中，然后对所述实例集中的实例<实体，类型>进行过滤，选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体，类型>扩充到种子集中，M、N、I、J均为正整数。

3.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，步骤四中的基于模式匹配的方法进行实体的语义类抽取，扩充实例集的方法为：

利用模式库中的模式在大规模生语料中抽取出新的实例<实体，类型>，所述新的实例<实体，类型>中的实体为步骤二中所述实体，将所述新的实例<实体，类型>扩充到实例集中，然后对所述实例集中的实例进行过滤，选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体，类型>扩充到种子集中；利用种子集中的实例<实体，类型>在大规模生语料中抽取出模式，对所述模式进行过滤，选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中，M、N、I、J均为正整数。

4.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，所述步骤二为：利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界。

5.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征；

所述上下文特征为前后窗口为5的范围内的词；

所述词性特征为前后窗口为5的范围内的词的词性；

6.根据权利要求5所述的开放式实体及其类型识别方法，其特征在于，所述三维特征值空间的确定方法为：

A＝valueRelIn(rel)+valueRelOut(rel)