CN103034693A - 开放式实体及其类型识别方法 - Google Patents

开放式实体及其类型识别方法 Download PDF

Info

Publication number
CN103034693A
CN103034693A CN2012105099936A CN201210509993A CN103034693A CN 103034693 A CN103034693 A CN 103034693A CN 2012105099936 A CN2012105099936 A CN 2012105099936A CN 201210509993 A CN201210509993 A CN 201210509993A CN 103034693 A CN103034693 A CN 103034693A
Authority
CN
China
Prior art keywords
entity
verb
type
pattern
dependence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105099936A
Other languages
English (en)
Other versions
CN103034693B (zh
Inventor
秦兵
付瑞吉
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Institute of artificial intelligence Co.,Ltd.
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201210509993.6A priority Critical patent/CN103034693B/zh
Publication of CN103034693A publication Critical patent/CN103034693A/zh
Application granted granted Critical
Publication of CN103034693B publication Critical patent/CN103034693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。

Description

开放式实体及其类型识别方法
技术领域
本发明涉及一种实体及其类型识别方法,特别涉及一种开放式实体及其类型识别方法。
背景技术
自然语言文本中的实体是承载信息的重要语言单位,实体的识别和分析在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。1995年MUC-6会议第一次引入了命名实体的概念,主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类,包括人名、地名、机构名、时间、日期、货币和数量等。从应用需求看,传统命名实体的类别是远远不够的。例如:产品名(如:诺基亚N97)、会议名(如:20国集团伦敦峰会)、疾病名(如:甲型H1N1流感)、赛事名(如:2010南非世界杯)等在商务、新闻、医药和体育领域都非常重要。虽然命名实体细分类方面已经有一些工作。自动内容抽取评测ACE-2007(Automatic Content Extraction)把实体分为七大类(Person,Location,Organization,Geo-Political Entity,Facility,Vehicle和Weapon)、45小类;Sekine and Nobata设计了4级共200个类别。但是不同应用需要不同命名实体分类体系,这些实体的类型更多、更细,而且有些实体类别是未知、或者是随时间演化的,不可能固定一种统一的分类体系。
开放式实体的抽取和类型识别可以扩展和细化传统的实体类型,具有更加广泛的应用价值。由于传统的命名实体类别已经不能满足实际应用的需要,于是人们开始研究传统命名实体之外的实体识别。一般采用弱指导的方法抽取获得实体知识库资源,然后利用这些资源识别对应的实体。
Ni等人基于Linked Open Data(LOD)对开放域的实体划分类别,利用了LOD资源库中已存在的实体类别信息对未知的实体进行开放分类。但对于中文缺少这样的LOD,因此本课题将基于大规模的互联网语料,采用弱指导的模式匹配的方法抽取实体的类别,并可以构建出类似于本文LOD的实体类别层次知识库。
Jain和Pennacchiotti介绍了一种基于模式匹配和聚类的方法从搜索引擎查询日志中抽取开放式实体。张慧城介绍了几种抽取互联网半结构化列表中实体的方法。但并非所有的实体都存在规范化的列表式网页,因此该方法并不能覆盖所有类型的实体。
Mikl′os等人提出了一种从互联网数据中抽取开放式实体描述定义的方法,但未对实体的类型进行识别。齐振宇等人从句子结构出发,通过分类器得到含有命名实体的碎片序列,抽取文本中的中文开放式命名实体。但该文献也没有对获得的命名实体的类型进行识别,仅划分了边界。
卡塞拉等人提供了与提供小组件有关的方法、计算机程序产品以及系统,所述小组件基于根据提取器所定义的模式提取的实体来生成内容。但需要用户参与抽取模式的设定,而本项目所使用的方法无需用户参与。
Evans提出了一种开放域英文命名实体识别的方法框架。首先选取首字母大写的词串作为命名实体候选;然后构建启发式的Query到搜索引擎中检索上位词;在对上位词聚类,并打上类别标签作为实体类别;再对实体候选进行分类,完成开放域命名实体的识别,但是中文无字母大写等信息。
所以目前采用弱指导方法的实体识别方法还存在上述一些缺陷。
发明内容
本发明的目的是为了解决目前采用弱指导方法的实体识别方法存在上述缺陷的问题,本发明提供一种开放式实体及其类型识别方法。
本发明的一种开放式实体及其类型识别方法,
步骤一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;
步骤二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;
步骤三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;
步骤四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。
本发明的优点在于,在边界识别时,利用训练语料资源的获取和统计模型形成方法以及特征的选取,命名实体知识库资源的获取及有效利用等;由于很难构建数量充足且类型完备的训练语料,本发明将结合开放域实体的特点,将重点研究弱指导的实体类型获取方法。此外,实体抽取和类型识别获得的结果可以按层次组织起来,形成实体语义知识库,即模式库。本发明实现对各种类型的实体的识别和分类,突破传统实体识别的局限性,并在此基础上构建一个大规模的实体类型层次的实例集,更好地为信息抽取、信息检索、机器翻译等上层应用提供支持。而本发明的方法面向整个互联网文本,覆盖范围更广。本发明将既进行边界划分,也进行类型识别。由于中文无字母大写等信息,所以本发明用机器学习的方法进行实体边界的识别,然后再采用步骤四模式匹配的方法识别其类别,并充分利用互联网信息的高冗余性保证准确率,并将构建实体层次知识库。
附图说明
图1为本发明所述的开放式实体及其类型识别方法的流程示意图。
图2为本发明所述的开放式实体及其类型识别方法中的基于模式匹配的方法进行实体的语义类抽取流程示意图。
图3为本发明所述的开放式实体及其类型识别方法中的一种知识库的结构示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式所述的开放式实体及其类型识别方法,
步骤一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;
步骤二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;
步骤三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;
步骤四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。
开放域实体和传统命名实体相比有以下两个特点:类型更多,且不限定。例如:包括药品名、产品名、电影名、书名、音乐名等等,很难由人工制定完备。类型更细,且有层次。例如:传统命名实体包括机构名,但在开放域实体中机构名还可能继续细分,比如分为政府机关、学校、企业、球队、军队等更细的子类别。
实体边界识别的训练语料可以使用人工标注,但耗时耗力。因此,本实施方式采用自动构建的方法,例如“Root可口可乐公司成立于1892年,总部设在美国乔亚洲亚特兰大。”中的“可口可乐”和“公司”这个依存对,它们之间的依存关系为修饰关系,方向由“公司”指向“可口可乐”,因此它表示“可口可乐”依存于“公司”。通过这样的依存关系等确定实体的边界,生成实体边界识别的训练语料。
由于依存树库中的依存关系完全采用人工标注,准确度比自动得到的依存关系要高很多。而依存关系对于实体边界确定具有很大的帮助,这也是本实施方式使用该依存树库自动构建训练语料最重要的动机。
在生成训练语料后,选取合适的统计机器学习方法,即条件随机域(Conditional RandomField)模型,和有效的特征,训练模型。
语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明:模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式主要研究开放式命名实体的类别的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。
本实施方式的步骤一中所述汉语依存关系树库选择哈尔滨工业大学社会计算与信息检索实验中心人工标注的6万句汉语依存关系树库(HIT-IR Dependency Treebank)。
具体实施方式二:结合图2说明本实施方式,本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为:
利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;
利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例<实体,类型>进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中,M、N、I、J均为正整数,如图2中的虚线流程。
实体类型的获取可以采用上位词抽取或者上下位关系抽取技术,属于语义类(semantic class)抽取的范畴。如:水果和苹果是一对上下位关系,水果是苹果的上位词(hypernym),苹果是水果的下位词(hyponym)。我们的任务就是抽取这样的上下位关系,构成知识库。
语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明:模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式的开放式实体的类型的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。
初始时,可以给定一些种子,也可以给定几个简单的模式(pattern),然后开始在大规模生语料上迭代挖掘,利用种子可以抽取出新的模式,利用模式可以抽取新的实例,选择高质量的实例作为新的种子,采用bootstrapping方法如此迭代下去,不断扩充实例集和模式库。
若迭代从种子集开始,则需要由人工来制定上下位关系种子,可以表示为二元组,例如:<苹果,水果>,<咖啡,饮料>,<蒙古族,名族>等等。若迭代从模式库开始,则需人工制定一些模式,利用模式从语料库中抽取实例,并根据实例出现的频次等信息选择高质量的实例作为种子,然后再利用种子抽取更多的模式。
得到的上下位关系实例可以连接到已有的知识体系下,构成知识库,即实例集,举例如图3所示。在实际应用中,即可利用知识库,结合上下文信息为文本中的命名实体打上类别标签。
此外,由于数据稀疏问题,一部分实体的上位词无法由上述字符串模式抽取出来。也可以采用基于词汇相似度的方法将这部分实体也扩展到知识库中。首先从互联网抽取实体列表,然后计算列表中实体与知识库中实体或类型的相似度,将相似的实体链接到相同的位置,从而实现对知识库的扩展。
本实施方式中的M的取值范围1-10;N的取值范围1-10;I的取值范围10-50;J的取值范围10-50;具体实施方式三:本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定,利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中;利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中,M、N、I、J均为正整数,如图2中实线流程所示。
本实施方式中的M的取值范围1-10;N的取值范围1-10;I的取值范围10-50;J的取值范围10-50。
具体实施方式四:本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界。
但由于训练语料在时间和领域范围上的局限性,训练得到的统计模型很可能无法完全满足实际需要,一些专业的领域术语、新出现的实体名将无法被识别出来。
随着维基百科(Wikipedia)、百度百科、互动百科等在线百科知识库的兴起,越来越多的高质量的词条被收录其中,涵盖了各行各业的专有名词、领域术语等,并且更新及时。抽取这些百科知识库的标题等结构化的信息,作为名词符合短语词典资源。而这些资源对于命名实体边界的识别是有帮助的,比如一些新出现的命名实体边界,未包含在训练语料中,而构成又比较特殊,利用百科知识库判断其边界。因此,将以百科知识库为指导,与统计模型结合进行命名实体边界的识别。结合时,可以将词典匹配作为预处理,生成特征融入模型中;也可以作为后处理,对统计模型识别的结果进行修正。具体实施方式五:本实施方式是对具体实施方式一所述的开放式实体及其类型识别方法的进一步限定,步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征;
所述上下文特征为前后窗口为5的范围内的词;
所述词性特征为前后窗口为5的范围内的词的词性;
所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间;
所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内,所述动词不可以出现在实体内,所述动词不确定是否出现在实体内。
采用的特征包括词汇、词性和动词的依存句法关系等。引入动词依存句法关系特征的原因是在汉语中,这种现象更为明显。汉语没有词形变化,因此动词不需要向英语中进行名词化或形容词化变形,即可包含在实体中,实体内的动词和实体外作为谓语的动词在词形上没有任何区别。例如“尼日利亚驻华大使馆”中的“驻”、“中国建设银行”中的“建设”。因此,本文采用了引入动词依存关系特征这种策略,期望通过提高对动词的判定准确度,与基本方法结合,以提高识别实体的效果。
只引入动词依存关系,而不引入其他词性的依存关系,主要有以下两点考虑:1)汉语依存关系判别准确率80%左右,如果全部引入用来识别实体,那么势必带来较大的错误累积。2)动词与周围词语发生依存关系的情况更多,可以综合考虑与某个动词发生的所有关系以决定该动词是否属于实体内部。
具体实施方式六:本实施方式是对具体实施方式五所述的开放式实体及其类型识别方法的进一步限定,所述三维特征值空间的确定方法为:
统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例,计算所述动词出现在实体内部的可能性分值A:
A=valueRelIn(rel)+valueRelOut(rel)
Figure BDA00002516955300062
其中valueRelIn表示指向所述某个动词的依存关系rel的分值,valueRelOut表示由所述某个动词发出的依存关系rel的分值;
Figure BDA00002516955300071
表示指向动词的某个依存关系;count of
Figure BDA00002516955300072
in NEs表示实体内部
Figure BDA00002516955300073
出现的次数;count ofin NEs表示实体内部的任一指向动词的依存关系
Figure BDA00002516955300075
出现的次数;count ofout NEs表示实体外部
Figure BDA00002516955300077
出现的次数;count of
Figure BDA00002516955300078
out NEs表示实体外部的任一指向动词的依存关系
Figure BDA00002516955300079
出现的次数;
Figure BDA000025169553000710
表示由动词发出的某个依存关系;count of
Figure BDA000025169553000711
in NEs表示实体内部
Figure BDA000025169553000712
出现的次数;count of
Figure BDA000025169553000713
in NEs表示实体内部的动词发出的任一的依存关系
Figure BDA000025169553000714
出现的次数;count of
Figure BDA000025169553000715
out NEs表示实体外部出现的次数;count ofout NEs表示实体外部动词发出的任一依存关系
Figure BDA000025169553000718
出现的次数;
若所述可能性分值大于0,则表示所述动词可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值小于0,则表示所述动词不可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值等于0,则表示所述动词不确定是否出现在实体内部,对应映射到所述三维特征值空间内。
三维特征值空间的确定方法是根据动词依存关系所制定的一个投票策略。对于每一种关系,其投票所占分值不尽相同。例如动词依存于另一个词的关系为“ATT”,则它作为实体内部组成部分的置信度较高,因此所投票属于支持票(正分)且可能性分值绝对值较大,如“Root中国驻俄罗斯大使馆”中的动词“驻”;又如若动词依存于另一个词的关系是“HED”,则它为句子核心谓语的概率很大,而它成为实体内部组成部分的置信度则较低,因此所投票属于反对票(负分)且可能性分值绝对值较大,如“Root北约打击利比亚”中的动词“打击”。各种依存关系的权重可以通过统计训练语料计算获得。
具体实施方式七:本实施方式是对具体实施方式二或三所述的开放式实体及其类型识别方法的进一步限定,其特征在于,所述大规模生语料为纯文本形式。
所述纯文本可以是半结构化的网页或查询日志。
具体实施方式八:本实施方式是对具体实施方式一或二所述的开放式实体及其类型识别方法的进一步限定,步骤四中所述模式的形式为N<SBV>:{v}[是]:?{n}<VOB>,其中N表示实体,?表示类型,<SBV>表示主谓关系句法信息,<VOB>表示动宾关系句法信息,{v}表示动词词性信息,{n}表示名词词性信息,:为词语分隔符。
这样的模式包含了词汇、词性以及句法信息。比如该模式可以从“Root银河系是地球和太阳所属的星系”中抽取出<银河系,星系>这样的上下位关系实例。
在利用这些种子从语料中抽取获得模式后,还需要对模式进行合并泛化和选择。利用种子<咖啡:饮料>,可以从“咖啡是一种著名的饮料”抽取模板:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[著名]{a}<DE>:[的]{u}<ATT>:?{n}<VOB>
可以从“咖啡是一种提神的饮料”抽取模式:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:[提神]{v}<DE>:[的]{u}<ATT>:?{n}<VOB>
硬模式泛化能力较差,然后模式之间两两泛化得到软模式,比如:
N<SBV>:[是]{v}<HED>:[一种]{Nm}<QUN>:*:?{n}<VOB>
其中,*表示通配符。所述对模式进行合并泛化和选择的方法,为本领域技术人员常用方法,然后根据泛化的代价以及模式出现的频次对生成的软模式进行综合打分,根据分值选择高质量的模式进入下一轮迭代。当获取的实体数不再增加时,迭代停止。

Claims (8)

1.开放式实体及其类型识别方法,其特征在于,它包括如下步骤:
步骤一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;
步骤二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;
步骤三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;
步骤四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。
2.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为:
利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;
利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例<实体,类型>进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中,M、N、I、J均为正整数。
3.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为:
利用模式库中的模式在大规模生语料中抽取出新的实例<实体,类型>,所述新的实例<实体,类型>中的实体为步骤二中所述实体,将所述新的实例<实体,类型>扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例<实体,类型>扩充到种子集中;利用种子集中的实例<实体,类型>在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中,M、N、I、J均为正整数。
4.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,所述步骤二为:利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界。
5.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征;
所述上下文特征为前后窗口为5的范围内的词;
所述词性特征为前后窗口为5的范围内的词的词性;
所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间;
所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内,所述动词不可以出现在实体内,所述动词不确定是否出现在实体内。
6.根据权利要求5所述的开放式实体及其类型识别方法,其特征在于,所述三维特征值空间的确定方法为:
统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例,计算所述动词出现在实体内部的可能性分值A:
A=valueRelIn(rel)+valueRelOut(rel)
Figure FDA00002516955200021
Figure FDA00002516955200022
其中valueRelIn表示指向所述某个动词的依存关系rel的分值,valueRelOut表示由所述某个动词发出的依存关系rel的分值;
Figure FDA00002516955200023
表示指向动词的某个依存关系;count of
Figure FDA00002516955200024
in NEs表示实体内部出现的次数;count of
Figure FDA00002516955200026
in NEs表示实体内部的任一指向动词的依存关系出现的次数;count of
Figure FDA00002516955200027
out NEs表示实体外部
Figure FDA00002516955200028
出现的次数;count of
Figure FDA00002516955200029
out NEs表示实体外部的任一指向动词的依存关系
Figure FDA000025169552000210
出现的次数;
Figure FDA000025169552000211
表示由动词发出的某个依存关系;count of
Figure FDA000025169552000212
in NEs表示实体内部
Figure FDA000025169552000213
出现的次数;count of
Figure FDA000025169552000214
in NEs表示实体内部的动词发出的任一的依存关系出现的次数;count of
Figure FDA000025169552000216
out NEs表示实体外部
Figure FDA000025169552000217
出现的次数;count of
Figure FDA000025169552000218
out NEs表示实体外部动词发出的任一依存关系
Figure FDA000025169552000219
出现的次数;
若所述可能性分值大于0,则表示所述动词可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值小于0,则表示所述动词不可以出现在实体内部,对应映射到所述三维特征值空间内;
若所述可能性分值等于0,则表示所述动词不确定是否出现在实体内部,对应映射到所述三维特征值空间内。
7.根据权利要求2或3所述的开放式实体及其类型识别方法,其特征在于,所述大规模生语料为纯文本形式。
8.根据权利要求1或2所述的开放式实体及其类型识别方法,其特征在于,步骤四中所述模式的形式为N<SBV>:{v}[是]:?{n}<VOB>,其中N表示实体,?表示类型,<SBV>表示主谓关系句法信息,<VOB>表示动宾关系句法信息,{v}表示动词词性信息,{n}表示名词词性信息,:为词语分隔符。
CN201210509993.6A 2012-12-03 2012-12-03 开放式实体及其类型识别方法 Active CN103034693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210509993.6A CN103034693B (zh) 2012-12-03 2012-12-03 开放式实体及其类型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210509993.6A CN103034693B (zh) 2012-12-03 2012-12-03 开放式实体及其类型识别方法

Publications (2)

Publication Number Publication Date
CN103034693A true CN103034693A (zh) 2013-04-10
CN103034693B CN103034693B (zh) 2016-03-02

Family

ID=48021588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210509993.6A Active CN103034693B (zh) 2012-12-03 2012-12-03 开放式实体及其类型识别方法

Country Status (1)

Country Link
CN (1) CN103034693B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105631025A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN106294875A (zh) * 2016-08-25 2017-01-04 中国国防科技信息中心 一种命名实体模糊检索方法与系统
CN106649819A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107885719A (zh) * 2017-09-20 2018-04-06 北京百度网讯科技有限公司 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN109190034A (zh) * 2018-08-23 2019-01-11 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN109783797A (zh) * 2018-12-11 2019-05-21 北京百度网讯科技有限公司 语义关系的抽取方法、装置、设备及存储介质
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
CN110245354A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种日程信息中抽取实体的方法
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CLAUDIO.ETC: "Relation extraction and the influence of automatic named-entity recognition", 《TRANSACTIONS ON SPEECH AND LANGUAGE PROCESSING(TDLP)》 *
尤昉等: "基于语义依存关系的汉语语料库的构建", 《中文信息学报》 *
陈宇等: "基于Deep Belief Nets的中文名实体关系抽取", 《软件学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104298651B (zh) * 2014-09-09 2017-02-22 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104615687B (zh) * 2015-01-22 2018-05-22 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN104636466B (zh) * 2015-02-11 2020-07-31 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105631025A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN105893485B (zh) * 2016-03-29 2019-02-12 浙江大学 一种基于图书目录的专题自动生成方法
CN106294875A (zh) * 2016-08-25 2017-01-04 中国国防科技信息中心 一种命名实体模糊检索方法与系统
CN106294875B (zh) * 2016-08-25 2019-05-17 中国国防科技信息中心 一种命名实体模糊检索方法与系统
CN106649819B (zh) * 2016-12-29 2021-04-02 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN106649819A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107885719B (zh) * 2017-09-20 2021-06-11 北京百度网讯科技有限公司 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN107885719A (zh) * 2017-09-20 2018-04-06 北京百度网讯科技有限公司 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN108304375B (zh) * 2017-11-13 2022-01-07 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN108920460B (zh) * 2018-06-26 2022-03-11 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN109190034A (zh) * 2018-08-23 2019-01-11 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN109190034B (zh) * 2018-08-23 2019-12-13 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN109783797A (zh) * 2018-12-11 2019-05-21 北京百度网讯科技有限公司 语义关系的抽取方法、装置、设备及存储介质
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
CN110245354A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种日程信息中抽取实体的方法
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112836062B (zh) * 2021-01-13 2022-05-13 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Also Published As

Publication number Publication date
CN103034693B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN103034693B (zh) 开放式实体及其类型识别方法
CN106919689B (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
Rizzo et al. Making Sense of Microposts (# Microposts2015) Named Entity rEcognition and Linking (NEEL) Challenge.
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
CN104050302B (zh) 一种基于图谱模型的话题探测系统
Gast et al. The areal factor in lexical typology
Hadni et al. A new and efficient stemming technique for Arabic Text Categorization
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
CN104123336B (zh) 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
Azizi et al. Detecting and analyzing topics of massive COVID-19 related tweets for various countries
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
Brdar et al. Separating (non-) figurative weeds from wheat
De Melo et al. Towards universal multilingual knowledge bases
Scheffler et al. Mapping German tweets to geographic regions
Paşca Acquisition of open-domain classes via intersective semantics
Lan Corpus
Loukachevitch et al. Entity linking over nested named entities for Russian
Fernández-Pena Reconciling synchrony, diachrony and usage in verb number agreement with complex collective subjects
Anstein Computational approaches to the comparison of regional variety corpora: prototyping a semi-automatic system for German
Zhan et al. Hyponymy extraction of domain ontology concept based on ccrfs and hierarchy clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210421

Address after: Room 206-10, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee after: Harbin jizuo technology partnership (L.P.)

Patentee after: Harbin Institute of Technology Asset Management Co.,Ltd.

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210618

Address after: Room 206-12, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee after: Harbin Institute of Technology Institute of artificial intelligence Co.,Ltd.

Address before: Room 206-10, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee before: Harbin jizuo technology partnership (L.P.)

Patentee before: Harbin Institute of Technology Asset Management Co.,Ltd.