一种人物关系抽取方法和装置
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种人物关系抽取方法和装置。
背景技术
随着互联网技术的发展,尤其是基于互联网的各种社交媒体的发展。目前针对社会关系网络的研究已逐渐成为当下的热点,各种互联网产品对人物间的关系信息的需求不断增加。尤其是构建社会关系网络时,人物之间的关系的抽取则成为其构建的首要基础。
人物关系抽取是一种重要的知识获取手段,是指从自然语言文本中提取出两个人物实体之间所存在的语义关系,如从句子“国务院总理李鹏和夫人朱琳昨天下午在这里亲切会见了某某”中,能够确定两个人物实体“李鹏”和“朱琳”,其中,“李鹏和夫人朱琳”为人物关系的基本模式,能够从两者之间抽取一对夫妻关系“Husband(丈夫)—Wife(妻子)”。
基于此,当面对越来越丰富的互联网资源,如何能够在面对海量文本资源时,抽取丰富的人物关系,并提高人物关系抽取的效率,是现有技术中亟待解决的问题。
发明内容
本申请公开了一种人物关系抽取方法和装置,以达到在海量文本资源中抽取丰富的人物关系,提高人物关系抽取效率的目的。
为解决上述技术问题,本申请公开了一种人物关系抽取方法,该方法包括:
确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
优选的,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,包括:
利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式;
其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组合。
优选的,所述在所述语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,包括:
确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系;
获取匹配满足所述泛化模式的人物关系所在的句子;
以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
优选的,所述在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名,包括:
在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;
若是,则标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
若否,则将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
优选的,所述将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名,包括:
基于位于基准句子的上一个句子判断所述待消解代词是否位于该句子中所包含的人名之后或是否该句子中只有人名;
如果是,则查找所述基准句子的上一个句子中的话题中心关键字,并将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名;
若否,则再向上查找位于基准句子上方的第二个句子中的话题中心关键字,若所述话题中心关键字为所述待消解代词所指代的人名,则将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
优选的,所述话题中心关键字的获取过程包括:
获取根据依存句法分析所述指代消解范围中保留的句子后得到的所述保留的句子内的相应的依存句法信息;
针对每一个句子中相应的依存句法信息中的依存关系类型查找所述每一个句子的语句成分,所述语句成分至少包括主语核心词语和宾语核心词语;
查找所述每一个句子中位于所述语句成分中的人名;
对所述每一个句子中的同一类型语句成分中的多个人名,按照距离依存根结点的词汇长短进行排序,确定所述距离最短的人名为所在句子的话题中心关键字;
其中,所述依存根结点的词汇为每一个句子中的目的词汇。
一种人物关系抽取装置,包括:
确定单元,用于确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
泛化单元,用于对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
模式匹配单元,用于在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
指代消解单元,用于在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
人物关系抽取单元,用于抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
优选的,所述泛化单元包括:
替换模块,用于利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式;
其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组合。
优选的,所述模式匹配单元包括:
第一确定模块,用于确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
匹配模块,用于按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系;
第二获取模块,用于获取匹配满足所述泛化模式的人物关系所在的句子;
第二确定模块,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
第三获取模块,用于对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
依存句法分析模块,用于根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
优选的,所述指代消解单元包括:
第三确定模块,用于在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
第二查找模块,用于查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
判断模块,用于在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;若是,则执行第一标记模块,若否,则执行第二标记模块;
第一标记模块,用于标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
第二标记模块,用于将依据在所述指代消解范围内查找到的话题中心所指代的人名标记为所述待消解代词所指向的第一人名。
经由上述的技术方案可知,与现有技术相比,本申请公开的一种人物关系抽取方法和装置,通过确定待抽取的人物关系的基本模式,对人物关系的基本模式进行人称代词的泛化得到泛化模式;在语料库中匹配满足泛化模式的人物关系;在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例一公开的一种人物关系抽取方法的流程图;
图2为本申请实施例二公开的一种人物关系抽取方法的部分流程图;
图3为本申请实施例二公开的一种人物关系抽取方法的部分流程图;
图4为本申请实施例二公开的一种人物关系抽取方法的部分流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的目的在于:通过采用泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过将模式匹配与指代消解技术相结合,使得在面对海量文本资源时,也可以抽取出基于单纯的模式匹配而无法捕获到的人物关系,从而提升人物关系抽取的性能和效率。本申请通过以下实施例进行详细的说明。
实施例一
如图1所示,本申请公开了一种从大规模文本中抽取人物关系的抽取方法,主要包括以下步骤:
步骤S101,确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
人们在语言表述中常常会运用大量的关系模式来描述人物之间的关系,传统的人物关系抽取方法基于的是基本模式对文本进行匹配,从而获得相应的人物关系。其中,现有的基本模式为描述人物之间社会关系的字符串模式,如“<Husband>的妻子<Wife>”、“<Husband>和夫人<Wife>”、“<Parent>的儿子<Child>”等,其中<…>内的为相应的关系角色。
如表示夫妻关系的基本模式“<Husband>的妻子<Wife>”。例如使用该基本模式对语料“飞行员王伟的妻子阮国琴,今天接受了记者的采访。”以及,“机分队助理工程师王义德的妻子佐茹说……”进行匹配,可获取两对表示夫妻关系的人物“王伟——阮国琴,”、“王义德——佐茹”。
如“袁家倜的儿子丁松对袁家骝印象最深的是他的敬业精神。”这一例句中包含有一对表示“Parent-Child”人物关系的短语“袁家倜的儿子丁松”,从中可以得到一个表示该人物关系的基本模式“<Parent>的儿子<Child>”,其中“的儿子”为模式关键词。类似的模式还有“<Husband>的妻子<Wife>”、“<Husband>和夫人<Wife>”、“<Parent>的女儿<Child>”等。
在步骤S101中提到的所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;基于上述基本模式的例子“<Husband>的妻子<Wife>”、“<Husband>和夫人<Wife>”,其中,“<Husband>的妻子<Wife>”、“<Husband>和夫人<Wife>”则都是表述为夫妻关系的字符串,同时,“<Wife>的丈夫<Husband>”也同样是属于表述为夫妻关系的字符串。因此,对于一个人物关系其对应的基本模式中可包含多种语义表述相同的字符串。
在执行步骤S101的过程中,由计算机或其他可进行分析的硬件读取待抽取的人物关系的基本模式。
步骤S102,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
例如,所述基本模式的人物关系为“<Husband>的妻子<Wife>”,基于此,对该人物关系中位于前端的人名进行人称代词的泛化,若人称代词为他,则具体得到泛化模式为“他的妻子<Wife>”,结合步骤S101中给出的基本模式中多种语义表述相同的字符串,该泛化模式根据不同的人称代词具有多种扩展模式。
该拓展模式为将基本模式中的首个人物使用人称代词进行替换后,泛化得到的模式,如“他的妻子<Wife>”、“他和夫人<Wife>”、“她的儿子<Son>”等。
步骤S103,在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
在步骤S103中,对文本的语料库中进行匹配,匹配到满足所述泛化模式的人物关系条件的句子,并将该句子本身,以及位于所述句子上方的两个句子所构成的范围确定为指代消解范围。
例如,在某一文本的语料库中进行匹配,得到满足所述泛化模式的人物关系“她的父亲<Father>”这一条件的所有句子;以一个满足条件的句子“德国名将史·格拉夫去监狱探望了她的父亲彼得·格拉夫。”为例,将该句子以及该句子上方的两个句子构成的语句范围确定为指代消解范围。其他满足条件的句子也采用该种方式确定指代消解范围。
步骤S104,在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
该步骤S104实际上是在确定的指代消解范围内执行指代消解。该指代消解为:将泛化模式中的人称代词替换为其所指代的人名。其中,如果要替换的人称代词指代的人名与该人称代词位于同一个句子内,且如果某个人名先于该人称代词,那么该句中的人称代词应指向本句内的某个人物,即其符合句内指代消解情况为句内消解;如果要替换的人称代词指代的人名未位于同一个句子中,则为句间消解。
基于例句“德国名将史·格拉夫去监狱探望了她的父亲彼得·格拉夫。”说明,其所述泛化模式中“她的父亲”的人称代词“她”所指向的第一人名为史·格拉夫。
在本步骤S104中的第一人名中的“第一”仅用于与其他非人称代词指代的人名进行区别。
步骤S105,抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
在步骤S105中,按照泛化后的模式抽取出待消解代词所指代的人名和位于泛化模式后端的人名,即构成人物关系实例。至此,已完成人物关系抽取的所有过程。基于上述例句“德国名将史·格拉夫去监狱探望了她的父亲彼得·格拉夫。”说明,抽取步骤S104确定的第一人名“史·格拉夫”,再抽取第一人名“史·格拉夫”对应的泛化模式的人物关系“她的父亲”后端的第二人名“彼得·格拉夫”,即得到第一人名“史·格拉夫”和第二人名“彼得·格拉夫”的人物关系为父女关系。
本申请实施例通过采用泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过将模式匹配与指代消解技术相结合,使得在面对海量文本资源时,可以抽取出基于单纯的模式匹配而无法捕获到的人物关系,从而提升人物关系抽取的性能和效率。
实施例二
在上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S102,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式的过程主要包括以下步骤:
步骤S201,利用人称代词替换所述人物关系中位于前端的人名,得到所述人物关系的泛化模式;
其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组合。
本申请使用了常见的单数人称代词进行泛化,其中包括“我、你、您、他、她、自己、它”等。如基本模式“<Parent>的儿子<Child>”,用人称代词进行泛化后,可以拓展为“我的儿子<Child>”、“你的儿子<Child>”、“他的儿子<Child>”等。
具体执行步骤S201的过程,举例说明。如,所述基本模式中的语义表述相同的多种字符串包括:“<Husband>的妻子<Wife>”、“<Husband>和夫人<Wife>”,基于此,利用人称代词“他”替换人物关系中位于前端的人名后,获得的扩展模式为“他的妻子<Wife>”,“他和妻子<Wife>”。
基于上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S103,所述在所述语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围的过程如图2所示,主要包括以下步骤:
步骤S301,确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
在步骤S301中提到的模式关键字的结构如“他的妻子<Wife>”。需要说明的是,若泛化模式中表述人物关系的字符串为“的朋友<Friend>”基于上述步骤201,根据人称代词的不同,该人物关系“的朋友<Friend>”的泛化模式可以为“她的朋友<Friend>”,“他的朋友<Friend>”等等。基于此例子,步骤S301中确定的所述泛化模式中的模式关键词则包括“她的朋友<Friend>”,“他的朋友<Friend>”。也就是说,根据步骤201中给出的人称代词的不同,此处基于一种人物关系即可得到多个模式关键词。
步骤S302,按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系,获取匹配满足所述泛化模式的人物关系所在的句子;
对文本的语料库中进行匹配,匹配到满足所述泛化模式的人物关系条件的句子。匹配句子是指使用泛化后的泛化模式在文本的语料库中进行字符串匹配。如使用泛化模式“她的父亲<Parent>”,匹配时使用模式关键词“她的父亲”可以匹配到句子“德国名将史·格拉夫去监狱探望了她的父亲彼得·格拉夫。”例如,在某一文本的语料库中进行匹配,得到满足所述泛化模式的人物关系“他的妻子<Wife>”这一条件的所有句子,可以匹配到句子“机分队助理工程师王义德的妻子佐茹”,“飞行员李伟的妻子阮琴”等等。
步骤S303,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
在步骤S303中,保留匹配得到的句子,将该句子作为基准句子,同时保留该句子上文中的两句(共3句)作为指代消解范围;为后续的指代消解做准备。
步骤S304,对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
在步骤S304中对保留的句子进行人物实体识别。如上述例句“德国名将史·格拉夫去监狱探望了她的父亲彼得·格拉夫。”经过人物实体识别后可以得到两个人名“史·格拉夫”和“彼得·格拉夫”。
步骤S305,根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。在步骤S305中,依存句法分析指对于给定的句子,确定词语之间的依存关系,以此来揭示句子的语法结构。对保留的句子进行依存句法分析,获得其内部相应的依存句法信息,为后续的指代消解做准备。
基于上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S104,所述在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名的过程为对人称代词的指代消解过程,即确定它所指向的人物名称,需要联系上下文环境,考虑语言的连贯性问题。在代词消解范围的选择上,本申请的选取策略基于语言表达中的一个事实:先行语与指示语的距离往往不会很远,否则会引起理解困难。因而针对某一个代词的消解,本申请取其所在句子作为基准句子,结合其上文中的2句(如果存在),共3句作为该代词的消解范围,且三句分别标识为A1、A2和A3(基准句子)。在指代消解过程中,人称代词作为照应语,人名作为先行语。在消解范围,照应语之前的所有人名都是其潜在的先行语。本申请的指代消解过程就是寻找代词指代的实际人物名称的过程,具体如图3所示,包括以下步骤:
步骤S401,在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
本申请中的待消解代词为在模式匹配阶段所得到的拓展模式中的人称代词,而对文本中可能出现的其他代词,本申请未做消解处理。
步骤S402,查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
在一个句子中,与待消解代词具有相同“表述形式”的代词,认为与待消解代词指向同一人物,它们可以形成一条代词链。例如以下指代消解范围内的片段:
A、“(记者朱克川)韩国现代集团名誉董事长郑周永今天离开韩国前往朝鲜,开始他为期8天的回乡访问。”
B、“今天上午10点,郑周永在{他}的弟弟郑顺永、郑世永、郑相永和[他]的儿子郑 梦九、郑梦宪等亲属的陪同下,经过板门店进入朝鲜境内。”
其中,A和B是一个指代消解范围内的待消解片段。方括号“[]”内的代词是待消解代词;下划线所标识的人名为代词的候选先行语。B句中的两个代词“他”(另一个用“{}”括起来),均应表示同一人物,故这两个代词可以形成一条代词链。
步骤S403,在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中,若是,则执行步骤S404,若否,则执行步骤S405;
步骤S404,标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
步骤S405,将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
执行步骤S403至步骤S405中,代词的指代消解一般可以分为句内消解和句间消解两种方法。如果所述待消解代词指代的人名与所述待消解代词位于同一个句子内,则为句内消解;如果所述待消解代词指代的人名未位于同一个句子中,则为句间消解。
如以下例句:
C、“他们约定了去北京的时间、地点,并由王进东统一购买火车票。”
D、“1月16日,郝惠君、刘云芳、刘葆荣在王进东的安排下,一同登上了开往北京的火车。”
E、“同去的还有12岁的小学生刘思影和[她]的母亲刘春玲。”
F、“朱利亚尼担任纽约市长期间,曾主持过200多场婚礼,他自己的婚礼,由现任市长彭博主持。”
G、“朱利亚尼的男傧相是他的儿子安德鲁(17岁)。”
H、“[他]的女儿卡罗琳(13岁)和朱迪思的小女儿惠特尼也出席婚礼。”
其中,C、D和E是一组确定的指代消解范围,F、G和H是另一组确定的指代消解范围。从例句中可以发现,E中的“她”指代句内人物“刘思影”,其适合于句内消解方式;H中的“他”则指代上文中的人物“朱利亚尼”,其适合于句间消解方式。
需要说明的是,针对某一个代词的消解,本申请取其所在句子作为基准句子,结合其上文中的2句(如果存在),共3句作为该代词的消解范围,且三句分别标识为A1、A2和A3(基准句子)。在一个含有待消解代词的句子A3中,本申请依据以下原则对该代词的消解方式进行判断:
(1)如果某个人名先于待消解代词,那么该句中的待消解代词应指向本句内的某个人物,即其符合句内指代消解情况;
(2)如果某个待消解代词先于人名出现,那么该句中的待消解代词应指向前一句中的某个人物,即其符合句间指代消解情况。
在步骤S405中,话题中心指一个句子中的话题人物,句子主要围绕话题人物展开。
基于上述例子,
如果消解方式是句内指代消解,则选取距离待消解代词所在代词链最近的人名作为其指代对象,并结束消解过程。如B中的代词链含有2个代词“他”,最近人名为“郑周永”;E中的代词链只有1个代词“她”,最近人名为“刘思影”。
当待消解代词适合于句间指代消解时,待消解代词往往指向其他句子的话题中心关键字。即将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名的具体过程如图4所示,主要包括以下步骤:
步骤S501,基于位于基准句子上一个句子判断所述待消解代词是否位于该句子中所包含的人名之后或是否该句子中只有人名,如果是,则执行步骤S502,如果否,则执行步骤S503。
步骤S502,查找所述基准句子的上一个句子(也就是该句子中)中的话题中心关键字,判断所述话题中心关键字是否为所述待消解代词所指代的人名,若是,则执行步骤S504,若否,则执行步骤S503;
步骤S503,再向上查找位于所述基准句子上方的第二个句子中的话题中心关键字,判断所述话题中心关键字是否为所述待消解代词所指代的人名,若是,则执行步骤S504,若否,则消解失败。
步骤S504,将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
以上述标识为A1、A2和A3的句子为例:
在确定待消解代词位于作为基准句子A3的上一个句子A2上,且所述待消解代词位于所述后一个句子A2中所包含的人名之后,执行步骤S502,查找句子A2。判定A2的话题中心关键字。如果A2的话题中心关键字在其内部,则该话题中心关键字即为待消解代词所指代的人物;否则,A2句的话题中心关键字应与A1句的话题中心关键字保持一致,转入执行步骤S503。查找A1句,判定A1的话题中心关键字。如果A1的话题中心关键字在其内部,则该话题中心关键字即为待消解代词所指代的人物;否则,认为在3句的消解范围内,指代消解失败,待消解代词无法消解。
在判定一个句子的话题中心关键字时,本申请采用如下方法:
步骤S601,获取根据依存句法分析所述指代消解范围中保留的句子后得到的所述保留的句子内的相应的依存句法信息;
在步骤S601中,得到利用依存句法分析结果对句子内包含主宾语成分的相应的依存句法信息。
步骤S602,针对每一个句子中相应的依存句法信息中的依存关系类型查找所述每一个句子的语句成分,所述语句成分至少包括主语核心词语和宾语核心词语;
在步骤S602中,通过依存关系类型“nsubj”找到主语核心词语,同样,通过类型“dobj”找到宾语核心词语等;
其中,依存关系类型如下表1所示:
缩写 |
中文注释 |
nn |
复合名词 |
punct |
标点 |
nsubj |
名词词性主题 |
conj |
和 |
dobj |
直接对象 |
advmod |
状语修饰 |
prep |
介词短语修饰 |
pobj |
介词宾语 |
neg |
负面修饰 |
comod |
动词复合 |
amod |
形容词修饰 |
步骤S603,查找所述每一个句子中位于所述语句成分中的人名;
通过依存关系类型即可以找到句子中的主语和宾语,不在主语和宾语内的人名则认为充当其他成分。在优先级方面主语>宾语>其他。
步骤S604,对所述每一个句子中的同一类型语句成分中的多个人名,按照距离依存根结点的词汇长短以及中文语法角色进行排序,确定所述距离最短的人名,即突显度最高的人名为所在句子的话题中心关键字;其中,所述依存根结点(ROOT)的词汇为每一个句子中的目的词汇。
如给出了例句“江泽民总书记会见李政道夫妇”的依存句法分析结果为:
nn(总书记-2,江泽民-1);
nsubj(会见-3,总书记-2);
root(ROOT-0,会见-3);
nn(夫妇-5,李政道-4);
dobj(会见-3,夫妇-5)。
通过依存句法分析可以发现句子中的主语核心词汇是“总书记”,宾语核心词汇是“夫妇”。同样可以发现人名“江泽民”与名词“总书记”间存在偏正结构“nn”,它们在一起形成名词性短语“江泽民总书记”,充当句子的主语成分;人名“李政道”与名词“夫妇”之间存在偏正结构“nn”,它们在一起形成名词性短语“李政道夫妇”,充当句子的宾语成分,因此人名突显度“江泽民>李政道”。
需要说明的是,如果人名先于待消解代词出现,那么该句的话题中心关键字应是本句所有人名中突显度最高的人名,即距离依存根结点的词汇最短的人名。如果待消解代词先于人名出现,那么该句的话题中心关键字应是前一句所有人名中突显度最高的人名,同样为距离依存根结点的词汇最短的人名。如果既没有人名,也没有待消解代词,则该句的话题中心关键字与上句保持一致。
本申请上述实施例二公开了人物关系抽取方法中具体涉及到的原理以及方法方式,通过该方法,通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
实施例三
基于上述本申请实施例一至实施例二中所公开的人物关系抽取方法,对应的本申请实施例还对应公开了一种人物关系抽取装置,其具体执行上述各个实施例公开的方法,执行过程中针对方法的说明也适用于对该人物关系抽取装置的说明。
本申请所公开的人物关系抽取装置主要包括:确定单元,泛化单元,模式匹配单元,指代消解单元和人物关系抽取单元。
优选的,确定单元,用于确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
泛化单元,用于对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
模式匹配单元,用于在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
指代消解单元,用于在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
人物关系抽取单元,用于抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
基于上述公开的人物关系抽取装置,其中所述泛化单元,优选的包括:
替换模块,用于利用人称代词替换所述人物关系中位于前端的人名,得到所述人物关系的泛化模式;
上述用于替换的人称代词主要为单数人称代词,包括:你,我,她,他,它中的任意一种或任意组合。
基于上述公开的人物关系抽取装置,其中所述模式匹配单元,优选的包括:
第一确定模块,用于确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
匹配模块,用于按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系;
第二获取模块,用于获取匹配满足所述泛化模式的人物关系所在的句子;
第二确定模块,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
第三获取模块,用于对保留的句子进行人物实体识别,得到位于所述泛化模式的人物关系前的第一人名,以及所述泛化模式的人物关系后的第二人名;
依存句法分析模块,用于根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
基于上述公开的人物关系抽取装置,其中所述指代消解单元,优选的包括:
第三确定模块,用于在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
第二查找模块,用于查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
判断模块,用于在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;若是,则执行第一标记模块,若否,则执行第二标记模块;
第一标记模块,用于标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
第二标记模块,用于将依据在所述指代消解范围内查找到的话题中心所指代的人名标记为所述待消解代词所指向的第一人名。
综上所述,本申请公开的一种人物关系抽取方法和装置,通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,不仅限于基本模式的人物关系的抽取,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。