CN108763195A

CN108763195A - 一种基于依存句法和模式规则的非限定型关系挖掘方法

Info

Publication number: CN108763195A
Application number: CN201810410033.1A
Authority: CN
Inventors: 金勇�; 吴兵
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-11-06
Anticipated expiration: 2038-05-02
Also published as: CN108763195B

Abstract

本发明公开了一种基于依存句法和模式规则的非限定型关系挖掘方法，包括以下步骤：步骤一、分词和词性标注；步骤二、实体识别；步骤三、依存句法分析；步骤四、实体关系挖掘；步骤五、关系挖掘综合结果；本发明能够实现大规模非结构化或半结构化文本的语义信息提取，实现实体关系的自动抽取，有效的从大量文本中挖掘实体关系信息，从而提升业务应用价值。

Description

一种基于依存句法和模式规则的非限定型关系挖掘方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种基于依存句法和模式规则的非限定型关系挖掘方法。

背景技术

随着互联网及大数据技术的发展，用户数量越来越多，网络上充斥着各种各样的信息。一方面，海量的信息必然蕴含丰富的有效信息，其中实体关系就是一种非常有价值的信息。如网络信息中出现的人物与某机构之间的关系等。另一方面，信息量和信息种类的飞速暴涨也引起了关系种类的演变，传统的监督性关系抽取方法显得相对狭窄(监督性关系抽取一般需要事先确定信息中存在哪些实体关系，同时需要大量的人工标注的关系语料)，无法涵盖所有的关系种类。而目前有一种开放型的自举方式的关系挖掘方法，主要在词的基础上通过正则表达式进行关系挖掘，但是人工提前建立大量的正则表达式或者规则集，尽可能覆盖更多文本类型。

基于此，针对上述现状中存在的问题，本发明提出一种能够实现大规模非结构化或半结构化文本的语义信息提取的非限定型的关系抽取方法，实现实体关系的自动抽取，有效的从大量文本中挖掘实体关系信息，从而提升业务应用价值。

发明内容

为了解决上述现有技术的问题，本发明提供一种能够实现大规模非结构化或半结构化文本的语义信息提取的非限定型的关系抽取方法，实现实体关系的自动抽取，有效的从大量文本中挖掘实体关系信息，从而提升业务应用价值。

本发明解决其技术问题所采用的技术方案是：

一种基于依存句法和模式规则的非限定型关系挖掘方法，包括以下步骤：

步骤一、分词和词性标注：对分词后的文本进行词性标注，产生分词列表和对应的词性列表；

步骤二、实体识别：基于实体识别模型，对步骤一中的分词列表和词性列表出现的三类实体进行自动识别，其中，三类实体为人名、地名和机构；

步骤三、依存句法分析：对步骤二中实体识别后的文本，通过依存句法分析，得到实体之间及其它词语之间的依存句法结构；

步骤四、实体关系挖掘：基于步骤二和步骤三的结果，挖掘人名和地名关系模式、人名和机构名关系模式以及机构名和地名关系模式；

步骤五、关系挖掘综合结果：将上述三类实体关系规则进行整合后，实现输入一段文本后能一次性自动挖掘出其中的实体关系结果。

进一步地，所述步骤三中还包括根据依存句法结构中的头部指向，增加生产尾部集合字段。

进一步地，所述步骤四中，人名和地名关系模式具体包含的规则为：

a1、若人名的头部为词，词的尾部包含地名，则规则为“nr<-SBV<-word--VOB/POB->ns”；

a2、若人名的头部为词，词的尾部为介词，介词的尾部包含地名，则规则为“nr<-SBV--word--ADV->p--POB->ns”；

a3、若人名的头部为词，词的尾部为名词，名词的尾部为地名，则规则为“nr<-SBV--word--VOB->n--ATT->ns”；

a4、若人名的头部为另外一个人名，另外一个人名的头部为词，词的尾部为地名，则规则为“nr<-COO--nr1<-SBV--word--VOB->ns”；

a5、若人名的头部为一个动词，动词的尾部为另外一个动词，动词的尾部为地名，则规则为“nr<-DBL--v1--VOB-->v--VOB->ns”。

进一步地，所述步骤四中，人名和机构名关系模式具体包含的规则为：

b1、若人名的尾部为一个名词，名词的尾部为机构名，则规则为“nr--ATT->n--ATT->nt”；

b2、若人名的尾部为机构名，则规则为“nr--ATT->nt”；

b3、若人名的头部为一个动词，动词的尾部为名词，名词的尾部为机构名，则规则为“nr<-SBV--v--VOB->n--ATT->nt”；

b4、若人名的头部为一个动词，动词的尾部为机构名，则规则为“nr<-SBV--v--VOB->nt”；

b5、若人名的头部为一个动词，动词的尾部为介词，介词的尾部为机构名，则规则为“nr<-SBV--v--ADV->p--POB->nt”。

进一步地，所述步骤四中，机构名和地名关系模式具体包含的规则为：

c1、若机构名的头部为一个动词，动词的尾部为另外一个动词，另外一个动词的尾部为地名，则规则为“nt<-SBV--v--CMP->v1--POB->ns”；

c2、若机构名的头部为一个动词，动词的尾部为介词，介词的尾部为地名，则规则为“nt<-SBV--v--ADV->p--POB->ns”。

在上述技术方案中，定义word为作为核心成分的词，nr为人名，ns为地名，p为介词，n为名词，SBV表示主谓关系，VOB表示动宾关系，POB表示介宾关系，ADV表示状中结构，ATT表示定中关系，COO表示并列关系，DBL表示兼语，CMP表示动补结构，<、>、/、-代表依存关系的算子。

与现有技术相比，本发明的有益效果是：

1、本发明是一种无监督的非限定型的关系挖掘方法，无需人工标注大量语料，大大减少工作量，同时相对于另一种自举式的开放型关系挖掘方法(需要人工建立大量基于词语的关系规则库)，这种关系挖掘模型建立在词性和依存句法基础上，可根据少量提炼的句法规则，句法规则相对于词语规则具有精炼作用，直接挖掘实体关系三元组；

2、本发明基于依存句法的模式规则，适用范围广，更符合自然语言规律，自然语言进过长期的演化，以及互联网中参差不齐的数据种类，虽然词和顺序不一样，变化多端，但是基本具有相似的依存句法模式，通过依存句法分析，提炼一套规则，就可以适用多种类型；

3、本发明一方面通过对文本进行实体识别和依存句法解析，可以通过机器自动挖掘判断包含的实体关系，用于文本信息挖掘分析，结合实际业务产生信息利用价值，另一方面，通过对特定的语料数据集，进行实体关系挖掘，建立实体关系三元组库，可以用于用户搜索查询直接反馈信息、知识图谱、自动问答、智能服务等各领域。

附图说明

图1为本发明中一个实施例的依存关系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于依存句法和模式规则的非限定型关系挖掘方法，包括以下步骤：

具体实施时，所述步骤三中还包括根据依存句法结构中的头部指向，增加生产尾部集合字段。

具体实施时，所述步骤四中，人名和地名关系模式具体包含的规则为：

a1、若人名的头部为词，词的尾部包含地名，则规则为“nr<-SBV<-word--VOB/POB->ns”，表示人名(nr)和词(word)的依存关系为主谓关系(SBV)，词(word)和地名(ns)依存关系为动宾关系(VOB)或者介宾关系(POB)，例如，作为本发明的一个实施例，参阅图1，对于一句话“1917年李XX生于XX省XX县。”经过该规则，可以挖掘到一个人名和地名的关系三元组“[“李XX”，“生于”，“XX省XX县”]”，其中第二项“生于”，表示两个实体间的关系；

a2、若人名的头部为词，词的尾部为介词，介词的尾部包含地名，则规则为“nr<-SBV--word--ADV->p--POB->ns”，表示人名(nr)和词(word)的依存关系为主谓关系(SBV)，词(word)和介词(p)的依存关系为状中结构(ADV),介词(p)和地名(ns)的依存关系为介宾关系(POB)；

a3、若人名的头部为词，词的尾部为名词，名词的尾部为地名，则规则为“nr<-SBV--word--VOB->n--ATT->ns”，表示人名(nr)和词(word)的依存关系为主谓关系(SBV)，词(word)和名词(n)的依存关系为动宾关系(VOB)，名词(n)和地名(ns)的依存关系为定中关系(ATT)；

a4、若人名的头部为另外一个人名，另外一个人名的头部为词，词的尾部为地名，则规则为“nr<-COO--nr1<-SBV--word--VOB->ns”，表示人名(nr)和另外一个人名(nr1)的依存关系为并列关系(COO)，另外一个人名(nr1)和词(word)的依存关系为主谓关系(SBV)，词(word)和地名(ns)的依存关系为动宾关系(VOB)；

a5、若人名的头部为一个动词，动词的尾部为另外一个动词，动词的尾部为地名，则规则为“nr<-DBL--v1--VOB-->v--VOB->ns”，表示人名(nr)和动词(v1)的依存关系为兼语(DBL)，动词(v1)和另外一个动词(v)的依存关系为动宾关系(VOB)，动词(v)和地名(ns)的依存关系为动宾关系(VOB)。

具体实施时，所述步骤四中，人名和机构名关系模式具体包含的规则为：

b1、若人名的尾部为一个名词，名词的尾部为机构名，则规则为“nr--ATT->n--ATT->nt”，表示人名(nr)和名词(n)的依存关系为定中关系(ATT)，名词(n)和机构名(nt)的依存关系为定中关系(ATT)；

b2、若人名的尾部为机构名，则规则为“nr--ATT->nt”，表示人名(nr)和机构名(nt)的依存关系为定中关系(ATT)；

b3、若人名的头部为一个动词，动词的尾部为名词，名词的尾部为机构名，则规则为“nr<-SBV--v--VOB->n--ATT->nt”，表示人名(nr)和动词(v)的依存关系为主谓关系(SBV)，动词(v)和名词(n)的依存关系为动宾关系(VOB)，名词(n)和机构名(nt)的依存关系为定中关系(ATT)；

b4、若人名的头部为一个动词，动词的尾部为机构名，则规则为“nr<-SBV--v--VOB->nt”，表示人名(nr)和动词(v)的依存关系为主谓关系(SBV)，动词(v)和机构名(nt)的依存关系为动宾关系(VOB)；

b5、若人名的头部为一个动词，动词的尾部为介词，介词的尾部为机构名，则规则为“nr<-SBV--v--ADV->p--POB->nt”，表示人名(nr)和动词(v)的依存关系为主谓关系(SBV)，动词(v)和介词(p)的依存关系为状中结构(ADV)，介词(p)和机构名(nt)的依存关系为介宾关系(POB)。

具体实施时，所述步骤四中，机构名和地名关系模式具体包含的规则为：

c1、若机构名的头部为一个动词，动词的尾部为另外一个动词，另外一个动词的尾部为地名，则规则为“nt<-SBV--v--CMP->v1--POB->ns”，表示机构名(nt)和动词(v)的依存关系为主谓关系(SBV)，动词(v)和另外一个动词(v1)的依存关系为动补结构(CMP)，另外一个动词(v1)和地名(ns)的依存关系为介宾关系(POB)；

c2、若机构名的头部为一个动词，动词的尾部为介词，介词的尾部为地名，则规则为“nt<-SBV--v--ADV->p--POB->ns”，表示机构名(nt)和动词(v)的依存关系为主谓关系(SBV)，动词(v)和介词(p)的依存关系为状中结构(ADV)，介词(p)和地名(ns)的依存关系为介宾关系(POB)。

在上述技术方案中，本发明主要包括：

1)实体识别：主要识别三类实体为人名，地名和机构名。本发明中采用人名识别算法，基于字和CRF模型的地名识别算法，以及基于字和LSTM的机构名识别算法，确保了这三大实体识别的优良准确性；

2)依存句法分析：步骤一中，词性标注为依存句法分析的前提，可以通过采用BiLSTM+CRF模型来进行词性标注，通过对文本进行实体识别和依存句法分析，得到实体之间及其它词语之间的依存句法结构；

3)实体关系挖掘：根据依存句法分析结果，对于人名，地名和机构名三大实体之间的句法模式进行总结，得到三者之间关系的规则模式，从而根据此模式自动挖掘实体之间的关系。

在使用时，将上述三类实体关系规则进行整合后，可以实现输入一段文本，一次性自动挖掘出其中的实体关系结果。

例如一段文本“XX公司董事长李XX的夫人程XX在XX省XX市出生。XX省政府在XX市成立的。”

输出结果为：

人名和地名关系：[[“程XX”，“出生”，“XX省XX市”]]；

人名和机构关系：[[“李XX”，“董事长”，“XX公司”]]；

机构和地名关系：[[“XX省政府”，“成立”，“XX市”]]。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于依存句法和模式规则的非限定型关系挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于依存句法和模式规则的非限定型关系挖掘方法，其特征在于：所述步骤三中还包括根据依存句法结构中的头部指向，增加生产尾部集合字段。

3.根据权利要求1所述的一种基于依存句法和模式规则的非限定型关系挖掘方法，其特征在于，所述步骤四中，人名和地名关系模式具体包含的规则为：

4.根据权利要求1所述的一种基于依存句法和模式规则的非限定型关系挖掘方法，其特征在于，所述步骤四中，人名和机构名关系模式具体包含的规则为：

b2、若人名的尾部为机构名，则规则为“nr--ATT->nt”；

5.根据权利要求1所述的一种基于依存句法和模式规则的非限定型关系挖掘方法，其特征在于，所述步骤四中，机构名和地名关系模式具体包含的规则为：