CN108595434B

CN108595434B - 一种基于条件随机场和规则调整的句法依存方法

Info

Publication number: CN108595434B
Application number: CN201810410000.7A
Authority: CN
Inventors: 金勇�; 吴兵
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2021-11-02
Anticipated expiration: 2038-05-02
Also published as: CN108595434A

Abstract

本发明公开了一种基于条件随机场和规则调整的句法依存方法，包括以下步骤：步骤一、配置模板；步骤二、调整中文句法依存规则；步骤三、预测依存关系名称；步骤四、依存关系标注；本发明采用CRF模型，调整丰富模型特征模板，然后根据CRF模型预测的结果，结合中文依存句法的规则，统计规律，调整规则，得出最后句法依存分析的结果，提升了中文句法依存分析的准确性，实现了大规模非结构化或半结构化文本的语义信息提取。

Description

一种基于条件随机场和规则调整的句法依存方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种基于条件随机场和规则调整的句法依存方法。

背景技术

随着互联网、移动互联网以及大数据技术的发展，各种文本数据资源的规模呈现爆炸式增长，主要包括社交媒体(例如微博号，公众号，Facebook，Twitter等)和新闻媒体(例如人民日报，凤凰新闻，搜狐新闻等)网站上的非结构化数据，以及百度百科和维基百科等百科网站上的半结构化数据，自然语言处理(Natural Language Processing,NLP)在文本信息提取过程中扮演非常重要的角色。句法依存分析是自然语言处理领域的一个关键问题，如能将其有效解决，一方面可对相应树库构建体系的正确性和完善性进行验证；另一方面也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别，比如信息抽取、自动问答、机器翻译、关系挖掘等其他自然语言处理相关的任务。

句法依存是通过分析语言单位内成分之间的依存关系，来揭示其句法结构，主张句子中核心动词是支配其它成分的核心成分(root)，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。在20世纪70年代，Robinson提出句法依存中关于依存关系的四条公理，而对于中文信息处理的研究，中国学者在此基础上又提出了依存关系的第五条公理，概述如下：

1)一个句子中只有一个成分是独立的；

2)其它成分直接依存于某一成分；

3)任何一个成分都不能依存与两个或两个以上的成分；

4)如果A成分直接依存于B成分，而C成分在句中位于A和B之间，那么C或者直接依存于B，或者直接依存于A和B之间的某一成分；

5)核心成分左右两面的其它成分相互不发生关系。

句法依存分析可以反映出句子各成分之间的语义修饰关系，它可以获得长距离的搭配信息，并与句子成分的物理位置无关。目前条件随机场(Conditional Random Field,CRF)等方法被广泛应用于句法依存分析中，因为CRF是序列标注场景中常用的模型，比隐马尔科夫模型(Hidden Markov Model,HMM)能利用更多的特征，比最大熵马尔科夫模型(Maximum Entropy Markov Model，MEMM)更能抵抗标记偏置的问题。但是，如果只是通过模型对句法结构进行预估，可能会出现一些违背上述五条公理的情形，例如多个root，或依赖边交叉等。

基于此，针对上述现状中存在的问题，本发明提出了一种能够提升中文句法依存分析的准确性的基于条件随机场和规则调整的句法依存方法。

发明内容

为了解决上述现有技术的问题，本发明提供一种能够提升中文句法依存分析的准确性的基于条件随机场和规则调整的句法依存方法。

本发明解决其技术问题所采用的技术方案是：

一种基于条件随机场和规则调整的句法依存方法，包括以下步骤：

步骤一、配置模板：基于训练语料，在CRF模型中配置合适的unigram特征模板；

步骤二、调整中文句法依存规则：基于中文依存句法规则，对步骤一得到的模型进行规则调整；其中，每个句子具有一个root，且各标签是合法存在的，依存关系之间没有交叉性；

步骤三、预测依存关系名称：基于步骤二得到的模型进行统计分析，然后制定预测规则，逐步输出其最可能的关系名称；

步骤四、依存关系标注：基于步骤三得到的模型，结合词性标注模型，对训练语料的依存关系进行自动标注。

进一步地，所述步骤一中，unigram特征模板具体设置为前后五个词的模板及丰富到40个特征数量。

进一步地，所述步骤二中的规则调整具体为，采取依次遍历概率前30个结果，按照概率从高到低进行排列，并对得到的结果中词的id从小到大进行排序，统计各个词预测为root的次数，并按照root的次数从大到小进行排列，结果保存为元组列表，root的次数最大的词的id作为整句词唯一root的词的id，其中：

a、若root次数一样，取元组列表中排序最前的词的id，作为整句词唯一root的词的id；

b、若唯一root的词的id大于0，即各词存在多个root数时，则再次遍历30个结果，含有该词的id为root的结果中，先将其它可能仍然为root的标签，改为合法性且概率最大的预测标签，然后遍历每个词的各类预测标签的概率，从大到小排序，依次取满足标签合法性、无交叉性的结果；

c、若唯一root的词的id为0，即各词均没有root数时，则根据中文语言规则的统计分析，依次判断将第一个动词或者介词或者形容词作为root，按照之前的过程再依次遍历各词，取得符合中文依存句法规则的结果。

更进一步地，依次判断各词是否作为root的优先级是预设的，具体为，动词的优先级大于介词的优先级，介词的优先级大于形容词的优先级。

进一步地，所述步骤三中，所述预测规则根据训练语料中统计两个词的词与词性两两组合出现概率并用此模型接受依存边两端的词语和词性来制定。

进一步地，所述步骤四中，所述词性标注模型内进行词性标注前先进行分词。

更进一步地，所述分词采用结巴分词。

进一步地，所述CRF模型中的参数设置包括采用规范化算法的参数a、用于调整过度拟合和不拟合之间的平衡度的参数c、用于设置特征截取阈值的参数f和用于提升训练速度的多线程参数p，其中，所述规范化算法为CRF-L2算法，所述参数c设置为4.0，所述参数f设置为3.0，所述参数p设置为20。

与现有技术相比，本发明的有益效果是：

本发明采用CRF模型，调整丰富模型特征模板，然后根据CRF模型预测的结果，结合中文依存句法的规则，统计规律，调整规则，得出最后句法依存分析的结果，提升了中文句法依存分析的准确性，实现了大规模非结构化(或半结构化)文本的语义信息提取。

附图说明

图1为本发明中句法依存模型与应用流程的示意图；

图2为本发明中句法依存示例的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于条件随机场和规则调整的句法依存方法，包括以下步骤：

具体实施时，所述步骤一中，unigram特征模板具体设置为前后五个词的模板及丰富到40个特征数量，相较于一般使用的两个词的模板及20个左右的特征数量，经过调试与测试得到前后五个词的模板及40个特征数量的值，在能满足准确性的前提下，同时提高了效率。

具体实施时，所述步骤二中的规则调整具体为，采取依次遍历概率前30个结果，按照概率从高到低进行排列，并对得到的结果中词的id从小到大进行排序，统计各个词预测为root的次数，并按照root的次数从大到小进行排列，结果保存为元组列表，root的次数最大的词的id作为整句词唯一root的词的id，其中：

具体实施时，依次判断各词是否作为root的优先级是预设的，具体为，动词的优先级大于介词的优先级，介词的优先级大于形容词的优先级。

具体实施时，所述步骤三中，所述预测规则根据训练语料中统计两个词的词与词性两两组合出现概率并用此模型接受依存边两端的词语和词性来制定。

具体实施时，所述步骤四中，所述词性标注模型内进行词性标注前先进行分词。

具体实施时，所述分词采用结巴分词。

具体实施时，所述CRF模型中的参数设置包括采用规范化算法的参数a、用于调整过度拟合和不拟合之间的平衡度的参数c、用于设置特征截取阈值的参数f和用于提升训练速度的多线程参数p，其中，所述规范化算法为CRF-L2算法，所述参数c设置为4.0，所述参数f设置为3.0，所述参数p设置为20。

上述技术方案，其中，unigram特征模板的合理设计，可以更好的表达选取特征，更好的进行后期训练预测；根据中文依存句法原则，基本要符合以下三个特点：root唯一性、标签合法性、无交叉性，而只用模型预测时，并未对符合此三个特点进行约束，故需要调整中文句法依存规则，根据语言特点以及训练语料的依存关系统计分析结果，调整了最终依存关系标签的预测结果，符合只有一个root，且各标签是合法存在的，确保依存关系之间没有交叉性；

上述整个过程描述了一种规范化整合后的中文句法依存分析模型，其基本结构如图1所示，具体的：

(1)上半图中的流程描述的是训练过程，对应上述步骤一至三，训练语料首先进入CRF模型中，需要调试各种不同的特征模板，然后，对训练语料的依存规则进行统计分析，利用规则对CRF模型的结果进行解码约束；再次，利用词与词性的组合概率统计制定依存关系名称的预测规则；

(2)下半图描述的是应用过程，对应上述步骤四，此分析模型被应用于中文未知文本的句法依存标注。最终得到的句法依存关系如图2所示。图2中，为唯一root的词的id为0的情形，所述依存关系包括受事、限定、时态依存、数量和连接依存等，其中0、1、2、3、4、5、6、7为对应各词的id，v、u、r、m、n、c、n为对应各词的词性的简写，将第一个动词“感染”通过指针指向root并作为该句法依存关系中的核心成分。

本系统在选用清华大学公开的20000句的语义依存语料作为训练集时，将含有2000句的语料作为测试集。因为该语料采用全中文描述，且词性也符合主流，依存标记也是中文模式的，适合后期预测阅读理解。此语料都是CoNLL格式，UTF8编码。按照上述技术方案进行分析，实验的训练集特征数量为34082316，通过预先训练好的模型对测试集进行预测分析，然后统计分析得到，依存关系准确率达66.1％，root的正确率达78.8％，整个句子的正确率达25.5％。

本发明通过对语料的依存关系分析，再结合词性分析和语法规则分析，对于后续文本的语义关系提取、知识图谱的构建等提供有效的技术支撑。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于条件随机场和规则调整的句法依存方法，其特征在于，包括以下步骤：

步骤四、依存关系标注：基于步骤三得到的模型，结合词性标注模型，对训练语料的依存关系进行自动标注；

所述步骤二中的规则调整具体为，采取依次遍历概率前30个结果，按照概率从高到低进行排列，并对得到的结果中词的id从小到大进行排序，统计各个词预测为root的次数，并按照root的次数从大到小进行排列，结果保存为元组列表，root的次数最大的词的id作为整句词唯一root的词的id，其中：

2.根据权利要求1所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：所述步骤一中，unigram特征模板具体设置为前后五个词的模板及丰富到40个特征数量。

3.根据权利要求1所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：依次判断各词是否作为root的优先级是预设的，具体为，动词的优先级大于介词的优先级，介词的优先级大于形容词的优先级。

4.根据权利要求1所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：所述步骤三中，所述预测规则根据训练语料中统计两个词的词与词性两两组合出现概率并用此模型接受依存边两端的词语和词性来制定。

5.根据权利要求1所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：所述步骤四中，所述词性标注模型内进行词性标注前先进行分词。

6.根据权利要求5所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：所述分词采用结巴分词。

7.根据权利要求1所述的一种基于条件随机场和规则调整的句法依存方法，其特征在于：所述CRF模型中的参数设置包括采用规范化算法的参数a、用于调整过度拟合和不拟合之间的平衡度的参数c、用于设置特征截取阈值的参数f和用于提升训练速度的多线程参数p，其中，所述规范化算法为CRF-L2算法，所述参数c设置为4.0，所述参数f设置为3.0，所述参数p设置为20。