CN104391837A

CN104391837A - 一种基于格语义的智能语法分析方法

Info

Publication number: CN104391837A
Application number: CN201410663580.2A
Authority: CN
Inventors: 熊玮
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2015-03-04

Abstract

本发明提供一种基于格语义的智能语法分析方法，技术采用的是根据语义规则化处理双向最大分词的基础上，把语言指令输入完整的切分成包含格语义模块的最小信息单位应用格语法框架和格标记进一步优化处理待分语句的分词结果。大大提高了分词的准确度，同时保障分词效率的高效，避免了语境下歧义判断的不足。

Description

一种基于格语义的智能语法分析方法

技术领域

本发明属于人工智能领域中的智能语法系统，具体指一种基于格语义的智能语法分析方法。

背景技术

在人工智能领域中，自然语言处理的语法分析技术适用于在人机交互过程中对语言指令的切分词。一般语句切分出来词的语义准确度会直接影响对语言指令的语义自动判定误差。目前有一些方法用来提高分词的准确性，但相应的都有一些缺陷，其中包括：

单向最大分词法：其中包含正向最大匹配法和逆向最大匹配法。通过对分词词表的加载，对待切分句的最大词长度定义后，从单一方向依次更具词表内词条对比切分出词长最长的单元词。此类型方法使得分词的效率明显提高，占用的系统资源相对较低。但属于传统机械分词，很难保障较高分词的准确度。

双向分词法：在单向最大分词的基础上，结合了正向分词和逆向分词的结果，加以规则判定选择输出其中一项的分词结果。此方法比较单向最大分词，提高了其准确度，但对分词过程中歧义的排除较弱。

数据库特征检索分词：通过利用数据库实现将数据库字段特征项添加到待分词系统中，将系统提交的查询词以数据库特征项为词表进行对比分词处理。此类型的方法改善了对预置词等常见词在句中分词精准度，但涉及到对大量前期在词表里对每一个词提取特征的效率是非常低的。是在牺牲了分词效率的前提下相应提高了分词准确度。

扩充自定义词的分词法：利用用户提供的对自定义词属性的描述，生成自定义词典用于加载检索待输入词且更具其自定义生成的属性进行判断。此类自定义加载方法提高了新词，外来词，成语的切分准确度，但对大量一般词汇的自动生成属性的效率较低。

发明内容

所要解决的技术问题：

本发明的目的是提高分词系的准确度和效率，对自然语言中处理语义歧义分词给予优化，使得分词的结果能够充分用于语义的理解和判定。

技术方案：

为了实现以上功能，本发明提供了一种基于格语义的智能语法分析方法，其特征在于：该分析方法包含以下步骤：

1)提供一个内置语料库的数据库，设置语料库中所有词的词性，并根据格语法理论给各词定义关于格标记的字段，对词进行相关的格定义；

2)取得待分析的文本语句，进行去非汉语符号处理；

3)根据单向分词法，分别通过正向最大匹配法和逆向逆向最大匹配法，将步骤2)处理过的待分析文本语句切分成词链，分别得到词链A和词链B；之后对词链A和词链B进行权重化处理，权衡输出的词链最大限度满足以下条件：

(1)非词表词数越少越好；

(2)切出的词数目总数越少越好；

(3)切分出的单个词越长越好。

4)对照语料库内的词表，结合词链上每个词前后节点内的词内容，去除有重复内容的词，得到机械分词的结果；

5)通过词链内对词性的判断，得到句中所有动词集合的词链表；

6)根据格语法理论中格标记的诠释，确定出句中谓语动词后，再根据格语法理论中格标记的诠释，依次切分出所属语法格的格块，把格块内的词组合成有语义的词组。

进一步的，步骤3)中所述的单向分词法具体为：

首先将获取到的文本语句转换成全中文的字符编码，并定义字符(len)的长度N；

其次记录整个字符的起始位置，并依次取长度为N的字符串；

最后对每个字符串依次查询语料库中是否有匹配的词语，如果有，将该字符串添加到分词链表，并输出；如果没有，舍弃当前字符串的最后一个字，将剩余部分重新查询，直到该字符串剩余部分在语料库中能查询到有匹配的词语，将此剩余部分添加到分词链表，并输出；再从此剩余部分的后一个字符开始取长度为N的字符串，重复这个步骤的程序，直到文本语句结束。

进一步的，步骤3)中对词链A和词链B进行权重化处理确定最终是输出词链A还是词链B的具体过程是：应用三条规则分析词链A和词链B，其中

规则一：非词表词数越少越好；即：语料库词表内包含待切分句子中越多的词汇，能识别的词越多越好；

规则二：切出的词数目总数越多越好；

规则三：切分出的单个词越长越好；

利用以上三条规则分析词链A和词链B后，最终根据以下六种情况输出结论：

(1)当词链A和词链B的词数目总数一样，且词链A的非词表词数更少，但词链A内单个词词长比B短；则输出出非词表词词数少的算法结果，即：词链A；

(2)当词链A和词链B的词数目总数一样，但词链A的非词表词数更多，且词链A内单个词词长比词链B中的长；则输出非词表词词数少的算法结果，即：词链B；

(3)当词链A和词链B内的单个词词长相同，且词链A的非词表词数更少，但词链A内词数目总数比词链B内的少；则输出非词表词词数少的算法结果，即：词链A；

(4)当词链A和词链B内的单个词词长相同，但词链A的非词表词数更多，且词链A内词数目总数比B内的多；则输出非词表词词数少的算法结果，即：词链B；

(5)当词链A和词链B内的非词表数目一样，且词链A的词数目总数比词链B的少，但词链A内的单个词词长比词链B内的短；则输出词数目总数少的算法结果，即：词链A；

(6)当词链A和词链B内的非词表数目一样，但词链A的词数目总数比词链B的多，且词链A内的单个词词长比词链B内的长；则输出词数目总数少的算法结果，即：词链B。

步骤1)中所述的词性的格定义具体包括第一词性、第二词性。

更进一步的，所述步骤5)具体为：

依照语料库内词表查询词链内所有词的词性，对词链依次查询其第一词性、第二词性；遍历得出第一词性是动词且无格标记的动词、第二词性是动词且无格标记、第一词性是动词且有格标记、第二词性是动词且有格标记的动词，形成一个动词链表。

作为一种优化，在进行所述步骤6)时，如果出现多个谓语动词，优先选择第一词性为动词且无格标记的动词作为核心谓语动词；具体规则为：

(1)当谓语是连动结构，定最后一个谓语为核心谓语动词；

(2)当谓语不是连动结构，定第一词性是动词，且不带格标记的动词为核心谓语动词；

(3)当动词的级别一样，根据动词的格框架，把句子切分成多个短句，每一个短句内都有只有一个谓语动词，再根据单谓语动词句规则递归处理。

有益效果：

为了更有效的辅助自然语言在语义分析系统方面对中文句子语义的理解，本发明技术采用的是根据语义规则化处理双向最大分词的基础上，把语言指令输入完整的切分成包含格语义模块的最小信息单位应用格语法框架和格标记进一步优化处理待分语句的分词结果。大大提高了分词的准确度，同时保障分词效率的高效，避免了语境下歧义判断的不足。

本技术提出了基于格语义的智能语法分析系统，对比现有的技术，增强了切分词后，词链的语义可利用度和在与语义分析对接的契合程度；排除了语义歧义、成语和自定义词处理，提高了分词的精度和效率。其有益效果适用于在市场上大部分采用语义进行语法切词分析的自然语言分析统。本技术的易扩展性和高融合性在格语义系统尤为突出。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1为单向最大匹配算法的流程图；

图2为本发明提供的基于格语义的智能语法分析流程图。

具体实施方式

本发明提供一种基于格语义的智能语法分析方法，为使本发明的目的，技术方案及效果更加清楚，明确，以及参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施仅用以解释本发明，并不用于限定本发明。

一种基于格语义的智能语法分析方法，该分析方法包含以下步骤：

第一步，提供一个内置语料库的数据库，设置语料库中所有词的词性，并根据格语法理论给各词定义关于格标记的字段，对词进行相关的格定义；

所述词的词性定义具体包括第一词性、第二词性；对于格定义，在格语法里，不是每一个语义格都有格定义；格语法里有标准格和扩展格两类，其中在把句子内容切分为词块，只有少数标准格和一些扩展格是可以根据词块的格标记相应填入。但不是切出的每一个在语料库词表里的词都有一一对应的格标记，含有格标记的词占少数，大部分词表里关于格标记字段的属性值是null。

第二步，取得待分析的文本语句，进行去非汉语符号处理；在window平台下得到的是GB2312编码的字符串，相应的Linux平台下得到的是UFT8编码的字符串。

第三步，根据单向分词法，分别通过正向最大匹配法和逆向逆向最大匹配法，将第二步处理过的待分析文本语句切分成词链，分别得到词链A和词链B；

进一步的，这里所述的单向分词法具体步骤如图1所示，中间，正向最大匹配法为：

首先将获取到的文本语句转换成同意的字符编码，并定义字符(len)的长度N；

其次记录整个字符的起始位置，并依次取长度为N的字符串；

逆向最大匹配法顺序相反，查询时，记录整个字符的结束位置，并依次取长度为N的字符串；对每个字符串依次查询语料库中的词语，如果有，将该字符串添加到分词链表，并输出；如果没有，舍弃当前字符串的第一个字，将剩余部分重新查询，知道该字符串剩余部分在预料库中能查询到有匹配的词语，将词剩余部分添加到分词链表，并输出；再从词剩余部分的前一个字符开始去长度为N的字符串；重复该步骤的程序，知道文本语句结束。

之后对词链A和词链B进行权重化处理，权衡输出的词链最大限度满足以下条件：

(1)非词表词数越少越好；即：语料库词表内包含待切分句子中越多的词汇，能识别的词越多越好；

(2)切出的词数目总数越少越好；例如：“政府部门”可以切成一个词或者“政府”和“部门”两个词，所以理想结果是“政府部门”。

(3)切分出的单个词越长越好，例如：“政府部门”可以切成一个词的最大词长是4，但切成“政府”和“部门”两个词的最大词长只是2，所以理想结果是“政府部门”。

处理方法如表1所示：

表1

第四步，对照语料库内的词表，结合词链上每个词前后节点内的词内容，去除有重复内容的词，得到机械分词的结果；

第五步，通过词链内对词性的判断，得到句中所有动词的词链表；具体为：

第六步，根据格语法理论中格标记的诠释，确定出句中谓语动词后，再根据格语法理论中格标记的诠释，依次切分出所属语法格的格块，把切分出格块内的词进一步组合成有语义的词组。

作为一种优化，在进行所述第六步时，如果出现多个谓语动词，优先选择第一词性为动词且无格标记的动词作为核心谓语动词；具体规则为：

(1)当谓语是连动结构，定最后一个谓语为核心谓语动词；例如“喜欢去吃”，核心谓语动词是“吃”。

实施例一，“2014”和“年”组和时间名词词组；“在”、“眼睛”、“上”组合成“在眼睛上”处所名词词组。因此，最终输出的词链与语义格能够一一对应匹配，从而使此技术处理后的语法分析系统得出包含语义的词链。

实施例二：“有关政府部门负责在南京市的项目”在目前正向最大分词法、逆向最大分词法、传统双向最大分词法等算法处理下可以切成的可能结果是：

“有/关/政府/部门/负责/在/南京/市/的/项目”；

“有关/政府/部门/负责/在/南京市/的/项目”；

“有关政府/部门/负责/在/南京市/的/项目”。

但经过本基于格语义的智能语法分析方法处理后，处理的结果是：

“有关/政府部门/负责/在南京市的/项目”。

其中“政府部门“作为施事格，”负责“为和核心谓语动词，”在南京市的“切成一个整体作为处所格，”项目“切为受事格。

“有关“作为虚词无语义，系统会自动丢弃。“在……的”是可识别格标记，用于整体切分出“……”里的内容。

由此可以把句子切分成语义块形式的词块，从而得到最大化的句子语义层面的理解。使得系统能更加智能、精准的理解自然语言的语义。

在针对同一语料库实验数据对比，语料库来源是新加坡中文大学的SCoRE语料库。现有分词技术和本技术试验对比数据分别如下：

本发明技术采用的是根据语义规则化处理双向最大分词的基础上，把语言指令输入完整的切分成包含格语义模块的最小信息单位应用格语法框架和格标记进一步优化处理待分语句的分词结果，大大提高了分词的准确度，同时保障分词效率的高效，避免了语境下歧义判断的不足。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于格语义的智能语法分析方法，其特征在于：该分析方法包含以下步骤：

1）提供一个内置语料库的数据库，设置语料库中所有词的词性，并根据格语法理论给各词定义关于格标记的字段，对词进行相关的格定义；

2）取得待分析的文本语句，进行去非汉语符号处理；

3）根据单向分词法，分别通过正向最大匹配法和逆向最大匹配法，将步骤2）处理过的待分析文本语句切分成词链，分别得到词链A和词链B；之后对词链A和词链B进行权重化处理，权衡输出的词链最大限度满足以下条件：

（1）非词表词数越少越好；

（2）切出的词数目总数越少越好；

（3）切分出的单个词越长越好

4）对照语料库内的词表，结合词链上每个词前后节点内的词内容，去除有重复内容的词，得到机械分词的结果；

5）通过词链内对词性的判断，得到句中所有动词集合的词链表；

6）根据格语法理论中格标记的诠释，确定出句中谓语动词后，再根据格语法理论中格标记的诠释，依次切分出所属语法格的格块，把切分出格块内的词进一步合成有语义的词组。

2.根据权利要求1所述的基于格语义的智能语法分析方法，其特征在于：步骤3）中所述的单向分词法具体为：

首先将获取到的文本语句转换成全中文的字符编码，并定义字符（len）的长度N；

其次记录整个字符的起始位置，并依次取长度为N的字符串；

3.根据权利要求2所述的基于格语义的智能语法分析方法，其特征在于：步骤3）中对词链A和词链B进行权重化处理确定是最终输出词链A还是词链B的具体过程是：应用三条规则分析词链A和词链B，其中

规则二：切出的词数目总数越少越好；

规则三：切分出的单个词越长越好；

（1）当词链A和词链B的词数目总数一样，且词链A的非词表词数更少，但词链A内单个词词长比B短；则输出出非词表词词数少的算法结果，即：词链A；

（2）当词链A和词链B的词数目总数一样，但词链A的非词表词数更多，且词链A内单个词词长比词链B中的长；则输出非词表词词数少的算法结果，即：词链B；

（3）当词链A和词链B内的单个词词长相同，且词链A的非词表词数更少，但词链A内词数目总数比词链B内的少；则输出非词表词词数少的算法结果，即：词链A；

（4）当词链A和词链B内的单个词词长相同，但词链A的非词表词数更多，且词链A内词数目总数比B内的多；则输出非词表词词数少的算法结果，即：词链B；

（5）当词链A和词链B内的非词表数目一样，且词链A的词数目总数比词链B的少，但词链A内的单个词词长比词链B内的短；则输出词数目总数少的算法结果，即：词链A；

（6）当词链A和词链B内的非词表数目一样，但词链A的词数目总数比词链B的多，且词链A内的单个词词长比词链B内的长；则输出词数目总数少的算法结果，即：词链B。

4.根据权利要求1所述的基于格语义的智能语法分析方法，其特征在于：步骤1）中所述的词性的格定义具体包括第一词性、第二词性。

5.根据权利要求4所述的基于格语义的智能语法分析方法，其特征在于：所述步骤5）具体为：

6.根据权利要求5所述的基于格语义的智能语法分析方法，其特征在于：在进行所述步骤6）时，如果出现多个谓语动词，优先选择第一词性为动词且无格标记的动词作为核心谓语动词；具体规则为：

（1）当谓语是连动结构，定最后一个谓语为核心谓语动词；

（2）当谓语不是连动结构，定第一词性是动词，且不带格标记的动词为核心谓语动词；

（3）当动词的级别一样，根据动词的格框架，把句子切分成多个短句，每一个短句内都有只有一个谓语动词，再根据单谓语动词句规则递归处理。