CN109710913A

CN109710913A - 基于依存分析的语义层次结构生成方法及终端

Info

Publication number: CN109710913A
Application number: CN201711011576.8A
Authority: CN
Inventors: 张云翔
Original assignee: Rao Zhuyi
Current assignee: Rao Zhuyi
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2019-05-03

Abstract

本发明公开一种基于依存分析的语义层次结构生成方法、终端、计算机存储介质；该方法包括：对语句进行依存分析获取依存句法结构；将所述依存句法结构结合训练好的基本语义判别模型得到所述语句的首层语义结构；提取所述首层语义结构中的节点，并进行递归调整，得到所述语句的语义层次结构。该终端包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现本发明任一实施例提供的基于依存分析的语义层次结构生成方法的步骤。本发明通过生成语句的语义层次结构，以准确把握语句所表达的含义。

Description

基于依存分析的语义层次结构生成方法及终端

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种基于依存分析的语义层次结构生成方法、终端、计算机存储介质。

背景技术

句法分析是自然语言处理领域的一个关键问题，能够直接服务于各种上层应用，如搜索引擎用户日志分析、信息抽取、自动问答、机器翻译等相关任务。依存文法最早由法国语言雪茄L.Tesniere在其著作《结构句法基础》(1959年)中提出，对语言学的发展产生了深远的影响，在计算语言学界备受推崇。

现常用到的句法分析方法是依存分析，但依存分析是分析语句各个成分之间相互支配与被支配关系，反映的是语句各成分的语义修饰关系，不能得到语句的语义层次结构。当语句语义层次较复杂时，如多层嵌套时，直接对语句成分进行依存分析不能把握语句的基本语义和语句各层次语义，即不能准确把握语句所表达的含义。

因此，如何准确把握语句所表达的含义，仍有待解决。

发明内容

本发明的主要目的在于提出一种基于依存分析的语义层次结构生成方法、终端、计算机存储介质，旨在对语句语义进行深层次理解，生成语句的语义层次结构，以准确把握语句所表达的含义。

为实现上述目的，本发明提出一种基于依存分析的语义层次结构生成方法，包括：

对语句进行依存分析获取依存句法结构；

将所述依存句法结构结合训练好的基本语义判别模型得到所述语句的首层语义结构；

提取所述首层语义结构中的节点，并进行递归调整，得到所述语句的语义层次结构。

在一个可能的设计中，所述对语句进行依存分析获取依存句法结构之前，还包括：

对所述语句进行干扰成分过滤和专有名词替换的预处理操作。

在一个可能的设计中，所述对所述语句进行干扰成分过滤和专有名词替换的预处理操作包括：

对所述语句中的每个字符进行判断是否是干扰成分；若是，则将所述干扰成分删除；

利用专有名词识别规则对所述语句中的专有名词进行识别，并将识别出的专有名词替换为专有名词类型名；

通过专有名词在语句中的前后词判断替换后的语句结构是否存在歧义；若是，则将所述专有名词类型名进行还原。

在一个可能的设计中，所述基本语义判别模型的训练包括：

对训练用例进行依存分析得到依存句法结构以及词性标注结果；

将所述训练用例中每个词的词性、依存关系以及子节点依存关系构成输入向量；

利用SVM分类器对输入向量进行训练学习，得到基本语义判别模型；

对所述基本语义判别模型进行测试、调优，获取所述训练好的基本语义判别模型。

在一个可能的设计中，所述将所述依存句法结构结合训练好的基本语义判别模型得到所述语句的首层语义结构包括：

通过所述基本语义判别模型抽取所述语句中的基本语义结构；

通过所述语句的依存句法结构抽取所述基本语义结构中每个父节点对应的子节点；

根据预设的调整规则、所述子节点的词性、与对应的父节点的依存关系对所述子节点的语义层次进行调整，调整完成后得到的第一层结构为所述首层语义结构。

在一个可能的设计中，所述根据预设的调整规则、所述子节点的词性、依存关系对所述子节点的语义层次进行调整包括：

判断所述子节点的词性是否为疑问词或为介词，且所述介词的介宾结构不做状语，若是，则将所述子节点上移一层；

判断所述子节点的词性是否为状语；若是，则将所述子节点下移一层；

判断所述子节点与对应的父节点之间依存关系是否为右附加关系，若是，则将所述子节点上移一层；

判断所述子节点与对应的父节点之间的依存关系是否为位置连续的定中关系；若是，则将所述子节点与其对应的节点进行合并。

在一个可能的设计中，所述提取所述首层语义结构中的节点，并进行递归调整，得到所述语句的语义层次结构包括：

遍历所述首层语义结构中的父节点；

判断所述父节点是否具有子节点；若否，则将所述父节点设为叶子节点；若是，则抽取子节点；

判断所述子节点是否为嵌套子句；若是，则将所述嵌套子句设为当前层的首层语义结构；若否，则

判断所述子节点是否具有下一级字节点；若是，则抽取子节点；若否，则

将所述子节点设为叶子节点。

在一个可能的设计中，所述判断所述子节点是否为嵌套子句包括：

通过所述基本语义判别模型抽取所述子节点的基本语义结构；

判断所述基本语义结构中是否具有具有谓语和宾语；若是，则

判断所述谓词和宾语之间的依存关系是否为定中关系；若是，则

判定所述子节点为嵌套子句。

此外，为实现上述目的，本发明还提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明任一实施例提供的基于依存分析的语义层次结构生成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语义层次结构生成程序，所述语义层次结构生成程序被处理器执行时实现本发明任一实施例提供的基于依存分析的语义层次结构生成方法的步骤。

本发明提出的基于依存分析的语义层次结构生成方法、终端、计算机可读存储介质，通过依存分析和训练好的基本语义判别模型得到语句首层语义结构，再通过首层语义结构的各个子节点的依存关系对语句语义层次进行调整与转换，生成语句的各层次语义结构，包括语句首次语义结构和嵌套语义结构以及实体的修饰成分。对语句各层次语义的准确理解能够准确的把握语句的意图和表达含义，为自然语言交互、自动问答、语义理解、语义推理等领域打下扎实的基础。

附图说明

图1为本发明实施例的基于依存分析的语义层次结构生成方法的流程示意图；

图2为本发明实施例的对所述语句进行干扰成分过滤和专有名词替换的预处理操作的流程示意图；

图3为本发明实施例的对所述语句进行预处理操作的流程示意图；

图4为本发明实施例的基本语义判别模型的训练的流程示意图；

图5为本发明实施例的获取首层语义结构的流程示意图；

图6为本发明实施例的递归调整的流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

如图1所示，本发明提供一种基于依存分析的语义层次结构生成方法，包括步骤：

101、开始。

102、对语句进行依存分析获取依存句法结构。

103、将依存句法结构结合训练好的基本语义判别模型得到语句的首层语义结构。

更具体地，可以通过依存句法结构和基本语义判别模型抽取语句的基本语义结构，再对基本语义结构中的词提取子节点，并根据子节点的词性和节点间的依存关系对语句语义结构进行调整，进而得到语句的首层语义结构。

在具体实施时，通过训练用例对语句的基本语义结构进行学习，得到基本语义判别模型。基本语义判别模型是指通过对训练用例的依存句法结构采用SVM分类器训练得到的能够判断语句每个词是否为语句首层语义词的模型结构。

基本语义是指语句中的每个成分不带有修饰成分，且语句不包含从句、复合结构等嵌套形式的简单句，这里不包括短语结构，一般由主语、谓语、宾语组成，有时主语和宾语可能省略，又依存句法分析是以谓词为中心，因此基本语义中谓词是不能缺失的。而针对短语结构，核心词为名词，其他词全部为核心词的子节点或者子节点的下一级子节点，本发明中短语结构以核心词的子节点为首层语义结构。

104、提取首层语义结构中的节点，并进行递归调整，得到语句的语义层次结构。

更具体地，根据首层语义结构为出发点，判断当前节点是否有子节点，若没有则设为叶子节点，若有子节点，则根据当前节点与子节点的依存关系对子节点的结构进行调整后，判断子节点是否构成子句，若是子句则对子句的每个成分进行遍历调整其子节点结构，递归进行如上处理直到所有的节点都处理完成为止，这时得到的整体结构则为语句的整体语义层次结构，其中首层为首层语义结构，其它层为上一层的嵌套子句结构或为上一层的修饰成分结构。这样便可以直观的观察语句的各层次语义、快速准确的把握语句所表述的含义。

105、结束。

在图1对应的实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，在对语句进行依存分析获取依存句法结构之前，还包括：

对语句进行干扰成分过滤和专有名词替换的预处理操作。

如图2所述，上述对语句进行干扰成分过滤和专有名词替换的预处理操作具体包括以下步骤：

201、开始。

202、对语句中的每个字符进行判断是否是干扰成分；若是，则进入步骤203；若否，则进入步骤204。

干扰成分是指表情符号或无意义的符号，在具体实施时，可以通过干扰符号表来进行匹配识别。例如：语句“如需帮助请登录www.baidu.com进行查询，或者拨打13726388886进行咨询。”中就是干扰成分。

203、将干扰成分删除。

204、利用专有名词识别规则对语句中的专有名词进行识别，并将识别出的专有名词替换为专有名词类型名。

专有名词指的是由符号或者数字组成具有典型规则的实体名词，如：电话号码、邮箱地址、url地址、IP地址等。

在具体实施时，可以利用专有名词规则库对语句进行扫描，提取出语句中包含的专有名词。上述专有名词规则库是事先整理好的专有名词的匹配规则。例如：语句“如需帮助，请登录www.baidu.com进行查询，或者拨打13726388886进行咨询。”中专有名词“www.baidu.com”对应的专有名词类型名为“网址”或“网站”，专有名词“13726388886”对应的专有名词类型名为“手机号码”。此时，上述语句经过专有名词类型名的替换后，为“如需帮助，请登录网址进行查询，或者拨打手机号码进行咨询”。还可以同时记录替换后的名词与原句中的映射关系{“网址”：“www.baidu.com”，“手机号码”：“13726388886”}。

专有名词替换是为了防止语句中有意义的符号或数字干扰导致依存分析出现错误，从而达到提升依存分析准确率的目的。

205、通过专有名词在语句中的前后词判断替换后的语句结构是否存在歧义；若是，则进入步骤206，若否，则进入步骤207。

即结合上下文判断是否存在冲突。

206、将专有名词类型名进行还原。

即将专有名词类型名还原成其对应的专有名词，在还原时，可以直接还原成删除干扰成分后的结构，也可以仅将存在歧义部分的专有名词类型名进行替换。

207、结束。

本实施例中，上述步骤202与204并不分先后，即可以先对语句的专有名词进行识别，再进行干扰成分的判断；此外，还可以两者同时进行。

通过预处理能够将语句中无意义的符号或数字进行删除，将有意义的符号或数字替换为具体的名词类型，从而使得依存分析的结果不会受到符号或数字的干扰而出现错误，提升依存分析准确率。

在图1或图2对应的任一实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，如图3所示，基本语义判别模型的训练包括步骤：

301、开始。

302、对训练用例进行依存分析得到依存句法结构以及词性标注结果。

该训练用例是指人工标注好基本语义成分的语句集合。

303、将训练用例中每个词的词性、依存关系以及子节点依存关系构成输入向量。

其中，词性从可以词性标注结果中获得。

304、利用SVM分类器对输入向量进行训练学习，得到基本语义判别模型。

305、对基本语义判别模型进行测试、调优，获取训练好的基本语义判别模型。

更具体地，利用词标注结果对基本语义判别模型的目标函数进行更新学习，得到基本语义判别模型的参数。然后利用测试语句对模型进行测试，若测试结果满足目标需求，例如准确率达95％以上，则将当前参数对应的基本语义判别模型记为训练好的基本语义判别模型；反之则通过调整学习率、改变SVM中使用的核函数或引入松弛变量中的至少一项来对基本语义判别模型进行调整，再重复进行训练学习得到新的基本语义判别模型的参数。

得到的基本语义判别模型能够对语句的依存句法结构判断每个词是否是基本语义词。此过程还可以通过对标注用例的依存关系进行统计分析，得到基本语义结构规则来判断语句中的每个词是否是基本语义。

306、结束。

在图1至图3对应的任一实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，如图4所示，在将依存句法结构结合训练好的基本语义判别模型得到语句的首层语义结构时，包括：

401、开始。

402、通过基本语义判别模型抽取语句中的基本语义结构。

403、通过语句的依存句法结构抽取基本语义结构中每个父节点对应的子节点。

其中，父节点是指当前词语的依存关系指向的词语。子节点是指依存关系中所有指向当前词语的词语。

404、根据预设的调整规则、子节点的词性、与对应的父节点的依存关系对子节点的语义层次进行调整，调整完成后得到的第一层结构为首层语义结构。

405、结束。

在图4对应的实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，在根据预设的调整规则、子节点的词性、依存关系对子节点的语义层次进行调整时，包括：

对子节点词性进行判断，若为疑问词则节点上移一层，若为介词，且介词的介宾结构不做状语，则将该节点上移一层，并保持原语句顺序不变。

对子节点依存关系进行判断，若为定中关系且两个节点在原句中连续(即定语词和定语修饰的词中间不包含其它词)，则进行合并，若不连续，则需根据不连续的原因判断是否合并，若由于多个定中子节点导致不连续或者定中嵌套状中导致不连续则合并，反之不合并。若为右附加关系，则将节点上移。

更具体地，可以先根据子节点的词性将疑问词的语义层次上移，将疑问词放入到首层语义结构中，当子节点的词性为介词时，若介词与其他词构成介宾结构，且介宾结构为当前基本语义词的状语时不做调整，反之则将介词语义层次上移到首层语义结构中。再根据当前节点和与子节点之间的依存关系进行调整，若依存关系为右附加，则将右附加节点语义层次上移到首层语义结构中，若为定中关系，则根据定中关系是否位置连续来进行处理，若定语与当前词位置连续，则进行合并处理，若定语与当前词位置不连续，则判断是否由于多个定语导致的不连续，若是，则将多个定语都进行合并，若不是，则不做处理。对所有基本语义词的子节点调整完成后得到的第一层语义结构则为首层语义结构。

在具体实施时，可以包括以下步骤：

判断子节点的词性是否为疑问词或为介词，且介词的介宾结构不做状语，若是，则将子节点上移一层；

判断子节点的词性是否为状语；若是，则将子节点下移一层；

判断子节点与对应的父节点之间依存关系是否为右附加关系，若是，则将子节点上移一层；

判断子节点与对应的父节点之间的依存关系是否为位置连续的定中关系；若是，则将子节点与其对应的节点进行合并。

需要说明的是，上述多个判断步骤并没有明确的先后关系。

在上述任一实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，如图5所示，在提取首层语义结构中的节点，并进行递归调整，得到语句的语义层次结构时，包括：

501、开始。

502、遍历首层语义结构中的父节点。

503、判断所述父节点是否具有子节点；若否，则进入步骤504；若是，则进入步骤505。

504、将所述父节点设为叶子节点。

505、抽取子节点。

在抽取子节点后，还可以根据依存关系对子节点的语义层次进行调整，即调整首层语义结构中每个词的修饰成分的语义层次，具体包括右附加关系语义层次向上移一层，疑问词语义层次向上移一层，介词若为介宾关系做状语修饰父节点时不做处理，否则语义层次上移一层，位置连续的定中关系进行合并处理，状语关系语义层次向下移一层，当节点存在多个状语关系修饰时，按照状语在语句中的顺序从右到左依次展开成多层语义结构。

506、判断所述子节点是否为嵌套子句；若是，则进入步骤507；肉否，则进入步骤508。

在本发明的一个实施例中，可以仅对关键节点的子节点结构进行嵌套子句判断，关键节点是指当前语义层次中基本语义结构中包含的节点，不包括通过依存关系调整层次后上移的节点。而非关键节点的子节点的修饰成分直接按从右到左的顺序层次展开即可。

507、将所述嵌套子句设为当前层的首层语义结构，并返回步骤502；

508、判断所述子节点是否具有下一级字节点；若是，则返回步骤505。若否，则进入步骤509；

509、将所述子节点设为叶子节点。

510、结束。

本实施例中，根据首层语义结构为出发点，对所有子节点进行递归调整，首先判断当前节点是否有子节点，若没有则设为叶子节点，若有子节点，则根据当前节点与子节点的依存关系进行调整，若依存关系为右附加关系语义层次上移一层，若依存关系为定中关系，当定中位置连续时，则进行合并，当定中不连续时，若不连续时由于多个定中关系导致，则多个定中都进行合并，否则位置不变。若依存关系为状中关系，则状语作为修饰成分按从右到左的顺序依次层次展开成多层结构。其他依存关系保持原结构。待子节点结构调整完成后，判断子节点是否构成嵌套子句，若是嵌套子句，则对子句的每个成分进行遍历调整其子节点结构，递归进行如上处理直到所有的节点都处理完成为止，这时得到的整体结构则为语句的整体语义层次结构，其中首层为首层语义结构，其它层为上一层的嵌套子句结构或为上一层的修饰成分结构。这样便可以直观的观察语句的各层次语义、快速准确的把握语句所表述的含义。

在图5对应的实施例的基础上，本发明另一实施例提供的基于依存分析的语义层次结构生成方法中，在判断子节点是否构成嵌套子句时，包括：

601、开始。

602、通过基本语义判别模型抽取子节点的基本语义结构。

603、判断基本语义结构中是否具有具有谓语和宾语；若否，则进入步骤606；若是，则进入步骤604。

604、判断谓词和宾语之间的依存关系是否为定中关系；若否，则进入步骤606；若是，则则进入步骤605。

605、判定子节点为嵌套子句。

606、结束。

可见，本实施例中，子节点是否构成嵌套子句的判断是基于基本语义判别模型和带谓语的短语判别方式进行的，带谓语的短语判断方式是指若语句结构中带有谓词，当谓词和宾语之间的依存关系为定中关系而非动宾关系时，判定子节点为嵌套子句。

根据本发明的另一个方面还提供一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现本发明任一实施例提供的基于依存分析的语义层次结构生成方法的步骤。上述终端可以是移动终端、人机交互智能终端等。

需要说明的是，上述终端实施例与方法实施例属于同一构思，其具体实现过程详见方法实施例，且方法实施例中的技术特征在终端实施例中均对应适用，这里不再赘述。

根据本发明的另一个方面还提供一种计算机可读存储介质，该计算机可读存储介质上存储有语义层次结构生成程序，该语义层次结构生成程序被处理器执行时实现本发明任一实施例提供的基于依存分析的语义层次结构生成方法的步骤。

需要说明的是，上述计算机可读存储介质实施例与方法实施例属于同一构思，其具体实现过程详见方法实施例，且方法实施例中的技术特征在计算机可读存储介质实施例中均对应适用，这里不再赘述。

本发明提供的基于依存分析的语义层次结构生成方法终端、计算机存储介质，将语句通过依存分析得到依存句法结构，再结合训练好的基本语义判别模型得到语句的首层语义结构后，对首层语义结构中的关键节点抽取相应的修饰成分即子节点，再递归对子节点进行调整与转换，直到语句中所有节点都处理完毕为止，这样便得到语句的整体语义层次结构，也得到语句的首层语义结构和嵌套语义结构。语义层次结构中首层便是语句的首层语义结构，其余每层表示上一层嵌套语义或者修饰结构。此外，本发明在进行依存分析前，还对语句进行干扰成分过滤和专有名词替换的预处理操作，排除进行依存分析时受到语句中特殊字符和数字的干扰导致依存句法结构错误，从而提升依存分析的准确率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于依存分析的语义层次结构生成方法，其特征在于，包括：

对语句进行依存分析获取依存句法结构；

2.根据权利要求1所述的基于依存分析的语义层次结构生成方法，其特征在于，所述对语句进行依存分析获取依存句法结构之前，还包括：

3.根据权利要求2所述的基于依存分析的语义层次结构生成方法，其特征在于，所述对所述语句进行干扰成分过滤和专有名词替换的预处理操作包括：

4.根据权利要求1所述的基于依存分析的语义层次结构生成方法，其特征在于，所述基本语义判别模型的训练包括：

5.根据权利要求1所述的基于依存分析的语义层次结构生成方法，其特征在于，所述将所述依存句法结构结合训练好的基本语义判别模型得到所述语句的首层语义结构包括：

6.根据权利要求5所述的基于依存分析的语义层次结构生成方法，其特征在于，所述根据预设的调整规则、所述子节点的词性、依存关系对所述子节点的语义层次进行调整包括：

7.根据权利要求1所述的基于依存分析的语义层次结构生成方法，其特征在于，所述提取所述首层语义结构中的节点，并进行递归调整，得到所述语句的语义层次结构包括：

遍历所述首层语义结构中的父节点；

将所述子节点设为叶子节点。

8.根据权利要求7所述基于依存分析的语义层次结构生成方法，其特征在于，所述判断所述子节点是否为嵌套子句包括：

判定所述子节点为嵌套子句。

9.一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于依存分析的语义层次结构生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语义层次结构生成程序，所述语义层次结构生成程序被处理器执行时实现如权利要求1至8中任一项所述的基于依存分析的语义层次结构生成方法的步骤。