CN115017913A

CN115017913A - 基于主从框架模式的语义成分解析方法

Info

Publication number: CN115017913A
Application number: CN202210420156.XA
Authority: CN
Inventors: 邹盼湘; 钟佩君
Original assignee: Guangzhou Century Huake Technology Co ltd
Current assignee: Guangzhou Century Huake Technology Co ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-09-06
Anticipated expiration: 2042-04-21
Also published as: CN115017913B

Abstract

本发明公开了一种基于主从框架模式的语义成分解析方法，其包括步骤：通过训练语料得到基本表达模式、实体修饰模式、谓语修饰模式及辅助判断材料；将基本表达模式、实体修饰模式、谓语修饰模式索引到Trie树；利用基本表达模式树、谓语修饰模式树以及实体修饰模式树对语句进行解析得到候选层次语义成分树；对所述候选语义成分树进行排序并得到所述语句的最优语义成分树。本发明解决了目前语义分析需要大量样本标注及过度依赖句法分析效果的问题。

Description

基于主从框架模式的语义成分解析方法

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种基于主从框架模式的语义成分解析方法。

背景技术

语义分析是自然语言处理中的关键技术之一，通过对输入的语句进行分析以得到语句的基本含义以及各词语在语句中的作用。从语言理解的自身需求来看，对语句进行语义分析是语言理解的重要一环。同时，语义分析亦可为其它自然语言处理任务提供支持，如信息抽取、自动问答、机器翻译、语义推理等。根据语义分析的分析层面不同，最常见的语义分析任务可以分为语法成分分析和语义成分分析。语法成分分析即分析语句中各词语的主语、谓语、宾语等语法关系，而语义成分分析认为词语在语句里不仅有语法关系，还承担着语义角色。如今最常见的语义成分分析方法是语义角色标注，语义角色标注是一种浅层语义分析技术，以句子为单位，分析句子的谓词-论元结构，而不对句子所包含的语义信息进行深入分析，其理论基础来源于Fillmore(1968)年提出的格语法。具体来说，语义角色标注的任务就是以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并且用语义角色来描述他们之间的关系。但是，目前语义角色标注或需要大量用于训练的标注样本，或过于依赖外部语法分析的结果，且语义成分类型无法自定义。

因此，如何在不需要大量标注样本，且不过度依赖外部语法分析结果的情况下，获取语句的可自定义的语义成分，仍是有待解决的问题。

发明内容

本发明的主要目的在于提出一种基于主从框架模式的语义成分解析方法，旨在分析语句的基本语义成分，以及基本语义中各个词的修饰成分，同时分析语句中各成分所承担的语义角色，从而准确捕捉语句所表达的含义。

为实现上述目的，一种基于主从框架模式的语义成分解析方法，其包括以下步骤：

S1、通过训练语料得到基本表达模式、实体修饰模式、谓语修饰模式及辅助判断材料；

S2、将基本表达模式、实体修饰模式以及谓语修饰模式索引到Trie树；

S3、利用得到的基本表达模式树、谓语修饰模式树、实体修饰模式树及辅助判断材料对语句进行解析，得到候选语义成分树；

S4、对所述候选语义成分树进行排序并得到所述语句的最优语义成分树，遍历最优语义成分树节点对应的语义成分得到所述语句的解析。

进一步地，所述步骤S1中辅助判断材料包括句法成份表、句法搭配关系表以及约束条件；所述句法成份表至少包括谓词表、形容词表、实体表、状语表及补语表；所述句法搭配关系表至少包括谓语和宾语的动宾搭配关系表、主语和谓语的主谓搭配关系表、状语和谓语的状中搭配关系表、定语和主语或宾语的定中搭配关系表及宾语和补语的宾补搭配关系表；所述约束条件至少包括句中标点符号、主语与谓语的位置关系以及宾语与谓语的位置关系。

进一步地，所述句法成份表及句法搭配关系表存储于相应Trie树上的配置文件中，所述约束条件存储于规则文件中。

进一步地，所述步骤S2具体为：将基本表达模式、实体修饰模式以及谓语修饰模式三种模式分别索引到三棵Trie树，每棵所述Trie树的一条路径即为对应模式中的一个语法规则；对路径的每一个节点建立对应的树节点，树节点属性包括该节点的类型、拉选词、句法成分、子节点、实体类型及语义成分。

进一步地，所述步骤S3具体为：利用基本表达模式对应的Trie树对语句进行搜索匹配，得到并记录语句匹配命中的一个或多个路径；当路径为多个时，判断所述多个路径之间的相互嵌套组合关系，并标注；在所述基本表达模式每一路径的一棵层次语法结构树的基础上，利用谓语修饰模式对应的Trie树对语句中未被基本表达模式结构树命中的语块进行搜索匹配，得到其对应的谓语修饰结构树；在所述谓语修饰结构树的基础上，利用实体修饰模式对应的Trie树对语句中未被上述两层模式结构树命中的语块进行搜索匹配，得到每一棵层次语法结构树对应的谓语修饰结构树及实体修饰结构树；针对于每一棵层次语法结构树，将其对应的谓语修饰结构树及实体修饰结构树关联于层次语法结构树节点下，得到若干候选层次语义成分树。

进一步地，所述步骤S3中利用基本表达模式对应的Trie树对语句进行搜索匹配具体包括：遍历基本表达模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语句中，若存在则取该树节点的子节点对语句继续搜索，若不存在则取Trie树的下一树节点对语句进行上述搜索；若该树节点类型为实体或通配符，则取该树节点的子节点对语句继续搜索；若匹配中Trie树中完整的路径，则记录该路径。

进一步地，所述谓语修饰结构树的获取包括：对于语句中未被基本表达模式匹配中的语块，遍历谓语修饰模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；若匹配中Trie树中完整的路径，则得到谓语修饰结构树。

进一步地，实体修饰结构树的获取包括：对于语句中未被基本表达模式及谓语修饰模式匹配中的语块，遍历实体修饰模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；若匹配中Trie树中完整的路径，则得到实体修饰结构树。

进一步地，判断语块是否包含该树节点的实体类型下的命名实体方法包括：实体表词典匹配，判断词典中所述树节点的实体类型下的命名实体是否出现在语块中；基本命名实体识别，若所述树节点的实体类型为时间、数量、地点、人名、机构名等，则利用基本命名实体识别规则进行识别；实体猜测，若语块符合谓语修饰模式，则将语块中各成分对应于谓语修饰模式的节点，由此产生猜测实体。

进一步地，所述步骤S4具体为：对于每一候选层次语义成分树，统计层次语义成分树所能覆盖的语句长度，即统计语句中能在层次语义成分树找到对应成分的字数，将此结果赋值为树的得分；对若干候选层次语义成分树的得分进行排序，最后取得分最高的层次语义成分树作为该语句的解析结果；根据语义成分树节点对应的语义成分，得到所述语句中各个词语的语义成分。

本发明的有益效果：

1、本发明提出的基于语法层次结构的语义成分解析方法，无需通过大量标注样本以训练语义角色标注模型，仅需对少量样本进行分析得到中文基本表达模式、谓语修饰模式以及实体修饰模式；

2、本发明在对基本表达模式、谓语修饰模式以及实体修饰模式进行索引时，可将自定义的语义成分关联到树节点，在对语句完成解析得到语句中每个词语关联的树节点后，可通过树节点关联的实体类型对词语的合法性进行校验，同时通过树节点关联的语义成分得到词语的语义成分，最终得到句子每个词语的语义成分；

3、本发明解决了过于依赖外部语法分析方法的问题。

附图说明

图1为本发明实施例的基于主从框架模式的语义成分解析方法的流程示意图；

图2为本发明实施例的基本表达模式、实体修饰模式以及谓语修饰模式的索引流程示意图；

图3为本发明实施例的利用基本表达模式、谓语修饰模式以及实体修饰模式对语句进行解析得到候选层次语义成分树流程示意图；

图4为本发明实施例的对所述候选语义成分树进行排序并得到所述语句的最优语义成分树流程示意图；

图5为本发明实施例语句有多个并列谓语情况以树结构形式展示的解析结果图；

图6为本发明实施例语句有嵌套情况以树结构形式展示的解析结果图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。现在将参考附图描述实现本发明各个实施例的。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

如图1所示，本发明提供一种基于主从框架模式的语义成分解析方法，主框架指：基本语义框架，即基本表达模式；从框架指两个附属框架，即两个修饰模式，实体修饰模式以及谓语修饰模式。从框架是对主框架的进一步完善与补充。分析过程也是先用主框架模式对语句进行解析，判断语句的基本语义结构是什么，然后利用两个修饰模式对修饰成分进行解析，再进行判断其组合嵌套关系，得到语句正确的各层次语义结构。本发明将语句的组成看成为基本语义和修饰语义的嵌套组合而成，基本语义即组成语句的基本语法成分，修饰语义即语句中的词的修饰成分通常为定语修饰、状语修饰、补语修饰等。长句或者比较复杂的复合语句则为多个基本语义的嵌套加上修饰语义的修饰而成，通过对语句的层次化解析，分析语句中各成分所处的语法层次以及各成分之间的语法关系，并用语义成分来描述它们之间的语义关系，最终达到准确捕捉语句所表达含义的效果。此外，本发明解决目前语义分析需要大量样本标注及过度依赖句法分析效果的问题。

本发明提出一种基于主从框架模式的语义成分解析方法，包括两个过程：

(1)训练过程，包括：整理常见谓词表、实体表、状语表、形容词表及补语表等等；根据应用场景整理针对该应用场景下的训练语料，也可以是大规模通用语料，训练语料只需表达清晰完整即可，不需要人工标注；根据训练语料利用依存分析法抽取基本表达模式(通常为主谓宾结构)、实体修饰模式(通常为定语成分，可以是多重定语)、谓语修饰(通常为状语成分，如时间状语、地点状语等)模式；将基本表达模式、实体修饰模式以及谓语修饰模式建立Trie树索引。谓词表、实体表、状语表、形容词表及补语表等存储于Trie树相应树节点的配置文件里。

(2)解析过程，包括：对语句与基本表达模式Trie树进行搜索，找出候选基本表达模式集合，并构建若干候选层次语义成分树；利用实体修饰模式索引树和谓语修饰模式索引对候选层次语义成分树进行解析；若解析成功则返回解析树结果，若解析失败，则对失败的词进行模式猜测，给出符合猜测结果的解析树结构；若存在多个解析结果，则对每个解析结果进行排序，选择最优解析树结构；对最优解析树结果进行语义分层，得到语句的基本语义和嵌套语义。

在一个可能的设计中，所述基本表达模式、实体修饰模式以及谓语修饰模式的Trie树包括：将基本表达模式、实体修饰模式以及谓语修饰模式三种模式分别索引到三棵Trie树，Trie树的一条路径即为一个完整的解析模式即对应模式中的一个语法规则。以基本表达模式为例，其完整的解析模式包括主+谓模式、主+谓+宾模式、宾语前置模式等。对模式的每一个节点建立对应的树节点，树节点属性包括该节点的类型、拉选词、句法成分、子节点、实体类型及语义成分。

在一个可能的设计中，所述候选层次语义成分树的获取包括：利用基本表达模式对应的Trie树对语句进行搜索匹配，并记录语句命中的若干路径；将所述语句命中的若干路径根据路径覆盖范围进行嵌套组合得到若干候选层次语法结构树。在所述若干候选层次语法结构树中的每一棵层次语法结构树的基础上，利用谓语修饰模式对应的Trie树对语句中未被层次语法结构树命中的语块进行搜索匹配，得到每一棵层次语法结构树对应的谓语修饰结构树。在所述每一棵层次语法结构树及其对应的谓语修饰结构树的基础上，利用实体修饰模式对应的Trie树对语句中未被层次语法结构树及谓语修饰结构树命中的语块进行搜索匹配，得到每一棵层次语法结构树对应的谓语修饰结构树及实体修饰结构树。针对于每一棵层次语法结构树，将其对应的谓语修饰结构树及实体修饰结构树关联于层次语法结构树节点下，得到若干候选层次语义成分树。

在一个可能的设计中，利用基本表达模式对应的Trie树对语句进行搜索匹配包括：遍历基本表达模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语句中，若存在则取该树节点的子节点对语句继续搜索，若不存在则取Trie树的下一树节点对语句进行搜索；若该树节点类型为实体或通配符，则取该树节点的子节点对语句继续搜索。若匹配中Trie树中完整的路径，则记录该路径。

在一个可能的设计中，谓语修饰结构树的获取包括：对于语句中未被基本表达模式匹配中的语块，遍历谓语修饰模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；若匹配中Trie树中完整的路径，则得到谓语修饰结构树。

在一个可能的设计中，实体修饰结构树的获取包括：对于语句中未被基本表达模式及谓语修饰模式匹配中的语块，遍历实体修饰模式对应Trie树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；若匹配中Trie树中完整的路径，则得到实体修饰结构树。

在一个可能的设计中，判断语块是否包含该树节点的实体类型下的命名实体方法包括：词典匹配，判断词典中所述树节点的实体类型下的命名实体是否出现在语块中。基本命名实体识别，若所述树节点的实体类型为时间、数量、地点、人名、机构名等，则利用基本命名实体识别规则进行识别。实体猜测，若语块符合谓语修饰模式，则将语块中各成分对应于谓语修饰模式的节点，由此产生猜测实体。猜测实体是将语块与词典中存储的实体词语进行语义相似度比较，当语义相似度≥75％时，则认定为相似的实体，比如“小明”与“小红”。其中判断语义相似度的方法可采用word2 vec或bert模型。

在一个可能的设计中，对候选层次语义成分树进行排序取最优包括：对于每一候选层次语义成分树，统计层次语义成分树所能覆盖的语句长度，即统计语句中能在层次语义成分树找到对应成分的字数，将此结果赋值为树的得分；对若干候选层次语义成分树的得分进行排序，最后取得分最高的层次语义成分树作为该语句的解析结果。

如附图1所示，本发明的一种基于主从框架模式的语义成分解析方法，其包括步骤：

101、开始。

102、利用依存分析法通过大量训练语料得到基本表达模式、实体修饰模式以及谓语修饰模式及辅助判断材料。

根据应用场景整理针对该应用场景下的大量训练语料，也可以是大规模通用语料，训练语料只需表达清晰完整即可，不需要人工标注。

根据训练语料利用依存分析法抽取基本表达模式、实体修饰模式、谓语修饰模式。其中：基本表达模式是指中文语句中的每个成分不带有修饰成分，且语句不包含从句、复合结构等嵌套形式的简单句子结构，常见的有主+谓+宾结构；实体修饰模式是指中心语为名词，其他成分为中心语的修饰词的短语结构，常见的有定中结构，可以是多重定语；谓语修饰模式是指中心语为动词，其他成分为时间状语、地点状语等谓语的修饰成分的短语结构。

训练语料同时抽取辅助判断材料，辅助判断材料包括多个句法成份表、句法搭配关系表以及约束条件；多个句法成份表，句法成份表包括谓词表、形容词表、实体表、状语表及补语表等，更进一步地，可以收集常见的谓词表、形容词表、实体表、状语表及补语表等与抽取的句法成份表合并筛重，形成解析用各句法成份表。所述句法搭配关系表至少包括谓语和宾语的动宾搭配关系表、主语和谓语的主谓搭配关系表、状语和谓语的状中搭配关系表、定语和主语或宾语的定中搭配关系表及宾语和补语的宾补搭配关系表；所述约束条件至少包括句中标点符号、主语与谓语的位置关系以及宾语与谓语的位置关系。所述句法成份表及句法搭配关系表存储于相应Trie树上的配置文件中，所述约束条件存储于约束规则文件中。

103、基本表达模式、实体修饰模式以及谓语修饰模式的索引。

将基本表达模式、实体修饰模式以及谓语修饰模式分别索引到对应的Trie模式树，若模式为基本表达模式，则索引到基本表达模式树；若为实体修饰模式，则索引到实体修饰模式树；若为谓语修饰模式，则索引到谓语修饰模式树。其中，对模式的每一个成分建立对应的树节点，树节点属性包括该节点的类型、拉选词、句法成分、子节点、实体类型及语义成分。类型包括核心结构、语法词、实体及通配符，其中核心结构或语法词即要求绝对匹配的词，如谓语、因为-所以等重要的关联词，实体或通配符即不需要绝对匹配的词；拉选词即为100％符合该节点规则的例词，句法成分即属于主、谓、宾、定、状、补等句法成分中的哪一个，实体类型(此类属性，当树节点为实体时有，非实体时无)即区分其属于人物类、地方类或事物类等等，语义成分即施事者或受事者。

104、利用基本表达模式、谓语修饰模式以及实体修饰模式对语句进行解析得到候选层次语义成分树。

从表面看一个语句是词的线性序列，但实际上语句里的词与词之间联系的紧密程度是不一样的，词和词的组合有着层次的透景，按一定的语法规则一层一层地进行组合，较高层次的成分都是由较低层次的成分组成。

对语句的层次化解析，即是对语句的层次进行解构。更具体地，首先用基本表达模式对句子解析，得到句子可能符合的若干个语法结构。其后，根据所述语法结构的覆盖范围，得到语法结构之间的相互嵌套关系，即首层语法结构以及子层语法结构，并转化为树状结构，由此得到语句对应的若干候选层次语法结构树。

如语句“小明本学期刻苦学习，最终取得了好成绩”这句话在经过该步骤的分析时，会得到以下两个基本表达模式：关于“学习”谓语的主谓结构，主语为“小明”；关于“取得”谓语的动宾结构，宾语为“成绩”。

语句的层次语法结构树可以理解为句子的骨架，其后便是在骨架的基础上获得语句各名词和动词成分的修饰成分。更具体地，在候选层次语法结构树的基础上，取未被候选层次语法结构树匹配中的语块，利用谓语修饰模式对语块进行解析，得到层次语法结构树中谓语成分对应的修饰成分，并转化为谓语修饰结构树。如上述例句得到关于“学习”谓语的主谓结构以及关于“取得”谓语的动宾结构后，在本步骤会得到关于“学习”谓语的程度状语修饰成分“刻苦”、时间状语修饰成分“本学期”，以及关于“取得”谓语的状语修饰成分“最终”和补语修饰成分“了”。

同样地，针对于语句中未被候选层次语法结构树及谓语修饰结构树匹配中的语块，利用实体修饰模式对其进行解析，得到名词性成分对应的修饰成分，并转化为实体修饰结构树。如上述例句得到关于“学习”谓语的主谓结构及修饰成分、关于“学习”谓语的动宾结构及修饰成分后，在本步骤会得到关于“成绩”这一名词的修饰成分“好”。

最后，将谓语修饰结构树及实体修饰结构树关联于对应的候选层次语法结构树的树节点下，得到候选语义成分树。每棵语义成分树的每个节点可关联到语句的词语。

105、对所述候选语义成分树进行排序并得到所述语句的最优语义成分树。

若语句中越多成分能被语义成分树中的成分解释，即语句中越多成分在语义成分树中找到所承担的角色，说明对应的语义成分树是语句的更优解析结果。基于此，统计每棵候选语义成分树所能覆盖的语句长度，并进行排序，取其中覆盖长度最长的一棵作为最优层次语义成分树。通过最优语义成分树的各个树节点关联的语义成分，可以得到语句中词语的语义成分。

如上述例句“小明本学期刻苦学习，最终取得了好成绩”通过上述各步骤的分析，最终得到的各个词语相应语法成分、语义成分分别是：

(小明、主语、语句的主体或称施事者)；

(本学期、时间状语、“学习”的时间修饰)；

(刻苦、状语、“学习”的程度修饰成分)；

(学习、谓语、首层谓语)；

(最终、状语、“取得”的修饰成分)；

(取得、谓语、首层谓语)；

(了、补语、“取得”的补语)；

(好、定语、“成绩”的修饰)；

(成绩、宾语、语句受事者)

其中，语义成分可以自定义，此处仅作举例。

106、结束。

在图1对应的任一实施例的基础上，本发明另一实施例提供的基于语法层次结构的语义成分解析方法中，如图2所示，语法结构模式、实体修饰模式以及谓语修饰模式的索引包括步骤：

201、开始。

202、初始化根节点。

203、遍历语法规则列表。

204、将根节点赋值为当前树节点。

205、遍历语法规则中的节点。

206、判断语法规则节点是否为当前树节点的子节点，若是，则进入步骤208；若否，则进入步骤207。

207、将语法规则节点添加于当前树节点的子节点列表。

更具体地，对语法规则的每个节点建立树节点，其中树节点属性包括该节点的拉选词、实体类型、语法成分、节点类型、参数、子节点等。

208、将语法规则节点赋值为当前树节点。

209、将当前语法规则的完整路径索引到Trie树。

210、Trie树构造失败指针。

211、得到模式树。

212、结束。

在图2对应的任一实施例的基础上，本发明另一实施例提供的基于语法层次结构的语义成分解析方法中，如图3所示，候选层次语义成分树的获取包括步骤：

301、开始。

302、用基本表达模式对应的Trie树对语句进行搜索匹配，得到语句命中的若干路径。

在具体实施时，可以包括以下步骤：自顶向下遍历基本表达模式树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语句中，若存在则取该树节点的子节点对语句继续搜索，若不存在则取Trie树的下一树节点对语句进行搜索；若该树节点类型为实体或通配符，则取该树节点的子节点对语句继续搜索。若匹配中完整的路径，则记录该路径。

303、将若干路径相互嵌套组合得到若干候选层次语法结构树。

更具体地，可以根据所述路径，即基本语法结构的覆盖范围，得到基本语法结构之间的相互嵌套关系，即首层语法结构以及相应的子层语法结构，其后转化为树状结构。

304、遍历若干候选层次语法结构树。

305、对于每一棵层次语法结构树，获取未被命中的语块。

更具体地，所述未被命中的语块指的是，语句中未被层次语法结构树中树节点类型为核心结构或语法词的树节点匹配的语块。

306、用谓语修饰模式对应的Trie树对语块进行搜索匹配，得到谓语修饰结构树，并更新未被命中的语块。

在具体实施时，可以包括以下步骤：对于语句中未被基本表达模式匹配中的语块，遍历谓语修饰模式树的树节点；若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取模式树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；若匹配中Trie树中完整的路径，则得到谓语修饰结构树。

需要说明的是，若树节点类型为实体时，判断语块是否包含该树节点的实体类型下命名实体的方法包括：实体表词典匹配，判断词典中所述树节点的实体类型下的命名实体是否出现在语块中；基本命名实体识别，若所述树节点的实体类型为时间、数量、地点、人名、机构名等，则利用基本命名实体识别规则进行识别。

基本命名实体识别规则如下：

A.数量规则：

1.中文数字或阿拉伯数字+单位，如：10英尺。

2.部分比较词+数字+单位，如：最高血压小于150/100mmHg。

3.阿拉伯数字+百分号，如：公司营业收入同期增长27.18％。

4.中文数字+计数单位，如：一兆一千一百一十一亿一千一百二十三万四千五百六十七。

B.时间规则：

1.以年、月、日、时、分、秒拼接的中文或阿拉伯数字，如：2014年01月09日21时14分、2015年4月、5月、7月。

2.时间连词+数量词+年月日，如：未来五-七个月等。

C.地名规则：

省+市+区+街道+路名，如：广东省广州市黄埔区联和街道彩频路。

D.邮箱规则：

英文字母和阿拉伯数字+@+英文字母和阿拉伯数字+.+com，如xxx@163.com。

E.网址规则：

1.以“https://”开始的英文数字串，如：https://www.baidu.com

2.以“www.”开始且有“.”分割的英文数字串，如：www.baidu.com等。

F.身份证号规则：

18位连续阿拉伯数字，或加X。

G.手机号规则：

连续的11个阿拉伯数字，且号码前缀为合法的运营商号段。

实体猜测，若语块符合谓语修饰模式，则将语块中各成分对应于谓语修饰模式的节点，由此产生猜测实体。

307、用实体修饰模式对应的Trie树对语块进行搜索匹配，得到实体修饰结构树。

在具体实施时，可以包括以下步骤：

对于语句中未被基本表达模式及谓语修饰模式匹配中的语块，遍历实体修饰模式树的树节点。

若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索。

若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取模式树的下一树节点对语块进行搜索。

若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索。

若匹配中Trie树中完整的路径，则得到实体修饰结构树。

308、将谓语修饰结构树及实体修饰结构树关联于层次语法结构树节点下。

309、得到候选层次语义成分树。

310、结束。

在图3对应的任一实施例的基础上，本发明另一实施例提供的基于语法层次结构的语义成分解析方法中，如图4所示，对候选层次语义成分树进行排序取最优包括步骤：

401、开始。

402、遍历若干候选层次语义成分树。

403、对于每一候选层次语义成分树，统计层次语义成分树所能覆盖的语句长度，即统计语句中能在层次语义成分树找到对应成分的字数，将此结果赋值为树的得分。

更具体地，若语句中越多成分能被语义成分树中的成分解释，即语句中越多成分在语义成分树中找到所承担的角色，说明对应的语义成分树是语句的更优解析结果。基于此，统计每棵候选语义成分树所能覆盖的语句长度，并进行排序，取其中覆盖长度最长的一棵作为最优层次语义成分树。

404、对若干候选层次语义成分树的得分进行排序，最后取得分最高的层次语义成分树作为该语句的解析结果。

405、结束。

作为一个实施过程演示如下：

本发明在训练过程中，对大量样本进行依存分析，可得到句法词语的搭配关系，如“美丽”和“广州”的定中搭配，“取得”与“成绩”的动宾搭配等，常见搭配关系包括谓语和宾语的动宾搭配关系、主语和谓语的主谓搭配关系、状语和谓语的状中搭配关系、定语和主语或宾语的定中搭配关系、宾语和补语的宾补搭配关系等等。

以下结合例句详细说明本方法的流程，着重说明语句有多个并列谓语的情况(复句)和语句有嵌套的情况。

一、语句有多个并列谓语的情况：

例句：小明本学期刻苦学习，最终取得了好成绩

1.解析过程中，首先用基本表达模式匹配，得到语句中的谓语：“学习”和“取得”。

小明本学期刻苦学习，最终取得了好成绩

2.分别用关于“学习”的基本表达模式和关于“取得”的基本表达模式解析，得到以下候选基本表达模式：

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，主语为“小明本学期刻苦”。

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓宾模式，主语为“小明本学期刻苦”，宾语为“最终取得了好成绩”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓模式，主语为“小明本学期刻苦学习，最终”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓宾模式，主语为“小明本学期刻苦学习，最终”，宾语为“了好成绩”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的动宾模式，宾语为“了好成绩”。

3.进一步确定两种基本表达模式中其他成分具体是什么词语，即主语宾语是哪些词。在经过训练后，每种模式的主语或宾语可以搭配哪些词语哪些实体类型都已记录下，利用已经记录的“学习”能与哪些主语词搭配，“学习”能与哪些宾语词搭配，“取得”能与哪些主语词搭配，“取得”能与哪些宾语词搭配，以及例句中的标点符号、主语与谓语的位置关系、宾语与谓语的位置关系等作为约束条件，约束条件存储于约束规则文件中。可得到如下结果：

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，主语为“小明”。

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓宾模式，没找到宾语，排除。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓模式，主语为“小明”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓宾模式，主语为“小明”，宾语为“成绩”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的动宾模式，宾语为“成绩”。

4.分别用关于“学习”的谓语修饰模式和关于“取得”的谓语修饰模式进一步对语句未被匹配的部分解析，得到以下结果：

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，前置状语为“本学期”、“刻苦”。

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，后置状语“最终”。

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，所有状语为“本学期”、“刻苦”、“最终”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓模式，所有状语“本学期”“刻苦”“最终”，补语“了”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓宾模式，所有状语“本学期”“刻苦”“最终”，补语“了”，宾语为“成绩”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的动宾模式，所有状语“本学期”“刻苦”“最终”，补语“了”，宾语为“成绩”。

5.用关于实体类型为“人物”的实体修饰模式对语句中未被匹配的部分解析，没有得到“小明”的修饰成分，用关于“成绩”的实体修饰模式对语句中未被匹配的部分解析，得到“成绩”的修饰成分“好”

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，前置状语“本学期”“刻苦”。

小明本学期刻苦学习，最终取得了好成绩：关于“学习”的主谓模式，所有状语“本学期”“刻苦”“最终”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的主谓宾模式，所有状语“本学期”“刻苦”“最终”，补语“了”，定语“好”。

小明本学期刻苦学习，最终取得了好成绩：关于“取得”的动宾模式，所有状语“本学期”“刻苦”“最终”，补语“了”，定语“好”。

6、对候选解析结果合并与排序，以下为候选结果：

小明本学期刻苦学习，最终取得了好成绩

关于“取得”的候选模式中，能解析得到最多成分的是：

小明本学期刻苦学习，最终取得了好成绩

关于“学习”的候选模式中，能解析得到最多成分的是：

小明本学期刻苦学习，最终取得了好成绩

上面两个候选模式有交叉部分，“本学期”“刻苦”“最终”未能明确是谁的状语，“小明”未能明确是谁的主语，需要利用训练时候收集的状中搭配关系词语、主谓搭配关系词语、例句中的标点符号、状语与谓语的位置关系等作为约束条件，以明确“本学期”“刻苦”为“学习”的状语，“最终”为“取得”的状语(此处以状语为例，谓语的其他修饰成分如补语等同理)；明确“小明”为“学习”的主语。处理后可得以下结果：

小明本学期刻苦学习，最终取得了好成绩

最终结果已覆盖例句中的全部词语，可认为解析成功，有结果可知该例句为复句，即由两个意义相关，结构上互不作句子成分的分句组成：“小明本学期刻苦学习”、“最终取得了好成绩”。分句是结构上类似的单句而没有完整句调的语法单位。

如附图5所示，解析结果以树结构的形式展示，root节点为虚拟节点，基本语义结构的各成分为首层节点。

二、语句有嵌套的情况：

例句：本学期刻苦学习的小明最终取得了好成绩

解析过程中，首先用基本表达模式匹配，得到语句中的谓语：“学习”和“取得”。

1.本学期刻苦学习的小明最终取得了好成绩

2.分别用关于“学习”的基本表达模式和关于“取得”的基本表达模式解析，得到以下候选基本表达模式(以下所示为部分模式，未全部列出)：

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的单谓语模式。

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的主谓模式，主语为“本学期刻苦”。

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的主谓宾模式，主语为“本学期刻苦”，宾语为“的小明最终取得了好成绩”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓模式，主语为“本学期刻苦学习的小明最终”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的动宾模式，宾语为“了好成绩”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓宾模式，主语为“本学期刻苦学习的小明最终”，宾语为“了好成绩”。

3.进一步确定两种基本表达模式中其他成分具体是什么词语，即主语宾语是哪些词。在经过训练后，每种模式的主语或宾语可以搭配哪些词语哪些实体类型都已记录下，利用已经记录的“学习”能与哪些主语词搭配，“学习”能与哪些宾语词搭配，“取得”能与哪些主语词搭配，“取得”能与哪些宾语词搭配，以及例句中的标点符号、主语与谓语的位置关系、宾语与谓语的位置关系等作为约束条件，可得到如下结果：

本学期刻苦学习的小明最终取得了好成绩：关于“学习”单谓语模式。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓模式。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的动宾模式。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓宾模式。

4.分别用关于“学习”的谓语修饰模式和关于“取得”的谓语修饰模式进一步对语句中未被匹配的部分解析，得到以下结果：

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的单谓语模式，前置状语“本学期”“刻苦”。

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的单谓语模式，后置状语“最终”。

本学期刻苦学习的小明最终取得了好成绩：关于“学习”的单谓语模式，所有状语“本学期”“刻苦”“最终”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓模式，前置状语“本学期”“刻苦”“最终”，补语“了”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的动宾模式，前置状语“本学期”“刻苦”“最终”，补语“了”。

本学期刻苦学习的小明最终取得了好成绩：关于“取得”的主谓宾模式，前置状语“本学期”“刻苦”“最终”，补语“了”。

5.用关于“成绩”的实体修饰模式对语句中未被匹配的部分解析，得到“成绩”的修饰成分“好”。

用关于实体类型为“人物”的实体修饰模式对语句中未被匹配的部分解析，未得到“小明”的修饰成分。

6.对候选解析结果合并与排序，以下为候选结果：

本学期刻苦学习的小明最终取得了好成绩

关于“取得”的候选模式中，能解析得到最多成分的是：

本学期刻苦学习的小明最终取得了好成绩

关于“学习”的候选模式中，能解析得到最多成分的是：

本学期刻苦学习的小明最终取得了好成绩

上面两个候选基本表达模式有交叉部分，“本学期”“刻苦”“最终”未能明确是谁的状语，需要利用训练时候收集的状中搭配关系词语、例句中的标点符号、状语与谓语的位置关系等作为约束条件，约束条件存储于约束规则文件中。以明确“本学期”“刻苦”为“学习”的状语，“最终”为“取得”的状语(此处以状语为例，谓语的其他修饰成分如补语等同理)。处理后可得以下结果：

本学期刻苦学习的小明最终取得了好成绩

解析结果未能覆盖例句中的全部词语，此时需要用关于“成绩”的实体修饰模式以及关于实体类型为“人物”的实体修饰模式对语句所有部分再次解析，该步骤主要是出于以下考虑：

A.语句可能为非谓语结构的语句，如“多么美丽的春天啊”为名词性非谓语结构,没有匹配到谓语会造成解析失败。

B.语句中实体的修饰语可能被基本表达模式、状语修饰模式匹配中，如本例句的情况:

用关于实体类型为“人物”的实体修饰模式对语句解析，可得到以下结果：

本学期刻苦学习的小明最终取得了好成绩：修饰语为“本学期刻苦学习”，“的”为附加语。

对以下结果进行合并分析：

本学期刻苦学习的小明最终取得了好成绩

由于“本学期刻苦学习”作为“小明”的修饰语，同时也符合关于“学习”的谓语修饰模式，因此判断为嵌套关系，即“本学期刻苦学习”以状中短语的形式作为“小明”的修饰语，需要把状中关系树挂到“小明”下。

如附图6所示，解析结果以树结构的形式展示，root节点为虚拟节点，基本语义结构的各成分为首层节点。

本发明提供的基于语法层次结构的语义成分解析方法，首先对语句的基本语法结构的层次进行解构，再获取语句的谓语及名词对应的修饰成分，层次地解析语句中各成分在语义的层面所承担的角色。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

Claims

1.一种基于主从框架模式的语义成分解析方法，其特征在于，其包括以下步骤：

2.根据权利要求1所述的基于主从框架模式的语义成分解析方法，其特征在于，所述步骤S1中辅助判断材料包括句法成份表、句法搭配关系表以及约束条件；所述句法成份表至少包括谓词表、形容词表、实体表、状语表及补语表；所述句法搭配关系表至少包括谓语和宾语的动宾搭配关系表、主语和谓语的主谓搭配关系表、状语和谓语的状中搭配关系表、定语和主语或宾语的定中搭配关系表及宾语和补语的宾补搭配关系表；所述约束条件至少包括句中标点符号、主语与谓语的位置关系以及宾语与谓语的位置关系。

3.根据权利要求2所述的基于主从框架模式的语义成分解析方法，其特征在于，所述句法成份表及句法搭配关系表存储于相应Trie树上的配置文件中，所述约束条件存储于约束规则文件中。

4.根据权利要求1所述的基于主从框架模式的语义成分解析方法，其特征在于，所述步骤S2具体为：

将基本表达模式、实体修饰模式以及谓语修饰模式三种模式分别索引到三棵Trie树，每棵所述Trie树的一条路径即为对应模式中的一个语法规则；

对路径的每一个节点建立对应的树节点，树节点属性包括该节点的类型、拉选词、句法成分、子节点、实体类型及语义成分。

5.根据权利要求4所述的基于主从框架模式的语义成分解析方法，其特征在于，所述步骤S3具体为：

利用基本表达模式对应的Trie树对语句进行搜索匹配，得到并记录语句匹配命中的一个或多个路径；当路径为多个时，判断所述多个路径之间的相互嵌套组合关系，并标注；

在所述基本表达模式每一路径的一棵层次语法结构树的基础上，利用谓语修饰模式对应的Trie树对语句中未被基本表达模式结构树命中的语块进行搜索匹配，得到其对应的谓语修饰结构树；

在所述谓语修饰结构树的基础上，利用实体修饰模式对应的Trie树对语句中未被上述两层模式结构树命中的语块进行搜索匹配，得到每一棵层次语法结构树对应的谓语修饰结构树及实体修饰结构树；

针对于每一棵层次语法结构树，将其对应的谓语修饰结构树及实体修饰结构树关联于层次语法结构树节点下，得到若干候选层次语义成分树。

6.根据权利要求5所述的基于主从框架模式的语义成分解析方法，其特征在于，所述利用基本表达模式对应的Trie树对语句进行搜索匹配具体包括：

遍历基本表达模式对应Trie树的树节点；

若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语句中，若存在则取该树节点的子节点对语句继续搜索，若不存在则取Trie树的下一树节点对语句进行上述搜索；

若该树节点类型为实体或通配符，则取该树节点的子节点对语句继续搜索；

若匹配中Trie树中完整的路径，则记录该路径。

7.根据权利要求5所述的基于主从框架模式的语义成分解析方法，其特征在于，所述谓语修饰结构树的获取包括：

对于语句中未被基本表达模式匹配中的语块，遍历谓语修饰模式对应Trie树的树节点；

若该树节点类型为核心结构或语法词，则判断该节点的拉选词是否存在于语块中，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；

若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；

若匹配中Trie树中完整的路径，则得到谓语修饰结构树。

8.根据权利要求5所述的基于主从框架模式的语义成分解析方法，其特征在于，实体修饰结构树的获取包括：

对于语句中未被基本表达模式及谓语修饰模式匹配中的语块，遍历实体修饰模式对应Trie树的树节点；

若该树节点类型为实体，则判断语块是否包含该树节点的实体类型下的命名实体，若存在则取该树节点的子节点对语块继续搜索，若不存在则取Trie树的下一树节点对语块进行搜索；

若该树节点类型为通配符，则取该树节点的子节点对语块继续搜索；

若匹配中Trie树中完整的路径，则得到实体修饰结构树。

9.根据权利要求8所述的基于主从框架模式的语义成分解析方法，其特征在于，判断语块是否包含该树节点的实体类型下的命名实体方法包括：

实体表词典匹配，判断词典中所述树节点的实体类型下的命名实体是否出现在语块中；

基本命名实体识别，若所述树节点的实体类型至少包括时间、数量、地点、人名、机构名，则利用基本命名实体识别规则进行识别；

10.根据权利要求1所述的基于主从框架模式的语义成分解析方法，其特征在于，所述步骤S4具体为：

对于每一候选层次语义成分树，统计层次语义成分树所能覆盖的语句长度，即统计语句中能在层次语义成分树找到对应成分的字数，将此结果赋值为树的得分；

对若干候选层次语义成分树的得分进行排序，最后取得分最高的层次语义成分树作为该语句的解析结果；

根据语义成分树节点对应的语义成分，得到所述语句中各个词语的语义成分。