CN112836516A

CN112836516A - 一种语义分析方法及装置、终端、存储介质

Info

Publication number: CN112836516A
Application number: CN201911168156.XA
Authority: CN
Inventors: 唐海庆; 杨希
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-05-25
Anticipated expiration: 2039-11-25
Also published as: CN112836516B

Abstract

本发明实施例公开了一种语义分析方法，该方法包括：对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；采用句子成分分析法对所述第一待训练语料进行建模，获得成分句法分析模型；所述成分句法分析模型用于获得第二待训练语料；采用依存句法分析法对所述第二待训练语料进行建模，获得依存句法分析模型；基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果。通过该方法，避免了无法实现精准的语义分析的问题，有效提升了语义分析的准确率。本发明实施例还公开了一种语义分析装置、终端及存储介质。

Description

一种语义分析方法及装置、终端、存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种语义分析方法及装置、终端、存储介质。

背景技术

深度学习技术在过去5年来，之所以能够在自然语言处理领域中取得不可忽视的成果，其起源就是词向量(word to vector，word2vec)编码技术的提出和应用。在词向量的基础上构建句子向量，以基于构建的句子向量来实现对文章、对话等大段内容的语义识别是比较常用的方法。

然而，在基于词向量获得对应的句子向量时，都是简单的将多个词向量拼接在一起，无法实现精准的语义分析。

发明内容

有鉴于此，本发明实施例期望提供一种语义分析方法及装置、终端、存储介质，能够有效提升语义分析的准确率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语义分析方法，所述方法包括：

对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；其中，所述预设树库是指包括至少一个树结构的预设的句法分析语料库，所述树结构是指非线性的数据结构；

采用句子成分分析法对所述第一待训练语料进行建模，获得成分句法分析模型；所述成分句法分析模型用于获得第二待训练语料，所述第二待训练语料是指包括将所述第一待训练语料中的所述长距离投射标记树结构划分为至少一个子树结构后，且包括所述第一待训练语料中非长距离投射标记的树结构的训练语料；

采用依存句法分析法对所述第二待训练语料进行建模，获得依存句法分析模型，所述依存句法分析模型用于获得所述第二待训练语料中每个子树结构中词语间的依存关系；

基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果。

第二方面，本发明实施例提供一种语义分析装置，所述语义分析装置包括：

标记单元，用于对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；其中，所述预设树库是指包括至少一个树结构的预设的句法分析语料库，所述树结构是指非线性的数据结构；

建模单元，用于采用句子成分分析法对所述第一待训练语料进行建模，获得成分句法分析模型；所述成分句法分析模型用于获得第二待训练语料，所述第二待训练语料是指包括将所述第一待训练语料中的所述长距离投射标记树结构划分为至少一个子树结构后，且包括所述第一待训练语料中非长距离投射标记的树结构的训练语料；

所述建模单元，还用于采用依存句法分析法对所述第二待训练语料进行建模，获得依存句法分析模型，所述依存句法分析模型用于获得所述第二待训练语料中每个子树结构中词语间的依存关系；

获得单元，用于基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果。

第三方面，本发明实施例提供一种计算机，所述计算机至少包括：处理器、存储器、通信接口，和用于连接所述处理器、存储器以及通信接口的总线；所述处理器用于执行所述存储器中存储的语义分析程序，以实现如上述第一方面中所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有语义分析程序，应用于终端中，所述语义分析程序被处理器执行时实现如上述第一方面中所述的方法。

本发明实施例提供了一种语义分析方法及装置、终端、存储介质，该方法包括：对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；其中，所述预设树库是指包括至少一个树结构的预设的句法分析语料库，所述树结构是指非线性的数据结构；采用句子成分分析法对所述第一待训练语料进行建模，获得成分句法分析模型；所述成分句法分析模型用于获得第二待训练语料，所述第二待训练语料是指包括将所述第一待训练语料中的所述长距离投射标记树结构划分为至少一个子树结构后，且包括所述第一待训练语料中非长距离投射标记的树结构的训练语料；采用依存句法分析法对所述第二待训练语料进行建模，获得依存句法分析模型，所述依存句法分析模型用于获得所述第二待训练语料中每个子树结构中词语间的依存关系；基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果。也就是说，本发明实施例提出的一种语义分析方法，通过建立成分句法分析模型和依存句法分析模型，并基于成分句法分析模型和依存句法分析模型来对输入语句进行分析，使得在对输入语句进行分析的过程中能利用成分句法分析的优势将长距离投射的树结构划分成多个子树结构，而将长距离投射的树结构划分成多个子树结构能有效表征子句片段和子句片段间的关系，随后进一步利用依存句法分析的优势获得每个子树结构中词的依赖关系，从而有效地提高了语义分析的准确率。

附图说明

图1为本发明实施例提出的一种语义分析方法流程图；

图2为本发明实施例中句子成分分析法的示例图；

图3为本发明实施例中依存句法分析示例图；

图4为本发明实施例中终端获得输入语句的子片段的流程示例图；

图5为示例性输入语句的依存句法分析示例图；

图6为本发明实施例图4中parse-1的成分句法分析树的示例图；

图7a为本发明实施例图4中parse-1的成分句法分析结果中第一子片段的依存句法分析树的示例图；

图7b为本发明实施例图4中parse-1的成分句法分析结果中第二子片段的依存句法分析树的示例图；

图7c为本发明实施例图4中parse-1的成分句法分析结果中第三子片段的依存句法分析树的示例图；

图7d为本发明实施例图4中parse-1的成分句法分析结果中第四子片段的依存句法分析树的示例图；

图8为本发明实施例提出的一种语义分析装置图；

图9为本发明实施例提出的终端的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提供了一种语义分析方法，图1为本发明实施例提出的一种语义分析方法流程图，如图1所示，在本发明的实施例中，语义分析方法可以包括以下步骤：

S101、对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；其中，预设树库是指包括至少一个树结构的预设的句法分析语料库，树结构是指非线性的数据结构。

在本发明的实施例中，终端对预设树库中的树结构进行标记处理，以获得带有长距离投射标记树结构的第一待训练语料。需要说明的是，在本发明的实施例中，预设树库可以为公用的包括至少一个树结构的句法分析语料库，句法语料分析库采用非线性的数据结构，即树结构，描述了语言实际使用中真实出现过的句子的结构成分，用以开展相关的语言理论及应用研究。而第一待训练语料即是对预设树库中的树结构进行标记处理后的用于语义分析的待训练语料。在本发明的实施例中，以宾州树库为例进行说明，但本发明实施例并不限制预设树库的选取。

在本发明的实施例中，终端会对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料，具体方法为：终端针对预设树库中至少一个树结构中的每个树结构，计算每个树结构中根节点对应的词性的平均投射长度；若平均投射长度大于预设投射长度阈值，则标记平均投射长度对应的树结构，获得带有长距离投射标记树结构的第一待训练语料。

在本发明的实施例中，终端对预设树库中的每个树结构进行计算，计算根节点对应的词性的平均投射长度，当平均投射长度大于预设投射长度阈值，则标记该平均投射长度对应的树结构，获得带有长距离投射标记树结构的第一待训练语料。

需要说明的是，在本发明的实施例中，预设树库中的每个词都被标注了词性信息，词性信息中包括了词语的词性，词性是指以词的特点作为划分词类的根据，在句子中体现了句子的句法结构。当预设树库中树结构的根节点对应的词性的平均投射长度不大于预设投射长度阈值时，则不标记该树结构。因此，第一待训练语料中包括的是预设树库中原始的未被标记的树结构，以及对预设树库中部分树结构进行标记后带有长距离投射标记的树结构。

示例性地，在本发明的实施例中，通过在宾州树库上的统计分析，发现预设投射长度阈值设置为10时便能区分两大类根节点词性对应的树结构。其中，标记为名词、形容词和助动词等词性信息的根节点的平均投射长度均小于等于10，它们通常被视为投射短距离依赖关系的词性类别；而标记为动词的根节点的平均投射长度均大于10，动词属于主要投射长距离依赖关系的词性类别。

在本发明的实施例中，通过在宾州树库上的统计分析获得的结论，终端计算每个子树结构中根节点对应的词性的平均投射长度，当平均投射长度大于预设投射长度阈值10时，则标记该平均投射长度对应的树结构，获得带有长距离投射标记树结构的第一待训练语料。

此外，需要说明的是，在本发明的实施例中，在标记平均投射长度对应的树结构时，可以采用括号标记的方式，具体地，在句法树中从左边数第一个它的后代开始到最后一个它的后代为止，进行括号标记。当然也可以采用其它的标记方式，只要能将投射长距离依赖关系的树结构和投射短距离依赖关系的树结构区分开即可，本发明实施例不作限制。

进一步地，在本发明的实施例中，终端针对预设树库中至少一个树结构中的每个树结构，计算每个树结构中根节点对应的词性的平均投射长度的方法为：终端针对预设树库中至少一个树结构中的每个树结构，在每个树结构中查找与根节点对应的词性相同的至少一个子节点，统计至少一个子节点对应的至少一个投射范围；根据至少一个投射范围，计算每个树结构的根节点对应的词性的平均投射长度。

在本发明的实施例中，终端针对预设树库中的每个树结构，在每个树结构中查找与根节点对应的词性相同的至少一个子节点，并分别统计每个子节点对应的投射范围，得到至少一个投射范围，这样终端根据至少一个子节点对应的至少一个投射范围，即可获得每个树结构的根节点对应的平均投射长度。

需要说明的是，在本发明的实施例中，预设树库中的每个词标注的词性信息中，不仅包括了词语的词性，还包括了词语的投射范围。而预设树库中每个树结构的节点对应的投射范围表征了该树结构的长度，通过统计每个树结构中与根节点词性相同的词语的投射范围，即可获得每个树结构的平均投射长度。

示例性地，在宾州树库的一个句法树结构中，根节点的词性是名词(NN)，该树结构下对应有两个词性标记为名词的子节点，它们的投射范围分别是从第3个词到第5个词(对应的投射范围为3)和从第9个词到第12个词(对应的投射范围为4)。那么对这个句子统计而言，名词词性的平均投射长度就是(3+4)/2＝3.5。

S102、采用句子成分分析法对第一待训练语料进行建模，获得成分句法分析模型；成分句法分析模型用于获得第二待训练语料，第二待训练语料是指包括将第一待训练语料中的长距离投射标记树结构划分为至少一个子树结构后，且包括第一待训练语料中非长距离投射标记的树结构的训练语料。

在本发明的实施例中，终端在获得带有长距离投射标记树结构的第一待训练语料后，采用句子成分分析法对第一待训练语料进行建模，获得成分句法分析模型。句子成分句法分析的任务是对给定的句子分析出句子的短语结构句法树。通过句子成分句法分析法对经过长距离投射标记处理后的树结构进行分析，获得成分句法分析模型，从而将长距离投射标记树结构划分为更细的短句结构句法树，即包括划分后的至少一个子树结构的第二训练语料。而因为在第一待训练语料中，非长距离投射标记的树结构已经是短语结构句法树，因此通过句子成分分析法建模后，非长距离投射标记的树结构仍保持原来的句法树结构。

需要说明的是，在本发明的实施例中，终端利用句子成分分析法对长距离投射标记的树结构进行划分，将长距离投射的树结构划分为多个子树结构，从而使长距离树结构中的依赖局部化，能有效表征子句片段和子句片段间的关系，相对于通过直接拼接词向量以及独热编码(one-hot)等方式，本发明实施例刻画子句片段和子句片段间的关系更有助于提升语义分析的准确性。

示例性地，图2为本发明实施例中句子成分分析法的示例图，如图2所示，“I dolike eating fish”的成分句法树为：名词短语NP和介词短语VP，名词短语VP下由人称代词(PRP)“I”构成，而介词短语VP由情态助动词(MD)“do”、非第三人称单数的动词现在时(VBP)“like”以及动词短语(VP)构成，而VP又由动词的现在时(VBG)“eating”和NP中的单数名词或复数名词(NN)“fish”构成。

S103、采用依存句法分析法对第二待训练语料进行建模，获得依存句法分析模型，依存句法分析模型用于获得第二待训练语料中每个子树结构中词语间的依存关系。

在本发明的实施例中，终端在通过句子成分分析法获得第二待训练预料后，会进一步采用依存句法分析法对第二待训练语料进行建模，获得依存句法分析模型。依存句法分析模型用于获得第二待训练语料中每个子树结构中词语间的依存关系。

需要说明的是，在本发明的实施例中，依存句法分析法通过分析词语之间的依存关系来解释句法结构，主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者。对此，本发明实施例中，终端采用依存句法分析法对包括将长距离投射标记树结构划分为至少一个子树结构的第二待训练语料中的每个子树结构进行分析，刻画每个子树结构中词语间的依存关系。

示例性地，图3为本发明实施例中依存句法分析示例图，如图3所示，Root(核心词)和买(修饰词)之间存在依存关系HED(核心关系)；小王(修饰词)和买(核心词)之间存在依存关系SBV(主谓关系)；买(核心词)和电脑(修饰词)之间存在依存关系VOB(动宾关系)。

S104、基于成分句法分析模型和依存句法分析模型对输入语句进行分析，获得输入语句的语义分析结果。

在本发明的实施例中，终端在获得成分句法分析模型和依存句法分析模型后，基于两个模型对输入语句进行分析，从而获得输入语句的语义分析结果。

具体地，在本发明的实施例中，终端基于成分句法分析模型和依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果的过程为：终端采用成分句法分析模型对输入语句进行分析，获得N个成分句法分析结果；N为预设的大于0的自然数；针对N个成分句法分析结果中的每个成分句法分析结果，对每个成分句法分析结果进行替换处理，获得每个成分句法分析结果对应输入语句中的M个子片段，M>0；采用依存句法分析模型分别对M个子片段中的每个子片段进行依存句法分析，获得每个成分句法分析结果对应的M个依存句法分析结果；每个成分句法分析结果对应的M个依存句法分析结果构成N个成分句法分析结果对应的依存句法分析结果；根据N个成分句法分析结果对应的依存句法分析结果，获得输入语句的语义分析结果。

在本发明的实施例中，终端在对输入语句进行语义分析时，利用训练好的成分句法分析模型获得预设的N个成分句法分析结果，每个成分句法分析结果由多个树结构组成，并针对其中的每个成分句法分析结果所包括的树结构进行替换处理，以获得每个成分句法分析结果对应输入语句的M个子片段。随后，终端采用依存句法分析模型对每个子片段进行依存句法分析，共获得M个依存句法分析结果，M个依存句法分析结果与一个成分句法分析结果对应，而每个成分句法分析结果对应的M个依存句法分析结果共同构成N个成分句法分析结果对应的依存句法分析结果。进一步地，终端根据N个成分句法分析结果对应的依存句法分析结果，即可获得输入语句的语义分析结果。

需要说明的是，在本发明的实施例中，N为预设的超参数，用来控制终端通过成分句法分析模型对输入语句进行分析时获得成分句法分析结果的种数。N设置得越大，算法越复杂，但得到的成分句法分析结果可能越全面，通常情况下，N设置为5～10，具体使用中N设置为多少，本发明实施例不做限制。

此外，在本发明的实施例中，在获得N种成分句法分析结果后，终端对每种成分句法分析结果进行替换处理来获得每种成分句法分析结果对应输入语句的多个子片段，以便在子片段的基础上采用依存句法分析模型进行依存句法分析。

示例性地，图4为本发明实施例中终端获得输入语句的子片段的流程示例图，如图4所示，终端获得输入语句的子片段的步骤如下：

S1、终端接收输入语句。

在本发明的实施例中，终端首先接收输入语句，该输入语句为：“The SEC willprobably vote on the proposal early next year,he said.”。

图5为示例性输入语句的依存句法分析示例图，如图5所示，该示例性输入语句采用常规依存句法分析器进行依存句法分析后，根结点下面覆盖了两个子句，第一子句：“TheSEC will probably vote on the proposal early next year”和第二子句：“he said”，第一子句和第二子句间属于长距离依赖关系。此外，在第一子句中，year(核心词)和on(修饰词)之间也属于长距离依赖的关系。

S2、终端采用成分句法分析模型对输入语句进行分析，获得N-best的对长距离投射标记的树结构进行解析后的成分句法分析结果。

在本发明的实施例中，终端采用成分句法分析模型对长距离标记树结构进行划分，在采用成分句法分析模型进行分析前，预设超参N为5，则计算机对该输入语句采用成分句法分析模型进行分析后共包括5个成分句法分析结果，如图4所示，在本发明的实施例中，列出了其中两种成分句法分析结果，如下：

S3、终端对成分句法分析结果中的树结构进行替换处理形成子片段。

在本发明的实施例中，终端针对其中的每个成分句法分析结果进行替换处理，如图4所示，上述parse-1和parse-2经过替换处理后的子片段如下所示：

parse-1：“SEC will/MD probably vote/VB”

“vote/VB on/IN early next year”

“on/IN the proposal”

“will/MD,he said/VBD.”

parse-2：“The SEC will/MD probably vote/VB,said/VBD.”

“vote/VB on/IN early next year”

“on/IN the proposal”

“he said/VBD”

可以理解的是，在本发明的实施例中，终端对输入语句进行语义分析前，通过成分句法分析模型来获得输入语句的子片段后再在子片段的基础上进行依存句法分析，使得依存分析时，依赖关系较短的子片段中的词语间的依存关系获取更加准确。

进一步地，在本发明的实施例中，终端针对N个成分句法分析结果中的每个成分句法分析结果，对每个成分句法分析结果进行替换处理，获得每个成分句法分析结果对应输入语句中的M个子片段的方法为：终端针对N个成分句法分析结果中的每个成分句法分析结果，按预设特定词性集合对每个成分句法分析结果进行替换处理，获得预设特定词性集合中每个预设特定词性对应的子片段，预设特定集合的长度大于M；预设特定词性集合中每个预设特定词性对应的子片段，构成每个成分句法分析结果对应输入语句中的M个子片段。

在本发明的实施例中，终端按预设特定词性集合分别对每个成分句法分析结果进行替换处理，获得集合中每个预设特定词性对应的子片段，共获得M个子片段，该M个子片段即为对输入语句进行划分的子片段。

需要说明的是，在本发明的实施例中，通过人为事先设置特定词性集合，能更加合理的选取出符合语法结构的子片段。

示例性地，如上图4所示的parse-1和parse-2的成分句法分析结果中，词性标签：VBD、MD、VB、IN、NN、PRP、RB分别标识动词过去式、情态动词、动词、介词(从属连词)、名词、人称代词、副词。而粗体的带有“C”的句法标签VBDC、MDC、VBC、INC表征的是该标签所覆盖的是一个子句或短语，而预设特定词性集合就是{VBDC、MDC、VBC、INC}。

进一步地，在本发明的实施例中，终端针对N个成分句法分析结果中的每个成分句法分析结果，按预设特定词性集合对每个成分句法分析结果进行替换处理，获得预设特定词性集合中每个预设特定词性对应的子片段的过程为：终端针对N个成分句法分析结果中的每个成分句法分析结果，在每个成分句法分析结果中选取每个预设特定词性对应的特定词性树结构，特定词性树结构中包括至少一个子树结构；针对至少一个子树结构中的每个子树结构，用每个子树结构中的预设的子节点替换所述每个子树结构的根节点；组合每个子树结构中用预设的子节点替换后的根节点，并忽略每个子树结构的内部树结构，获得预设特定词性集合中每个预设特定词性对应的子片段。

在本发明的实施例中，终端在每个成分句法分析结果中，选取每个预设特定词性对应的特定词性树结构，是指终端选取根节点为预设特定词性的完整树结构，该特定词性树结构可能有内部树结构，即有多级子节点。终端在特定词性树结构中，用每个子树结构的预设的子节点替换每个子树结构的根节点，其中预设的子节点为人为事先设置的，以保证符合语法结构。随后，终端将每个子树结构中用预设的子节点替换后的根节点组合起来，并忽略每个子树结构的内部树结构，获得预设特定词性集合中每个预设特定词性对应的子片段。

需要说明的是，在本发明的实施例中，在组合替换后的根节点时，采取广度优先遍历原则，保证未遍历到的根节点优先遍历并组合来获得预设特定词性对应的子片段。

示例性地，图6为本发明实施例图4中parse-1的成分句法分析树的示例图，如图6所示，该成分句法分析树为parse-1的成分句法分析结果，该成分句法分析树的根节点为动词过去式短语(VBDC)，VBDC由情态动词短语(MDC)、标点“,”，人称代词(PRP)“he”，动词过去时“said”，标点“.”构成。其中，情态动词短语又由名词(NN)、情态动词(MD)“will”、副词(RB)“probably”以及动词短语(VBC)构成。进一步地，NN又由限定词(DT)“the”，单数名词(NNP)“SEC”构成；动词短语由动词(VB)“vote”，介词短语(INC)、副词“early”、形容词(ADJ)“next”、名词“year”构成。更进一步地，介词短语由介词(IN)“on”，限定词“the”，名词“proposal”构成。在该成分句法分析结果中，以预设特定词性集合中的预设特定词性VBC为例，VBC对应的树结构包括VB/INC/RB/ADJ/NN对应的5个子树结构，每个子树结构的根节点分别是VB/INC/RB/ADJ/NN，其中，INC对应的子树结构还有内部树结构。终端用每个子树结构中预设的子节点替换根节点，如用vote替换VB，on替换INC，early替换RB，next替换ADJ，year替换NN。随后，终端组合替换后每个子树结构的根节点，并忽略INC的内部嵌套就得到VBC的对应的子片段为：vote/VB on/IN early next year。

同理，parse-1中，对预设特定词性集合中的其它预设特定词性，获得的预设特定词性对应的子片段分别为：

VBDC：will/MD,he said/VB.

MDC：SEC will/MD probably vote/VB

INC：on/IN the proposal

在本发明的实施例中，终端通过上述替换处理，对应parse-1的成分句法分析结果，共获得4个子片段。同样，针对parse-2的成分句法分析结果，也可获得4个子片段。随后，终端采用依存句法分析模型分别对8个子片段进行依存句法分析，共获得8个依存句法分析结果，该8个依存句法分析结果共同构成2个成分句法分析结果对应的依存句法分析结果。

示例性地，图7a为本发明实施例图4中parse-1的成分句法分析结果中第一子片段的依存句法分析树的示例图，如图7a所示，其为parse-1中MDC对应的子片段，终端对其采用依存句法分析模型对其进行依存句法分析后，“SEC will probably vote”中词语的依赖关系是：vote是动词(VV)支配名词SEC(NN)和情态动词will(MD)以及形容词probably，其中SEC和vote之间是主谓关系。

图7b为本发明实施例图4中parse-1的成分句法分析结果中第二子片段的依存句法分析树的示例图，如图7b所示，其为parse-1中VBC对应的子片段，终端对其采用依存句法分析模型对其进行依存句法分析后，“vote on early next yea”r中词语的依赖关系是：vote是动词(VV)支配名词year(NN)，依存关系是时间状语。year又支配介词on，形容词early和形容词next，year和on之间是介词修饰关系，early和year之间是形容词修饰关系，next和year之间也是形容词修饰关系。

图7c为本发明实施例图4中parse-1的成分句法分析结果中第三子片段的依存句法分析树的示例图，如图7c所示，其为parse-1中INC对应的子片段，终端对其采用依存句法分析模型对其进行依存句法分析后，“on the proposal”中词语的依赖关系是：proposal是名词(NN)支配介词on和冠词the。

图7d为本发明实施例图4中parse-1的成分句法分析结果中第四子片段的依存句法分析树的示例图，如图7d所示，其为parse-1中VBDC对应的子片段，终端对其采用依存句法分析模型对其进行依存句法分析后，“will，he said”中词语的依赖关系是：said是名词支配情态动词will、人称代词he和冠词the。

此外，图7a至图7d中四个子片段之间的关系通过四个子片段对应标签在图6句法树中的句法关系得以体现。

进一步地，在本发明的实施例中，终端在获得N个成分句法分析结果对应的依存句法分析结果后，获得输入语句的语义分析结果的过程为：终端根据N个成分句法分析结果中每个成分句法分析结果对应的M个依存句法分析结果，获得每个成分句法分析结果对应的句子向量，每个成分句法分析结果对应的句子向量构成N个成分分析结果对应的N个句子向量；遍历N个句子向量的概率，选取出概率最大的目标句子向量，将目标句子向量作为所述输入语句的语义分析结果。

在本发明的实施例中，终端根据每个成分句法分析结果对应的M个依存句法分析结果来获得对应的句子向量，并选取出N个句子向量中概率最大的句子向量作为输入语句的目标句子向量。即，在N个成分句法分析结果对应的N个句子向量中，选取出N-best的句子向量作为输入语句的语义分析结果。

进一步地，在本发明的实施例中，终端根据N个成分句法分析结果中每个成分句法分析结果对应的M个依存句法分析结果，获得每个成分句法分析结果对应的句子向量的过程为：终端针对N个成分句法分析结果中每个成分句法分析结果，获得每个成分句法分析结果对应的M个依存句法分析结果中每个依存树结构的词向量；线性拼接所述每个依存树结构的词向量，获得M个子树向量；线性拼接M个子树向量，获得每个成分句法分析结果对应的句子向量。

在本发明的实施例中，对于每个子树向量，线性拼接每个子树向量上的词向量，所有子树向量再线性拼接为句子向量。即对于每个子树向量，从根结点出发将每一条到达叶子结点路径上的词语对应的向量进行线性拼接，得到每个路径的向量表示，然后再将所有路径的向量表示线性拼接得到该子片段的向量表示。

示例性地，以图4中parse-1得到的子片段为例进行说明，如图4所示，在parse-1中，把输入语句“The SEC will probably vote on the proposal early next year,hesaid.”分为了如下四个子片段：

1.SEC will probably vote

2.vote on early next year

3.on the proposal

4.will,he said.

按照图7a-7d中每个子片段的依存句法分析结果，对于图7a所示的第一个子片段，我们将词语vote与词语SEC的词向量线性拼接得到E1，再将词语vote与词语will的词向量线性拼接得到E2，然后将词语vote与词语probably的词向量线性拼接得到E3，最后将E1，E2和E3进行线性拼接得到该子片段的向量表示S1。同样地，按照上述方法我们也可以得到第二、三和四个子片段的向量表示。最后再把四个子片段的向量表示进行线性拼接得到成分句法分析结果parse-1对应的句子向量。

在本发明的实施例中，依照上述方法获得所有N个成分句法分析结果对应的N个句子向量。

在本发明的实施例中，终端先获得每个成分句法分析结果对应的M个依存句法分析结果中每个依存树结构的词向量，并线性拼接每个依存树结构中的词向量，获得M个子树向量，最后将M个子树向量线性拼接，即获得每个成分句法分析结果对应的句子向量。

可以理解的是，在本发明的实施例中，终端通过建立成分句法分析模型和依存句法分析模型，并基于成分句法分析模型和依存句法分析模型来对输入语句进行分析，使得在对输入语句进行分析的过程中能利用成分句法分析的优势将长距离投射的树结构划分成多个子树结构，而将长距离投射的树结构划分成多个子树结构能有效表征子句片段和子句片段间的关系，随后进一步利用依存句法分析的优势获得每个子树结构中词的依赖关系，从而有效地提高了语义分析的准确率。

实施例二

基于实施例一的同一发明构思，本发明实施例提供了一种语义分析装置，图8为本发明实施例提出的一种语义分析装置图，如图8所示，在本发明的实施例中，语义分析装置100包括：

标记单元101，用于对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料；其中，所述预设树库是指包括至少一个树结构的预设的句法分析语料库，所述树结构是指非线性的数据结构；

建模单元102，用于采用句子成分分析法对所述第一待训练语料进行建模，获得成分句法分析模型；所述成分句法分析模型用于获得第二待训练语料，所述第二待训练语料是指包括将所述第一待训练语料中的所述长距离投射标记树结构划分为至少一个子树结构后，且包括所述第一待训练语料中非长距离投射标记的树结构的训练语料；

所述建模单元102，还用于采用依存句法分析法对所述第二待训练语料进行建模，获得依存句法分析模型，所述依存句法分析模型用于获得所述第二待训练语料中每个子树结构中词语间的依存关系；

获得单元103，用于基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果。

在其它实施例中，所述标记单元101，具体用于针对所述预设树库中所述至少一个树结构中的每个树结构，计算所述每个树结构中根节点对应的词性的平均投射长度；若所述平均投射长度大于预设投射长度阈值，则标记所述平均投射长度对应的树结构，获得所述带有长距离投射标记树结构的所述第一待训练语料。

在其它实施例中，所述标记单元101，具体用于针对所述预设树库中所述至少一个树结构中的每个树结构，在所述每个树结构中查找与所述根节点对应的词性相同的至少一个子节点，统计所述至少一个子节点对应的至少一个投射范围；根据所述至少一个投射范围，计算所述每个树结构的根节点对应的词性的所述平均投射长度。

在其它实施例中，所述获得单元103，具体用于采用所述成分句法分析模型对所述输入语句进行分析，获得N个成分句法分析结果；所述N为预设的大于0的自然数；针对所述N个成分句法分析结果中的每个成分句法分析结果，对所述每个成分句法分析结果进行替换处理，获得所述每个成分句法分析结果对应所述输入语句中的M个子片段，所述M>0；采用所述依存句法分析模型分别对所述M个子片段中的每个子片段进行依存句法分析，获得所述每个成分句法分析结果对应的M个依存句法分析结果；所述每个成分句法分析结果对应的M个依存句法分析结果构成所述N个成分句法分析结果对应的依存句法分析结果；根据所述N个成分句法分析结果对应的依存句法分析结果，获得所述输入语句的语义分析结果。

在其它实施例中，所述获得单元103，具体用于针对所述N个成分句法分析结果中的每个成分句法分析结果，按预设特定词性集合对所述每个成分句法分析结果进行替换处理，获得所述预设特定词性集合中每个预设特定词性对应的子片段，所述预设特定集合的长度不小于M；所述预设特定词性集合中每个预设特定词性对应的子片段，构成所述每个成分句法分析结果对应所述输入语句中的M个子片段。

在其它实施例中，所述获得单元103，具体用于针对所述N个成分句法分析结果中的每个成分句法分析结果，在所述每个成分句法分析结果中选取所述每个预设特定词性对应的特定词性树结构，所述特定词性树结构中包括至少一个子树结构；针对所述至少一个子树结构中的每个子树结构，用所述每个子树结构中的预设的子节点替换所述每个子树结构的根节点；组合所述每个子树结构中用所述预设的子节点替换后的根节点，并忽略所述每个子树结构的内部树结构，获得所述预设特定词性集合中所述每个预设特定词性对应的子片段。

在其它实施例中，所述获得单元103，具体用于根据所述N个成分句法分析结果中所述每个成分句法分析结果对应的M个依存句法分析结果，获得所述每个成分句法分析结果对应的句子向量，所述每个成分句法分析结果对应的句子向量构成所述N个成分分析结果对应的N个句子向量；遍历所述N个句子向量的概率，选取出概率最大的目标句子向量，将所述目标句子向量作为所述输入语句的语义分析结果。

在其它实施例中，所述获得单元103，具体用于针对所述N个成分句法分析结果中所述每个成分句法分析结果，获得所述每个成分句法分析结果对应的M个依存句法分析结果中每个依存树结构的词向量；线性拼接所述每个依存树结构的词向量，获得M个子树向量；线性拼接所述M个子树向量，获得所述每个成分句法分析结果对应的所述句子向量。

本发明装置实施例的描述，与上述实施例一中方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

实施例三

对应的，基于实施例一的同一发明构思，图9为本发明实施例提出的终端的组成结构示意图，如图9所示，本发明提出的终端可以包括处理器01、存储有处理器01可执行指令的存储器02、通信接口03，和用于连接处理器01、存储器02以及通信接口03的总线04。其中，处理器01用于执行存储器中存储的语义分析程序，以实现以下步骤：

在本发明的实施例中，上述处理器01可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本发明实施例不作具体限定。该终端还可以包括存储器02，该存储器02可以与处理器01连接，其中，存储器02用于存储语义分析程序代码，该程序代码包括计算机操作指令，存储器02可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。

在实际应用中，上述存储器02可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard DiskDrive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器01提供指令和数据。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种计算机可读存储介质，其上存储有语义分析程序，应用于终端中，该程序被处理器执行时实现如实施例一中的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语义分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对预设树库中的树结构进行标记处理，获得带有长距离投射标记树结构的第一待训练语料，包括：

针对所述预设树库中所述至少一个树结构中的每个树结构，计算所述每个树结构中根节点对应的词性的平均投射长度；

若所述平均投射长度大于预设投射长度阈值，则标记所述平均投射长度对应的树结构，获得所述带有长距离投射标记树结构的所述第一待训练语料。

3.根据权利要求2所述的方法，其特征在于，所述针对所述预设树库中所述至少一个树结构中的每个树结构，计算所述每个树结构中根节点对应的词性的平均投射长度，包括：

针对所述预设树库中所述至少一个树结构中的每个树结构，在所述每个树结构中查找与所述根节点对应的词性相同的至少一个子节点，统计所述至少一个子节点对应的至少一个投射范围；

根据所述至少一个投射范围，计算所述每个树结构的根节点对应的词性的所述平均投射长度。

4.根据权利要求1所述的方法，其特征在于，所述基于所述成分句法分析模型和所述依存句法分析模型对输入语句进行分析，获得所述输入语句的语义分析结果，包括：

采用所述成分句法分析模型对所述输入语句进行分析，获得N个成分句法分析结果；所述N为预设的大于0的自然数；

针对所述N个成分句法分析结果中的每个成分句法分析结果，对所述每个成分句法分析结果进行替换处理，获得所述每个成分句法分析结果对应所述输入语句中的M个子片段，所述M>0；

采用所述依存句法分析模型分别对所述M个子片段中的每个子片段进行依存句法分析，获得所述每个成分句法分析结果对应的M个依存句法分析结果；所述每个成分句法分析结果对应的M个依存句法分析结果构成所述N个成分句法分析结果对应的依存句法分析结果；

根据所述N个成分句法分析结果对应的依存句法分析结果，获得所述输入语句的语义分析结果。

5.根据权利要求4所述的方法，其特征在于，所述针对所述N个成分句法分析结果中的每个成分句法分析结果，对所述每个成分句法分析结果进行替换处理，获得所述每个成分句法分析结果对应所述输入语句中的M个子片段，包括：

针对所述N个成分句法分析结果中的每个成分句法分析结果，按预设特定词性集合对所述每个成分句法分析结果进行替换处理，获得所述预设特定词性集合中每个预设特定词性对应的子片段，所述预设特定集合的长度不小于M；

所述预设特定词性集合中每个预设特定词性对应的子片段，构成所述每个成分句法分析结果对应所述输入语句中的M个子片段。

6.根据权利要求5所述的方法，其特征在于，所述针对所述N个成分句法分析结果中的每个成分句法分析结果，按预设特定词性集合对所述每个成分句法分析结果进行替换处理，获得所述预设特定词性集合中每个预设特定词性对应的子片段，包括：

针对所述N个成分句法分析结果中的每个成分句法分析结果，在所述每个成分句法分析结果中选取所述每个预设特定词性对应的特定词性树结构，所述特定词性树结构中包括至少一个子树结构；

针对所述至少一个子树结构中的每个子树结构，用所述每个子树结构中的预设的子节点替换所述每个子树结构的根节点；

组合所述每个子树结构中用所述预设的子节点替换后的根节点，并忽略所述每个子树结构的内部树结构，获得所述预设特定词性集合中所述每个预设特定词性对应的子片段。

7.根据权利要求4所述的方法，其特征在于，所述根据所述N个成分句法分析结果对应的依存句法分析结果，获得所述输入语句的语义分析结果，包括：

根据所述N个成分句法分析结果中所述每个成分句法分析结果对应的M个依存句法分析结果，获得所述每个成分句法分析结果对应的句子向量，所述每个成分句法分析结果对应的句子向量构成所述N个成分分析结果对应的N个句子向量；

遍历所述N个句子向量的概率，选取出概率最大的目标句子向量，将所述目标句子向量作为所述输入语句的语义分析结果。

8.根据权利要求7所述的方法，其特征在于，所述根据所述N个成分句法分析结果中所述每个成分句法分析结果对应的M个依存句法分析结果，获得所述每个成分句法分析结果对应的句子向量，包括：

针对所述N个成分句法分析结果中所述每个成分句法分析结果，获得所述每个成分句法分析结果对应的M个依存句法分析结果中每个依存树结构的词向量；

线性拼接所述每个依存树结构的词向量，获得M个子树向量；

线性拼接所述M个子树向量，获得所述每个成分句法分析结果对应的所述句子向量。

9.一种语义分析装置，其特征在于，所述语义分析装置包括：

10.一种终端，其特征在于，所述计算机至少包括：处理器、存储器、通信接口，和用于连接所述处理器、存储器以及通信接口的总线；所述处理器用于执行所述存储器中存储的语义分析程序，以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有语义分析程序，应用于终端中，所述语义分析程序被处理器执行时实现如权利要求1-8中任一项所述的方法。