CN110347793A

CN110347793A - 一种中文语义解析方法及装置

Info

Publication number: CN110347793A
Application number: CN201910577678.9A
Authority: CN
Inventors: 周启楫; 武开智
Original assignee: Ning'an Intelligence Engineering Center Beijing Mudan Electronics Group Co Ltd
Current assignee: Ning'an Intelligence Engineering Center Beijing Mudan Electronics Group Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-18

Abstract

本发明涉及一种中文语义解析方法及装置，包括：获取中文目标文本，利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词；向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词，得到词向量，将词向量进行独热编码one‑hot，得到词向量的离散特征向量；采用词嵌入工具对中文目标文本进行语义特征抽取，得到中文目标文本中词向量的连续特征向量；将连续特征向量和离散特征向量进行语义解析，得到中文目标文本的第一语义解析结果；结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果。本发明提高了对中文目标文本的抽象语义的解析能力。

Description

一种中文语义解析方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种中文语义解析方法及装置。

背景技术

近年来，语义解析领域成为了自然语言处理中的研究热点，同时神经网络技术也用在了自然语言处理的各个方面，因此结合神经网络技术的高效表达能力而构建的语义解析研究十分重要。

通过将自然语言解析成各种设计好的语义表示一直以来都是自然语言处理的重要研究内容，常见的语义表示结构有：基于lambda表达式的逻辑语义表示、基于组合范畴语法(CCG)的语法和语义表示和基于知识库的语义知识表示等。传统的语义解析方法通常使用SVM、线性回归、随机森林等传统的机器学习方法对自然语言句子进行解析；这些方法在一定程度上能获得符合逻辑的语义表示，但是需要事先定义非常复杂的启发式规则和外部知识并且传统的语义表示所包含的语义比较少。抽象语义表示(AMR)，是近年来新提出的一种语义表示，其将自然语言句子表示成富含语义信息的有向无环图；该结构的目标是从句子中抽取丰富的语义信息构建一个支持不同语言的统一结构表示来为其他潜在的自然语言处理任务提供帮助，例如：机器翻译、文本生成、句子匹配等。如何能够提升语义解析的能力，是当前的一个研究方向。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种中文语义解析方法及装置。

本发明解决上述技术问题的技术方案如下：

一种中文语义解析方法，包括：

S1、获取中文目标文本，利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词；

向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词，得到词向量，将所述词向量进行独热编码one-hot，得到所述词向量的离散特征向量；

采用词嵌入工具对所述中文目标文本进行语义特征抽取，得到所述中文目标文本中词向量的连续特征向量；

S2、将所述连续特征向量和所述离散特征向量进行语义解析，得到所述中文目标文本的第一语义解析结果；

S3、结合知识库对所述第一语义解析结果进行修正，得到所述中文目标文本的第二语义解析结果。

本发明的有益效果是：通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词，向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词，得到词向量，将所述词向量进行独热编码one-hot，得到所述词向量的离散特征向量，采用词嵌入工具对中文目标文本进行语义特征抽取，得到中文目标文本中词向量的连续特征向量，将得到的离散特征和连续特征进行语义解析，得到中文目标文本的第一语义解析结果，结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析，提高了对中文目标文本的语义的解析能力。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，所述步骤S2中的所述解析过程具体包括：

将所述连续特征向量和所述离散特征向量放入堆中；

将所述堆中的所有特征向量按照存储的顺序输入softmax分类器，得到分类结果；

根据所述分类结果，确定并执行所述堆和栈所要执行的操作。

进一步地，所述根据所述分类结果，确定并执行所述堆和栈所要执行的操作，具体包括：

当所述分类结果为移动时，执行Shift操作，包括将所述堆中的第一个特征向量放入栈中；

当所述分类结果为弹出时，执行Larc操作，包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序，从所述栈中弹出连接后的特征向量；

当所述分类结果为连接时，执行RArc操作，包括将所述栈中前两个特征向量使用关系词按照后一个词连接前一个词的顺序；

当所述分类结果为减少时，执行Reduce操作，包括将所述栈中的第一个特征向量弹出；

当所述分类结果为去环时，执行ReEnt操作，包括将所述栈中的第一个特征向量放入所述堆的底部。

进一步地，所述步骤S2中得到第一语义解析结果具体包括：

在所述要执行的操作完成后，所述堆和栈同时为空时，所述堆和栈中的所述连续特征和所述离散特征处理完成，得到所述中文目标文本的第一语义解析结果。

进一步地，所述S1中获取中文目标文本，向量化组成所述中文目标文本的各词，得到词向量，具体包括：

通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词，作为所述中文目标文本的词向量。

进一步的，所述步骤S3具体包括：

通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词；

根据所述中文目标文本的命名实体词及命名实体词之间的关系词，将所述中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正，得到所述中文目标文本的第二语义解析结果。

进一步的，所述知识库包括命名实体和命名实体间的关系。

采用上述进一步方案的有益效果是：设置栈和堆，将中文目标文本中的词向量的连续特征向量和离散特征向量输入栈和堆中，依据softmax分类器对特征向量的分类结果，进行不同的操作，直到最后完成了堆和栈的操作，得到中文目标文本的第一语义解析结果，通过知识库中的命名实体和命名实体间的关系，对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，增强了中文语义的解析能力。

本发明解决上述技术问题的另一种技术方案如下：

一种中文语义解析装置，包括：

分解模块，用于获取中文目标文本，利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词；

解析模块，用于将所述连续特征向量和所述离散特征向量进行语义解析，得到所述中文目标文本的第一语义解析结果；

修正模块，用于结合知识库对所述第一语义解析结果进行修正，得到所述中文目标文本的第二语义解析结果。

本发明的有益效果是：通过分解模块、解析模块和修正模块通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词，向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词，得到词向量，将所述词向量进行独热编码one-hot，得到所述词向量的离散特征向量，采用词嵌入工具对中文目标文本进行语义特征抽取，得到中文目标文本中词向量的连续特征向量，将得到的离散特征和连续特征进行语义解析，得到中文目标文本的第一语义解析结果，结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析，提高了对中文目标文本的语义的解析能力。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，所述解析模块，具体用于将所述连续特征向量和所述离散特征向量放入堆中；

进一步地，当所述分类结果为移动时，执行Shift操作，包括将所述堆中的第一个特征向量放入栈中；

当所述分类结果为连接时，执行RArc操作，包括将所述栈中前两个特征向量使用关系词将后一个词连接前一个词；

进一步地，所述解析模块，还具体用于在所述要执行的操作完成后，所述堆和栈同时为空时，所述堆和栈中的所述连续特征向量和所述离散特征向量处理完成，得到所述中文目标文本的第一语义解析结果。

进一步地，所述分解模块，具体用于通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词，作为所述中文目标文本的词向量。

进一步地，所述修正模块，具体用于通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词；

在上述技术方案的基础上，本发明还提供了一种存储介质，存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述技术方案所述的一种中文语义解析方法。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述一种中文语义解析方法的流程示意图；

图2为本发明所述一种中文语义解析装置的模块结构图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，一种中文语义解析方法的流程示意图，包括：

S1、获取中文目标文本，利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词；

向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词，得到词向量，将词向量进行独热编码one-hot，得到词向量的离散特征向量；

采用词嵌入工具对中文目标文本进行语义特征抽取，得到中文目标文本中词向量的连续特征向量；

应理解，在本实施例中，句法分析工具采用CoreNLP，词嵌入工具采用word2vec，独热编码one-hot可以通过建立字典，字典包括词性和命名实体。将建立的词语、词性及词语和词性与中文目标文本的依存关系建立依存树，采用深度搜索算法遍历树的每一个节点，得到父节点和子节点的离散特征，这些离散特征就是词向量的离散特征向量。因此，词向量的离散特征向量包括词语、词性及词语和词性的与中文目标文本的依存关系，中文目标文本中的词向量的离散特征向量是词向量的高维向量特征。

词向量的连续特征向量是通过Word Embedding方法实现中文语句的字级别语义编码，通过机器学习的方法将中文单个词语映射到低维向量，得到中文目标文本中词向量的连续特征向量，其中单个词语的低维向量就是中文目标文本中的词向量的连续特征向量。

S2、将连续特征向量和离散特征向量进行语义解析，得到中文目标文本的第一语义解析结果。

S3、结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果。

通过本实施例向量化中文目标文本中的词语，得到词向量，通过独热编码one-hot得到词向量的离散特征向量，通过词嵌入Word Embedding技术得到词向量的连续特征向量，将得到的离散特征和连续特征进行语义解析，得到中文目标文本的第一语义解析结果，结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，结合中文目标文本中的词向量的离散特征向量和连续特征向量，提高了对中文目标文本的语义的解析能力。

基于上述实施例，还包括，进一步地，将连续特征向量和离散特征向量，放入堆中，将堆中的所有特征向量按照存储的顺序输入softmax分类器，得到分类结果，根据分类结果，确定并执行堆和栈所要执行的操作。

应理解，本实施例中的softmax分类器是可基于训练数据提前进行训练，此外，在训练时设置softmax分类器的分类结果，将特征向量进行分类，得到移动、弹出、连接、减少、去环等分类结果。

进一步地，当分类结果为移动时，执行Shift操作，包括将堆中的第一个特征向量放入栈中；

当分类结果为弹出时，执行Larc操作，包括将栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序，从栈中弹出连接后的特征向量；

当分类结果为连接时，执行RArc操作，包括将栈中前两个特征向量使用关系词将后一个词连接前一个词；

当分类结果为减少时，执行Reduce操作，包括将栈中的第一个特征向量弹出；

当分类结果为去环时，执行ReEnt操作，包括将栈中的第一个特征向量放入堆的底部。

进一步地，在要执行的操作完成后，堆和栈同时为空时，堆和栈中的连续特征和离散特征处理完成，得到中文目标文本的第一语义解析结果。

应理解，本实施例中，栈作为一种数据结构，只能在一端进行插入和删除操作的特殊线性表，按照先进后出的原则进行存储数据。堆作为一种数据结构，是非线性数据结构，相当于一维数据，有两个直接后继节点。将所有的离散向量和连续向量放入堆中，其中离散向量和连续向量放入堆中的顺序按照先依次放置离散向量，再依次放置连续向量。

进一步地，通过句法分析器，得到中文目标文本中的词语、词语的词性及词语和词性与中文目标文本的依存关系，作为中文目标文本的词向量。

应理解，本实施例中不对具体的句法分析器做限制，可以根据实际使用采用不同的句法分析器。

进一步地，通过知识库识别中文目标文本的命名实体及命名实体间的关系；

根据中文目标文本的命名实体及命名实体间的关系，将中文目标文本的第一语义解析结果中的命名实体及命名实体间的关系进行改正，得到中文目标文本的第二语义解析结果。

进一步地，知识库包括命名实体和命名实体间的关系。

应理解，本实施例中的知识库包括命名实体和命名实体间的关系。其中，命名实体包括组织机构、政府部门、人名和专有名词等。

其中，修正过程包括：将第一语义解析结果中的命名实体和命名实体间的关系基于知识库进行补充完整，同时将错误的命名实体关系进行改正。

例如：如当中文文本信息是“张家界市卫生健康工作推进会议召开，传达省卫生健康委上半年卫生健康推进会议精神”获取文本信息中的命名实体词和命名实体词之间的关系词，张家界市、省、卫生健康委；

获取中文文本信息中的离散特征向量和连续特征向量，将离散特征向量放入堆中，输入softmax分类器，得到分类结果，已经分类结果，确定执行的操作，得到第一语义解析结果“张家界市召开卫生健康工作推进会议，传达省卫生健康委上半年精神”利用知识库，对第一语义解析结果中的命名实体和命名实体之间的关系进行修正，得到第二语义解析结果“张家界市召开卫生健康工作推进会议，传达湖南省卫生健康委上半年卫生健康推进会议精神。”

通过本实施例，设置栈和堆，将中文目标文本中的词向量的连续特征向量和离散特征向量输入栈和堆中，依据softmax分类器对特征向量的分类结果，进行不同的操作，直到最后完成了堆和栈的操作，得到中文目标文本的第一语义解析结果，通过知识库中的命名实体和命名实体间的关系，对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，提升了中文语义的解析速度，增强了中文语义的解析能力。

如图2所示，一种中文语义解析装置的模块结构图，包括：

分解模块，用于获取中文目标文本，利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词；

解析模块，用于将连续特征向量和离散特征向量进行语义解析，得到中文目标文本的第一语义解析结果；

修正模块，用于结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果。

基于上述实施例通过分解模块、解析模块和修正模块通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词，向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词，得到词向量，将词向量进行独热编码one-hot，得到词向量的离散特征向量，采用词嵌入工具对中文目标文本进行语义特征抽取，得到中文目标文本中词向量的连续特征向量，将得到的离散特征和连续特征进行语义解析，得到中文目标文本的第一语义解析结果，结合知识库对第一语义解析结果进行修正，得到中文目标文本的第二语义解析结果，结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析，提高了对中文目标文本的语义的解析能力。

进一步地，解析模块，具体用于将连续特征向量和离散特征向量放入堆中；

将堆中的所有特征向量按照存储的顺序输入softmax分类器，得到分类结果；

根据分类结果，确定并执行堆和栈所要执行的操作。

进一步地，解析模块，还具体用于在要执行的操作完成后，堆和栈同时为空时，堆和栈中的连续特征向量和离散特征向量处理完成，得到中文目标文本的第一语义解析结果。

进一步地，分解模块，具体用于通过句法分析工具得到中文目标文本中的词语、词语的词性、词语和词性与中文目标文本的依存关系、命名实体词及命名实体词之间的关系词，作为中文目标文本的词向量。

进一步地，修正模块，具体用于通过知识库识别中文目标文本的命名实体词及命名实体词之间的关系词；

根据中文目标文本的命名实体词及命名实体词之间的关系词，将中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正，得到中文目标文本的第二语义解析结果。

此外，本发明还提供了一种存储介质，存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述实施例所述的一种中文语义解析方法。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种中文语义解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S2中的所述解析过程具体包括：

将所述连续特征向量和所述离散特征向量放入堆中；

3.根据权利要求2所述的方法，其特征在于，所述根据所述分类结果，确定并执行所述堆和栈所要执行的操作，具体包括：

4.根据权利要求3所述的中文语义解析方法，其特征在于，所述步骤S2中得到第一语义解析结果具体包括：

在所述要执行的操作完成后，所述堆和栈同时为空时，所述堆和栈中的所述连续特征向量和所述离散特征向量处理完成，得到所述中文目标文本的第一语义解析结果。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述S1中获取中文目标文本，利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求6所述的方法，其特征在于，

所述知识库包括命名实体和命名实体间的关系。

8.一种中文语义解析装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，

所述解析模块，具体用于将所述连续特征向量和所述离散特征向量放入堆中；

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至7中任一项所述的一种中文语义解析方法。