CN109408628B

CN109408628B - 一种解析句子语义结构的方法及相关设备

Info

Publication number: CN109408628B
Application number: CN201910034218.1A
Authority: CN
Inventors: 陈海波
Original assignee: Shenlan Robot (changzhou) Co Ltd; Deep Blue Technology Shanghai Co Ltd; DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Current assignee: Shenlan Robot (changzhou) Co Ltd; Deep Blue Technology Shanghai Co Ltd; DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-06-07
Anticipated expiration: 2039-01-15
Also published as: CN109408628A

Abstract

本发明实施例涉及人机交互领域，公开了一种解析句子语义结构的方法及相关设备。本发明中，该方法，包括：接收输入的句子，并根据分词算法对所述句子进行分词，获得一种或若干种分词结果；在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构。如此，利用句子成分对句子的语义结构进行解析，可应用于人机交互的问答和对话等场景中的语义解释和理解。

Description

一种解析句子语义结构的方法及相关设备

技术领域

本发明实施例涉及人机交互领域，特别涉及一种解析句子语义结构的方法及相关设备。

背景技术

语义理解是自然语言处理的最核心目标之一，但语义理解相关研究工作进展缓慢。目前关于自然语言处理和语义理解的研究思路主要是自下而上的方法，比较成熟的相关研究工作主要是句法分析和语义角色标注。其中，句法分析（包括依存句法分析）基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。通常根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的词或短语及它们之间的关系。传统的句法分析基本是自下而上的研究思路，依次经过分词、词性标注和基于语法规则（用于自动推导）的语法树解析等阶段。而传统的句法分析研究工作的不足可能体现于词性标注和语法树解析这两个步骤中。首先，在词性标注的研究中和实践中发现，很多词具有多种词性，词性往往依赖上下文的语义和语用。而后续句法分析研究工作却严重依赖于词性标注的结果。其次，后续的语法树解析还依赖事先人工罗列的语法规则。然而在语言实践中发现，很多语义和语用现象，无法在语法规则层面获得充分解释。

发明内容

本发明实施方式的目的在于提供一种解析句子语义结构的方法及相关设备，解决现有句法分析研究工作的不足。

为解决上述技术问题，本发明的实施方式提供了一种解析句子语义结构的方法，包括：

接收输入的句子，并根据分词算法对所述句子进行分词，获得一种或若干种分词结果；

在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构。

本发明的实施方式还提供了一种解析句子语义结构的装置，包括：

分词单元，用于接收输入的句子，并根据分词算法对所述句子进行分词，获得一种或若干种分词结果；

解析单元，用于在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构。

本发明的实施方式还提供了一种解析句子语义结构的设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的解析句子语义结构的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的解析句子语义结构的方法。

本发明上述实施方式相对于现有技术而言，利用句子成分对句子的语义结构进行解析，可应用于人机交互的问答和对话等场景中的语义解释和理解。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明实施方式一提供的解析句子语义结构的方法的流程示意图；

图2为本发明实施例一提供的解析句子语义结构的方法的流程示意图；

图3为本发明实施例二提供的解析句子语义结构的方法的流程示意图；

图4为本发明实施例三提供的解析句子语义结构的方法的流程示意图；

图5为本发明实施例四提供的解析句子语义结构的方法的流程示意图；

图6为本发明实施方式二提供的解析句子语义结构的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

实施方式一

图1为本发明实施方式一提供的解析句子语义结构的方法的流程示意图。如图1所示，该方法包括：

步骤101，接收输入的句子，并根据分词算法对所述句子进行分词，获得一种或若干种分词结果；

步骤102，在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构。

其中，所述进行语义结构解析，得到所述句子的句子成分之间的关系，包括：

首先，识别和标注时间和地点成分，得到所述句子的自由成分；

然后，识别和标注谓语或谓词成分，得到所述句子的谓语成分；

其次，识别和标注主语和宾语成分，得到所述句子的主语成分和宾语成分；

最后，隔离所述自由成分，并得到所述谓语成分、所述主语成分和所述宾语成分之间的关系。

其中，所述进行语义结构解析得到所述句子的句子成分的内部结构，包括：

首先，将所述谓语成分映射到基于谓语或谓词的相关语句模式库中搜索和匹配，得到所述谓语成分的内部结构；

其次，将所述主语成分或宾语成分映射到基于主语或宾语的相关语句模式库中搜索和匹配及进行关键词搜索和匹配，得到所述主语成分的内部结构和所述宾语成分的内部结构；

最后，将所述自由成分进行关键词搜索和匹配，得到所述自由成分的内部结构。

其中，所述句子语义结构的层次为字词、句子成分、句子；

所述句子成分为基于语义语用功能视角而标注的语义结构成分；

所述句子语义结构由句子成分之间的关系和句子成分的内部结构共同决定。

其中，所述句子成分之间的关系包括基于谓语或谓词的线性序列关系，所述线性序列关系为三元关系、四元关系、五元关系、或者这三种关系的不同形式的组合；

句子的分句之间为并列关系结构；

所述句子成分的内部结构包括以下至少之一：

盒式嵌套结构、各个子结构之间的并列关系结构；

所述子结构是指相对于整个盒式嵌套结构而言，当中的组成部分。

其中，该方法还包括：

选择常用句子迭代进行所述解析句子语义结构，得到句子语义模式基础库；

基于所述句子语义模式基础库，选择复杂句子迭代进行所述解析句子语义结构，得到语义结构知识库；

基于所述句子语义模式基础库和所述语义结构知识库，从中进行抽取，得到谓词库和句子成分习惯搭配模式库。

其中，接收目标句子，根据所述谓词库和句子成分习惯搭配模式库，解析所述目标句子。

下面通过三个具体的实施例详细阐述本发明实施方式一提供的技术方案。

实施例一

传统技术方案主要基于语法树解析的角度给出了一种形式化的解释，但语法树解析结果（很多时候）并不唯一。本发明实施例，采取了利用“简单的句子”解释“复杂的句子”的思路，给出了语义理解的一种新思路，该解释思路具有层次化（可以给出多个不同层次的理解）。该思路通俗易懂，并且在人机交互场景中（尤其对话系统和语言生成场景下）具有实用性。

图2为本发明实施例一提供的解析句子语义结构的方法的流程示意图，如图2所示，该方法包括：

步骤201，根据分词算法对输入的句子进行分词；

其中，可以利用现有发展成熟的任何分词算法对句子进行分词（允许存在多种可能的分词方案，后续程序可对多种分词方案进行评估和筛选）。

其中，进行分词可以获取一种或若干种分词方案（结果），可以基于所述一种或若干种分词方案（结果）执行下面步骤202。

步骤202，识别句子成分；

其中，本发明实施例首次引入了句子成分的概念，句子的一个句子成分，是指一个可以用一个单词来替代的词组，但替代之后并不改变词组原有功能，而且也不影响句子的其他成分。或者，所述句子成分为基于语义语用功能视角而标注的语义结构成分。例如，在汉语中，常见的句子成分可分为：主语、谓语、宾语、定语、状语，补语；而在英语中，常见的句子成分可分为：主语、谓语、宾语、表语、定语、状语、补足语和同位语。但本发明实施例并不显式地借助于语法上这些称谓（即语法概念）。传统技术方案认为，句子的语义结构是由组成句子的词或短语结构决定，或者是由组成句子的词或短语结构及他们之间顺序决定。而本发明实施例首次提出，句子语义结构是由句子成分之间的关系及句子成分的内部结构共同决定。自然语言语句是由字、词组成的文本串。但是，语句的意义即语义，却无法从字词层面上给出充分的解释。语言学家根据语言实践经验总结的语法理论，在一定程度上解释了很多语言现象。但仍然不能很好地解释很多语义语用现象。例如，同一个句子表达多种不同语义的现象；不同句子表达相同语义的现象。本发明提出的语义结构解析新思路认为，基于语用视角，语句语义主要取决于句子成分之间的关系和句子成分内部的结构，而这两个因素之间存在一种天然的层级关系，但这种层级关系可以存在嵌套的关系（例如在句子成分内部可以存在定语从句形式作为句子成分一个定语部分）。其中，识别句子成分，包括：识别自由（时间和地点）成分、识别谓语（谓词）成分、主语成分、宾语成分等，其中，需要注意的是，主语成分和宾语成分往往可相互转换。

步骤203，根据识别的句子成分，进行语义结构解析得到所述句子的句子成分之间的关系和句子成分的内部结构。其中，句子成分之间的关系可描述为一种（依赖于谓词的）线性序列关系。例如常见的主谓宾句式，通常可描述为线性序列：（主语，谓语，宾语）或（主语，谓语，直接宾语和间接宾语）。该线性序列关系可以是三元关系、四元关系或者五元关系，以及这三种关系的不同形式的组合。

在一个句子（或分句）中，表示“时间”和“地点”的状语成分在句子中的位置相对自由，本发明实施例可以将这两种成分称为“自由成分”，这两种“自由成分”需要独立处理。

其中，每个句子成分内部，通常呈现一种盒式嵌套结构。例如，例句“我昨天买的电脑今天就坏掉了。”中，“我昨天买的电脑”作为句子的主语，呈现的盒式嵌套结构如下：【【我昨天买的】电脑】，即【我昨天买的】作为【电脑】的定语被嵌套在盒子【电脑】当中。在句子成分内部，除了嵌套结构外，还可能存在一种并列关系。例如，例句“他画了小桥、流水、人家。”中，作为宾语的“小桥、流水、人家”，其内部呈现了并列关系如下：【小桥、流水、人家】，该句子的语义结构可解析为：（他，画了，【小桥、流水、人家】）。也可以说各个子结构可以存在并列关系结构，本处的子结构是指相对于整个盒式嵌套结构而言，当中的组成部分。其中，除了句子成分内部可能存在并列关系外，在句子的若干分句之间，也可以存在一种并列关系结构。例如例句：“他画了小桥，画了流水，画了人家。”分句“画了流水”和分句“画了人家”都省略了主语。三个分句呈现一种并列关系。基于上述思路，本发明实施例提出了“语义结构假说”。该假说认为，一个句子内部由若干个（1个以上）并列关系的分句组合而成；而分句内部的句子成分之间的关系通常可描述为线性序列关系，但这种线性序列关系的具体模式依赖于具体的谓语或谓词，另外还需要独立处理两个“自由成分（表示时间和地点的句子成分）”；句子成分内部结构通常为盒式嵌套结构，但也可能存在并列关系。

实施例二

图3为本发明实施例二提供的解析句子语义结构的方法的流程示意图，如图3所示，该方法包括：

步骤301，句子的文本串输入；

步骤302，分词；

其中，可以利用现有发展成熟的任何分词算法对句子进行分词（允许存在多种可能的分词方案（结构），后续程序可对多种分词方案进行评估和筛选）。

步骤303，句子成分识别任务1：时间和地点成分识别和标注；

步骤304，句子成分识别任务2：谓语（谓词）成分识别和标注；

其中，步骤303、304可以向分词算法进行识别结果的反馈迭代进行分词和识别，另外步骤303、304并不存在固定的前后顺序。

步骤305，将识别出的谓语（谓词）映射到特定谓语（谓词）相关的语句模式库中进行搜索和匹配，可获得（1）成分关系模式匹配、（2）部分句子成分的内部结构的匹配和标注；

步骤306，将识别出的谓语（谓词）映射到特定谓语（谓词）相近谓语（谓词）相关的语句模式库中进行搜索和匹配，可获得部分句子成分的内部结构的匹配和标注；

其中，步骤305、306并不存在固定的前后顺序。

步骤307，通过关键词搜索得到剩余的“句子成分”的内部结构的匹配和标注。

至此，利用句子成分对句子的语义结构进行解析，得到所述句子的句子成分之间的关系和句子成分的内部结构，从而获得了语义理解。

实施例三

图4为本发明实施例三提供的解析句子语义结构的方法的流程示意图，如图4所示，该方法包括：

步骤401，句子的文本串输入；

步骤402，分词；

步骤403，句子成分识别任务1：时间和地点成分识别和标注；

其中，时间和地点成分也可以称之为“自由成分”。

步骤404，句子成分识别任务2：谓语（谓词）成分识别和标注；

其中，谓语（谓词）成分也可以称之为链接成分。

步骤405，句子成分识别任务3：主语成分和宾语成分识别和标注；

其中，需要注意的是，主语成分和宾语成分往往可相互转换。

其中，步骤403、404、405可以向分词算法进行识别结果的反馈迭代进行分词和识别，另外步骤403、404、405并不存在固定的前后顺序。

步骤406，隔离自由成分，进行语义结构解析，得到谓词成分、主语成分、宾语成分之间的关系；

步骤407，将识别出的谓语（谓词）成分映射到基于谓语（谓词）相关的语句模式库中进行搜索和匹配，可获得（1）谓词成分的关系、（2）谓词成分的内部结构；

步骤408，将识别出的主语成分或宾语成分映射到相关的语句模式库中进行搜索和匹配以及进行关键词搜索和匹配，可获得主语成分和宾语成分的内部结构；

步骤409，通过关键词搜索和匹配，得到自由成分的的内部结构。

其中，步骤407、408、409并不存在固定的前后顺序。

实施例四

本发明实施例的思路是，基于实施例一中的语义结构假说，提出了一种自然语言句子的语义结构解析算法，使用该算法可得到语句的语义结构，即句子成分之间的关系（描述）和句子成分的内部结构（描述）。

本发明实施例基于在词和句子之间还有一个重要层级即句子成分，句子成分是句子的语义结构的核心概念。本发明实施例提出的语义解析算法即围绕“句子成分”层级展开，一方面需要确定句子成分之间的关系，另一方面需要确定句子成分内部的结构。

图5为本发明实施例四提供的解析句子语义结构的方法的流程示意图，如图5所示，该方法包括：

步骤501，迭代地学习并建设句子语义模式的基础库；

其中，首先基于语义结构假说，选择一些常用的简单句子进行人工解析，得到句子语义模式的基础库。以该基础库作为训练种子，利用本发明实施例二的算法思路，可学习得到更多简单句子，并进行抽样和人工标注纠偏，迭代地使用本发明实施例二的算法思路学习，不断降低可能存在的误差。达到目标精度后，可停止迭代。通过这样的半监督半自动化方式可训练得到一个较大规模的句子语义模式基础库。

步骤502，建设（更大规模）语义结构知识库；

其中，在简单句子组成的基础库基础上，再次利用本发明实施例二的算法思路学习训练和学习后，可解析较为复杂的句子，并迭代地训练（其中可加入抽样和人工标注纠偏环节），提高精度；达到目标精度后，可停止迭代。如此，可训练得到一个更大规模的语义结构知识库。

步骤503，建设谓词库和“句子成分习惯搭配”模式库；

其中，在步骤501和502得到的语义模式库（基础库、语义结构知识库）基础上，更进一步处理和训练更大的语料库，并从中抽取得到谓词库和“句子成分习惯搭配”模式库。

步骤504，根据谓词库和“句子成分习惯搭配”模式库，解释目标句子。

其中，通过上述若干步骤完成句子语义结构的解析，即得到了句子成分的关系和句子成分内部的结构。然后，利用语义模式基础库解释目标句子（包括各个句子成分及句子成分内部的各个组成部分），即认为获得了“语义理解”。

本发明实施例提供的技术方案，基于语义结构假说，构建了语义结构解析通用算法框架。然后利用该算法框架建设了语义模式库（包括谓词模式库和句子成分习惯搭配模式库）。最后，在语义模式库基础上，再一次利用语义结构解析算法完成句子语义结构的解析，进一步获得语义解释。本发明实施例提供的技术方案可应用于人机对话场景中的语义解释和理解。本发明实施例提出语义结构解析的通用算法，独立于具体的语种，具有跨语种的通用性。

本发明的实施方式还提供了一种解析句子语义结构的装置，图6为本发明实施方式提供的解析句子语义结构的装置的结构示意图，如图6所示，该装置包括：

分词单元，用于接收输入的句子，并根据分词算法对所述句子进行分词；

解析单元，用于对分词结果进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构。

其中，所述解析单元，具体用于识别和标注时间和地点成分，迭代得到所述句子的第一句子成分；

识别和标注谓语或谓词成分，迭代得到所述句子的第二句子成分；

根据第一句子成分和第二句子成分，解析得到所述句子的句子成分之间的关系和句子成分的内部结构。

其中，所述根据第一句子成分和第二句子成分，解析得到所述句子的句子成分之间的关系和句子成分的内部结构，包括：

将第二句子成分映射到基于谓语或谓词的相关语句模式库中搜索和匹配，得到所述第二句子成分的句子成分之间的关系和句子成分的内部结构；

根据第一句子成分进行关键词搜索，得到所述第一句子成分的内部结构。

其中，所述句子语义结构的层次为字词、句子成分、句子；

所述句子成分为基于句法分析标注的语法成分；

其中，所述句子成分之间的关系包括基于谓语或谓词的线性序列关系；

所述句子成分的内部结构包括以下至少之一：

盒式嵌套结构、并列结构、分句之间的并列结构。

其中，该装置还包括：建设单元，

所述建设单元，用于选择常用句子迭代进行所述解析句子语义结构，得到句子语义模式基础库；

基于所述所述句子语义模式基础库和所述语义结构知识库，选择语料库迭代进行所述解析句子语义结构，得到谓词库和句子成分习惯搭配模式库。

其中，所述解析单元，还用于接收目标句子，根据所述谓词库和句子成分习惯搭配模式库，解析所述目标句子。

本发明实施方式提供的技术方案，可以应用于人工智能等领域，克服了现有句法分析研究工作的不足。针对传统句法分析工作的上述不足，本发明实施方式提出了改正。与传统研究工作相比较，本发明实施方式提出的技术方案有如下特征：

1、本发明实施方式是自下而上和自上而下相结合的算法；而传统相关算法思路完全是自下而上的单向思路。

2、本发明实施方式是一种结构化（或层次化）的技术方案，以“句子成分”为核心的一种结构化（层次化）思路，即“词、句子成分和句子”这样的三层结构；而传统相关算法思路完全自下而上的单向思路，从词法分析（分词和词性标注）到句法分析（短语结构分析和句法树解析），再到语义角色标注，都是单向依赖词法分析结果，而没办法考虑和处理语用和语境层面的因素。

3、本发明实施方式采用“句子成分”这一核心概念；而传统相关研究工作依赖于“短语结构”的概念，而遗憾的是，短语结构这一概念无法严格界定。

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本领域技术人员可以理解，实现上述实施例方法中的控制单元的操作是可以通过程序来指令相关的硬件（传感器）来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例中控制单元执行的操作。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种解析句子语义结构的方法，包括：

在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构；

其中，所述进行语义结构解析，得到所述句子的句子成分之间的关系，包括：首先，识别和标注时间和地点成分，得到所述句子的自由成分；然后，识别和标注谓语或谓词成分，得到所述句子的谓语成分；其次，识别和标注主语和宾语成分，得到所述句子的主语成分和宾语成分；最后，隔离所述自由成分，并得到所述谓语成分、所述主语成分和所述宾语成分之间的关系；

所述进行语义结构解析得到所述句子的句子成分的内部结构，包括：首先，将所述谓语成分映射到基于谓语或谓词的相关语句模式库中搜索和匹配，得到所述谓语成分的内部结构；其次，将所述主语成分或宾语成分映射到基于主语或宾语的相关语句模式库中搜索和匹配及进行关键词搜索和匹配，得到所述主语成分的内部结构和所述宾语成分的内部结构；最后，将所述自由成分进行关键词搜索和匹配，得到所述自由成分的内部结构；

所述句子成分之间的关系包括基于谓语或谓词的线性序列关系，所述线性序列关系为三元关系、四元关系、五元关系、或者这三种关系的不同形式的组合；

所述句子成分的内部结构包括以下至少之一：

盒式嵌套结构、各个子结构之间的并列关系结构；

2.根据权利要求1所述的方法，其特征在于，

所述句子语义结构的层次为字词、句子成分、句子；

3.根据权利要求1所述的方法，其特征在于，

句子的分句之间为并列关系结构。

4.根据权利要求1所述的方法，其特征在于，该方法还包括：

5.根据权利要求4所述的方法，其特征在于，该方法还包括：

接收目标句子，根据所述谓词库和句子成分习惯搭配模式库，解析所述目标句子。

6.一种解析句子语义结构的装置，其特征在于，包括：

解析单元，用于在所述分词结果的基础上，进行语义结构解析，得到所述句子的句子成分之间的关系和句子成分的内部结构；其中，所述进行语义结构解析，得到所述句子的句子成分之间的关系，包括：首先，识别和标注时间和地点成分，得到所述句子的自由成分；然后，识别和标注谓语或谓词成分，得到所述句子的谓语成分；其次，识别和标注主语和宾语成分，得到所述句子的主语成分和宾语成分；最后，隔离所述自由成分，并得到所述谓语成分、所述主语成分和所述宾语成分之间的关系；所述进行语义结构解析得到所述句子的句子成分的内部结构，包括：首先，将所述谓语成分映射到基于谓语或谓词的相关语句模式库中搜索和匹配，得到所述谓语成分的内部结构；其次，将所述主语成分或宾语成分映射到基于主语或宾语的相关语句模式库中搜索和匹配及进行关键词搜索和匹配，得到所述主语成分的内部结构和所述宾语成分的内部结构；最后，将所述自由成分进行关键词搜索和匹配，得到所述自由成分的内部结构；

所述句子成分的内部结构包括以下至少之一：

盒式嵌套结构、各个子结构之间的并列关系结构；

7.一种设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的解析句子语义结构的方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的解析句子语义结构的方法。