CN112347793B

CN112347793B - 一种基于规则与学习的语义解析方法、装置和电子设备

Info

Publication number: CN112347793B
Application number: CN202011595286.4A
Authority: CN
Inventors: 钱泓锦; 李晓桐; 刘占亮; 杨玉树; 窦志成; 曹岗; 文继荣
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-14
Anticipated expiration: 2040-12-30
Also published as: CN112347793A

Abstract

本发明公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括：基于规则集中的原有规则识别自然语言语句，生成结构化语句；判断所述结构化语句是否能完整的表达所述自然语言语句的语义，如果不能，则获取所述自然语言语句和所述结构化语句的差异文本，并将所述差异文本输入预先训练的学习模型，生成新的规则；利用所述新的规则更新所述规则集。采用本发明提供的方法利用机器学习得到了新的规则，扩展了自然语言的解析范围，使得不断更新的规则集不仅可以识别规则范围内的文本，还能灵活的随着语言发展而改变；而且该方法的可扩展性强，泛化能力强，解决了基于规则解析局限性的问题。

Description

一种基于规则与学习的语义解析方法、装置和电子设备

技术领域

本发明涉及自然语言理解技术领域，尤其涉及一种基于规则与学习的语义解析方法、装置和电子设备。

背景技术

自然语言理解（NLU，Natural Language Understanding）是自然语言处理(NLP，Natrual Language Processing)的子领域，其目标是将人类语言解析成机器可理解并且结构化的完整语义。随着人工智能技术的发展，算法的丰富，算力的提升，自然语言理解也在新的时代迎来了新的发展。

目前，NLU工具主要包括百度的DDParser，腾讯的TexSmart，Rasa NLU，Facebook的Duckling，以及Google Syntaxnet。其中，前两者使用机器学习方法，后三者使用基于规则的识别方法。但是，这些NLU工具都有一定的局限性，完全使用深度学习的NLU工具（例如DDParser与TexSmart）的解析效果受模型训练影响，模型效果不稳定，例如Textsmart无法将时间段解析成结构化数据，无法识别出节日所代表的具体时间等。而基于规则的NLU工具（例如Duckling）仅仅可以识别规则范围内的文本，不能灵活的随着语言发展而改变，后期维护困难，泛化能力弱。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明一方面提供了一种基于规则与学习的语义解析方法，包括：

基于规则集中的原有规则识别自然语言语句，生成结构化语句；

判断所述结构化语句是否能完整的表达所述自然语言语句的语义；如果不能，则获取所述自然语言语句和所述结构化语句的差异文本；

将所述差异文本输入预先训练的学习模型，生成新的规则；

利用所述新的规则更新所述规则集。

优选地，所述判断所述结构化语句是否能完整的表达所述自然语言语句的语义，包括：

计算所述结构化语句对所述自然语言语句的拟合度；

判断计算得到的拟合度是否达到拟合度阈值，如果未达到拟合度阈值，则所述结构化语句未能完整的表达所述自然语言语句的语义。

优选地，按照下式计算所述拟合度：

其中

为文本编辑距离函数，

为所述自然语言语句，

为所述结构化语句，

为由

生成的自然语言文本。

优选地，所述获取所述自然语言语句和所述结构化语句的差异文本包括：

根据

和

的差异生成所述差异文本。

优选地，将所述差异文本输入预先训练的学习模型，生成新的规则包括：

判断差异文本的数量是否达到预设阈值，若是，则将所述差异文本输入预先训练的学习模型。

优选地，所述利用所述新的规则更新所述规则集包括：

对所述新的规则进行除冗操作，得到除冗后的新规则；

将所述除冗后的新规则加入所述规则集并与所述规则集中的原有规则进行除冗操作，得到更新后的规则集。

优选地，所述除冗操作包括：

计算待除冗操作的两个规则的文本编辑距离，当所述文本编辑距离低于距离阈值时，将待除冗操作的两个规则合并为一个规则。

本发明另一方面提供了一种基于规则与学习的语义解析装置，包括：

规则解析模块，用于基于规则集中的原有规则识别自然语言语句，生成结构化语句；

判断模块，用于判断所述结构化语句是否能完整的表达所述自然语言语句的语义；如果不能，则获取所述自然语言语句和所述结构化语句的差异文本；

新规则生成模块，用于将所述差异文本输入预先训练的学习模型，生成新的规则；

更新模块，用于利用所述新的规则更新所述规则集。

本发明第三方面提供了一种存储器，存储有多条指令，所述指令用于实现上述的方法。

本发明第四方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行上述的方法。

本发明的有益效果是：本发明提供了一种基于规则与学习的语义解析方法、装置和电子设备，该方法中，首先基于规则集中的原有规则识别自然语言语句，生成结构化语句；如果所述结构化语句不能完整的表达所述自然语言语句的语义，则获取所述自然语言语句和所述结构化语句的差异文本，并将所述差异文本输入预先训练的学习模型，生成新的规则；最后利用所述新的规则更新所述规则集。采用本发明提供的方法可以实现规则的学习，扩展自然语言的解析范围，不仅可以识别规则范围内的文本，还能灵活的随着语言发展而改变，而且该方法的可扩展性强，泛化能力强，解决了基于规则解析局限性的问题，同时利用机器学习得到了新的规则。

附图说明

图1为本发明所述基于规则与学习的语义解析方法流程图；

图2为本发明所述基于规则与学习的语义解析装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种基于规则与学习的语义解析方法，包括：

S101，基于规则集中的原有规则识别自然语言语句，生成结构化语句；

S102，判断所述结构化语句是否能完整的表达所述自然语言语句的语义，如果不能，则获取所述自然语言语句和所述结构化语句的差异文本；

S103，将所述差异文本输入预先训练的学习模型，生成新的规则；

S104，利用所述新的规则更新所述规则集。

在步骤S101中，规则集中存储有大量预先写好的原有规则，原有规则的表达形式可以采用自定义的上下文无关文法规则。语法实例可如下所示：

<day_duration> = <cn_number><day_cn_before>

| <cn_number><day_cn_after>

| <day_cn_before><cn_number>

| <day_cn_after><cn_number>

| <last_day>

| <today>

| <next_day>

| <before_day>

| <after_day>;

在该语法实例的左部，<day_duration>是一个非终结符，右部是9个产生式，每个产生式都有与其对应的声明。部分产生式的具体声明可如下所示：

<last_day> = “昨天” | “昨日”;

<today> = “今天” | “今日”;

<next_day> = “明天” | “明日” | “翌日”;

<before_day> = “前天” | “大前天”;

<after_day> = “后天” | “大后天”;

利用规则集中存储的大量原有规则识别自然语言语句，将其解析成结构化语句。具体的可以采用现有技术实现。例如，对自然语言语句“2020年10月1日”进行识别，生成的结构化语句可如下所示：

{

“pos”: {

“start_byte”:0,

“end_byte”:4

},

“text”:“2020”,

“type”:“year”,

},

{

“pos”:{

“start_byte”:7,

“start_byte”:9,

},

“text”:“10”,

“type”:“month”,

},

{

“pos”:{

“start_byte”:12,

“end_byte”:13;

},

“text”:“1”,

“type”:“day”,

}。

步骤S102中，通过计算结构化语句对所述自然语言语句的拟合度来判断所述结构化语句是否能完整的表达所述自然语言语句的语义。如果计算得到的拟合度达到了设定的阈值，说明原有规则可以覆盖自然语言语句所包含的信息，语义解析成功，无需生成新的规则。如果计算得到的拟合度未达到设定的阈值，说明步骤S101中得到的所述结构化语句未能完整的表达所述自然语言语句的语义，基于原有规则的实体识别不能将自然语言语句中的信息完全提取出来，语义解析失败，需要补充新的规则。

具体的，本发明实施例中，按照下式计算所述拟合度：

其中

为文本编辑距离函数，

为所述自然语言语句，

为所述结构化语句，

为由

生成的自然语言文本。具体来说，结构化语句

中包括key-value形式的语义信息对，可以将其还原成自然语言文本，基于由结构化语句还原的自然语言文本和原自然语言语句之间的差异可以计算得到拟合度。

其中，根据

和

的差异生成所述差异文本，即利用原有规则无法成功解析的部分文本。

可选地，在步骤S103中，判断差异文本的数量是否达到预定阈值，若是，则将所述差异文本输入预先训练的学习模型，生成新的规则，若否，则继续累积差异文本。作为一个示例，可以构建一个学习案例集，当判断某一个结构化语句对所述自然语言语句的拟合度低于阈值时，将该结构化语句、自然语言语句以及二者的差异文本作为一条案例存入学习案例集中。可选地，学习案例集的数据存储形式为四元组，包括4部分信息，分别表示为

和

。其中，

为所述自然语言语句，

为所述结构化语句，

为由

生成的自然语言文本，

为

与

的差异文本。当所述学习案例集中的案例数量达到预设阈值时，将所述案例中的差异文本输入学习模型。由此，不在每次语义解析失败时都基于差异文本进行学习，而是累积一定数量后再集中进行学习并生成规则，减少了计算成本，提高了生成效率。

作为一个示例，所述学习模型包括Seq2Seq模型。通过人工标注训练语料，以拟合度为优化目标训练得到。训练好的Seq2Seq模型以差异文本

为输入，输出其对应的规则

。

本发明实施例中，使用深度学习模型产生新的规则，由于学习模型足够复杂，因此可以学习更为精细的规则，从而满足复杂的自然语句的语义解析需求；本方法具有较强的可扩展性，可以选择多种学习模型，可以使用新的学习模型提升系统的整体性能，还可以采用集成模型进行训练提升系统整体学习规则的性能。

步骤S104中，利用所述新的规则更新所述规则集，具体包括：

对所述新的规则进行除冗操作，得到除冗后的新规则；

所述除冗操作包括：

本发明实施例中，将生成的多个新规则在加入规则集之前进行除冗处理，然后对除冗后得到的新规则与原有规则进行除冗，有效控制了规则集的规模，提升了规则解析的效率。

进一步地，在将除冗后的新规则加入所述规则集之前进行人工校验。若校验正确，则将该新规则加入所述规则集并与原有规则除冗；若校验不正确，则不加入所述规则集，并将该新规则及对应的差异文本加入训练数据，对所述学习模型进行迭代训练。

实施例二

如图2所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种基于规则与学习的语义解析装置，包括：

规则解析模块201，用于基于规则集中的原有规则识别自然语言语句，生成结构化语句；

判断模块202，用于判断所述结构化语句是否能完整的表达所述自然语言语句的语义；如果不能，则获取所述自然语言语句和所述结构化语句的差异文本；

新规则生成模块203，用于将所述差异文本输入预先训练的学习模型，生成新的规则；

更新模块204，用于利用所述新的规则更新所述规则集。

所述判断模块具体的用于：

计算所述结构化语句对所述自然语言语句的拟合度；

其中，按照下式计算所述拟合度：

其中

为文本编辑距离函数，

为所述自然语言语句，

为所述结构化语句，

为由

生成的自然语言文本。

所述判断模块用于获取所述自然语言语句和所述结构化语句的差异文本包括：

根据

和

的差异生成所述差异文本。

所述新规则生成模块具体的用于：判断差异文本的数量是否达到预设阈值，若是，则将所述差异文本输入预先训练的学习模型。

所述更新模块具体的用于：

对所述新的规则进行除冗操作，得到除冗后的新规则；

进一步地，所述除冗操作包括：

该装置可通过上述实施例一提供的基于规则与学习的语义解析方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。