CN109086268A

CN109086268A - 一种基于迁移学习的领域文法学习系统和方法

Info

Publication number: CN109086268A
Application number: CN201810770956.8A
Authority: CN
Inventors: 沈李斌; 周朕轶
Original assignee: Shanghai Music Mdt Infotech Ltd
Current assignee: Shanghai Music Mdt Infotech Ltd
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2018-12-25

Abstract

本发明公开了一众基于迁移学习的领域文法学习系统和方法，将学习到的通用文法在多个子领域之间迁移，增强在多个子领域中对用户自言语言理解模型的性能。其技术方案为：用户查询模块，为系统提供输入，包括来自不同领域的用户查询语句和领域相关的词典；领域聚类转化模块，将多个领域相关的用户查询转化为领域无关或弱相关的查询，提取出公共部分，从而用来训练领域无关或弱相关的通用的文法模型用来共享通用的文法知识；文法模型模块，通过共享领域无关的文法知识，利用多领域的数据缓解切入新领域时由于标注数据少导致的模型性能不好的问题，并通过学习领域无关的文法模型，使得在一个领域学习到的模型更好的迁移到新的领域。

Description

一种基于迁移学习的领域文法学习系统和方法

技术领域

本发明涉及人工智能领域中的自然语言处理技术，尤其涉及基于迁移学习的领域文法学习技术。

背景技术

近几年人工智能技术被融入到了生活中的方方面面，比如智能聊天机器人、人脸识别系统、电商商品推荐系统。其中自然语言处理作为人工智能领域十分重要的子领域之一，一直是工业与学术界需要攻克的难题之一。

自然语言处理的本意是为了理解人类的语言，从而达到更好的与人类交互。其中文法学习的任务是学习自然语言的组成成分与他们之间的关系，分为依存文法与成分文法，通过学习文法，可以更好的帮助我们理解自言语言是如何构成的。1959年法国语言学家L.Tesniere在其著作《结构句法基础》中提出了依存文法，在语言学特别是计算语言学中备受推崇。在语言信息的研究中，文法学习具有重要的作用，2016年东京大学的研究者将文法树的信息引入到机器翻译任务中取得了当时最好的翻译准确率，2018年，上海科技大学研究者提出了新的文法模型与学习算法在八个语言中的词性标注任务取得了最好的效果。

传统的文法学习的原理架构如图1所示，在多个领域中分别独立的进行学习。目前的文法学习算法主要是有监督的学习，需要事先有大量的人工标注的数据，而人工标注数据的成本是十分高昂的，特别是在有些领域中如小语种、新兴领域中，导致在切入新的子领域初期，模型的性能无法达到预期。此外，多个领域之间的知识无法共享，当前的文法学习与自然语言理解算法通常在多个领域上面独立做训练与学习，跨领域的知识无法共享，进一步提高了切入新领域的成本。

因此，如何将在一个领域学习到的模型迁移到另外一个领域中以提高模型性能是需要解决的重要研究问题。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于迁移学习的领域文法学习系统和方法，可以将学习到的通用文法在电商的多个子领域(例如服装、鞋子、化妆品等)迁移，增强在多个子领域中对用户自言语言理解模型的性能。

本发明的技术方案为：本发明揭示了一种基于迁移学习的领域文法学习系统，包括：

用户查询模块，为系统提供输入，包括来自不同领域的用户查询语句和领域相关的词典；

领域聚类转化模块，将多个领域相关的用户查询转化为领域无关或弱相关的查询，提取出公共部分，从而用来训练领域无关或弱相关的通用的文法模型用来共享通用的文法知识；

文法模型模块，通过共享领域无关的文法知识，利用多领域的数据缓解切入新领域时由于标注数据少导致的模型性能不好的问题，并通过学习领域无关的文法模型，使得在一个领域学习到的模型更好的迁移到新的领域。

根据本发明的基于迁移学习的领域文法学习系统的一实施例，领域聚类转化模块进一步包括：

归一化与分词单元，将用户的查询语言进行归一化，再进行分词处理，将用户的句子分解为多个单词的序列；

词性标注单元，对用户的查询语句的分词结果进行词性的标注，标注出每一个单词对应的词性；

命名实体识别单元，从用户的查询语句中解析出命名实体；

领域聚类转化单元，根据用户的查询语句的词性标注与命名实体识别结果将用户的查询转化为领域弱相关的语句，将用户的查询聚类形成为领域弱相关的类。

根据本发明的基于迁移学习的领域文法学习系统的一实施例，归一化与分词单元中的归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式。

根据本发明的基于迁移学习的领域文法学习系统的一实施例，词性标注单元采用规则与神经网络模型相结合的方式。

根据本发明的基于迁移学习的领域文法学习系统的一实施例，命名实体识别单元采用基于神经网络的序列标注模型。

根据本发明的基于迁移学习的领域文法学习系统的一实施例，文法模型模块包括：

通用的文法模型单元，将经过转化后的领域无关或弱相关的用户查询处理成多领域共享的文法知识；

领域相关的文法模型单元，将领域相关的用户查询以及多领域共享的文法知识，处理成用户查询对应的文法树；

其中通用的文法模型与领域相关的文法模型均为神经网络模型，通用的文法模型与领域相关的文法模型之间通过共享参数达到通用文法知识的共享。

本发明还揭示了一种基于迁移学习的领域文法学习方法，包括：

步骤1：输入包括来自不同领域的用户查询语句和领域相关的词典；

步骤2：将多个领域相关的用户查询转化为领域无关或弱相关的查询，提取出公共部分，从而用来训练领域无关或弱相关的通用的文法模型用来共享通用的文法知识；

步骤3：通过共享领域无关的文法知识，利用多领域的数据缓解切入新领域时由于标注数据少导致的模型性能不好的问题，并通过学习领域无关的文法模型，使得在一个领域学习到的模型更好的迁移到新的领域。

根据本发明的基于迁移学习的领域文法学习方法的一实施例，在步骤2中进一步包括：

将用户的查询语言进行归一化，再进行分词处理，将用户的句子分解为多个单词的序列；

对用户的查询语句的分词结果进行词性的标注，标注出每一个单词对应的词性，并从用户的查询语句中解析出命名实体；

根据用户的查询语句的词性标注与命名实体识别结果将用户的查询转化为领域弱相关的语句，将用户的查询聚类形成为领域弱相关的类。

根据本发明的基于迁移学习的领域文法学习方法的一实施例，步骤2中的归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式，词性标注采用规则与神经网络模型相结合的方式，命名实体识别采用基于神经网络的序列标注模型。

根据本发明的基于迁移学习的领域文法学习方法的一实施例，步骤3中包括：

将经过转化后的领域无关或弱相关的用户查询处理成多领域共享的文法知识，将领域相关的用户查询以及多领域共享的文法知识处理成用户查询对应的文法树，其中通用的文法模型与领域相关的文法模型均为神经网络模型，通用的文法模型与领域相关的文法模型之间通过共享参数达到通用文法知识的共享。

本发明对比现有技术有如下的有益效果：本发明是面向领域文法学习的迁移学习系统和方法，可以从多个子领域的数据中学习通用跨领域文法知识，使学习到的文法模型可以在多个子领域中迁移，并且通过跨领域的知识迁移可以在没有或者少量标注数据下增强多领域上的自然语言理解模型性能。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了传统文法学习的原理架构的示意图。

图2示出了本发明的基于迁移学习的领域文法学习系统的一实施例的原理架构的示意图。

图3示出了图2所示系统实施例中的领域聚类转化模块的原理示意图。

图4示出了本发明的基于迁移学习的领域文法学习方法的一实施例的方法的流程图。

图5示出了图4所示方法实施例中的领域聚类转化步骤的细化流程图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图2示出了本发明的基于迁移学习的领域文法学习系统的一实施例的原理架构。请参见图2，本实施例的领域文法学习系统包括用户查询模块、领域聚类转化模块、文法模型模块。

用户查询模块为整体系统提供输入，包括：(1)来自不同领域的用户查询语句；(2)领域相关的词典。

领域聚类转化模块用于将多个领域相关的用户查询转化为领域无关或弱相关的查询，提取出它们的公共部分，从而用来训练领域无关或弱相关的通用的文法模型用来共享通用的文法知识。

图3示出了图2所示系统实施例中的领域聚类转化模块的原理，请进一步参见图3，领域聚类转化模块进一步包括归一化与分词单元、词性标注单元、命名实体识别单元、领域聚类转化单元。

归一化与分词单元进行归一化与分词处理，将用户的查询语言进行归一化(比如将中文英文标点符号进行统一等)，再进行分词处理，将用户的句子分解为多个单词的序列，其中归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式。

词性标注单元进行词性标注处理：对用户的查询语句的分词结果进行词性的标注，标注出每一个单词对应的词性，该部分采用规则与神经网络模型相结合的方式。

命名实体识别单元进行命名实体识别：从用户的查询语句中解析出命名实体，包括但不限于时间、地名、商品类型等。实体识别采用一种基于神经网络的序列标注模型。

领域聚类转化单元进行领域聚类转化，根据用户的查询语句的词性标注与命名实体识别结果将用户的查询转化为领域弱相关的语句，通过聚类算法将用户的查询形成领域弱相关的类。例如在服装领域，用户可能会问这件衣服的材质是棉的么？而在鞋子领域，用户可能会问这个鞋子的皮革是真皮么？这两个用户询问都是在询问商品的属性是否为某属性值，在上几步中根据领域相关的词典与模型得到了查询对应的命名实体与词性，如其中衣服与鞋子为商品，材质与皮革为属性，棉与真皮为属性值，通过聚类，可以将他们聚为商品属性咨询，这样就可以将两个领域相关的查询转化为领域无关或弱相关的查询，如这两个查询都会变成“{商品}的{属性}是{属性值}么？”

通过领域聚类转化模块的处理后，来自多个不同领域的用户查询可以转化为领域无关或弱相关的句子，更利于训练领域无关或弱相关的文法模型，学习通用跨领域文法知识。

文法模型模块主要包括通用的文法模型单元与领域相关的文法模型单元，通用的文法模型单元主要是为了共享多领域之间通用的文法知识，其输入为经过转化后的领域无关或弱相关的用户查询，输出为多领域共享的文法知识。而领域相关的文法模型单元的输入为领域相关的用户查询以及多领域共享的文法知识，输出是查询对应的文法树。

通用的文法模型与领域相关的文法模型均为神经网络模型，它们之间通过共享参数来达到通用文法知识的共享。使用共享参数的模式，可以将在一个领域学习到的模型的一部分迁移到另一个领域中，从而复用多领域之间通用的知识以达到在较少的数据下更好的模型效果。文法模型模块的创新之处在于通过共享领域无关的文法知识，更好的利用多领域的数据，可以有效缓解切入新的领域时由于标注数据少导致模型性能不好的问题。通过学习领域无关的文法模型，也可以使得在一个领域学习到的模型可以更好的迁移到新的领域。

图4示出了本发明的基于迁移学习的领域文法学习方法的一实施例的方法的流程。请参见图4，下面是对本实施例的方法的实施步骤的详细描述。

步骤S1：输入包括来自不同领域的用户查询语句和领域相关的词典。

步骤S2：将多个领域相关的用户查询转化为领域无关或弱相关的查询，提取出公共部分，从而用来训练领域无关或弱相关的通用的文法模型用来共享通用的文法知识。

再结合图5所示，步骤S2的处理进一步包括：

步骤S21：将用户的查询语言进行归一化，再进行分词处理，将用户的句子分解为多个单词的序列。

归一化例如是将中文英文标点符号进行统一等，归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式。

步骤S22：对用户的查询语句的分词结果进行词性的标注，标注出每一个单词对应的词性。

词性标注采用规则与神经网络模型相结合的方式。

步骤S23：从用户的查询语句中解析出命名实体。

命名实体包括但不限于时间、地名、商品类型等。实体识别采用一种基于神经网络的序列标注模型。

步骤S24：根据用户的查询语句的词性标注与命名实体识别结果将用户的查询转化为领域弱相关的语句，将用户的查询聚类形成为领域弱相关的类。

例如在服装领域，用户可能会问这件衣服的材质是棉的么？而在鞋子领域，用户可能会问这个鞋子的皮革是真皮么？这两个用户询问都是在询问商品的属性是否为某属性值，在上几步中根据领域相关的词典与模型得到了查询对应的命名实体与词性，如其中衣服与鞋子为商品，材质与皮革为属性，棉与真皮为属性值，通过聚类，可以将他们聚为商品属性咨询，这样就可以将两个领域相关的查询转化为领域无关或弱相关的查询，如这两个查询都会变成“{商品}的{属性}是{属性值}么？”

步骤S3：通过共享领域无关的文法知识，利用多领域的数据缓解切入新领域时由于标注数据少导致的模型性能不好的问题，并通过学习领域无关的文法模型，使得在一个领域学习到的模型更好的迁移到新的领域。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于迁移学习的领域文法学习系统，其特征在于，包括：

2.根据权利要求1所述的基于迁移学习的领域文法学习系统，其特征在于，领域聚类转化模块进一步包括：

命名实体识别单元，从用户的查询语句中解析出命名实体；

3.根据权利要求2所述的基于迁移学习的领域文法学习系统，其特征在于，归一化与分词单元中的归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式。

4.根据权利要求2所述的基于迁移学习的领域文法学习系统，其特征在于，词性标注单元采用规则与神经网络模型相结合的方式。

5.根据权利要求2所述的基于迁移学习的领域文法学习系统，其特征在于，命名实体识别单元采用基于神经网络的序列标注模型。

6.根据权利要求1所述的基于迁移学习的领域文法学习系统，其特征在于，文法模型模块包括：

7.一种基于迁移学习的领域文法学习方法，其特征在于，包括：

8.根据权利要求7所述的基于迁移学习的领域文法学习方法，其特征在于，在步骤2中进一步包括：

9.根据权利要求8所述的基于迁移学习的领域文法学习方法，其特征在于，步骤2中的归一化处理采用规则的方式，分词处理采用词典与神经网络模型相结合的方式，词性标注采用规则与神经网络模型相结合的方式，命名实体识别采用基于神经网络的序列标注模型。

10.根据权利要求7所述的基于迁移学习的领域文法学习方法，其特征在于，步骤3中包括：