CN110502739A

CN110502739A - 结构化输入的机器学习模型的构建

Info

Publication number: CN110502739A
Application number: CN201910413825.9A
Authority: CN
Inventors: Z.N.苏拉; T.陈; H.宋
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-05-17
Filing date: 2019-05-17
Publication date: 2019-11-26
Anticipated expiration: 2039-05-17
Also published as: CN110502739B; US20190354851A1

Abstract

用于由处理器构建结构化输入的机器学习模型的实施例。可以应用领域知识来标识一个或多个语法实体。输入数据可以被布置到使用领域知识标识的一个或多个语法实体中。一个或多个语法实体中的每一个可以模块化地适配于一个或多个语法实体函数，以创建机器学习模型。一个或多个规则可以用于创建一个或多个语法实体函数中的每一个。

Description

结构化输入的机器学习模型的构建

技术领域

本发明一般涉及计算系统，并且更具体地，涉及由处理器构建结构化输入的机器学习模型的各种实施例。

背景技术

在当今社会，消费者、商人、教育者和其他人通过各种各样的媒介实时、跨远距离进行通信，并且很多时候没有边界和国界。随着计算网络(诸如互联网)的使用增加，人类当前被他们可从各种结构化和非结构化来源获得的信息量所淹没和覆盖。由于信息技术的最近进步和互联网的日益普及，各种各样的计算机系统已经被用于机器学习。机器学习是用于允许计算机基于经验数据进化行为的人工智能的一种形式。

发明内容

提供了用于由处理器构建结构化输入的机器学习模型的各种实施例。在一个实施例中，仅作为示例，提供了一种同样由处理器模块化构建用于深度学习问题的神经网络的方法。可以应用领域(domain)知识来标识一个或多个语法实体。输入数据可以被布置到使用领域知识标识的一个或多个语法实体中。一个或多个语法实体中的每一个可以模块化地适配于一个或多个语法实体函数，以创建机器学习模型。一个或多个规则可以用于创建一个或多个语法实体函数中的每一个。

附图说明

为了容易理解本发明的优点，将通过参考附图中示出的特定实施例对上面简要描述的本发明进行更具体的描述。应当理解，这些附图仅描绘了本发明的典型实施例，并且因此不应被认为是对其范围的限制，将通过使用附图以附加的特异性和细节来描述和解释本发明，其中：

图1是描绘根据本发明实施例的示例性云计算节点的框图；

图2是描绘根据本发明实施例的示例性云计算环境的附加框图；

图3是描绘根据本发明实施例的抽象模型层的附加框图；

图4是描绘根据本发明各方面起作用的各种用户硬件和计算组件的附加框图；

图5A-图5D是描绘根据本发明各方面的输入数据实例的机器学习模型的结构的附加图；

图6是描绘用于构建结构化输入的机器学习模型的附加示例性方法的流程图，同样在该附加示例性方法中可以实现本发明的各方面；以及

图7是描绘用于构建结构化输入的机器学习模型的附加示例性方法的附加流程图，同样在该附加示例性方法中可以实现本发明的各方面。

具体实施方式

机器学习允许诸如计算机系统或专用处理电路的自动化处理系统(“机器”)对具体数据集进行泛化(generalization)，并使用该泛化以，例如通过对新数据进行分类来解决相关联的问题。一旦机器从来自输入或训练数据的已知属性学习到泛化(或使用来自输入或训练数据的已知属性来训练机器)，该机器就可以将该泛化应用于未来的数据以预测未知属性。

在机器学习和认知科学中，神经网络是由动物的生物神经网络，特别是大脑启发的统计学习模型的家族。神经网络可用于估计或近似取决于大量输入且通常未知的系统和功能。神经网络使用基于互连“神经元”的概念的一类算法。在典型的神经网络中，神经元具有对输入进行操作的给定激活功能。通过确定适当的连接权重(也称为“训练”过程)，神经网络实现了所期望的图案(诸如图像和字符)的有效识别。通常情况下，这些神经元被分组成“层”，以使组之间的连接更加明显以及对数值的每次计算进行连接。训练神经网络是一个计算密集的过程。例如，设计机器学习(machine learning，ML)模型，特别是用于深度学习的神经网络，是试错(trial-and-error)过程，并且典型地机器学习模型是黑盒(blockbox)。

当前，这些技术都要求ML模型(例如神经网络)来学习输入数据中的结构，这使得学习更加困难。例如，使用考虑结构的神经网络的当前技术包括：1)自然语言过程，其可以在训练后反思网络，以将高级语意与网络的单个组件相关联；2)ResNet和/或DenseNet，其可以结构化网络，使得单个层可以访问输入数据的不同置换(permutation)和/或组合；3)注意力网络，其可以允许神经网络结构的一些层集中于输入数据的一部分；和/或4)神经机器翻译，其可以使用其中编码器输出暴露输入数据中的结构并且模型学习如何做到这一点的编码器-解码器神经网络模型。

鉴于学习输入数据的结构的局限性，存在构建基于输入数据的语法的机器学习模型的需要。在一个方面，本发明提供了基于输入数据的语法/结构构建机器学习模型，并且隐含地将输入数据的语法/结构带入机器学习模型的结构中。机器学习模型可以模块化地适配于输入数据的每个单独的语法/结构的结构。

在一个方面，本发明提供了构建使用并结合输入数据(例如，结构化输入数据)的结构作为机器学习模型的一部分的一个或多个机器学习模型。也就是说，本发明提供了设计机器学习模型来学习选择的函数F(x)，其中F是函数，并且其中X属于语法结构化输入领域。可以应用领域知识来找到与学习问题相关的语法实体。输入数据可以以语法实体的选择的布置进行格式化。语法实体可以用选择的属性信息(例如，添加的属性数据)来注释。每个语法实体可以被静态地映射到函数。该函数(例如，语法实体函数“GEFN”)可以是：1)先验已知的函数，和/或2)待学习的未知函数(例如，通过使用学习该函数的对应神经网络)。可以使用基于输入数据格式的一个或多个规则，这些规则定义如何组成与输入数据项中的语法实体中的每一个相关联的函数。

另一方面，本发明提供了模块化机器学习(“ML”)模型的构建，该模块化机器学习模型的结构取决于输入的结构。模块化ML模型可以包括被称为语法实体函数或“GE-FN(grammar entity function)”的一个或多个较小组件，每个组件都与语法实体(例如，语法标记、表达式或标记/表达式的子集)相关联。GE-FN的数量和大小可以根据问题要求和领域知识(用于深度学习)而变化。GE-FN可以是先验已知的函数，也可以是待学习的函数。整体ML模型的组成遵循基于输入数据的格式(其可以是序列、基于堆栈的、基于树的或基于图形的)的规则。对于待学习的函数的GE-FN可以使用目标训练输入数据集进行单独训练。针对每个输入数据项遍历整体ML模型结构，但是ML模型中使用的组件是跨输入集训练的。

预先理解，尽管本公开包括关于云计算的详细描述，但是本文所述的教导的实施方式不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。服务模式如下：

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的一个示例。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。

在云计算节点10中，存在计算机系统/服务器12，该计算机系统/服务器12可与许多其他通用或专用计算系统环境或配置一起操作。适用于计算机系统/服务器12的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、迷你计算机系统、大型计算机系统以及包括任何上述系统或设备的分布式云计算环境等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其他模块通信。应当明白，尽管图中未示出，其他硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

现在参考图2，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图2显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图3，其中显示了云计算环境50(图2)提供的一组功能抽象层。首先应当理解，图3所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图3所示，提供下列层和对应功能：设备层55包括物理和/或虚拟设备，该物理和/或虚拟设备嵌入有和/或作为独立电子设备、传感器、致动器和其他对象，以在云计算环境50中执行各种任务。设备层55中的设备中的每一个设备将联网能力结合到其他功能抽象层，使得可以向其提供从设备获得的信息，和/或可以向设备提供来自其他抽象层的信息。在一个实施例中，包括设备层55在内的各种设备可以并入统称为“物联网”(internet of things，IoT)的实体网络。如本领域普通技术人员将理解的，这种实体网络允许数据的相互通信、收集和传播以实现多种目的。

所示出的设备层55包括传感器52，致动器53，具有集成的处理、传感器和网络电子设备的“学习”恒温器(thermostat)56，摄像机57，可控家用插口(outlet)/插座(receptacle)58，以及所示出的可控电气开关59。其他可能的设备可以包括但不限于各种附加的传感器设备、网络设备、电子设备(诸如远程控制设备)、附加的致动器设备(诸如冰箱或洗衣机/烘干机等所谓的“智能”设备)以及各种其他可能的互连对象。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的示例包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的示例：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其他资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个示例中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其他资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供了云计算环境可用于的功能的示例。可以从该层提供的工作负载和功能的示例包括：地图绘制(mapping)和导航91；软件开发和生命周期管理92；虚拟教室教育支付93；数据解析处理94；交易处理95；并且，在本发明所示实施例的上下文中，包括用于构建结构化输入的机器学习模型的各种工作负载和功能96。此外，用于构建结构化输入的机器学习模型的工作负载和功能96可以包括诸如数据解析(analytics)、数据分析(analysis)以及如将进一步描述的通知功能的操作。本领域的普通技术人员将理解，用于构建结构化输入的机器学习模型的工作负载和功能96也可以与各种抽象层的其他部分结合工作，诸如硬件和软件60、虚拟70、管理80和其他工作负载90(例如，诸如数据解析处理94)中的那些抽象层，以实现本发明所示实施例的各种目的。

如前所述，本发明提供了模块化地构建用于深度学习问题的神经网络。输入到深度神经网络的所有数据项可以由语意或“语法”定义(例如，单个标记和表达式，或标记/表达式的子集)。在一个方面，输入数据项可以以多个语法实体格式布置，诸如序列、树、图形等。输入数据的结构可以隐含地延续到机器学习模型的结构中。每个单独的输入数据项中的输入数据的结构可以通过利用一个或多个语法实体神经网络(“grammar entity neuralnetwork，GE-NN”)(例如，GE函数)作为由特定于输入数据格式的规则互连的组件来模块化地合成、适配或映射。也就是说，每个GE-NN都是形成了一个完整的或最终的机器学习模型的单独且差分的(individual and differential)组件。

也就是说，本发明提供语意实体的自动预处理，以通过标记语音的部分(part-of-speech)、命名的实体分块来建立统计语法模型，从而降低对训练数据的监督水平。本发明提供了模块化地构建用于深度学习问题的神经网络，其中到深度神经网络的所有输入的数据项由语法定义。以这种方式，可以基于与一个或多个类别相对应的每个概念的出现频率来变换训练数据，以改进数据分类，从而实现改进的和更有效的训练数据集。

现在转向图4，示出了描绘根据所示实施例的各种机制的示例性功能组件400的框图。在一个方面，图1-图3中描述的组件、模块、服务、应用和/或功能中的一个或多个可以在图4中使用。示出了机器学习模型构建服务410，其结合了处理单元(“处理器”)420，以根据本发明的各方面执行各种计算、数据处理和其他功能。机器学习模型构建服务410可以由图1的计算机系统/服务器12提供。处理单元420可以与存储器430通信。机器学习模型构建服务410可以包括领域知识组件440、语法实体函数组件450、映射/规则组件460和机器学习模型组件470。

如本领域普通技术人员将理解的，机器学习模型构建服务410中的各种功能单元的描述是出于说明的目的，因为该功能单元可以位于机器学习模型构建服务410内或分布式计算组件内和/或之间的其他地方。

在一个实施例中，仅作为示例，机器学习模型构建服务410可以模块化地构建用于深度学习问题的神经网络。领域知识可以经由领域知识组件440来应用，以标识输入数据的一个或多个语法实体。一个或多个语法实体可以从底层输入领域语法中导出。输入数据的语法实体可以是单个标记或表达式，或者标记和表达式的子集。例如，假设学习问题是用基本块和循环来估计计算机程序的动态指令计数。输入域语法可以是选择的编程语言中用于计算机程序的语法。输入域语法的相关语法实体可以是基本块(basic block，BB)、循环开始标记(loop start token，LSTART)、循环结束标记(loop end token，LEND)。

输入数据可以以语法实体的选择的布置来进行格式化。每个语法实体可以用附加或额外的属性信息来注释。例如，语法实体的选择的布置可以是简单的序列、基于堆栈的格式、树排序和/或基于图形的格式。继续上面的示例，例如，可以为语法实体使用简单的序列格式。因此，BB语法实体可以用指令计数(例如，5、10和15)来注释。LSTART和LEND可以用循环迭代计数(例如，“20”)来注释。因此，示例输入字符串可以是：“BB 10LSTART 20BB 5LEND20BB 15”。

映射/规则组件460可以静态地将每个语法实体映射到函数。该函数可以被称为语法实体函数(“GE-FN”)。语法实体函数可以是：1)先验已知的函数；2)待学习的未知函数(例如，通过使用学习该函数的对应神经网络)。每个语法实体函数可以接收或采取两个输入：1)当前状态向量，和2)注释的属性输入值(例如，注释的属性数据)。每个语法实体函数可以产生一个输出：1)下一状态向量。在一个方面，映射/规则组件460可以提供从语法实体到一个或多个函数的灵活映射，例如1对1或多对1映射。继续上面的示例：BB语法实体可以映射到第一函数(“F1”)，LSTART语法实体可以映射到第二函数(“F2”)，以及LEND语法实体可以映射到第三函数(“F3”)。此外，在一个方面，F1、F2和F3可以是未知的，并且将由F1、F2和F3的单个神经网络来学习。与F1、F2和F3相对应的神经网络可以是作为用于学习整体函数F(x)的最终神经网络的组件的较小网络。

因此，输入数据可以经由映射/规则组件460被布置到使用领域知识组件440的领域知识标识的一个或多个语法实体中。语法实体函数组件450和机器学习模型组件470可以与彼此关联地工作，使得一个或多个语法实体中的每一个可以模块化地适配(例如，映射)到一个或多个语法实体函数，以创建机器学习模型。

映射/规则组件460可以使用一个或多个规则来创建一个或多个语法实体函数中的每一个，这些语法实体函数可以被使用和/或存储在语法实体函数组件中。也就是说，映射/规则组件460可以使用基于输入数据格式的规则，该规则定义如何组成与输入数据项中的语法实体中的每一个相关联的函数。继续其中格式是简单序列的上述示例，前一函数的输出可以是后一函数的输入状态向量。例如，输入数据“X”可以是“BB 10LSTART 20BB5LEND 20BB 15”，并且输出可以是：F(x)＝F1(F3(F1(F2(F1(初始，10)，20)，5)，20)，15)，其中“初始”可以是状态向量的预设初始值。

仅作为示例，机器学习组件470可以使用方法(诸如监督式学习、无监督式学习、时间差分学习、强化学习等等)的各种组合来确定一个或多个试探法和基于机器学习的模型。可以与本技术一起使用的监督式学习的一些非限制性示例包括AODE(averaged one-dependence estimators，平均单依赖估计)、人工神经网络、贝叶斯统计、朴素贝叶斯分类器、贝叶斯网络、基于案例的推理、决策树、归纳逻辑编程、高斯过程回归、基因表达式编程、数据处理分组方法(group method of data handling，GMDH)、学习自动机、学习向量量化、最小信息长度(决策树、决策图等)、懒惰学习、基于实例的学习、最近邻算法、类比建模、概率近似正确(probably approximately correct，PAC)学习、链波下降规则(ripple downrule)、知识获取方法、符号机器学习算法、子符号机器学习算法、支持向量机、随机森林、分类器集合、自举(bootstrap)聚合(袋装法(bagging))、boosting(元算法)、序数分类、回归分析、信息模糊网络(information fuzzy network，IFN)、统计分类、线性分类器、fisher线性判别、逻辑回归、感知器、支持向量机、二次分类器、k-最近邻、隐马尔可夫模型和boosting。可以与本技术一起使用的无监督式学习的一些非限制性示例包括人工神经网络、数据聚类、期望最大化、自组织映射、径向基函数网络、向量量化、生成地形图、信息瓶颈方法、IBSEAD(distributed autonomous entity systems based interaction，基于交互的分布式自治实体系统)、关联规则学习、apriori算法、eclat算法、FP-growth算法、分层聚类、单链接聚类、概念聚类、分区聚类、k-means算法、模糊聚类和强化学习。时间差分学习的一些非限制性示例可以包括Q-学习和学习自动机。关于本段中描述的监督式、无监督式、时间差分或其他机器学习的任何示例的具体细节是已知的，并且被认为在本公开的范围内。

在一个方面，领域知识组件440的领域知识可以是表示知识的领域的概念的本体。词库(thesaurus)或本体可以用作领域知识，并且也可以用于标识观察到的和/或未观察到的变量之间的语意关系。在一个方面，术语“领域”是意图具有其普通含义的术语。此外，术语“领域”可以包括系统的专业领域或与特定的一个或多个主题相关的材料、信息、内容和/或其他资源的集合。领域可以指与任何特定主题或选择的主题的组合相关的信息。

术语本体也是意图具有其普通含义的术语。在一个方面，术语本体在其最广义上可以包括可以建模为本体的任何事物，包括但不限于分类法、叙词表、词汇等。例如，本体可以包括与感兴趣的领域或特定类别或概念的内容相关的信息或内容。本体可以用与源同步的信息持续更新，将来自源的信息作为模型、模型属性或本体内的模型之间的关联添加到本体中。

另外，领域知识组件440可以包括知识的领域和/或包括一个或多个外部资源，诸如，例如到一个或多个互联网领域、网页等的链接。

鉴于图4的方法400，图5A-图5D描绘了输入数据实例的机器学习模型的结构。也就是说，图5A-图5D示出了逐步输入映射到语法实体函数的语法实体格式的输入数据实例。

作为初步事项，图4中描述的示例可以仅作为示例在图5A-图5D中使用。因此，示例输入字符串(例如，语法实体格式)可以是：“BB 10LSTART20BB 5LEND 20BB 15”，以用于构建结构化输入的机器学习模型。此外，初始状态可以被示为初始状态(“A”)，并且最终状态可以被示为最终状态(“F”)。

如图5A-图5D所示，映射和规则可用于将一个或多个输入提供给一个或多个函数，诸如，例如函数(“F1”)、函数(“F2”)和/或函数(“F3”)。也就是说，函数F1-F3可以是整体机器学习模型的组件模型。“BB 10LSTART 20BB 5LEND 20BB 15”的输入数据字符串可以被输入到映射和规则中。函数接收2个输入，并且每个函数的输出被反馈到映射和规则中。

在一个方面，可以学习函数F1、F2和F3的功能或参数。在一个方面，仅作为示例，语法实体格式可以是简单的序列，并且映射和规则可以指示前一函数的输出可以是后一函数的输入状态向量。函数之间的连接可以根据输入来自何处以及输出朝向何处来指定。

如图5A所示，初始输入状态(A)可以是状态向量和当前状态，并且属性值可以来自输入数据字符串(例如，“BB 10LSTART 20BB 5LEND 20BB15”)。输出是输出状态向量。例如，当输入数据字符串被格式化为简单序列(例如，“BB 10LSTART 20BB 5LEND 20BB 15”)时，对于进入的每个下一标记，前一标记的输出(它是输出状态向量)变成当前状态向量。

在一个方面，对于每个语法实体结构(例如，基本块(BB)、LSTART和LEND)，可以有对应的函数(例如，针对BB的F1、针对LSTART的F2、针对LEND的F3)。因此，对于初始BB 10，初始输入状态(A)可以是状态向量。根据映射和规则，当前状态(A)和来自输入数据字符串(对于BB 10或标记10)的注释的属性值(10)可以被输入F1。F1的输出可以是当前状态(B)。也就是说，当前状态(B)现在被输入到下一函数F2中。如图5B所示，输入数据字符串(对于LSTART)可以输入F2。当前状态现在是当前状态(B)，并且来自输入数据字符串(对于LSTART20)的注释的属性值输入(20)可以被输入到F2。F2的输出现在是当前状态(C)。

现在转向图5C，根据BB 5的映射和规则，输入状态现在是当前状态(C)，并且来自输入数据字符串(对于BB 5)的注释的属性值(5)可以被输入F1(例如，语法实体BB 5被映射到函数F1)。F1的输出现在是当前状态(D)，其被反馈到映射和规则中。也就是说，当前状态(D)现在被输入到下一函数F3中。

在图5D中，示出了最终显示，其还包括应用语法实体LEND 20和BB15的映射和规则。对于语法实体LEND 20，当前状态(D)被输入F3，并且注释的属性值(20)可以来自输入数据字符串(对于LEND 20)，并且可以被输入F3。F3的输出现在是当前状态(E)。而且，输入状态现在是当前状态(E)，并且来自输入数据字符串(对于BB 15)的注释的属性值(15)可以被输入F1(例如，语法实体BB 15被映射到函数F1)。F1的输出现在是当前状态(F)，其被反馈到映射和规则中。

对于训练和使用构建的机器学习，可以有两个过程：1)正向传播和2)反向传播。正向传播可以如图5A-图5D中所描述的那样应用。对于反向传播，增量(delta)被计算并且通过组成整体机器学习模型的单个组件来反向传播。对于待学习的机器学习的那些函数组件，函数组件是可微分(differentiable)组件(例如，单独组件)。对于先验已知的函数，必须存在反函数，或者可以为数据域中的所有点静态地定义反函数关系。正在学习的整体函数可以是可训练的。对于那些未学习或已知的函数，可以使用反函数，和/或将确定反向关系以用于反向传播。应该注意的是，取决于特定输入数据，对于推理实例，将仅练习机器学习模型组件的子集。

图6是描绘用于构建结构化输入的机器学习模型的附加示例性方法的附加流程图600，同样在该附加示例性方法中可以实现本发明的各方面。也就是说，流程图600示出了用于为了构建结构化输入的机器学习模型的数据预处理的示例，例如，诸如图5A-图5D中所述，估计计算机程序的动态指令计数。功能600可以被实施为作为机器上的指令执行的方法，其中该指令被包括在至少一个计算机可读介质或非暂时性机器可读存储介质上。

功能600可以以计算机程序602被反馈到编译器开始，如框604所示。该编译器可以编译和执行计算机程序602，并提供反馈数据，如框606所示。该执行使得能够生成简档以帮助用属性数据(例如简档信息)来注释语法实体。在框608处，如在框608中，可以用简档信息注释计算机程序。可以从框612提供基于句法(syntax)的领域知识(例如，语法实体，诸如图5A-图5D中描述的语法输入实体“BB，LSTART，LEND，BB”)。来自框612的基于句法的领域知识和来自框608的用数据注释的计算机程序可以被输入到如在框610中的模块化神经网络构建器中，并且如在框614中，输出构建的机器学习模型(例如，神经网络)。如在框616中，可以训练神经网络(如本文所述)。功能600可以在框616处结束。

图7是描绘用于构建结构化输入的机器学习模型的附加示例性方法的附加流程图700，同样在该附加示例性方法中可以实现本发明的各方面。功能700可以被实施为作为机器上的指令执行的方法，其中该指令被包括在至少一个计算机可读介质或非暂时性机器可读存储介质上。功能700可以从框702开始。

如在框704中，可以应用领域知识来标识一个或多个语法实体(例如，使用自然语言处理“natural language processing，NLP”标识的语意实体)。一个或多个语法实体可以是标记、语意表达式、标记和语意表达式的子集或者它们的组合。如在框706中，输入数据可以被布置到使用领域知识标识的一个或多个语法实体中。如在框708中，一个或多个语法实体中的每一个可以模块化地适配于一个或多个语法实体函数，以创建机器学习模型。如在框710中，功能700可以结束。

在一个方面，结合和/或作为图7的至少一个框的一部分，方法700的操作可以包括以下每一个。方法700的操作可以用选择的属性数据注释一个或多个语法实体。输入数据可以被格式化成一个或多个语法实体的选择的布置。一个或多个语法实体可以被映射到一个或多个语法实体函数。

方法700的操作可以使用当前状态向量和注释的属性输入值作为对一个或多个语法实体函数中的每一个的输入，和/或生成下一状态向量作为来自一个或多个语法实体函数的输出。方法700的操作可以使用一个或多个规则来创建一个或多个语法实体函数中的每一个。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，以用于使处理器执行本发明的各方面。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集架构(instruction-set-architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括诸如Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言的传统的过程编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立软件包执行，部分在用户的计算机上且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(local area network，LAN)或广域网(wide areanetwork，WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(field-programmable gate arrays，FPGA)或可编程逻辑阵列(programmable logicarray，PLA))的电子电路可以通过利用个性化电子电路的计算机可读程序指令的状态信息来执行计算机可读程序指令，以便执行本发明的各方面。

这里参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种由处理器构建结构化输入的机器学习模型的方法，包括：

将输入数据布置到使用领域知识标识的一个或多个语法实体中；以及

使所述一个或多个语法实体中的每一个模块化地适配到一个或多个语法实体函数，以创建机器学习模型。

2.根据权利要求1所述的方法，进一步包括应用所述领域知识来标识所述一个或多个语法实体，其中所述一个或多个语法实体是标记、语意表达式、标记和语意表达式的子集、或其组合。

3.根据权利要求1所述的方法，进一步包括用选择的属性数据注释所述一个或多个语法实体。

4.根据权利要求1所述的方法，其中将输入数据布置到所述一个或多个语法实体中进一步包括将所述输入数据格式化成所述一个或多个语法实体的选择的布置。

5.根据权利要求1所述的方法，进一步包括将所述一个或多个语法实体静态地映射到所述一个或多个语法实体函数。

6.根据权利要求1所述的方法，进一步包括：

使用当前状态向量和注释的属性数据作为对所述一个或多个语法实体函数中的每一个的输入；以及

从所述一个或多个语法实体函数生成下一状态向量作为输出。

7.根据权利要求1所述的方法，进一步包括使用一个或多个规则来创建所述一个或多个语法实体函数中的每一个。

8.一种用于构建结构化输入的机器学习模型的系统，包括：

具有可执行指令的一个或多个计算机，所述可执行指令在执行时，使得所述系统：

9.根据权利要求8所述的系统，其中所述可执行指令进一步应用领域知识来标识所述一个或多个语法实体，其中所述一个或多个语法实体是标记、语意表达式、标记和语意表达式的子集、或其组合。

10.根据权利要求8所述的系统，其中所述可执行指令进一步用选择的属性数据注释所述一个或多个语法实体。

11.根据权利要求8所述的系统，其中用于将输入数据布置到所述一个或多个语法实体中的可执行指令进一步将所述输入数据格式化成所述一个或多个语法实体的选择的布置。

12.根据权利要求8所述的系统，其中所述可执行指令进一步将所述一个或多个语法实体静态地映射到所述一个或多个语法实体函数。

13.根据权利要求8所述的系统，其中，所述可执行指令进一步：

使用当前状态向量和注释的属性输入值作为对所述一个或多个语法实体函数中的每一个的输入；以及

14.根据权利要求8所述的系统，其中所述可执行指令进一步使用一个或多个规则来创建所述一个或多个语法实体函数中的每一个。

15.一种用于由处理器自动提取和总结通信的决策讨论的计算机程序产品，所述计算机程序产品包括其中存储有计算机可读程序代码部分的非暂时性计算机可读存储介质，所述计算机可读程序代码部分包括：

可执行部分，将输入数据布置到使用知识领域标识的一个或多个语法实体中；以及

可执行部分，使所述一个或多个语法实体中的每一个模块化地适配一个或多个语法实体函数，以创建机器学习模型。

16.根据权利要求15所述的计算机程序产品，进一步包括应用所述领域知识来标识所述一个或多个语法实体的可执行部分，其中所述一个或多个语法实体是标记、语意表达式、标记和语意表达式的子集、或其组合。

17.根据权利要求15所述的计算机程序产品，进一步包括用选择的属性数据注释所述一个或多个语法实体的可执行部分。

18.根据权利要求15所述的计算机程序产品，进一步包括可执行部分，其：

将所述输入数据格式化成所述一个或多个语法实体的选择的布置；以及

将所述一个或多个语法实体静态地映射到所述一个或多个语法实体函数。

19.根据权利要求15所述的计算机程序产品，进一步包括可执行部分，其：

20.根据权利要求15所述的计算机程序产品，进一步包括使用一个或多个规则来创建所述一个或多个语法实体函数中的每一个的可执行部分。

21.一种计算机系统，所述系统包括分别用于执行如权利要求1-7中任一项所述的方法的步骤的模块。