CN113924582A - 机器学习处理流水线优化 - Google Patents

机器学习处理流水线优化 Download PDF

Info

Publication number
CN113924582A
CN113924582A CN202080038028.8A CN202080038028A CN113924582A CN 113924582 A CN113924582 A CN 113924582A CN 202080038028 A CN202080038028 A CN 202080038028A CN 113924582 A CN113924582 A CN 113924582A
Authority
CN
China
Prior art keywords
machine learning
data
component
subsystem
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080038028.8A
Other languages
English (en)
Inventor
吴天昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanchu Intelligent Co
Original Assignee
Yuanchu Intelligent Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanchu Intelligent Co filed Critical Yuanchu Intelligent Co
Publication of CN113924582A publication Critical patent/CN113924582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

用于机器学习训练的系统和方法提供用于训练机器学习处理流水线的主AI子系统,机器学习处理流水线包括用于处理输入文档的机器学习组件,其中至少两个候选机器学习组件中的每一个提供有至少两个候选实施方式,并且主AI子系统通过为至少两个机器学习组件中的每一个选择性地部署至少两个候选实施方式来训练机器学习处理流水线。

Description

机器学习处理流水线优化
相关申请的交叉引用
本申请要求2019年4月4日提交的美国临时申请No.62/829,567和2019年4月9日提交的美国临时申请No.62/831,539的权益,其内容整体并入本文中。
技术领域
本公开涉及机器学习,尤其涉及使用AutoML优化机器学习处理流水线。
背景技术
为了将机器学习应用于实际应用,AutoML的用户可能需要选择执行数据预处理、特征提取和特征选择的方法,将应用数据转换为适合机器学习的格式。用户可能还需要执行算法选择和超参数优化,以最大化最终机器学习模型的性能。
附图说明
将从下面给出的详细描述和从本公开的各种实施例的附图更全面地理解本公开。然而,不应认为附图将本公开内容限制于特定实施例,而仅用于解释和理解。
图1示出了根据本公开的实施方式的包括处理流水线的机器学习系统。
图2示出了根据本公开的实施方式的包括用于训练的主AI子系统的机器学习系统。
图3示出了根据本公开的实施方式的一些示例性特征层次结构。
图4示出了根据本公开的实施方式的用于训练机器学习模型的方法的流程图。
图5描绘了根据本公开的一个或多个方面操作的计算机系统的框图。
具体实施方式
由于这些任务需要有关数据的专业知识(例如,数据科学家的知识),因此超出了非专家用户的能力,因此AutoML通常用于促进机器学习的实现。自动化机器学习(AutoML)是将机器学习用于应用的端到端过程(以下简称为“处理流水线”)自动化的过程。
为了实现更高效的机器学习,本公开的实施方式提供了通用的AutoML平台(称为“主AI”),尤其是用于自然语言处理(NLP)应用的通用AutoML平台。机器学习平台通常提供一个处理流水线,包括一系列组件,例如数据选择、数据标记、数据重新平衡、数据格式转换、域知识标记、文档解析器、标识化、特征工程、特征选择、算法选择和超参数优化。根据本公开的实施方式的平台提供这些步骤或组件的许多不同的候选实施方式,并且利用AutoML基于规则为特定应用的每个机器学习组件选择最佳实施方式。
根据实施方式的主AI系统可以提供优化整个机器学习处理流水线而不是仅仅优化算法和超参数的优点。实施方式可以将每个机器学习步骤拆分为更小的块,然后使用AutoML将它们重新组合在一起以优化整体机器学习结果。实施方式还可以为每个机器学习步骤提供许多独特的实用候选方法,以便AutoML可以提供不同的候选实施方式以用于优化整体结果。
图1示出了根据本公开的实施方式的包括处理流水线的机器学习系统100。在该实施方式中,机器学习系统100可以包括用于处理输入训练数据(例如,文档)以生成输出(例如,包含将被提取并存储在数据存储装置中的信息的格式化数据表)的处理流水线。机器学习系统可以通过训练过程进行训练,从而可以生成期望的结果。处理流水线可以包括可选的预处理组件102(例如,包括图像预处理、OCR和OCT后处理的OCR组件)、文件类型转换组件104、数据分组组件106、数据平衡组件108、域查找组件110、文档解析器组件112、标识化组件114、特征生成组件116、模型优化器组件118、参考搜索组件120和标准化组件112。在训练处理中,训练数据(例如,文档)可以通过这些组件顺序处理以生成测试结果。自动化机器学习(例如AutoML)可以将测试结果与预先标记的训练结果进行比较,以评估机器学习系统是否满足性能需求。这些组件执行以下功能:在104处检测输入文件格式,并将检测到的文件格式转换为特定格式(例如HTML格式);在106处根据输入数据的含义对输入数据进行聚类;在108处过滤掉输入数据的非信息子集;在110处决定应在输入数据上使用哪些域知识事实集;在112处将输入数据解析成包括句子和段落的节点的文档对象模型(DOM)树;在114处标识化DOM树中的节点的内容;在116处生成跨域和语言的通用NLP特征;在118处基于训练优化机器学习模型,这包括确定优化的特征组合,确定输入数据集跨多种语言的优化语言模型,识别输入数据集的优化机器学习算法,以及优化输入数据集的超参数;在120处确定何时查找用于后处理的参考数据的条件;在122处组装后处理方法以标准化输出格式并校正潜在错误。
在该实施方式中,在模型优化器组件118之前的流水线位置中的组件102-116是预处理组件,并且在优化器组件118之后的流水线位置中的组件120、122是后处理组件。预处理组件和后处理组件是预先确定的,并且在训练过程期间不会发生变化。机器学习流水线可以包括由一组参数指定的机器学习模型。在训练期间,训练数据可以通过处理流水线馈送。基于输出结果,与机器学习模型相关联的参数可以由AutoML根据训练规则(例如,梯度下降算法)在最小化输出错误率的方向上进行调整。
如图1所示的实施方式通过训练过程调整机器学习模型的参数,但在训练过程期间不会对其他组件进行改变。因此,如图1所示的实施方式的性能受到AutoML可以在多大程度上改进模型优化器组件118的限制。为了进一步改进机器学习系统,本公开的实施方式不仅为模型优化器组件118而且也为其他组件提供候选实施方式。此外,本公开的实施方式提供了一种主AI系统,该系统除了调整模型优化器组件118之外,还可以在训练过程期间为一些其他组件选择一个或多个候选实施方式,从而实现进一步的性能改进。
主AI系统可以将每个机器学习组件拆分成子组件,然后重新组合子组件的选择以优化机器学习系统的整体性能。输入到每个组件中的数据可以分成小单元。不同类型的数据单元可以通过相应的不同子组件进行最佳地处理。主AI系统可以在训练期间确定一种类型的数据单元与相应的子组件之间的对应关系,然后在组件的输出端重新组装处理后的数据单元。这样,与图1所示的系统100相比,主AI系统可以作为整体来训练机器学习系统以实现整体优越的性能。应该注意的是,虽然可以提供每个组件的候选实施方式,但形成机器学习处理流水线的不同实施方式的组合是通过使用AutoML自动训练确定的,从而消除了与依赖于数据科学家的专业知识相关联的成本。
图2示出了根据本公开的实施方式的包括用于训练的主AI子系统200的机器学习系统1。参考图1,系统1可以支持主AI子系统200的实施方式。系统1可以包括处理装置2、存储装置3和用户接口装置4,其中存储装置3和用户接口装置4通信地耦合到处理装置2。
处理装置2可以是硬件处理器,例如中央处理单元(CPU)、图形处理单元(GPU)或加速器电路。用户接口装置4可以包括显示器,例如台式机、膝上型电脑或智能电话的触摸屏。用户接口装置4还可以提供图形用户接口,用户可以使用诸如鼠标或触摸屏之类的输入装置与图形用户接口上呈现的元素交互。图形用户接口可以使用web浏览器、Java UI、C#UI等实现。为了简洁描述,图形用户接口也称为用户接口4。存储装置3可以是存储器装置、硬盘、或通过网络接口卡(未示出)连接到处理装置2的云存储装置。处理装置2可以是可编程装置,其可以被编程以在用户接口装置上呈现用户接口4。用户接口4可以是图形用户接口(“GUI”),其允许用户使用输入装置(例如,键盘、鼠标和/或触摸屏)与其上的图形表示(例如,图标)交互。
在一个实施方式中,系统1可以支持使用处理装置2实现的主AI子系统200。主AI子系统200可以用于训练包括用于处理输入数据的多个机器学习组件的机器学习处理流水线。在本公开中,输入数据可以是输入文档,机器学习处理流水线作为整体被训练来处理输入文档并生成包含从输入文档中提取的信息的输出,其中信息可以存储在存储装置3中的数据库中。一组机器学习组件(例如,两个或更多个组件)可以各自提供该组件的两个或更多个候选实施方式。主AI子系统200然后可以在训练过程中通过选择性地部署该组机器学习组件的两个或更多个候选实施方式来优化机器学习处理流水线。这样,主AI子系统200可以训练机器学习处理流水线。
如图2所示,机器学习处理流水线可以包括但不限于文件转换组件202、数据分组组件204、数据平衡组件206、域查找组件208、文档解析器210、标识化组件212、特征生成组件214、超参数选择组件216、参考搜索组件218和标准化组件220。如上所述,主AI子系统200可以将机器学习组件202-220中的每一个拆分成子组件,然后重新组装选择的子组件以优化机器学习系统的整体性能。输入到每个组件中的数据可以分成多个小单元。例如,如图2所示,组件(例如,组件204)可以包括多个候选实施方式222(称为“子组件”)。主AI子系统200可以在训练过程期间选择一些子组件224以重新组装它们。不同类型的数据单元可以通过相应的不同子组件进行优化处理。主AI子系统200可以在训练期间确定一种类型的数据单元与相应的子组件之间的对应关系,然后在组件的输出端重新组装处理后的数据单元。
在一个实施方式中,每个组件被提供有多个候选方法或工具包以供主AI子系统200选择。不同的方法/工具包可以适合不同的应用。给定输入数据集,主AI子系统200可以基于不同数据集的类型选择最佳方法/工具包。
在一个实施方式中,文件转换组件202可以提供候选文件转换器,每个候选文件转换器将输入文档从源文件类型转换为目标文件类型。主AI子系统200可以基于源类型选择候选文件转换器之一,其中源文件类型可以是docx、.pdf、.txt、.html、.xml、.msg、电子邮件、JSON、.xlsx、.png或.jpg格式之一,并且目标文件类型是.html。主AI子系统200可以首先检测输入文件格式,然后将输入文件转换成HTML。可替代地,主AI子系统200可以将输入训练数据细分为类型,其中每一组包含相同类型的源输入数据。主AI子系统200可以选择与源输入数据的类型相对应的合适的文件类型转换器来转换不同类型的数据。
数据分组组件204可以被实现为在输入文档中识别对应于相同含义但格式不同的一个或多个数据项,并将该一个或多个数据项分组到一个共同的组中。例如,与同一类含义(例如,日期)相对应的诸如“2019-04-01”、“May 1st,2019”等不同数据格式的数据项可以分组成同一组。主AI子系统200可以不同地处理不同的组。对于每个组,主AI子系统200可以学习以下内容:将输入数据与预先安装的域知识匹配、句子到句子模型、将数据与机器学习模型匹配或根据用户的具体需求指定的手动定义的数据。
在实际应用中,提供给机器学习处理流水线的输入数据可能是不平衡的。不平衡数据是指多类数据集,其对于不同类实例数不相等。在机器学习中,不平衡的类可能会导致训练过程生成由于优势类而具有高准确度的模型。但该模型可能无法反映对少数类的良好适配。因此,在用于训练目的之前平衡训练数据集是期望的。数据平衡组件206可以配备许多独特的解决方案来解决数据的不平衡。在一个实施方式中,数据平衡组件206可以提供不同数据平衡方案的候选实施方式,包括信息下采样、下上采样和面向少数类的主动采样。主AI子系统可以在训练过程中对所有这些进行测试,并为给定的输入数据或输入数据中的一组数据项确定最佳的重采样方法。
使用文档处理作为示例,信息下采样方法可以基于不同类中的样本数确定多数类和少数类,然后通过检测和保持信息量最大的样本对多数类进行下采样。信息下采样方法可以使用两个集群之间的距离测量基于文档数据相似性(字符串、格式和含义)对多数类进行聚类。计算距离测量的函数可以不仅仅是像大多数传统ML聚类那样的简单字符串相似度函数。相反,距离测量函数可以是所有字符串、格式(例如表格、布局、位置等)和内容含义(例如词嵌入)的组合。
信息下采样方法可以进一步执行从每个集群定位中心样本,并且将这些中心样本保持为多数类中的下采样实例。本公开的实施方式可以使用距每个集群中心的半径来拾取剩余样本。半径的大小由具有与原始少数类基本相似数量的样本的下采样类确定,以平衡不同类中的样本数,其中基本相似的数字可能意味着下采样的多数类包括与少数类相同级别(例如,10s、100s)的数字。
与随机对多数类进行下采样相比,信息下采样是优越的,因为它覆盖了信息数据样本(由不同的集群表示)并减少了冗余数据样本(由同一集群内部的样本表示)。一个集群的中心通常是一个集群中最有意义的样本。
下-上采样方法可以首先对多数类进行下采样,然后对误分类的多数类样本进行上采样。下-上采样方法可以执行:
1.对多数类进行下采样,以形成平衡的训练集,并将这些未使用的多数类样本放入池中;
2.使用平衡数据继续训练机器学习模型;
3.将经过训练的机器学习模型应用于未使用的多数类样本的池中的实例;
4.收集误分类的实例(这些误分类的实例是多数类和少数类之间的边界情况);
5.通过将误分类的实例添加到训练集中来增加多数类实例;
6.调整分配给少数类的权重,以使数据集再次平衡;
7.重复步骤2到6,直到交叉验证测试分数达到一定数量(例如,三个)的连续下降(这意味着上采样使评估变得更糟)或步骤4中没有错误(这意味着训练集完全分离)。
在大多数非平衡数据集中,少数类样本难以识别,并且在大多数情况下,少数类样本比多数类样本更重要。这意味着缺少少数类样本可能比缺少多数类样本具有更大的影响。解决这个问题的一种方法是定位潜在的少数类样本并将它们呈现给人类专家,以主动验证主AI子系统200找到的这些候选少数类样本是否实际上是真正的少数类样本。面向少数类的主动采样方法可以通过执行以下操作来实现这一点:
1.训练一个平衡机器学习模型,这可以通过任何可以平衡数据集的重采样方法来实现(例如,信息下采样和下-上采样);
2.对未标记数据应用平衡机器学习模型;
3.如果平衡机器学习模型识别出任何少数类文档,则在用户接口上呈现少数类文件,以允许专家操作员验证和确认数据,然后将标记数据添加到训练集中;
4.如果机器学习模型识别出分数不明确的多数类实例(低置信度<=0.5),则在用户接口上呈现不明确的多数类文档,以允许专家操作员验证和标记文档,其中低置信度分数靠近多数和少数类的边界。因此,它们可能需要手动标记,因为不明确的数据的量可能很小,并且很可能包含少数类示例。
在上述数据平衡实施方式中,主AI子系统200不仅可以平衡输入数据,还可以识别不同组的信息量最大的数据和边际数据。
域查找组件208可以包含域知识库。主AI子系统200可以接收输入数据并基于接收到的数据项查找域知识库。示例性域知识数据库可以包括US/UK/CA/AU街道名称、US/UK/CA/AU城市名称、US/UK/CA/AU州、US/UK/CA/AU邮政编码、US/UK/CA/AU公司名称后缀、US/UK/CA/AU电话号码、US/UK/CA/AU组织名称、英文人名、英文人姓、Swift代码、全球银行名称、中国省份名称和位置、中国城市名称、中文组织名称、中文电话号码、中文税号和税率、中文姓氏、电子邮件地址、日期格式、性别、职业、教育、种族等。主AI子系统200可以基于应用加载不同的知识数据库。域知识用于数据分组、标识化器、特征生成和数据后处理程序。
文档解析器210可以基于HTML类型的输入数据生成文档对象模型(DOM)树。DOM树可以包括节点,其中,DOM树的每个节点可以包括输入文档中包含的句子或段落之一。
标识化组件212可以提供标识化器的候选实施方式,例如通用标识化器、基于熵的按需标识化器或其他类型的标识化器。主AI子系统可以基于数据项选择通用标识化器或基于熵的按需标识化器之一,并使用所选择的标识化器对DOM树的节点进行标识化。
通用标识化器可以使用句子或段落中的某些语言标识符来生成标识。标识是文档中可以被机器学习模型检测到的基本单元。因此,标识可以是单词、数字或字母数字字符串。对于英语、西班牙语等西方语言,通用标识化器可以使用泛空格标识符(例如,\t、\n、空格、\r)和标点标识符(例如,“,”、“.”、“:”、“;”等)来分隔字符串以将字符串标识为标识。每个标点符号本身也是一个标识,而泛空格将被忽略。空标识也将被忽略。对于中文、日文、韩文等东方语言,通用标识化器可以使用包括标点符号的每个单个字符作为标识。可以忽略泛空格。通用标识化器可以应用于任何人类语言。例如,英语句子“this is a post-processing method.”可以被通用标识化器拆分为8个标识:“this”、“is”、“a”、“post”、“-”、“processing”、“method”和“.”。中文句子“这是1个测试方法。”可以被通用标识化器拆分为9个标识:“这”、“是”、“1”、“个”、“测”、“试”、“方”、“法”、和“。”。
基于熵的按需标识化器可以使用高级概率概念建模来学习标记训练数据中的标识边界。对于信息提取(实体识别)问题,主AI子系统200可以使用最包围黄金实体字符串的字符(西方或东方语言)作为候选边界分隔符。黄金实体字符串是由专家操作员在用户接口上标记的标识。主AI子系统200可以计算黄金实体字符串周围的每个候选分隔符的熵值。如果熵值小于阈值r(例如r<=0.1),则候选分隔符将是用于标识化的最终分隔符。对于熵大于0.1的候选字符,主AI子系统200可以使用相邻的两个字符作为分隔符,并执行相同的熵测试,直到训练集中的所有边界都可以完全分开。任何两个最终分隔符之间的字符串将成为一个标识。例如,训练数据具有两个样本:
a.“[Invoice Number:12:345e]”
b.“{File No.:90-802”
其中“12:345e”和“90-802”被标记为黄金字符串。在黄金字符串和非黄金字符串之间的边界处有三个字符。它们是“:”、“]”和“}”。其中“]”和“}”具有熵<0.1。“:”具有熵>=0.1。因此,主AI子系统200可以使用包含“:”的黄金字符串之外的两个相邻字符作为分隔符。在这种情况下,有两个新的分隔符“r:”和“.:”。表1示出了熵计算结果。
表1
字符 黄金计数 黄金概率 标识分隔符
: 1 1/13 0.2846
] 0 0 0
} 0 0 0
r: 0 0 0
.: 0 0 0
特征生成组件212可以包括通用自然语言处理(NLP)特征生成器以生成通用NLP特征或NLP特征的层次结构之一。特征的层次结构可以包括表示域知识的高级特征和表示NLP特性的低级特征。主AI子系统200可以选择性地使用通用NLP特征或NLP特征的层次结构之一。
特征生成组件212可以以特征覆盖整个含义层次结构的方式自动生成特征。例如,特征1可以是“词是大写的词”,特征2是“词的第一个字母是大写的”,特征3是“词中的所有字符都是大写的”。在这种情况下,特征1逻辑上同时包含特征2和特征3。本公开的实施方式可以将每个机器学习组件的范围缩小到尽可能小。
主AI子系统200可以自动生成自然语言处理(NLP)特征。与需要数据科学家手动选择NLP特征的常见机器学习模型相比,主AI子系统200能够直接从数据生成特征而无需人工干预。所有这些特征对于任何NLP应用都是通用的。这些特征可用于任何基于文本的机器学习模型。
除了通用NLP特征之外,主AI子系统200还可以根据层次结构提供特征。使用分层特征有两个主要好处。首先,低级细粒度特征在特征空间中提供了更多维度。因此,机器学习模型可用于更精确地对对象进行分类。单个特征越小,主AI子系统可用的这些特征的组合就越多。因此,更有可能训练一个精确的机器学习模型。细粒度特征用于端到端的纯机器学习。细粒度特征(机器学习模型的小构建块)越小,这些特征彼此独立的可能性就越大。这可能有助于大多数AI算法运行良好。基于贝叶斯定理,事件的独立性对于预测准确度至关重要。因此,更有可能在没有人类数据科学家与模型交互的情况下学习端到端机器学习模型。
使用分层特征的第二个好处是使用高级(更抽象)的特征来更快地拆分特征空间。抽象特征可以代表人类域知识。使用高级特征可以加快机器学习过程,因为它利用了现有的知识库。在实际应用中,主AI子系统200可以在尽可能多的地方(并且尽可能早地)使用高级特征来快速构建可以拆分实例的粗略模型。如果仍然存在不明确的实例,那么主AI子系统可能会向下钻取特征层次结构以使用更细粒度的特征来进一步拆分实例。
图3示出了根据本公开的实施方式的一些示例性特征层次结构。自动特征生成组件214可以为一个数据集生成超过1,000,000个特征。主AI子系统200可以通过特征层次结构来自动且快速地选择特征的重要子集。在特征选择过程之后,特征将减少到几千个左右,而不会丢失有意义的特征。
超参数选择组件216可以提供候选机器学习算法以供主AI子系统200在训练过程期间进行选择。主AI子系统200可以基于输入数据的类型选择性地使用至少一种候选机器学习算法,并在使用输入数据的训练过程期间调整指定至少一种机器学习算法的参数。
主AI子系统200可以从预先构建的候选机器学习算法中为每个独特的数据集选择合适的机器学习算法,其中数据集可以基于其类别和组来构建并且可以被平衡。可以选择一种或多种算法来训练机器学习模型。最终模型将被集成在一起成为最终模型。候选机器学习算法可以包括但不限于线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、梯度提升机(例如,lightGBM)或神经网络模型。机器学习模型可以用起始参数值(例如,默认参数值)进行初始化,这些参数值可以在模型训练阶段迭代地调整为最佳参数值。适当训练的机器学习模型可用于在识别阶段识别文档中的信息。适当训练的机器学习模型可有助于在识别阶段实现目标错误率和召回率。
参考搜索组件218可以提供不同的数据输入源。主AI子系统200可以交叉验证来自不同数据输入源的数据的有效性。应用通常与多于一个输入源相关联。主AI子系统200可以使用来自不同输入源的信息来交叉验证来自不同源的数据的有效性。例如,对于商业银行,从新账户申请表中提取的信息可以通过申请人的驾驶执照、银行的其他账户信息、SSN背景调查等进行验证。在某些情况下,客户拥有内部数据库,其可能包含可用于交叉验证的多个信息源。主AI子系统200可以收集所有可用的预先存在的信息并使用该信息来校正其提取或分类结果。
交叉验证可以包括执行常规信息提取(IE)或分类;搜索现有的参考信息,包括人工完成的历史数据集、参考数据集、数据仓库、互联网上公开的可用数据;使用关键字段(由客户和应用定义)与参考数据进行模糊匹配;检索参考数据的整个记录;使用参考数据记录来校正IE或分类上的错误。
标准化组件220可以提供候选后处理方法。主AI子系统200可以选择性地使用候选后处理方法之一来将数据项重新格式化为输出格式。候选后处理方法可以包括预先存在的方法,例如客户提供的预先存在的后处理规则(例如,正则表达式测试器或正则表达式)、根据特定需求的后处理规则以及用于选择最佳的后处理规则的预先构建的机器学习模型。可替代地,可以通过序列到序列模型来学习格式。
如上所述,主AI子系统200可以优化机器学习处理流水线中的每个组件。为了实现优化,主AI子系统200可以在训练过程期间从每个组件的多个候选实施方式中进行选择。该选择可以通过AutoML自动实现。主AI子系统200可以拆分和重新组装每个组件的数据。数据被分成小块,并通过AutoML重新组装。主AI子系统200还可优化机器学习模型。主AI子系统200可以配备独特的数据处理、特征工程和各种模型,以找到特征和模型的最佳组合。与AutoML的其他实施方式相比,主AI可以优化整个机器学习处理流水线,而不仅仅是优化算法和超参数。
主AI的实施方式较少依赖于人类机器学习专家,因为它是一个端到端的自动化学习过程。主AI可以通过为每个步骤提供多个候选方法并为每个步骤使用最佳方法,以及将针对每个步骤输入的数据拆分成小块并通过AutoML重新组装它们来优化整个机器学习处理流水线。主AI适用于处理各种数据,包括低质量数据,并生成期望格式的结果。
图4示出了根据本公开的实施方式的用于训练机器学习模型的方法400的流程图。方法400可由处理装置执行,该处理装置可包括硬件(例如,电路、专用逻辑)、计算机可读指令(例如,在通用计算机系统或专用机器上运行)或两者的组合。方法400及其单独的功能、例程、子例程或操作中的每一个可由执行该方法的计算机装置的一个或多个处理器来执行。在某些实施方式中,方法400可以由单个处理线程执行。可替代地,方法400可由两个或更多个处理线程执行,每个线程执行该方法的一个或多个单独的功能、例程、子例程或操作。
为了便于解释,本公开的方法被描绘和描述为一系列动作。然而,根据本公开的动作可以以各种顺序和/或同时发生,并且与本文未呈现和描述的其他动作一起发生。此外,不是所有示出的动作都是实现根据所公开的主题的方法所必须的。此外,本领域技术人员将明白和理解,这些方法可以替代地经由状态图或事件表示为一系列相互关联的状态。此外,应当理解,本说明书中公开的方法能够存储在制品上以促进将这些方法传输和转移到计算装置。本文使用的术语“制品”旨在涵盖可从任何计算机可读装置或存储介质访问的计算机程序。在一个实施方式中,方法400可以由执行如图2所示的主AI引擎200的处理装置2来执行。
如图4所示,响应于接收到文档,处理装置2可以在402处提供包括多个机器学习组件以处理输入文档的机器学习处理流水线,其中多个机器学习组件中的至少两个组件中的每一个提供有至少两个候选实施方式。
在404处,处理装置2可以通过为多个机器学习组件中的至少两个组件中的每一个选择性地部署至少两个候选实施方式来训练机器学习处理流水线。
图5描绘了根据本公开的一个或多个方面操作的计算机系统的框图。在各种说明性示例中,计算机系统500可以对应于图1的处理装置2。
在某些实施方式中,计算机系统500可以连接(例如,经由网络,诸如局域网(LAN)、内联网、外联网或因特网)到其他计算机系统。计算机系统500可以在客户端-服务器环境中以服务器或客户端计算机的能力操作,或者作为对等或分布式网络环境中的对等计算机操作。计算机系统500可以由个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web设备、服务器、网络路由器、交换机或桥接器、或能够执行一组指令(顺序或其他)的任何装置提供,这些指令指定该装置要采取的动作。此外,术语“计算机”应包括单独或联合执行一组(或多组)指令以执行本文描述的任何一个或多个方法的计算机的任何集合。
在另一方面,计算机系统500可以包括处理装置502、易失性存储器504(例如随机存取存储器(RAM))、非易失性存储器506(例如只读存储器(ROM)或电可擦除可编程ROM(EEPROM))、以及数据存储装置516,它们可以经由总线508相互通信。
处理装置502可由一个或多个处理器提供,例如通用处理器(例如,复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现其他类型的指令集的微处理器或实现几种类型的指令集的组合的微处理器)或专用处理器(例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)。
计算机系统500还可以包括网络接口装置522。计算机系统500还可以包括视频显示单元510(例如,LCD)、字母数字输入装置512(例如,键盘)、光标控制装置514(例如,鼠标)和信号生成装置520。
数据存储装置516可以包括非暂时性计算机可读存储介质524,其上可以存储对本文描述的任何一种或多种方法或功能进行编码的指令526,包括用于实现方法400的图2的主AI 200的指令。
指令526还可以在由计算机系统500执行期间完全或部分地驻留在易失性存储器504和/或处理装置502内,因此,易失性存储器504和处理装置502也可以构成机器可读存储介质。
虽然计算机可读存储介质524在说明性示例中示出为单个介质,但术语“计算机可读存储介质”应包括存储一组或多组可执行指令的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应包括能够存储或编码一组由计算机执行的指令集的任何有形介质,该指令集使计算机执行本文所述的任何一个或多个方法。术语“计算机可读存储介质”应包括但不限于固态存储器、光介质和磁介质。
本文描述的方法、组件和特征可以由分立的硬件组件实现或者可以集成在诸如ASICS、FPGA、DSP或类似装置之类的其他硬件组件的功能中。此外,方法、组件和特征可以由硬件装置内的固件模块或功能电路来实现。此外,方法、组件和特征可以在硬件装置和计算机程序组件的任何组合中或在计算机程序中实现。
除非另有特别说明,诸如“接收”、“关联”、“确定”、“更新”等术语是指由计算机系统执行或实现的动作和过程,其将表示为计算机系统寄存器和存储器内的物理(电子)量的数据操作和转换为类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示装置内的物理量的其他数据。此外,本文所使用的术语“第一”、“第二”、“第三”、“第四”等意在作为区分不同元件的标签,并且根据它们的数字指定可能不具有顺序含义。
本文描述的示例还涉及用于执行本文描述的方法的设备。该设备可以被专门构造用于执行本文描述的方法,或者它可以包括由存储在计算机系统中的计算机程序选择性地编程的通用计算机系统。这种计算机程序可以存储在计算机可读的有形存储介质中。
本文描述的方法和说明性示例与任何特定计算机或其他设备没有固有的相关性。可以根据本文描述的教导使用各种通用系统,或者构造更专门的设备来执行方法300和/或其单独的功能、例程、子例程或操作中的每一个可以证明是方便的。用于各种这些系统的结构的示例在以上描述中阐述。
以上描述旨在是说明性的,而不是限制性的。尽管已经参考特定说明性示例和实施方式描述了本公开,但是应当认识到,本公开不限于所描述的示例和实施方式。本公开的范围应当参考以下权利要求以及权利要求所授权的等效物的全部范围来确定。

Claims (20)

1.一种系统,包括一个或多个计算机和存储指令的一个或多个存储装置,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
用于训练机器学习处理流水线的主AI子系统,所述机器学习处理流水线包括多个机器学习组件以处理输入文档,
其中所述多个机器学习组件中的至少两个机器学习组件中的每一个提供有至少两个候选实施方式,并且
其中,所述主AI子系统将通过为所述多个机器学习组件中的至少两个机器学习组件中的每一个选择性地部署所述至少两个候选实施方式来训练所述机器学习处理流水线。
2.根据权利要求1所述的系统,其中所述多个机器学习组件包括文件转换组件、数据分组组件、数据平衡组件、域查找组件、文档解析器、标识化组件、特征生成组件、超参数选择组件、参考搜索组件和标准化组件。
3.根据权利要求2所述的系统,其中所述文件转换组件提供多个文件转换器,每个文件转换器将所述输入文档从源文件类型转换为目标文件类型,并且其中所述主AI子系统用于基于源类型选择所述多个文件转换器中的一个。
4.根据权利要求3所述的系统,其中所述数据分组组件用于:
在所述输入文档中识别出含义相同但格式不同的一个或多个数据项;以及
将所述一个或多个数据项分组到一个公共组中,其中所述主AI子系统根据组来处理数据项。
5.根据权利要求4所述的系统,其中所述数据平衡组件包括信息下采样实施方式、下-上采样实施方式或面向少数类的主动采样实施方式中的至少两个,以及
其中,所述主AI子系统基于使用所述信息下采样实施方式、所述下-上采样实施方式或所述面向少数类的主动采样实施方式中的至少两个中的每一个在所述输入文档中的数据项上运行的测试,选择所述信息下采样实施方式、所述下-上采样实施方式或所述面向少数类的主动采样实施方式中的至少两个中的一个。
6.根据权利要求5所述的系统,其中所述域查找组件包括多个域知识库,并且其中所述主AI子系统接收所述输入文档的数据项并基于接收到的数据项来查找所述多个域知识库。
7.根据权利要求6所述的系统,其中所述文档解析器基于所述输入文档的数据项生成文档对象模型(DOM)树,并且其中所述DOM树的每个节点包括句子或段落之一。
8.根据权利要求7所述的系统,其中所述标识化组件包括用于生成标识的通用标识化器和基于熵的按需标识化器,并且其中所述主AI子系统用于:
基于所述数据项选择所述通用标识化器或所述基于熵的按需标识化器之一;以及
使用所选择的所述通用标识化器或所述基于熵的按需标识化器之一来标识化所述DOM树的节点。
9.根据权利要求8所述的系统,其中所述特征生成组件包括通用自然语言处理(NLP)特征生成器以使用所述标识生成通用NLP特征或NLP特征的层次结构之一,其中特征的层次结构包括表示域知识的高级特征和表示NLP特性的低级特征,以及其中所述主AI子系统选择性地使用所述通用NLP特征或所述NLP特征的层次结构之一。
10.根据权利要求9所述的系统,其中所述超参数选择组件提供多个机器学习算法,并且其中所述主AI子系统基于所述数据项选择性地使用所述多个机器学习算法中的至少一个,并且在使用所述数据项的训练过程中调整指定所述多个机器学习算法中的至少一个的参数。
11.根据权利要求10所述的系统,其中所述参考搜索组件提供多个数据输入源,并且其中所述主AI子系统交叉验证来自所述多个数据输入源的数据项的有效性。
12.根据权利要求11所述的系统,其中所述标准化组件提供多个后处理方法,并且其中所述主AI子系统选择性地使用所述多个后处理方法之一来将所述数据项重新格式化为输出格式。
13.一种用于训练机器学习系统的方法,所述方法包括:
提供包括多个机器学习组件以处理输入文档的机器学习处理流水线,其中所述多个机器学习组件中的至少两个机器学习组件中的每一个提供有至少两个候选实施方式;以及
通过为所述多个机器学习组件中的至少两个机器学习组件中的每一个选择性地部署所述至少两个候选实施方式来训练所述机器学习处理流水线。
14.根据权利要求13所述的方法,其中所述多个机器学习组件包括文件转换组件、数据分组组件、数据平衡组件、域查找组件、文档解析器、标识化组件、特征生成组件、超参数选择组件、参考搜索组件和标准化组件。
15.根据权利要求14所述的方法,其中所述数据平衡组件包括信息下采样实施方式、下-上采样实施方式或面向少数类的主动采样实施方式中的至少两个,所述方法还包括:
基于使用所述信息下采样实施方式、所述下-上采样实施方式或所述面向少数类的主动采样实施方式中的至少两个中的每一个在所述输入文档中的数据项上运行的测试,选择所述信息下采样实施方式、所述下-上采样实施方式或所述面向少数类的主动采样实施方式中的至少两个中的一个。
16.根据权利要求15所述的方法,其中所述文档解析器基于所述输入文档的数据项生成文档对象模型(DOM)树,并且其中所述DOM树的每个节点包括句子或段落之一。
17.根据权利要求16所述的方法,其中所述标识化组件包括用于生成标识的通用标识化器和基于熵的按需标识化器,所述方法还包括:
基于所述数据项选择所述通用标识化器或所述基于熵的按需标识化器之一;以及
使用所选择的通用标识化器或基于熵的按需标识化器之一来标识化所述DOM树的节点。
18.根据权利要求17所述的方法,其中所述特征生成组件包括通用自然语言处理(NLP)特征生成器以使用所述标识生成通用NLP特征或NLP特征的层次结构之一,其中特征的层次结构包括表示域知识的高级特征和表示NLP特性的低级特征,以及其中所述主AI子系统选择性地使用所述通用NLP特征或所述NLP特征的层次结构之一。
19.根据权利要求18所述的方法,其中所述超参数选择组件提供多个机器学习算法,并且其中所述主AI子系统基于所述数据项选择性地使用所述多个机器学习算法中的至少一个,并且在使用所述数据项的训练过程中调整指定所述多个机器学习算法中的至少一个的参数。
20.一种机器可读的非暂时性存储介质,其编码以指令,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机训练机器学习系统,以:
提供包括多个机器学习组件以处理输入文档的机器学习处理流水线,其中所述多个机器学习组件中的至少两个机器学习组件中的每一个提供有至少两个候选实施方式;以及
通过为所述多个机器学习组件中的至少两个机器学习组件中的每一个选择性地部署所述至少两个候选实施方式来训练所述机器学习处理流水线。
CN202080038028.8A 2019-04-04 2020-04-06 机器学习处理流水线优化 Pending CN113924582A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962829567P 2019-04-04 2019-04-04
US62/829567 2019-04-04
US201962831539P 2019-04-09 2019-04-09
US62/831539 2019-04-09
PCT/IB2020/000338 WO2020201835A1 (en) 2019-04-04 2020-04-06 Machine learning processing pipeline optimization

Publications (1)

Publication Number Publication Date
CN113924582A true CN113924582A (zh) 2022-01-11

Family

ID=72666568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080038028.8A Pending CN113924582A (zh) 2019-04-04 2020-04-06 机器学习处理流水线优化

Country Status (4)

Country Link
US (1) US20220180066A1 (zh)
CN (1) CN113924582A (zh)
SG (1) SG11202112268SA (zh)
WO (1) WO2020201835A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116700830A (zh) * 2023-05-11 2023-09-05 南京地平线集成电路有限公司 插件化处理方法及装置、数据处理方法及装置、电子设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593642B2 (en) * 2019-09-30 2023-02-28 International Business Machines Corporation Combined data pre-process and architecture search for deep learning models
US11645550B2 (en) 2020-06-18 2023-05-09 Sae International Generation of digital standards using machine-learning model
WO2022104322A1 (en) * 2020-11-12 2022-05-19 Keith Hoover Systems and method for textile fabric construction
US20220180176A1 (en) * 2020-12-08 2022-06-09 Huawei Technologies Co., Ltd. System, method and apparatus for intelligent caching
EP4040312A1 (en) 2021-02-09 2022-08-10 Volkswagen Aktiengesellschaft Method, data processing device, computer program product and data carrier signal
CN115904359A (zh) 2021-09-23 2023-04-04 腾讯科技(深圳)有限公司 基于流水线的机器学习方法、装置、电子设备及存储介质
US12118400B2 (en) 2021-11-29 2024-10-15 International Business Machines Corporation Performing batched training for machine-learning pipelines

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060117019A1 (en) * 2004-12-01 2006-06-01 Research In Motion Limited Method of finding a search string in a document for viewing on a mobile communication device
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
US20110099532A1 (en) * 2009-10-23 2011-04-28 International Business Machines Corporation Automation of Software Application Engineering Using Machine Learning and Reasoning
US20160012350A1 (en) * 2014-07-12 2016-01-14 Microsoft Technology Licensing, Llc Interoperable machine learning platform
US20160162456A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods for generating natural language processing systems
CA2932310A1 (en) * 2015-06-10 2016-12-10 Accenture Global Services Limited System and method for automating information abstraction process for documents
US20170315984A1 (en) * 2016-04-29 2017-11-02 Cavium, Inc. Systems and methods for text analytics processor

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3702974A1 (en) * 2019-02-27 2020-09-02 Ovh Systems and methods for operating a data center based on a generated machine learning pipeline

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060117019A1 (en) * 2004-12-01 2006-06-01 Research In Motion Limited Method of finding a search string in a document for viewing on a mobile communication device
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
US20110099532A1 (en) * 2009-10-23 2011-04-28 International Business Machines Corporation Automation of Software Application Engineering Using Machine Learning and Reasoning
US20160012350A1 (en) * 2014-07-12 2016-01-14 Microsoft Technology Licensing, Llc Interoperable machine learning platform
US20160162456A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods for generating natural language processing systems
CA2932310A1 (en) * 2015-06-10 2016-12-10 Accenture Global Services Limited System and method for automating information abstraction process for documents
US20170315984A1 (en) * 2016-04-29 2017-11-02 Cavium, Inc. Systems and methods for text analytics processor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116700830A (zh) * 2023-05-11 2023-09-05 南京地平线集成电路有限公司 插件化处理方法及装置、数据处理方法及装置、电子设备
WO2024230527A1 (zh) * 2023-05-11 2024-11-14 南京地平线信息技术有限公司 插件化处理方法及装置、数据处理方法及装置、电子设备

Also Published As

Publication number Publication date
WO2020201835A1 (en) 2020-10-08
SG11202112268SA (en) 2021-12-30
US20220180066A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
US12204860B2 (en) Data-driven structure extraction from text documents
CN113924582A (zh) 机器学习处理流水线优化
US11521372B2 (en) Utilizing machine learning models, position based extraction, and automated data labeling to process image-based documents
US11164044B2 (en) Systems and methods for tagging datasets using models arranged in a series of nodes
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
US12118813B2 (en) Continuous learning for document processing and analysis
Consoli et al. Embeddings for named entity recognition in geoscience Portuguese literature
US20250029415A1 (en) Continuous learning for document processing and analysis
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
CN105989047A (zh) 获取装置、获取方法、训练装置以及检测装置
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
US20190095525A1 (en) Extraction of expression for natural language processing
CN112685374A (zh) 日志分类方法、装置及电子设备
Jedrzejowicz et al. Imbalanced data classification using MapReduce and relief
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Petcuşin et al. An experiment on automated requirements mapping using deep learning methods
Singh et al. A comparative analysis of text classification algorithms for ambiguity detection in requirement engineering document using WEKA
Sampath et al. PReLCaP: precedence retrieval from legal documents using catch phrases
Alselwi et al. Extractive Arabic Text Summarization Using PageRank and Word Embedding
Mazoyer et al. Comparison of Short-Text Embeddings for Unsupervised Event Detection in a Stream of Tweets
US20240054290A1 (en) Deep technology innovation management by cross-pollinating innovations dataset
Raj et al. Extract It! Product Category Extraction by Transfer Learning
US20240330759A1 (en) Applying natural language processing (nlp) techniques to time series data to derive attributes for use with a machine-learning model
US20240362419A1 (en) Few shot incremental learning for named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination