CN116894076A

CN116894076A - 生成用于机器学习的基于用户的训练数据

Info

Publication number: CN116894076A
Application number: CN202211615563.2A
Authority: CN
Inventors: F.阿尔达; A.布吕埃拉; F.迪瑟伯
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2022-04-08
Filing date: 2022-12-15
Publication date: 2023-10-17
Also published as: EP4258185A1; US20230325776A1

Abstract

在示例实施例中，提供了一种基于机器学习的解决方案，该解决方案用于生成保留原始语料库的统计特性的合成CV，同时提供强隐私保证。由于合成数据不涉及任何自然人，并且可以从匿名化数据生成，因此它们不受数据保护法规的约束。

Description

生成用于机器学习的基于用户的训练数据

技术领域

本文档总体上涉及机器学习。更具体地，本文档涉及生成用于机器学习的基于用户的训练数据。

背景技术

训练数据可以用于训练各种类型的机器学习模型。然而，在某些情况下，可能难以获得足够的训练数据来训练某些类型的机器学习模型。当可以从中获得训练数据的语料库包括可能会阻止一些或所有语料库被用作训练数据的来源以避免机器学习模型与个人数据保护要求牵连的个人或私人信息时，这可能会特别困难。

附图说明

本公开通过示例而非限制的方式在附图的图中进行了说明，其中，同样的附图标记指示相似的要素。

图1是示出根据示例实施例的解决方案的构建块的框图。

图2是示出根据示例实施例的信息提取过程的图。

图3是示出贝叶斯网络的示例的图，该贝叶斯网络对候选者的专业领域、年龄、经验(以年数或范围计)、最近的教育头衔和当前(或最近的)角色之间的条件依赖性进行建模。

图4是根据示例实施例的生成过程的可视化。

图5是示出根据示例实施例的用于生成用于机器学习算法的训练数据的系统的框图。

图6是示出根据示例实施例的双向编码器(BERT)的框图。

图7是示出根据示例实施例的生成用于机器学习算法的训练数据的方法的流程图。

图8是示出可以安装在上述任何一个或多个设备上的软件的架构的框图。

图9示出了根据示例实施例的计算机系统形式的机器的图解表示，在该机器内，可以执行一组指令以使该机器执行本文讨论的任何一种或多种方法。

具体实施方式

下面的描述讨论了说明性系统、方法、技术、指令序列和计算机器程序产品。在下面的描述中，出于解释的目的，阐述了许多具体细节以提供对本主题的各种示例实施例的理解。然而，对于本领域的技术人员来说将显而易见的是，可以在没有这些具体细节的情况下实践本主题的各种示例实施例。

由于硬件和算法的进步以及大量数据的可用性，机器学习已经影响和扰乱了许多行业。这已经使得现有过程得以改进，甚至以前所未有的规模开辟了新的商机。然而，在某些行业，由于担心违反通用数据保护条例(GDPR)、加州消费者隐私法案(CCPA)或个人信息保护法(PIPL)(仅举几例)等的局域和全球数据保护法规，该技术的广泛采用已被推迟甚至停止。由于这些法规旨在保护数据主体的隐私并防止滥用，因此处理与自然人相关的任何信息都受到相当限制，并且不遵守这些法规可能会给组织造成重大的经济损失。

能够不太严格地使用这样的数据源的可能方式是通过匿名化。数据匿名化是旨在不可逆转地防止对自然人识别的数据处理。

尽管一些匿名化技术，例如差分隐私或k-匿名性，已被广泛接受用于结构化数据，但其不适用于非结构化数据，对于非结构化数据会出现一系列技术挑战。首先，在文本或文档中，间接标识符可能极难检测，并且高度依赖于手头文档的具体类型。其次，比如掩蔽的标准技术通常不足以减轻重新识别的风险。因此，用于非结构化数据的适当匿名化策略必须依赖于仔细的隐私威胁和风险分析，并且应基于手头数据的特性来选择所使用的技术和工具。

本文档关注特定类型的非结构化数据，即履历(CV)或简历。对于人力资源(HR)组织而言，CV表示重要的信息来源，因为它们用于选择某些职位的最佳候选者、了解员工的技能集合、计划培训和学习活动等。机器学习可以大大改善和支持在大多数情况下仍然手动或半自动执行的上述过程中的许多过程。从本质上讲，CV包含个人数据，这使它们受到世界各地数据保护法规的约束。这意味着组织和企业必须符合这些法规来处理这些文档，除非它们被适当地匿名化。

在示例实施例中，提供了一种用于生成保留原始语料库的统计特性的合成CV同时提供强大的隐私保证的基于机器学习的解决方案。由于合成数据不涉及任何自然人，并且可以从匿名数据生成，因此它们不受数据保护法规的约束。

应当注意，虽然本文档关注CV或简历的生成，但类似的技术可以应用于其他类型的非结构化数据，并且除非有明确声明，否则本文档中的任何内容均不得解释为将保护范围限制为基于CV或简历的环境。

图1是示出根据示例实施例的解决方案的构建块的框图。这里，获得了CV的语料库100。这些可以以纯文本格式或某个结构化数据格式提供，诸如可移植文档格式(PDF)。信息提取过程102然后可以从CV的语料库100提取候选者属性。如下面将更详细描述的，这可以使用诸如光学字符识别(OCR)、命名实体识别(NER)和关系提取(RE)连同正则表达式和/或其他启发式方法的技术来执行。

通常，NER服务是处理文档以检测文档内容内的实体、标识文档中实体的位置并将实体分类为具有实体类型的任何服务。NER服务可以包括万维网上公开可用的文本挖掘服务，诸如Alchemy API、Digmap、Extractiv、FISE、Open-Calais和Wikimeta或公司或其他机构采用的专有文本挖掘服务。在示例实施例中，NER基于线性链条件随机场(CRF)序列模型的实施方式。CRF是一种类型的机器学习：CRF可以考虑上下文，而不是分类器在不考虑“相邻”样本的情况下预测单个样本的标签。为了这样做，预测被建模为图形模型，其表示预测之间存在依赖性。在线性链CRF中，每个预测仅依赖于其紧邻邻居(neighbor)。

对于关系提取，通常有五种执行关系提取的不同的方法：

1.基于规则的RE

2.弱监督的RE

3.监督的RE

4.远程监督的RE

5.无监督的RE

基于规则的RE通过手作模式(hand-crafted pattern)标识关系，寻找三元组(X,α,Y)，其中，X和Y是实体，并且α是它们之间的词。例如，在“Paris is in France”中，α＝”isin”。这可以用正则表达式提取。

仅查看关键字匹配也会检索到许多假阳性。这可以通过过滤命名实体，仅检索(CITY,is in,COUNTRY)来缓解。可以考虑词性(POS)标签来去除附加的假阳性。

这些是进行词序列模式(word sequence patterns)的示例，因为规则指定遵循文本顺序的模式。替代地，知道哪个词对什么其他词有语法依赖性，可以利用句子中的依赖性路径。这可以在无需额外工作的情况下大大增加规则的覆盖范围。

在弱监督的RE中，想法是从一组手作的规则开始，并通过迭代过程(自举)从未标记的文本数据中自动找到新的规则。替代地，可以从种子元组(seed tuple)的种子开始，种子描述具有特定关系的实体。例如，seed＝{(ORG:IBM,LOC:Armonk),(ORG:Microsoft,LOC:Redmond)}表明具有关系“based in(总部)”的实体。

在监督的RE中，堆叠二元分类器(或常规二元分类器)用于确定两个实体之间是否存在特定关系。这些分类器将关于文本的特征作为输入，因此需要先由其他NLP模块对文本进行注释。典型特征为：上下文词、词性标签、实体之间的依赖性路径、NER标签、标记(token)、词之间的接近距离等。

可以通过执行以下操作来执行训练和提取：

1.根据句子对于特定关系类型是否相关来手动标记文本数据

2.将相关句子手动标记为阳性/阴性

3.学习二元分类器以确定句子对于该关系类型是否相关

4.在相关句子上学习二元分类器以确定句子是否表达关系

5.使用分类器检测新文本数据中的关系。

在远程监督的RE中，将对于弱监督的RE的使用种子数据的想法，与对于监督的RE的对分类器进行训练相结合。然而，不是手动提供种子元组集合，而是可以从现有的知识库(KB)(诸如Wikipedia、DBpedia、Wikidata、Freebase、Yago)获取种子元组集合。

在无监督的RE中，从文本提取关系而无需标记任何训练数据、提供种子元组集合或编写规则以捕获文本中不同类型的关系。而是，系统依赖于一组非常通用的约束和启发式方法。这可以通过执行以下操作来完成：

1.在小型语料库上训练自监督的分类器

2.越过(pass over)整个语料库并提取可能的关系

3.基于文本冗余性对关系执行基于排名(rank)的评估

信息提取过程102的输出是具有提取的信息的结构化数据集104。在示例实施例中，这可以是包含候选者简档的关键属性的表格数据集。关键属性可以启发式地或通过机器学习来确定。大多数CV的示例关键属性将包括居住国、教育历史、工作经历、专业领域、技术技能、所说语言等。所有直接的个人标识符可以在信息提取过程102期间被忽略，或者在信息提取过程102之前使用其他技术被去除。

然后可以从结构化数据集构建贝叶斯网络106。贝叶斯网络是一种概率图形模型，其将一组变量及其条件依赖性表示为有向非循环图(DAG)。在CV设定中，图的节点是候选者属性；两个属性之间的边表示它们之间的因果关系。例如，候选者的工作经历自然会受到其教育历史的影响，并且对应属性之间的边将表示这种依赖性。每个节点都与将该节点父变量的一组可能值作为输入并给出关于该节点值的概率分布作为输出的函数关联。该函数构成条件概率分布。图的结构可以从数据学习或先验构建，而条件概率分布通常从数据学习。此外，这些条件概率分布也可以被调整或以编程方式限定(所谓的干预)，这允许用户去除任何偏差或完全控制生成过程。最后，将适当缩放的拉普拉斯噪声添加到条件概率分布，从而提供差分隐私。

一旦构建了私有贝叶斯网络106，就可以对于图中的所有节点高效地采样新值，并且可以将这些新值形成为相关特征的合成结构化数据集108。采样过程遵循属性的条件依赖性，从而保持原始数据集的一致性和统计特性。由于这些属性不包含任何直接标识符，因此所有个人信息(例如，姓名、地址、电子邮件、社交媒体链接等)在后续步骤中利用以选择的编程语言生成虚假数据的任何库、附加的启发式方法或预定义的规则以编程方式而生成，从而产生人工的个人详细信息110。由于所有这些值都是人工地且独立于原始数据集生成的，因此在该操作中不会损害数据隐私。

在一些示例实施例中，相关特征的合成结构化数据集108本身可以用作机器学习算法的训练数据以训练机器学习模型。这在机器学习算法被设计为接受这样的结构化数据集的情况中将是适当的。对于不被设计为接受结构化数据集(或至少不被设计为接受格式与相关特征的合成结构化数据集108匹配的结构化数据集)的机器学习算法，执行附加操作。

具体地，相关特征的合成结构化数据集连同人工的个人详细信息110之后被用于在CV生成操作112处生成合成CV的每个部分的文本。这是通过仔细地将这些值与之后被馈入预训练的自然语言生成(NLG)模型(例如，GPT-2)的各种脚本化文本提示进行组合来实现的。由于这些模型是自回归的，因此先前生成的文本也会被输入到任何后续部分。这强制文本生成尽可能一致。

一旦生成了所有CV部分的文本，就可以将其以不同格式(例如，作为JSON文件、文本或PDF文档)组装在合成CV的语料库114中。特别地，PDF文件可以通过将生成的文本注入任何选择的模板以编程方式被构建，从而生成具有各种样式和布局的最终文档。

回到信息提取过程102，作为一种类型的文本，CV包含自然语言句子和示意性短语集(诸如，列表、要点)的混合，旨在呈现候选者的个人详细信息、技能、教育、工作经历。为了从原始文本提取精确的信息片段(如果CV语料库以PDF格式呈现，则应用光学字符识别(OCR)获得)并捕获候选者的属性，可以使用自然语言处理(NLP)中的技术。候选者的大多数属性都是专有名称(其在NLP中被称为命名实体(Named Entities)，或NE)，指示各种各样的属性，诸如其母校、先前或当前的雇主、出生或居住地、国籍、所说语言、获得的证书等。

因此，管线中的第一步骤包括NE的自动识别，这可以通过先前经训练以在原始文本数据中挑选出个别实体的专门的机器学习模型或者通过基于模式的方法执行。例如，可以假设每次遇到语言模式“出生于……”时，都必须跟随着NE。以这种方式提取的每个实体表示正在提取的属性的可能值。

然而，在CV中并不是候选者的所有属性都以专有名称的形式出现：它们通常被表达为普通名词、形容词或动词，例如，“专长”、“专家”、“我有经验……”等。在这些情况下，严格来说没有NE，可以使用其他NLP技术，诸如针对提取这样的信息而训练的机器学习模型，或使用基于模式的方法。在这种情况下，属性的值不是NE，而是文本的跨度。

其他相关属性可以与承载知识产权(IP)权利(诸如专利、研究论文、艺术品等)的项目有关。虽然这些项目本身不能被直接使用，但是由于它们表示直接标识符(IP的所有权是唯一的并指向一个或多个自然人)，因此可以提取这些IP项目的其他特性(例如，专利数量、其领域等)，可以将其编码为候选者上的概率分布。类似的情况是社交媒体账户的情况，社交媒体账户以其文本形式(例如，账户名称“name_surname”)是不可用的，但可以从中提取诸如社交媒体账户的号码、关注者数量或平台的特性。再另一种这样类型的属性是个人详细信息，诸如姓名、姓氏、电子邮件、电话号码、社保号码，其也不会被使用，因为它们以其文本形式表示直接标识符，但可以从中提取其他候选者属性(例如，电子邮件提供商、电话号码的国家代码、居住国家等)。

同时或单独地，在候选者和命名实体之间持有的关系被分配给每个NE(例如，牛津大学将被分配给关系母校)。这可以通过静态规则(例如，作为大学的每个NE都应标记为母校)或通过对自动识别这样的关系进行训练的机器学习模型来完成。

图2是示出根据示例实施例的信息提取过程的图。这里，来自实际CV的文本200通过NER 202和RE 204过程馈入，以形成表格提取的属性206。

存在要描述的信息提取过程的几个附加方面。首先，对于每个属性，可以提取可变数量的值——例如，在获得许多教育头衔或在其整个职业生涯中被任命为多个职位的候选者的情况下。可以通过对于每个属性接纳多个值(例如，大学1、大学2等)，将这种类型的信息容纳在产生的数据结构中。其次，该信息提取过程可能最终会丢弃不被识别为与候选者有任何关系或者是不相关的信息片段的一些NE或文本的跨度。

该过程的结果是从CV提取并用候选者和NE之间持有的关系进行注释的一组NE。这构成了候选者简档作为结构化数据集而不是原始文本的表示，当从足够的候选者收集时，可以将其用于对属性的概率分布和条件依赖性进行建模。

以上描述了如何从CV的语料库构建候选者属性的表格数据集。这些属性彼此之间具有条件依赖性，这对于正确建模很重要，如果目标是生成有意义的合成简档的话。例如，候选者的工作经历在很大程度上受其教育历史的影响，因此具有能够轻松捕获这种因果关系的模型将是有益的。

贝叶斯网络是概率图形模型，其将一组变量及其条件依赖性表示为有向非循环图(DAG)G 2:＝(V,E)。在当前设定中，图G的节点V是候选者属性，从v1到v2的边(v1,v2)∈E指示v2的值依赖于v1的值。每个根节点与先验概率分布关联，而每个非根节点具有以该节点的父节点为条件的概率分布。对于诸如本解决方案中使用的离散贝叶斯网络，这些分布可以作为条件概率表(CPT)实现，该条件概率表显示给定节点的父变量具有的值，该节点的每个可能值的概率。条件概率分布可以表示为(其中，Pa(v)表示v∈V的父节点集合。

图3是示出对候选者的专业领域302、年龄304、经验(以年数或范围计)306、最近的教育头衔308和当前(或最近)角色310之间的条件依赖性进行建模的贝叶斯网络300的示例的图。

为了生成更逼真的简档，如前所讨论，可以包括许多其他属性(几个教育头衔、工作职位等)。尽管如此，领域专家可以独立于训练数据以类似的方式识别和绘制它们的条件依赖性。

一旦限定了贝叶斯网络的结构，就可以从数据(例如，经由最大似然估计(MLE))来估计条件概率分布。在表1中，提供了条件概率表的示例，其可以使用图3中显示的贝叶斯网络300从数据中学习。

表1.CPT的示例。

CPT也可以被调整或以编程方式限定(所谓的干预)，这允许用户去除训练数据中可能存在的任何不期望的偏差或完全控制生成过程。

即使上述训练数据集不包含任何直接标识符，CPT仍可能将太多关于个人的信息泄露给具有足够旁侧知识的对手。为了防止这种情况，在示例实施例中，每个条件概率表可以用拉普拉斯噪声扰动，拉普拉斯噪声的尺度(scale)被适当地校准以提供差分隐私。扰动拉普拉斯噪声包括添加从拉普拉斯分布中提取的噪声

其中，μ是拉普拉斯分布的期望值，并且b是尺度参数。粗略地说，小尺度的噪声对于弱隐私约束应当是足够的(与大∈值对应)，而更大水平的噪声会对原始输入是什么提供更大程度的不确定性(与小∈值对应)。Δf是函数的灵敏度(即，至多一个元素不同的输入数据集的所有对x1和x2上以1l范数输出的d的最大可能变化)。

噪声的尺度与CPT的灵敏度和隐私参数之间的比率对应，其控制旨在取得的匿名化水平。该参数的值越小，注入的噪声就越高，并且因此提供的隐私保证就越高。噪声的添加确保可以根据需要控制和减轻对来自CPT的个人的重新识别风险。

由于噪声添加可能使CPT的条目为负或总和不为1，因此可以应用归一化步骤。该后处理步骤不会破坏隐私保证，因为差分隐私不受任意与数据无关的变换的影响。

最后，可以强调的是，如果要建模的候选者属性的数量太多，或者在标识属性之间的条件依赖性时没有足够的专业知识可用，则也可以从数据学习贝叶斯网络的结构(即，图的边E)。重要的是要注意，该过程可能会泄漏关于训练数据集的附加信息，因此可以使用适当的匿名化技术，例如，端到端过程以在差分隐私下学习图的结构和每个节点的条件概率表，诸如Privbayes。

一旦限定贝叶斯网络的结构并从构建的结构化数据集学习了(扰动的)条件概率分布，就可以经由前向采样生成图中所有节点的新值。以下伪代码可以用于前向采样过程，其中，G＝(V,E)表示具有顶点V和边E的底层图，并且(表示节点v∈V以其父节点Pa(v)(如果可用)为条件的概率分布。

前向采样过程确保保留属性之间的条件依赖性，产生与原始数据集一致的候选者简档(取决于被引入以提供差分隐私的微小扰动)。

如上所述，贝叶斯网络的节点与不包含任何直接标识符或个人信息的属性对应。所有个人数据(例如，姓名、地址、电子邮件、社交媒体帐户等)均以编程方式生成，例如利用以选择的编程语言生成虚假数据的任何库或通过定义自定义规则或启发式方法。这也适用于合成候选者分别学习或工作的机构和组织的生成。为了保持高水平的一致性，该信息的生成可以以算法1中采样的某些属性的值为条件。例如，候选者的居住国家可以用于生成一致的地址和电话号码。在该步骤中不会损害数据隐私，因为所有这些值都是人工地且独立于原始数据集生成的。

一旦对于候选者生成了一组合成属性，就可以通过利用自然语言生成(NLG)模型将其转变看上去真实的CV，该模型是自然语言处理模型的子集，其目标是生成与人类可能编写的文本尽可能相似合成文本。这种方法适用于任何NLG模型，从简单的基于模式的方法到基于ML的模型。

基于模式的模型可以是包含一组语言结构的算法，其中，可以插入候选者属性——可以添加多个可能的模式，以便最大化可变性(例如，我在y学习了x年)。另一种可能性是使用采用机器学习的NLG模型，这保证了生成文本的更大可变性，因为它们被专门训练以模仿大量不同的人类文本。ML模型的另一优点是它们更适合大规模自动创建合成数据。

在它们的核心，基于ML的NLG模型将句子生成过程建模为使用概率方法从词汇表(词列表)中顺序选择词的任务。直观地，给定先前生成的词序列，诸如“The cat is onthe”，模型基于在自然人类语言中找到即将出现的词的可能性来选择该即将出现的词：给定仅包含词{sea,glass,chair}的玩具词汇表，模型应当选择chair，因为在词汇表中可用的词中，它最有可能是句子“The cat is on the”的后续。机器学习在NLG模型中的作用是以其他词的存在为条件从真实文本提取词的概率。这样做的一种方式是使用神经网络(浅层或深度，诸如GPT-2、GPT-3、CTRL、BART和T5)，但也可以使用基于统计学习的其他方法(基于词共现或n元语法(n-gram))。

在示例实施例中，通过使用属性作为生成CV的起点，贝叶斯网络较早生成的属性被用作控制NLG模型的生成的方式。直觉是属性会影响模型选择词的概率，因此所得的文本将使用固定属性和看上去真实文本的混合来前后一致地描述合成候选者。作为示例，给定两个属性{University:Oxford}和{Field of Study:Physics}，可以引导NLG选择当词Oxford和Physics在先前的上下文中被找到时更有可能的词。同样，使用玩具词汇表{neutron,beach,beer,experiment)，neutron和experiment的概率会更高。

为了使模型生成逼真的文本，可以将属性进一步嵌入称为提示的一组语言结构中，该语言结构是将在人类语言中找到属性的句子的典型位(例如，I studied x at y)。这些提示作为生成CV的起点呈现给NLG模型，如上所述，通过它们的条件概率影响出现在CV中的词的选择。对于每个属性，可以手动创建多个提示，对于每个候选者，可以从中随机采样要被使用的实际提示，以便对于每个候选者创建略有不同的独特CV。

CV包含不同的部分，通常旨在以顺序前后一致的方式传达候选者过去的经历和技能。完整CV的生成从创建提示的有序列表开始，该有序列表将与各个部分对应并将包含相关属性。然后，生成以循环方式进行：在每个步骤，模型接收CV的在前文本作为输入，随后是列表中的下一个提示作为输入：其任务是生成合成CV中随后的自然语言文本。开始时没有先前生成的文本，而只有第一提示。以这种方式，如果NLG模型基于概率，则在每个部分处，模型被指向以先前部分为条件创建新部分，以确保顺序的前后一致性。

图4是根据示例实施例的生成过程400的可视化。在每个生成步骤处，限定要生成的句子或词的最大数量：该值可以根据部分的性质(CV中的某些部分往往比其他部分更长)或生成需要(例如，技术工作的CV可能较短，而管理职位的CV可能涉及对技能和经验的深入描述)而变化。

人工的个人详细信息402以及提取的属性(诸如来自实际CV的语料库的教育404、工作经历年数406和工作经历408)连同模板410被馈送到NLG模块412，该NLG模块412产生合成CV 414。

以上描述解释了NLG模型如何用于生成不同CV部分的文本。在本部分中，可以将该文本以不同的格式组装，从而实现各种用法。最简单的方法是构建结构化文件。例如，这可以是以属性-值对形式存储数据对象的任何开放标准文件格式，诸如Javascript对象表示法(JSON)或YAML。例如，可以构建JSON文件，其中，属性是每个CV部分的标题，并且值包含对应的生成文本。这为人工智能(Al)项目生成自动标记的CV数据集，如果与更昂贵且耗时的标记活动相比，这是便利且有用的结果。

类似地，类似于通常如何格式化CV，可以直接构造文本文件。基本原则将是相同的：限定文档结构和每个CV部分的标题，并附加由语言模型产生的对应的生成文本。在图4中已经示出了该过程。

最后，如果更期望可移植格式，则可以以编程方式构建PDF文件。在示例实施例中，可以利用一个或多个模板，但是解决方案可以容易地扩展或应用于其他PDF生成软件。模板可以利用装饰纯文本的标记标签来控制具有期望图形布局的文档的生成。纯文本因此被汇编以产生输出文件，诸如PDF或DVI。由于模板只是纯文本，因此其可以以任何选择的编程语言作为字符串加载，并且每个CV部分的文本可以作为字符串注入其中。然后可以将被丰富的字符串作为.tex文件保存到合适的文件系统并在之后进行汇编，从而产生PDF文档。

所提出的解决方案提供了以下好处：

(1)生成不与任何自然人相关的逼真的合成CV，从而使该数据的使用不受数据保护法规的约束。这可以改善甚至能够在HR空间中实现许多用例，从候选者工作匹配和简历解析到技能分析。由于可以完全控制生成过程，因此合成CV也可以用于检测现有ML解决方案中的偏差，并用于训练无偏差模型。

(2)该解决方案保留了原始CV的语料库的统计特性和条件依赖性，从而能够实现更有针对性的生成，这模仿了原始数据集。

(3)所提出的解决方案可以用作一种数据增强技术来丰富小型CV的语料库，并导致更准确的ML模型。

(4)该解决方案的模块性允许每个组件被独立更换或修改，从而提供了更大的灵活性和可扩展性。

图5是示出根据示例实施例的用于生成用于机器学习算法的训练数据的系统500的框图。系统500包括非结构化数据的文档的语料库502。信息提取组件504使用NLP组件506、NER组件508和/或RE组件510从语料库提取候选者属性。

在示例实施例中，NLP组件506生成嵌入，其为文本中词的分布式向量表示(或n元语法)。然后其能够生成具有相似含义的词簇。可以在NLP组件506中使用的NLP技术的示例包括Fasttext和基于变换器的双向编码器表示(Bidirectional EncoderRepresentations from Transformers，BERT)。与Fasttext相比，BERT使用上下文相关的嵌入。这意味着词的向量将基于其上下文而不同，而诸如Fasttext的模型获得静态词嵌入(与上下文无关)。使用上下文相关的表示允许系统500获得对词在文本中的功能的更丰富理解，因为语言可能是歧义的。

信息提取组件504可以包括规则引擎512，其对语料库502中的每个文本片段执行预处理/变换。这用于帮助解决可能对NLP处理产生不利影响的各个句子中的行话。例如，在某些上下文中，句点可能指示句子的结束，而在其他上下文中，其可能指示技术行话，诸如在统一资源定位符(URL)或计算机代码中。在这样的情况下，对象名称各部分之间的句点并不表示句子的结束，但传统的NLP技术会将每个句点视为句号并在每个句号上终止句子。规则引擎512以使得句子中提及的技术行话不会混淆NLP处理并且还有助于确保NLP处理提取正确的信息而不丢失任何上下文数据的方式应用预处理和变换规则。换句话说，预处理将技术行话变成可以由NLP算法处理的内容。这些相同的预处理方面也可以由NER组件508和/或RE组件510利用。

然后将每个变换的文本部分传递到NLP引擎514。NLP引擎514将一个或多个NLP规则应用于输入文本部分，将词过滤成语法实体，并产生结构化文本部分对象。更特别地，NLP引擎514确定每个词的语法类型(例如，名词、动词等)，以及每个词之间的依赖性。每个依赖性指示词之间的语法关系，诸如词中的一个是否是另一词的直接宾语、另一词的标点符号、另一词的状语从句修饰符(advcl)等。

NLP处理可以包括一般的过滤动作，诸如从文本中去除不想要的词和字符。这可以包括去除不必要的空格，去除标准标点符号，诸如！"#$％&'()*+,-./:；<＝>？@[\]^_`{|}～，仅保留包含字母a-z和数字0-9的字符，规范化大小写(诸如通过将所有内容转换为小写)，去除停用词(诸如“i”、“me”、“my”、“myself”、“we”、“our”、“ours”、“ourselves”、“you”、”your”、“yours”、“yourself”、“yourselves”、“he”、“him”、“his”等)，去除诸如“hi、hello、regards、kind、regards等”问候语，以及用正规表达替换一些词。另外，可以对词执行词干提取和词形还原。词干提取和词形还原是文本规范化技术。词干提取是将词形变化精简到其词根形式的过程，诸如将一组词映射到同一个词干，即使词干本身不是语言中的有效词。因此，对词进行词干提取涉及去除前缀和后缀。另一方面，词形还原将变化的词还原到作为语言一部分的词根形式。该根词被称为词目(lemma)。词形还原涉及标识词的标准版本(canonical version)，并且标准版本可以涉及比仅去除后缀和前缀更多或更少。例如，ran、run和running可以被词形还原为标准词“run”，即使将ran变为run并不涉及添加或去除后缀。

NLP引擎514找出文本部分中的所有语法依赖性对象、对象之间的关系、文本部分中涉及的条件，然后，基于所有这些信息，准备文本部分的上下文。

NLP引擎514学习如何解析文本部分以及基于解析将嵌入分配给文本部分。嵌入在多维空间中对于每个解析的句子标识一组坐标(称为向量)。然后可以使用坐标之间的一个或多个相似性度量来标识对应句子之间的相似性。一个示例度量是余弦相似性。在余弦相似性中，计算两个向量之间角度的余弦。两个句子的余弦相似性的范围将为从0到1。如果余弦相似性为1，则表示两个向量具有相同的取向，因此是相同的。值越接近0指示相似性越低。可以使用其他相似性度量来代替或补充余弦相似性，诸如欧几里德距离和杰卡德相似性。此外，这些基线度量可以通过诸如忽略“停用”词和计算按词频-逆文档频率(termfrequency–inverse document frequency，TF-IDF)加权的平均的方法进行改进。替代地，也可以采用诸如词移距离(Word Mover’sDistance，WMD)和平滑逆频率(SIF)的技术。

在示例实施例中，基于变换器的双向编码器表示(BERT)被用于将文本部分编码成嵌入。应当注意的是，BERT仅在一些示例实施例中使用，而在其他示例实施例中可以使用另一语言模型来代替BERT。图6是示出根据示例实施例的BERT的框图。BERT使用(一个或多个)变换器层600将输入句子编码为嵌入。每个变换器层定义如下：

TFLayer(h^n-1)＝FC(MultiAttn(h^n-1))；

FC(x)＝relu(xW₁+b₁)W₂+b₂；

MultiAttn(h^n-1)＝concat(head₁(h^n-1),...,head_k(h^n-1))W^O,

其中，h^n-1是前一个变换器层的输出。这里使用具有8个变换器层的BERT模型，并且输出句子嵌入z_sent被定义为最后变换器层输出的均值池化结果。为简单起见，等式中省略了批量归一化和残差连接。

图7是示出根据示例实施例的生成用于机器学习算法的训练数据的方法700的流程图。在操作702处，访问具有非结构化数据的文档的语料库。这可以包括例如实际CV的语料库。在操作704处，可以使用命名实体识别和关系提取从文档提取候选者属性。在操作706处，提取的候选者属性被形成为结构化数据集。

在操作708处，构建贝叶斯网络图。贝叶斯网络图是有向非循环图，提取的候选者属性作为所述有向非循环图的节点，节点之间的边表示候选者属性之间的关系，其中，每个节点还与包括条件概率分布的函数关联。在操作710处，将拉普拉斯噪声添加到贝叶斯网络图中的每个节点的条件概率分布以提供差分隐私。在操作712处，对于贝叶斯网络图中的所有节点采样新值。在操作714处，采样的新值被用作用于机器学习算法的训练数据以训练机器学习模型。

鉴于主题的上述实施方式，本申请公开了以下示例列表，其中，单独的示例的一个特征或者所述示例的多于一个的特征的组合，并且可选地，与一个或多个进一步示例的一个或多个特征的组合是也落入本申请的公开内的进一步示例：

示例1.一种系统，包括：

至少一个硬件处理器；和

存储指令的计算机可读介质，所述指令在由所述至少一个硬件处理器执行时使所述至少一个硬件处理器执行操作，所述操作包括：

访问具有非结构化数据的文档的语料库；

使用命名实体识别和关系提取从所述语料库提取候选者属性；

将提取的候选者属性形成为结构化数据集；

构建贝叶斯网络图，所述贝叶斯网络图是有向非循环图，提取的候选者属性作为所述有向非循环图的节点，节点之间的边表示候选者属性之间的关系，其中，每个节点包括值并与包括条件概率分布的函数关联；

向所述贝叶斯网络图中的多个节点的所述条件概率分布添加拉普拉斯噪声，以提供差分隐私；

对于所述贝叶斯网络图中的多个节点采样新值；和

使用采样的新值作为用于机器学习算法的训练数据以训练机器学习模型。

示例2.根据示例1所述的系统，

其中，所述操作还包括生成采样的新值的人工的个人详细信息；并且

其中，使用采样的新值包括使用采样的新值连同生成的个人详细信息作为用于机器学习算法的所述训练数据以训练所述机器学习模型。

示例3.根据示例1或2所述的系统，其中，所述操作还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

示例4.根据示例1-3中任一项所述的系统，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

示例5.根据示例1-4中任一项所述的系统，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

示例6.根据示例2所述的系统，其中，所述操作还包括：

使用自回归预训练自然语言生成(NLG)模型将采样的新值与生成的个人详细信息组合。

示例7.根据示例1-6中任一项所述的系统，其中，所述提取还包括使用自然语言处理(NLP)机器学习模型。

示例8.一种方法，包括：

访问具有非结构化数据的文档的语料库；

将提取的候选者属性形成为结构化数据集；

对于所述贝叶斯网络图中的多个节点采样新值；和

示例9.根据示例8所述的方法，还包括生成采样的新值的人工的个人详细信息；并且

其中，使用采样的新值包括使用采样的新值连同生成的个人详细信息作为用于机器学习算法的训练数据以训练所述机器学习模型。

示例10.根据示例8或9所述的方法，还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

示例11.根据示例8-10中任一项所述的方法，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

示例12.根据示例8-10中任一项所述的方法，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

实施例13.根据示例9所述的方法，还包括：

示例14.根据示例8-13中任一项所述的方法，其中，所述提取还包括使用自然语言处理(NLP)机器学习模型。

示例15.一种存储指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

访问具有非结构化数据的文档的语料库；

将提取的候选者属性形成为结构化数据集；

对于所述贝叶斯网络图中的多个节点采样新值；和

示例16.根据示例15所述的非暂时性机器可读介质，还包括生成采样的新值的人工的个人详细信息；并且

示例17.根据示例15或16所述的非暂时性机器可读介质，还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

示例18.根据示例15-17中任一项所述的非暂时性机器可读介质，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

示例19.根据示例15-18中任一项所述的非暂时性机器可读介质，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

示例20.根据示例16所述的非暂时性机器可读介质，还包括：

图8是示出软件架构802的框图800，该软件架构可以安装在上述任何一个或多个设备上。图8仅是软件架构的非限制性示例，并且将理解可以实现许多其他架构以促进本文描述的功能。在各种实施例中，软件架构802由诸如图9的机器900的硬件实现，该机器包括处理器910、存储器930和输入/输出(I/O)组件950。在该示例架构中，软件架构802可以被概念化为层堆栈，其中，每个层可以提供特定的功能。例如，软件架构802包括诸如操作系统804、库806、框架808和应用810的层。在操作上，与一些实施例一致，应用810通过软件栈调用应用程序接口(API)调用812并响应于API调用812接收消息814。

在各种实施方式中，操作系统804管理硬件资源并提供公共服务。操作系统804例如包括内核820、服务822和驱动程序824。与一些实施例一致，内核820充当硬件和其他软件层之间的抽象层。例如，内核820提供存储器管理、处理器管理(例如，调度)、组件管理、联网和安全设定以及其他功能。服务822可以为其他软件层提供其他公共服务。驱动程序824负责控制底层硬件或与底层硬件对接。例如，驱动程序824可以包括显示驱动程序、相机驱动程序、或/>低功耗驱动程序、闪存驱动程序、串行通信驱动程序(例如，通用串行总线(USB)驱动程序)、/>驱动程序、音频驱动程序、电源管理驱动程序等。

在一些实施例中，库806提供应用810使用的低级公共基础设施。库806可以包括系统库830(例如，C标准库)，其可以提供诸如存储器分配功能、字符串操纵功能、数学功能等功能。此外，库806可以包括API库832，诸如媒体库(例如，支持各种媒体格式的呈现和操纵的库，媒体格式诸如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))，图形库(例如，用于在显示器上的图形上下文中呈现二维(2D)和三维(3D)的OpenGL框架)、数据库库(例如，提供各种关系数据库功能的SQLite)、网络库(例如，提供网络浏览功能的WebKit)等。库806还可以包括各种各样的其他库834以向应用810提供许多其他API。

框架808提供可由应用810利用的高级公共基础设施。例如，框架808提供各种图形用户界面功能、高级资源管理、高级位置服务等。框架808可提供可由应用810利用的范围广泛的其他API，其中一些可能特定于特定操作系统804或平台。

在示例实施例中，应用810包括主页应用850、联系人应用852、浏览器应用854、图书阅读器应用856、位置应用858、媒体应用860、消息传输应用862、游戏应用864以及范围广泛的其他应用，诸如第三方应用866。应用810是执行在程序中限定的功能的程序。可以采用各种编程语言来创建以各种方式结构化的一个或多个应用810，诸如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如，C或汇编语言)。在特定示例中，第三方应用866(例如，由除了特定平台的供应商之外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以是在诸如IOS^TM、ANDROID^TM、Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中，第三方应用866可以调用由操作系统804提供的API调用812以促进本文描述的功能。

图9示出了计算机系统形式的机器900的图解表示，在该计算机系统内可以执行一组指令以使机器900执行本文讨论的任何一种或多种方法。特别地，图9以计算机系统的示例形式示出了机器900的图解表示，在该计算机系统内指令916(例如，软件、程序、应用、小应用、app或其他可执行代码)使机器900执行本文讨论的要执行的任何一种或多种方法。例如，指令916可以使机器900执行图7的方法。附加地或替代地，指令916可以实现图1-7等。指令916将一般的、未编程的机器900转变为特定的机器900，该机器900被编程为以所描述的方式执行描述和示出的功能。在替代实施例中，机器900作为独立设备进行操作或可以联接(例如，联网)到其他机器。在联网部署中，机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作，或者在对等(或分布式)网络环境中作为对等机器进行操作。机器900可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能家电)、其他智能设备、网络家电、网络路由器、网络交换机、网桥或能够按顺序或以其他方式执行指定机器900要采取的动作的指令916的任何机器。此外，虽然仅示出了单个机器900，但是术语“机器”也应当被认为包括单独地或联合地执行指令916以执行本文讨论的任何一种或多种方法的机器900的集合。

机器900可以包括处理器910、存储器930和I/O组件950，它们可以被配置为诸如经由总线902彼此通信。在示例实施例中，处理器910(例如，CPU、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器或其任何合适的组合)可以包括例如可以执行指令916的处理器912和处理器914。术语“处理器”旨在包括多核处理器，其可以包括可以同时执行指令916的两个或更多个独立的处理器(有时称为“核”)。尽管图9示出了多个处理器910，但是机器900可以包括具有单个核的单个处理器912、具有多个核的单个处理器912(例如，多核处理器912)、具有单个核的多个处理器912、914、具有多个核的多个处理器912、914或其任何组合。

存储器930可以包括主存储器932、静态存储器934和存储单元936，处理器910可诸如经由总线902访问其中的每一个。主存储器932、静态存储器934和存储单元936存储体现本文描述的任何一种或多种方法或功能的指令916。在由机器900执行期间，指令916还可以完全或部分地驻留在主存储器932内、静态存储器934内、存储单元936内、处理器910中的至少一个处理器内(例如，处理器的高速缓冲存储器内)或其任何合适组合。

I/O组件950可以包括各种各样的组件以接收输入、提供输出、产生输出、传输信息、交换信息、捕获测量等。包括在特定机器中的特定I/O组件950将取决于机器的类型。例如，诸如移动电话的便携式机器将可能包括触摸输入设备或其他这样的输入机构，而无头服务器机器将可能不包括这样的触摸输入设备。将理解，I/O组件950可以包括图9中未示出的许多其他组件。I/O组件950根据功能进行分组仅仅是为了简化以下讨论，并且该分组绝不是限制性的。在各种示例实施例中，I/O组件950可以包括输出组件952和输入组件954。输出组件952可以包括视觉组件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学组件(例如，扬声器)、触觉组件(例如，振动电机、电阻机构)、其他信号生成器等。输入组件954可以包括字母数字输入组件(例如，键盘、被配置为接收字母数字输入的触摸屏、光-光学键盘或其他字母数字输入组件)、基于指点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指点器械)、触觉输入组件(例如，物理按钮、提供触摸或触摸手势的位置和/或力度的触摸屏，或其他触觉输入组件)、音频输入组件(例如，麦克风)等。

在进一步的示例实施例中，I/O组件950可以包括生物计量组件956、运动组件958、环境组件960或定位组件962以及各种各样的其他组件。例如，生物计量组件956可以包括用于检测表情(例如，手部表情、面部表情、声音表情、身体姿势或眼睛跟踪)，测量生物信号(例如，血压、心率、体温、排汗或脑电波)，识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件958可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件960可以包括例如照度传感器组件(例如，光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，检测背景噪音的一个或多个麦克风)、接近度传感器组件(例如，检测附近对象的红外传感器)、气体传感器(例如，用于检测危险气体的浓度以确保安全或测量大气中的污染物的气体检测传感器)或可以提供与周围物理环境对应的指示、测量或信号的其他组件。定位组件962可以包括位置传感器组件(例如，全球定位系统(GPS)接收器组件)、高度传感器组件(例如，高度计或气压计，其检测可以从中导出高度的气压)、取向传感器组件(例如，磁力计)等。

可以使用各种各样的技术来实现通信。I/O组件950可以包括通信组件964，其可操作以分别经由联接982和联接972将机器900联接到网络980或设备970。例如，通信组件964可以包括网络接口组件或与网络980对接的其他合适设备。在进一步的示例中，通信组件964可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如，/>低功耗)、/>组件和经由其他模态提供通信的其他通信组件。设备970可以是另一机器或各种不同外围设备中的任何一种(例如，经由USB联接)。

此外，通信组件964可以检测标识符或包括可操作以检测标识符的组件。例如，通信组件964可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如，用于检测诸如通用产品代码(UPC)条形码的一维条形码、多维条形码(诸如QR码、Aztec码、数据矩阵、Dataglyph、Maxi Code、PDF417、Ultra Code、UCC RSS-2D条形码)和其他光学码的光学传感器)或声学检测组件(例如，识别标记的音频信号的麦克风)。此外，可以经由通信组件964导出各种信息，诸如经由互联网协议(IP)地理位置导出位置、经由信号三角测量导出位置、经由检测可以指示特定位置的NFC信标信号导出位置等。

各种存储器(即，930、932、934和/或(一个或多个)处理器910的存储器)和/或存储单元936可以存储一组或多组指令916和数据结构(例如，软件)，其体现本文描述的任何一种或多种方法或功能或由本文描述的任何一种或多种方法或功能利用。这些指令(例如，指令916)在由(一个或多个)处理器910执行时引起各种操作以实现公开的实施例。

如在本文中使用的，术语“机器存储介质”、“设备存储介质”和“计算机存储介质”表示相同的事物并且可以可互换地使用。这些术语是指存储可执行指令和/或数据的单个或多个存储设备和/或介质(例如，集中式或分布式数据库，和/或关联的高速缓存和服务器)。因此，这些术语应被理解为包括但不限于固态存储器以及光学和磁介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括非易失性存储器，例如包括半导体存储器设备，例如，可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、现场可编程门阵列(FPGA)和闪存设备；磁盘，诸如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确排除了载波、调制数据信号和其他这样的介质，其中至少一些介质覆盖在下面讨论的术语“信号介质”之下。

在各种示例实施例中，网络980的一个或多个部分可以是自组织网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、简易老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或两个或更多个这样的网络的组合。例如，网络980或网络980的一部分可以包括无线或蜂窝网络，并且联接982可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线联接。在该示例中，联接982可以实现各种类型的数据传送技术中的任何一种，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM增强数据率演进(EDGE)技术、包括8G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、各种标准制定组织定义的其他标准、其他远程协议或其他数据传送技术。

可以使用传输介质经由网络接口设备(例如，包括在通信组件964中的网络接口组件)并利用许多周知的传送协议中的任何一种(例如，超文本传输协议(HTTP))在网络880上传输或接收指令916。类似地，可以使用传输介质经由到设备970的联接972(例如，对等联接)传输或接收指令916。术语“传输介质”和“信号介质”表示相同的事物并且在本公开中可以可互换地使用。术语“传输介质”和“信号介质”应被视为包括能够存储、编码或携带指令916以供机器900执行的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以促进这样的软件的通信。因此，术语“传输介质”和“信号介质”应被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”是指其特性中的一个或多个以在信号中编码信息的方式被设置或改变的信号。

术语“机器可读介质”、“计算机可读介质”和“设备可读介质”表示相同的事物并且在本公开中可以可互换地使用。这些术语被定义为包括机器存储介质和传输介质两者。因此，这些术语包括存储设备/介质和载波/调制数据信号两者。

Claims

1.一种系统，包括：

至少一个硬件处理器；和

访问具有非结构化数据的文档的语料库；

将提取的候选者属性形成为结构化数据集；

对于所述贝叶斯网络图中的多个节点采样新值；和

2.根据权利要求1所述的系统，其中，所述操作还包括生成采样的新值的人工的个人详细信息；并且

其中，使用采样的新值包括使用采样的新值连同生成的个人详细信息作为用于所述机器学习算法的训练数据以训练所述机器学习模型。

3.根据权利要求1所述的系统，其中，所述操作还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

4.根据权利要求1所述的系统，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

5.根据权利要求1所述的系统，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

6.根据权利要求2所述的系统，其中，所述操作还包括：

7.根据权利要求1所述的系统，其中，所述提取还包括使用自然语言处理(NLP)机器学习模型。

8.一种方法，包括：

访问具有非结构化数据的文档的语料库；

将提取的候选者属性形成为结构化数据集；

对于所述贝叶斯网络图中的多个节点采样新值；和

9.根据权利要求8所述的方法，还包括生成采样的新值的人工的个人详细信息；并且

10.根据权利要求8所述的方法，还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

11.根据权利要求8所述的方法，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

12.根据权利要求8所述的方法，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

13.根据权利要求9所述的方法，还包括：

14.根据权利要求8所述的方法，其中，所述提取还包括使用自然语言处理(NLP)机器学习模型。

15.一种存储指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

访问具有非结构化数据的文档的语料库；

将提取的候选者属性形成为结构化数据集；

对于所述贝叶斯网络图中的多个节点采样新值；和

16.根据权利要求15所述的非暂时性机器可读介质，还包括生成采样的新值的人工的个人详细信息；并且

17.根据权利要求15所述的非暂时性机器可读介质，还包括：

通过调整所述条件概率分布从采样的新值去除偏差。

18.根据权利要求15所述的非暂时性机器可读介质，其中，每个函数将对应节点的父变量的一组可能值作为输入并给出关于所述对应节点的值的概率分布作为输出。

19.根据权利要求15所述的非暂时性机器可读介质，其中，所述采样包括遵循所述贝叶斯网络图中的每个节点的条件依赖性，保持文档的原始语料库的一致性和特性。

20.根据权利要求16所述的非暂时性机器可读介质，还包括：