CN113168416A

CN113168416A - 用于根据通用领域语料库来创建领域特异性训练语料库的方法和系统

Info

Publication number: CN113168416A
Application number: CN201980078660.2A
Authority: CN
Inventors: 朱恒辉; A·M·塔赫玛塞比马拉古奥施; I·帕斯卡里迪斯
Original assignee: Koninklijke Philips NV; Boston University
Current assignee: Koninklijke Philips NV; Boston University
Priority date: 2018-11-29
Filing date: 2019-11-26
Publication date: 2021-07-23
Also published as: WO2020109277A1; US11874864B2; US20210383066A1

Abstract

一种用于生成领域特异性训练集的方法(100)，包括：生成(130)包括多个标记化文档的通用语料库，包括：(i)解析(132)从所述通用语料库中检索的文档；(ii)预处理(134)经解析的文档；(iii)对经预处理的文档进行标记化(136)；并且(iv)将所述标记化文档存储(138)在所述通用语料库中；生成(140)标记化条目的本体数据库，包括：(i)解析(142)从本体中检索的本体条目；(ii)预处理(144)经解析的条目；(iii)对经预处理的条目进行标记化(146)；并且(iv)将所述标记化条目存储(148)在所述本体数据库中；使用来自所述本体数据库的领域特异性标记化条目来查询(150)所述通用语料库中的所述标记化文档；基于所述查询来识别(160)特异于该领域的多个标记化文档；并且将识别出的标记化文档存储(170)在训练集数据库中，作为特异于所述领域的训练集。

Description

用于根据通用领域语料库来创建领域特异性训练语料库的方法和系统

相关申请的交叉引用

本申请要求于2018年11月29日提交的标题为“METHOD AND SYSTEM FOR CREATINGA DOMAIN-SPECIFIC TRAINING CORPUS FROM GENERIC DOMAIN CORPORA”的美国临时专利申请US 62/772661的优先权，通过引用将其全部内容并入本文。

技术领域

本公开内容总体上针对机器学习方法和系统，并且更特别地但非排他性地针对创建用于训练语言模型的训练集。

背景技术

包括深度学习在内的机器学习技术正越来越多地用于自然语言处理(NLP)应用。NLP应用存在于一群不断增长的群体中，包括金融和医疗保健。一些这样的应用包括例如命名实体识别(NER)和分类等。在医疗保健领域中，非常希望使临床工作流程自动化，以简化对临床相关患者数据的访问和决策支持。

大多数用于自然语言处理任务(例如，NER)的机器学习算法的开发通常都要求大量带标签的训练数据。然而，研究表明，通用数据源并不适合用于训练针对邻域特异性应用的模型。因此，获得大量领域特异性语料库是一种挑战，特别是在诸如医疗保健(用于开发NLP能力)之类的领域中。研究人员可以从几个临床站点访问数据，但是数据可能仍然不能提供该领域的综述情况，因此，在这样的有限数据上训练的模型可能无法进行良好的归纳。因此，在这样的数据上训练模型以供其他站点使用可能会带来一些问题，例如，词汇量输入不足、分类错误以及其他限制。

发明内容

一直都需要改进(例如在医疗保健领域中的)训练数据的语料库以及用于生成这些语料库的方法和系统。本文描述的各种实施例涉及用于创建领域特异性训练集的方法、相关装置和非瞬态机器可读介质，所述方法包括：从领域特异性本体中提取至少一个关键词；使用所述至少一个关键词来查询通用领域语料库以获得至少一个匹配的文章；将所述至少一个匹配的文章添加到领域特异性训练集。所述系统生成包括从一个或多个源获得的多个标记化文档的通用语料库，并且生成标记化本体条目的本体数据库。使用来自所述本体数据库的一个或多个领域特异性标记化条目来查询所述通用语料库中的所述标记化文档，由此识别出特异于该领域的多个标记化文档。所述系统将识别出的多个标记化文档存储为特异于所述领域的训练集。

通常，在一个方面中，提供了一种用于生成领域特异性训练集的方法。所述方法包括：(i)生成包括从一个或多个源获得的多个标记化文档的通用语料库，包括：解析从所述通用语料库或从另一文档源中检索的文档；预处理经解析的文档；对经预处理的文档进行标记化；并且将所述标记化文档存储在所述通用语料库中；(ii)生成标记化条目的本体数据库，包括：解析从本体中检索的本体条目；预处理经解析的条目；对经预处理的条目进行标记化；并且将所述标记化条目存储在所述本体数据库中；(iii)使用来自所述本体数据库的一个或多个领域特异性标记化条目来查询所述通用语料库中的所述标记化文档；(iv)基于所述查询来识别特异于该领域的多个标记化文档；并且(v)将识别出的多个标记化文档存储在训练集数据库中，作为特异于所述领域的训练集。

根据实施例，所述方法还包括：从所述训练集数据库中检索领域特异性训练集；并且针对检索到的领域特异性训练集的领域来训练机器学习算法，由此生成经领域特异性训练的算法。根据实施例，用户识别要从所述训练集数据库中检索的领域特异性训练集。

根据实施例，所述方法还包括：从多个源中检索一个或多个文档；并且将来自所述一个或多个文档的内容存储在语料库数据库中。

根据实施例，用于查询所述通用语料库中的所述标记化文档的所述一个或多个领域特异性标记化条目是由用户选择的。

根据实施例，用于查询所述通用语料库中的所述标记化文档的所述领域特异性标记化条目还包括针对该条目的一个或多个同义词。

根据实施例，识别特异于所述领域的多个标记化文档包括使用基于规则的匹配或基于特征的匹配来进行匹配。

根据实施例，所述训练集数据库包括多个存储的领域特异性训练集。

根据一个方面，是一种用于生成领域特异性训练集的系统。所述系统包括：语料库数据库，其包括从一个或多个源获得的多个文档；本体数据库，其包括本体；以及处理器，其被配置为：(i)生成包括从一个或多个源获得的多个标记化文档的通用语料库，包括：解析来自所述语料库数据库的文档；预处理经解析的文档；对经预处理的文档进行标记化；并且将所述标记化文档存储在所述通用语料库中；(ii)生成标记化条目的本体数据库，包括：解析从本体中检索的本体条目；预处理经解析的条目；对经预处理的条目进行标记化；并且将所述标记化条目存储在所述本体数据库中；(iii)使用来自所述本体数据库的一个或多个领域特异性标记化条目来查询所述通用语料库中的所述标记化文档；(iv)基于所述查询来识别特异于该领域的多个标记化文档；并且(v)存储识别出的多个标记化文档，作为特异于所述领域的训练集。

根据实施例，所述系统还包括处理器，所述处理器被配置为：(i)从训练集数据库中检索领域特异性训练集；并且(ii)针对检索到的领域特异性训练集的领域来训练机器学习算法，由此生成经领域特异性训练的算法。

根据实施例，所述系统还包括用户接口，其中，所述用户接口被配置为接收对要从所述训练集数据库中检索的领域特异性训练集的识别。

根据实施例，用于查询所述通用语料库中的所述标记化文档的所述一个或多个领域特异性标记化条目是由用户经由用户接口选择的。

应当理解，前述构思和下面更加详细讨论的额外构思的所有组合(假设这样的否是并不相互矛盾)都被认为是本文公开的发明主题的部分。特别地，出现在本公开内容的结尾处的所要求保护的主题的所有组合都被认为是本文公开的发明主题的部分。还应当理解，本文明确采用的，也可能出现在通过引用并入的任何公开内容中的术语应被赋予与本文公开的特定构思最一致的含义。

参考下文描述的(一个或多个)实施例，各种实施例的这些方面和其他方面将变得显而易见并且得到阐明。

附图说明

在附图中，贯穿不同的视图，相似的附图标记通常指代相同的部分。而且，附图不一定是按比例绘制的，而是通常将重点放在图示各种实施例的原理上。

图1是根据实施例的用于生成领域特异性训练数据的方法的流程图。

图2是根据实施例的用于生成领域特异性训练数据的系统的示意图。

图3是根据实施例的用于生成领域特异性训练数据的方法的流程图。

图4是根据实施例的用于生成领域特异性训练数据的系统的示意图。

具体实施方式

本公开内容描述了被配置为生成训练数据的大型领域特异性语料库的系统和方法的各种实施例。更一般地，申请人已经认识到并意识到，提供根据一个或多个源创建训练数据的改进的语料库的系统将是有益的。该系统生成包括从一个或多个源获得的多个标记化文档的通用语料库，并且生成标记化本体条目的本体数据库。使用来自本体数据库的一个或多个领域特异性标记化条目来查询通用语料库中的标记化文档，由此识别出特异于该领域的多个标记化文档。该系统存储识别出的多个标记化文档，作为特异于该领域的训练集。

因此，如本文所述，提出了用于生成用于训练自然语言处理或其他语言模型的领域特异性训练数据的语料库的各种实施例。根据这样的实施例，利用领域特异性本体来从一个或多个通用领域语料库中自动提取领域相关的示例。

参考图1，在一个实施例中，图1是用于使用训练集生成系统来生成训练数据的语料库的方法100的流程图。结合附图描述的方法仅被提供作为示例，并且应被理解为不限制本公开内容的范围。在该方法的步骤110处，提供了领域特异性训练集生成系统(400)。训练集生成系统能够是本文描述的或以其他方式设想的系统中的任何系统。

在该方法的步骤120处，从一个或多个源中检索或以其他方式识别或累积多个文档。这些文档形成初始的通用语料库，并且这些文档的子集将根据本文描述的或以其他方式设想的方法和系统来用于生成领域特异性训练集或训练语料库。在步骤122处，将检索到或识别出的多个文档存储在初始的通用语料库数据库中。

从中检索或识别多个文档的一个或多个源能够是任何源。根据实施例，这些源中的至少一些源可以特异于生成的训练集的预期用途或以其他方式与之相关，但是在另一实施例中，这些源可以与生成的训练集的任何预期用途无关。提供以下内容作为可能的文档源的一些非限制性示例：Arxiv、BioRxiv、Google News、Google Scholar、PMC、PubMed、Wikipedia、WikiBook、Common Crawl等，但是也可以使用许多其他源。

应当理解，词语“文档”可以指任何物理内容或数字内容。例如，文档能够是任何文本、文档或其他包括文本、图像或其他内容的记录或源。根据实施例，文档是数字文档或数字化文档。例如，文档可以是期刊、数据库、临床信息、实验室报告和/或任何其他信息。这些仅是示例且并不意味着详尽无遗。文档能够由个人或其他系统提供给系统。额外地和/或替代地，文档能够被系统检索。例如，系统可以连续地或周期性地访问数据库、网站或任何其他包括或提供文档的源。

参考图2，在一个实施例中，图2示出了通用语料库数据库210。初始的通用语料库可以被存储在本地或远程数据库中以供领域特异性训练集生成系统使用。例如，该系统可以包括用于存储语料库的数据库，并且/或者可以与存储该语料库的数据库通信。这些数据库可以与该系统定位在一起，也可以远离该系统，例如在云存储装置和/或其他远程存储装置中。

在该方法的步骤130处，该系统根据初始的通用语料库来生成包括多个标记化文档的通用语料库数据库210。这使得语料库数据库210中的多个标记化文档准备好使用一个或多个查询进行查询。

步骤130包括多个子步骤中的一个或多个子步骤。例如，在该方法的步骤132处，该系统解析从初始的通用语料库中抽出或找到的文档。能够使用解析器或解析算法来实现对文档的解析。解析文档会使得创建基于层次数据结构的文档表示，这将有助于该方法的下游步骤。例如，基于层次数据结构的文档表示可以包括字段或级别，例如，文档的标题、文档的标头、文档的文本内容以及层次结构的许多其他字段或级别。通常，该结构表示还包括关于一个或多个层次级别与一个或多个其他层次级别的关系的信息。

在该方法的步骤134处，该系统预处理经解析的文档。例如，除了许多其他修改之外，该系统还可以预处理经解析的文档以去除不相关的术语(例如，HTML标签)，去除图像，并且将数字预处理为独特数字。可以以能够在该方法的下游步骤中快速有效地搜索数据的任何方式来预处理该数据。能够使用标准化器或预处理算法或方法来完成预处理。

在该方法的步骤136处，该系统对经预处理的文本进行标记化，分解成句子和/或标记、词语或其他部件。标记化还有助于在该方法的下游步骤中快速有效地搜索数据。能够使用标记化器或标记化算法或方法来实现标记化。标记化器的示例包括NTKL、Spacy和CoreNLP等。

除了上述操作之外，对检索到的文档的处理还可以包括翻译提取的文本以及许多其他形式或种类的处理。该系统可以在接收到每个文档时对其进行处理，或者可以批量处理文档，或者可以在该方法的后续步骤中分析文档之前就对其进行处理。

在该方法的步骤138处，该系统将标记化文档信息存储在语料库数据库210中。可以以任何格式将标记化文档信息存储在数据库中。根据实施例，以被配置为有助于快速有效地搜索数据的格式(例如，JSON格式)将标记化文档信息存储在数据库中，但是许多其他格式也是可能的。

在各种实施例中，通用语料库数据库中的每一篇文章可能被构造为简化关键词匹配。例如，文章的标题可能包含所需的关键词。文章中的图形标题或表格标题可能包含关键词。能够以结构化格式处理、提取和存储这样的信息，以便于访问而进行匹配。

在该方法的步骤140(其可以在该方法的步骤130之前、期间和/或之后执行)处，该系统生成包括多个标记化本体条目的本体数据库220。这样得到在本体数据库220中的多个标记化本体条目，其中的每个标记化本体条目可以用于查询语料库数据库210中的标记化文档。

本体数据库220可以是或者可以包括任何公共本体或私有本体。例如，在医疗保健领域中，该方法可以利用诸如SNOMED、MeSH、RADLEX或UMLS之类的本体。许多其他本体也是可能的。本体数据库实际上可以是任何格式，例如，JSON等。

步骤140包括多个子步骤中的一个或多个子步骤。例如，在该方法的步骤142处，该系统解析从初始的本体数据库的本体中抽出或发现的一个或多个本体条目。能够使用解析器或解析算法来实现对一个或多个本体条目的解析。解析本体使得创建基于层次数据结构的本体表示，这将有助于该方法的下游步骤。通常，该结构表示还包括关于一个或多个层次级别与一个或多个其他层次级别的关系的信息，因此包括关于一个或多个本体条目之间的关系的信息。

在该方法的步骤144处，该系统预处理经解析的一个或多个本体条目。例如，除了许多其他修改之外，该系统还可以预处理经解析的本体条目以去除不相关或不必要的信息。可以以使得能够在该方法的下游步骤中快速有效地检索领域特异性本体条目的任何方式来预处理该数据。能够使用标准化器或预处理算法或方法来完成预处理。

在该方法的步骤146处，该系统对经预处理的本体条目进行标记化，分解成标记、词语或其他部件。标记化还有助于在该方法的下游步骤中快速有效地检索领域特异性本体条目。能够使用标记化器或标记化算法或方法来实现标记化。标记化器的示例包括NTKL、Spacy和CoreNLP等。

除了上述操作之外，对检索到的本体条目的处理还可以包括翻译提取的文本以及许多其他形式或种类的处理。该系统可以在接收到每个本体条目时对其进行处理，或者可以批量处理本体条目，或者可以在该方法的步骤中使用本体条目之前就对其进行处理。

在该方法的步骤148处，该系统将标记化本体条目存储在本体数据库220中。可以以任何格式将标记化本体信息存储在数据库中。根据实施例，以被配置为有助于快速有效地检索标记化条目的格式(例如，JSON格式)将标记化本体信息存储在数据库中，但是许多其他格式也是可能的。

在该方法的步骤150处，该系统使用来自本体数据库220的一个或多个标记化条目来查询通用语料库数据库210中的多个标记化文档。来自本体数据库的任何标记化条目都可以用于查询通用语料库数据库210。根据实施例，执行搜索以生成领域相关或领域特异性文档的列表，以被包括在领域相关或领域特异性训练集中。该系统可以遍历本体条目和文档以定位领域相关和/或领域特异性文档。

用于查询通用语料库数据库中的经处理的文档的一个或多个本体条目可以是来自本体数据库的任何经处理的条目。例如，该系统可以基于训练集的期望领域来自动识别一个或多个条目。因此，如果训练集的期望领域是糖尿病，则“糖尿病”可以是由系统识别的条目。替代地，用户可以选择用于查询通用语料库中的标记化文档的领域特异性标记化条目。例如，对要生成的领域特异性训练集的期望领域有所了解的用户能够基于这种了解来选择一个或多个本体条目。因此，该系统可以包括用户接口，该用户接口被配置为显示本体条目并从用户接收输入，该输入包括针对查询的一个或多个条目的选择。

根据实施例，查询可以简单地是本体关键词，而在其他实施例中，查询可以根据各种方法而得到扩展，例如，包括关键词的替代形式或其同义词。用户接口和系统可以被配置为例如一旦识别出条目就生成或以其他方式识别一个或多个同义词和/或其他相关条目。因此，用户接口可以被进一步配置为允许用户选择或取消选择使用同义词和/或其他相关条目的选项。

根据实施例，可以根据各种方法或其组合来执行匹配。例如，可以使用基于规则的精确术语匹配或者使用通过机器学习框架(即，对匹配文本有用的额外的机器学习模型，它与要训练的语言模型是分开的)的基于word2vec/特征的匹配来执行匹配。

在该方法的步骤160处，使用一个或多个标记化本体条目对通用语料库数据库中的多个标记化文档的查询识别出一个或多个领域特异性文档。由于使用领域特异性本体条目来搜索文档数据库，因此该系统会自动识别出更多相关文档。

根据实施例，该系统可以使用单个查询来识别单个文档集。替代地，该系统可以使用一个或多个查询在多轮查询中识别文档集。例如，根据实施例，当该系统遍历关键词和文章时，每次定位到“命中”时，就将其添加到训练集。该方法完成后，利用来自通用语料库的与感兴趣领域相关的文档填充了训练集，从而生成了领域特异性训练集。

在该方法的步骤170处，将识别出的多个标记化文档存储在训练集数据库中，作为领域特异性训练集。参考图2，在一个实施例中，图2示出了训练集数据库230。训练集数据库230可以是供领域特异性训练集生成系统使用的本地或远程数据库。例如，该系统可以包括训练集数据库，并且/或者可以与训练集数据库通信。这些数据库可以与该系统定位在一起，也可以远离该系统，例如在云存储装置和/或其他远程存储装置中。

在该方法的步骤180处，从训练集数据库230中检索领域特异性训练集。该数据库可以包括多个训练集，其中的每个训练集都特异于领域或者以其他方式与领域相关，因此将识别特定的训练集以供系统使用。例如，对要使用的领域特异性训练集的期望领域有所了解的用户能够基于这种了解来选择训练集或查询训练集。因此，训练集将包括用于识别的方法(例如，一些识别符)、用于生成训练集的本体条目的列表或关联结果、在训练集中找到的关键词或任何其他方法或识别符。该系统可以包括用户接口，该用户接口被配置为显示用于找到训练集的识别符和/或接收用于搜索训练集的查询输入。用户接口和系统可以被配置为例如一旦接收到查询或选择了识别符就利用同义词和/或其他相关术语。因此，用户接口可以被进一步配置为允许用户选择或取消选择使用同义词和/或其他相关术语的选项。

根据实施例，可以将多个识别出的可能相关的领域特异性训练集返回给用户。因此，用户接口被配置为使得用户能够在识别出的领域特异性训练集中进行选择以进行使用。因此，检索一个或多个识别出的领域特异性训练集，其中，检索可以包括对(一个或多个)领域特异性训练集的简单识别，对(一个或多个)领域特异性训练集的提取或复制，对(一个或多个)领域特异性训练集的传输或任何其他选择。

在该方法的步骤190处，使用一个或多个检索到的领域特异性训练集，直接针对(一个或多个)检索到的领域特异性训练集的领域或与所述领域不相干地训练机器学习算法。有各种各样的机制用于训练具有训练集的算法，并且可以使用其中的任一种机制。因此，输出是在(一个或多个)期望领域中的经过训练的高技能机器学习算法。

所描述的或以其他方式设想的系统的许多益处之一是以在(一个或多个)期望领域中训练机器学习算法的形式生成领域特异性训练集的实施方式。使用更具针对性和特异性的训练集来训练机器学习算法显著改善了对算法的训练，由此通过该技能娴熟的训练算法改进了下游处理。

参考图3，图3是用于使用训练集生成系统来生成训练数据的语料库的方法300的流程图。与图1一样，该方法包括生成(310)包括从一个或多个源获得的多个标记化文档的通用语料库的步骤。该方法还包括生成(320)标记化条目的本体数据库的步骤。使用来自本体数据库的一个或多个领域特异性标记化条目来查询(330)通用语料库中的标记化文档，以识别特异于该领域的多个标记化文档。将这些识别出的多个标记化文档存储(340)在训练集数据库中，作为特异于该领域的训练集。

参考图4，在一个实施例中，图4是被配置为生成领域特异性训练集的领域特异性训练集生成系统的示意图。系统400可以是本文描述的或以其他方式设想的系统中的任何系统，并且可以包括本文描述的或以其他方式设想的部件中的任何部件。

根据实施例，系统400包括经由一条或多条系统总线412互连的处理器420、存储器430、用户接口440、通信接口450和存储装置460中的一个或多个。应当理解，在某些方面，图4构成了一种抽象形式，并且系统400的部件的实际组织方式可以与所图示的组织方式不同并且更加复杂。

根据实施例，系统400包括处理器420，该处理器420能够执行在存储器430或存储装置460中存储的指令或以其他方式处理数据以例如执行该方法的一个或多个步骤。处理器420可以包括一个或多个模块。处理器420可以采取任何合适的形式，包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器或多个处理器。

存储器430能够采用任何合适的形式，包括非易失性存储器和/或RAM。存储器430可以包括各种存储器，例如，L1、L2或L3高速缓冲存储器或系统存储器。这样，存储器430可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、固态存储器、闪速存储器、只读存储器(ROM)或其他类似的存储器设备。存储器能够存储操作系统等。RAM由处理器用于临时存储数据。根据实施例，操作系统可以包含代码，该代码在由处理器执行时控制系统400的一个或多个部件的操作。显而易见的是，在处理器以硬件实施本文描述的功能中的一种或多种功能的实施例中，可以省去在其他实施例中被描述为与这样的功能相对应的软件。

用户接口440可以包括用于使得能够与用户通信的一个或多个设备。用户接口能够是允许传送和/或接收信息的任何设备或系统，并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。在一些实施例中，用户接口440可以包括可以经由通信接口450呈现给远程终端的命令行接口或图形用户接口。用户接口可以与该系统的一个或多个其他部件定位在一起，或者可以远离该系统并且可以经由有线和/或无线通信网络进行通信。

通信接口450可以包括用于使得能够与其他硬件设备进行通信的一个或多个设备。例如，通信接口450可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外，通信接口450可以实施用于根据TCP/IP协议进行通信的TCP/IP栈。通信接口450的各种替代或额外硬件或配置将是显而易见的。

数据库或存储装置460可以包括一种或多种机器可读存储介质，例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备或类似的存储介质。在各种实施例中，数据库460可以存储由处理器420执行的指令或处理器420可以对其进行操作的数据。例如，数据库460可以存储用于控制系统400的各种操作的操作系统461。

显而易见的是，被描述为在数据库460中存储的各种信息可以额外地或替代地被存储在存储器430中。在这方面，存储器430也可以被认为构成存储设备，并且数据库460也可以被认为是存储器。各种其他布置将是显而易见的。另外，存储器430和数据库460都可以被认为是非瞬态机器可读介质。本文中使用的术语“非瞬态”将被理解为排除瞬态信号，而是包括所有形式的存储装置，包括易失性存储器和非易失性存储器。

虽然训练集生成系统400被示为包括每个描述的部件中的一个部件，但是在各种实施例中可以复制各种部件。例如，处理器420可以包括多个微处理器，这多个微处理器被配置为独立执行本文描述的方法，或者被配置为执行本文描述的方法的步骤或子例程，使得多个处理器能够协作以实现本文描述的功能。另外，在云计算系统中实施系统400的一个或多个部件的情况下，各种硬件部件可以属于单独的物理系统。例如，处理器420可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变型和配置也是可能的。

根据实施例，训练集生成系统400可以包括可以被存储在存储装置460内或其他地方的一个或多个数据库。这些数据库可以是本地的或远程存储的，并且可以是系统的部分，或者只能由系统访问或以其他方式对系统可用。例如，该系统可以包括通用语料库数据库462，该通用语料库数据库462包括从一个或多个源检索或以其他方式识别或累积的多个文档以及适合用于该系统的下游步骤的那些文档的预处理形式。该系统还可以包括本体数据库463，该本体数据库463包括本体以及适用用于该系统的下游步骤的本体条目的预处理形式。该系统还可以包括领域特异性训练集数据库464，该领域特异性训练集数据库464包括所存储的通过本文描述的或以其他方式设想的系统和方法生成的一个或多个领域特异性训练集。

根据实施例，训练集生成系统400可以存储或包括一个或多个算法、引擎和/或指令，以执行本文描述的或以其他方式设想的方法的一种或多种功能或一个或多个步骤。除了其他指令之外，该系统还可以包括预处理指令465以及查询和匹配指令466。实际上，该系统可以存储执行本文描述的功能所要求的额外软件部件，它也可以控制硬件400的操作。

根据实施例，预处理指令465可以操作用于指导系统对来自初始的通用语料库的文档和/或来自本体数据库的本体条目进行解析、预处理、标记化和存储。因此，预处理指令可以包括用于对这些文本和条目进行解析、预处理和标记化的指令。该系统然后可以包括语料库数据库210(其包括标记化文档信息)和本体数据库220(其包括标记化本体条目信息)。

根据实施例，查询和匹配指令466可以操作用于识别查询中的本体条目与语料库数据库210中的一个或多个文档之间的匹配。因此，匹配指令可以确定文章是否匹配查询(例如，基于规则的方法、word2vec方法或其他机器学习方法)。

根据前面的描述应该显而易见的是，本发明的各种示例实施例可以以硬件或固件来实施。此外，各种示例性实施例可以被实施为在机器可读存储介质上存储的指令，该指令可以由至少一个处理器读取并执行以执行本文详细描述的操作。机器可读存储介质可以包括用于以机器(例如，个人计算机或膝上型计算机、服务器或其他计算设备)能够读取的形式存储信息的任何机制。因此，机器可读存储介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备以及类似的存储介质。

本文呈现的描述和附图说明了各种原理。将意识到，本领域技术人员将能够设计出各种布置，这些布置即使未在本文中明确描述或示出，但只要体现了这些原理并且被包括在本公开内容的范围内就可以。除非另外指出(例如，“或其他”或“或在替代方案中”)，否则本文使用的术语“或”指的是非排他性的或(即，和/或)。另外，本文描述的各种实施例不必互相排斥，并且可以进行组合以产生结合本文描述的原理的额外的实施例。

本领域技术人员应当意识到，本文中的任何框图表示体现本发明的原理的说明性电路的概念图。类似地，将意识到，任何流程图表、流程图、状态转换图、伪代码等表示可以基本上被表示在机器可读介质中并因此由计算机或处理器运行的各种过程，无论这样的计算机或处理器是否被明确示出都是如此。

本文定义和使用的所有定义应当被理解为对照字典定义、通过引用并入的文献中的定义和/或定义术语的普通含义。

除非明确指出相反情况，否则本说明书和权利要求书中使用的词语“一”和“一个”应当被理解为表示“至少一个”。

本说明书和权利要求书中使用的短语“和/或”应当被理解为表示如此结合的元件中的“任一个或两个”，即，在某些情况下结合存在而在其他情况下分离存在的元件。用“和/或”列出的多个元件应当以相同的方式进行解释，即，如此结合的元件中的“一个或多个”元件。除了用“和/或”分句具体标识的元件之外，还可能任选地存在其他元件，无论是与具体标识的那些元件相关还是不相关都可以。

本文在说明书和权利要求书中使用的“或”应当被理解为具有与上文所定义的“和/或”相同的含义。例如，在分隔列表中的项目时，“或”或“和/或”应当被解读为包含性的，即，包含至少一个，但也包含多个元件或元件列表的多于一个的元件以及(任选的)额外的未列出的项目。只有明确指示相反情况的术语(例如，“中的仅一个”或“中的恰好一个”或者在权利要求中使用的“由……组成”)将指代包括多个元件或元件列表中的恰好一个元件。一般而言，当在本文使用的术语“或”前面有排他性术语(例如，“任一个”、“中的一个”、“中的任一个”或“中的恰好一个”)时，术语“或”应当仅被解读为表示排他性替代方案(即，“一个或另一个但不是两者”)。

本文在说明书和权利要求书中使用的引用一个或多个元件的列表的短语“至少一个”应当被理解为表示选自元件列表中的元件中的任何一个或多个元件中的至少一个元件，但不一定包括元件列表中具体列出的每个元件中的至少一个元件，并且不排除元件列表中元件的任何组合。该定义还允许除了在短语“至少一个”所指的元件列表中具体标识的元件之外的任选存在的元件，无论是与具体标识的那些元件相关还是不相关都可以。

还应当理解，除非明确指出相反情况，否则在本文要求保护的包括多于一个步骤或动作的任何方法中，该方法的步骤或动作的顺序不一定限于记载该方法的步骤或动作的顺序。

在权利要求以及上面的说明书中，所有过渡短语(例如，“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”、“持有”、“带有”等)应当被理解为开放式的，即，意指包括但不限于。只有过渡短语“由……组成”和“基本上由……组成”应当分别为封闭式或半封闭式过渡短语。

虽然本文已经描述和说明了若干发明实施例，但是本领域普通技术人员将容易想到用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个优点的各种其他单元和/或结构。这样的变化和/或修改中的每个变化和/或修改都被认为是在本文描述的发明实施例的范围内。更一般地，本领域技术人员将容易理解，本文描述的所有参数、尺寸、材料和配置均旨在是示例性的，并且实际参数、尺寸、材料和/或配置将取决于一个或多个使用本发明教导的具体应用。本领域技术人员将认识到或者能够使用不超过常规的实验手段来确定本文描述的具体发明实施例的许多等同物。因此，应当理解，前述实施例仅作为示例呈现，并且在权利要求及其等同物的范围内，本发明的实施例可以以不同于具体描述和要求保护的方式来实践。本公开内容的发明实施例涉及本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法并不相互矛盾，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合能够被包括在本公开内容的发明范围内。

Claims

1.一种用于生成领域特异性训练集的方法(100)，包括：

生成(130)包括从一个或多个源获得的多个标记化文档的通用语料库，包括：(i)解析(132)从所述通用语料库或从另一文档源中检索的文档；(ii)预处理(134)经解析的文档；(iii)对经预处理的文档进行标记化(136)；并且(iv)将所述标记化文档存储(138)在所述通用语料库中；

生成(140)标记化条目的本体数据库，包括：(i)解析(142)从本体中检索的本体条目；(ii)预处理(144)经解析的条目；(iii)对经预处理的条目进行标记化(146)；并且(iv)将所述标记化条目存储(148)在所述本体数据库中；

使用来自所述本体数据库的一个或多个领域特异性标记化条目来查询(150)所述通用语料库中的所述标记化文档；

基于所述查询来识别(160)特异于该领域的多个标记化文档；并且

将识别出的多个标记化文档存储(170)在训练集数据库中，作为特异于所述领域的训练集。

2.根据权利要求1所述的方法，还包括：

从所述训练集数据库中检索(180)领域特异性训练集；并且

针对检索到的领域特异性训练集的领域来训练(190)机器学习算法，由此生成经领域特异性训练的算法。

3.根据权利要求2所述的方法，其中，用户识别要从所述训练集数据库中检索的领域特异性训练集。

4.根据权利要求1所述的方法，还包括以下步骤：

从多个源中检索(120)一个或多个文档；并且

将来自所述一个或多个文档的内容存储(122)在语料库数据库中。

5.根据权利要求1所述的方法，其中，用于查询所述通用语料库中的所述标记化文档的所述一个或多个领域特异性标记化条目是由用户选择的。

6.根据权利要求1所述的方法，其中，用于查询所述通用语料库中的所述标记化文档的所述领域特异性标记化条目还包括针对该条目的一个或多个同义词。

7.根据权利要求1所述的方法，其中，识别特异于所述领域的多个标记化文档包括使用基于规则的匹配或基于特征的匹配来进行匹配。

8.根据权利要求1所述的方法，其中，所述训练集数据库包括多个存储的领域特异性训练集。

9.一种用于生成领域特异性训练集的系统(400)，包括：

语料库数据库(462)，其包括从一个或多个源获得的多个文档；

本体数据库(463)，其包括本体；以及

处理器(420)，其被配置为：(i)生成包括从一个或多个源获得的多个标记化文档的通用语料库，包括：解析来自所述语料库数据库的文档；预处理经解析的文档；对经预处理的文档进行标记化；并且将所述标记化文档存储在所述通用语料库中；(ii)生成标记化条目的本体数据库，包括：解析从本体中检索的本体条目；预处理经解析的条目；对经预处理的条目进行标记化；并且将所述标记化条目存储在所述本体数据库中；(iii)使用来自所述本体数据库的一个或多个领域特异性标记化条目来查询所述通用语料库中的所述标记化文档；(iv)基于所述查询来识别特异于该领域的多个标记化文档；并且(v)存储识别出的多个标记化文档，作为特异于所述领域的训练集。

10.根据权利要求9所述的系统，还包括处理器，所述处理器被配置为：(i)从训练集数据库中检索领域特异性训练集；并且(ii)针对检索到的领域特异性训练集的领域来训练机器学习算法，由此生成经领域特异性训练的算法。

11.根据权利要求10所述的系统，还包括用户接口(440)，并且其中，所述用户接口被配置为接收对要从所述训练集数据库中检索的领域特异性训练集的识别。

12.根据权利要求9所述的系统，其中，用于查询所述通用语料库中的所述标记化文档的所述一个或多个领域特异性标记化条目是由用户经由用户接口(440)选择的。

13.根据权利要求9所述的系统，其中，用于查询所述通用语料库中的所述标记化文档的所述领域特异性标记化条目还包括针对该条目的一个或多个同义词。

14.根据权利要求9所述的系统，其中，识别特异于所述领域的多个标记化文档包括使用基于规则的匹配或基于特征的匹配来进行匹配。

15.根据权利要求9所述的系统，其中，所述训练集数据库包括多个存储的领域特异性训练集。