CN111316281A

CN111316281A - 基于机器学习的自然语言情境中数值数据的语义分类

Info

Publication number: CN111316281A
Application number: CN201880061681.9A
Authority: CN
Inventors: B·沈
Original assignee: Shu Fuyiliao
Current assignee: Shu Fuyiliao
Priority date: 2017-07-26
Filing date: 2018-07-26
Publication date: 2020-06-19
Anticipated expiration: 2038-07-26
Also published as: CN117744654A; WO2019023412A1; US11461554B2; US20200218857A1; US20230101445A1; CN111316281B

Abstract

本申请公开了用于自然语言情境中数值数据的语义分类的方法和系统。方法和系统利用具有卷积神经网络的机器学习模型作为特征检测器并且利用前馈神经网络作为数值数据分类器。

Description

基于机器学习的自然语言情境中数值数据的语义分类

相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求于2017年6月26日提交的美国临时专利申请序列号62/537,369的优先权，其公开的全部内容通过引用合并于本文中。

技术领域

本发明总体上涉及自然语言情境中数值数据的语义分类领域。

背景技术

许多文档都含有重要的数值数据，数值数据对自然语言处理具有重大价值。例如，在医疗记录中，数值数据(比如，心律、血压、血液测试结果)是医疗诊断和治疗的重要依据。对那些医疗记录的解释需要通过自然语言情境中数值数据的语义分类来正确理解医疗记录中包含的数值数据。目前有许多解决方案可对自然语言中的词语进行语义分类，但是这些解决方案不能有效地根据自然语言情境中数字的语义来对数字进行分类。传统的基于规则的模式匹配算法是这样的解决方案中的一种。需要所有可能的规则/标准的先验知识来对数字进行分类，这样做是无效率的，并且无法很好地实现扩缩。

相应地，持续需要自然语言情境中数值数据的语义分类的方法和系统。公开的方法和系统可用于医疗保健、金融、法律和财会服务。

发明内容

本公开提供了一种用于处理自然语言情境中的数值数据的方法。所述方法包括检测自然语言文本段中存在包括一个或更多个数字的数值数据。在确定出文本段中存在数值数据时，所述方法包括提取数字、数字周围并且在预定长度的窗口中的词语。所述方法还包括：对每个提取词语创建词向量，并且通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征。该方法还包括将提取词语的最相关特征与数字相关联，并且通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。

在一些实施方案中，所述方法也可以包括基于数值数据和自然语言文本段的分类来提供医疗诊断。在一些实施方案中，所述方法可以包括基于医疗诊断来生成治疗计划。

在一些实施方案中，第一机器学习模块包括卷积神经网络。在一些实施方案中，通过利用词向量(Word2Vec)算法来执行创建词向量的步骤。在一些实施方案中，通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。在一些实施方案中，第二机器学习模块包括前馈神经网络。在一些实施方案中，前馈神经网络包括柔性最大值(softmax)层。

在一些实施方案中，将自然语言文本段分类的步骤包括：对提取词语的最相关特征创建特征向量，并且将所述特征向量输入至第二机器学习模块中。

在一些实施方案中，自然语言文本段包括：段落、语句或者短语。在一些实施方案中，自然语言文本段包括一部分医疗记录。在一些实施方案中，窗口具有六个词语的预定长度，使得数字之前和数字之后设置有三个词语。在一些实施方案中，通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。

本公开还提供了一种用于处理自然语言情境中的数值数据的系统。所述系统包括：非易失性计算机可读存储器；一个或更多个处理器；以及计算机可读介质，所述计算机可读介质中包含编程指令，当由一个或更多个处理器执行所述编程指令时，使系统：检测自然语言文本段中存在包括一个或更多个数字的数值数据；当确定出在文本段中存在数值数据时，提取数字以及数字周围的词语，词语在预定长度的窗口中；对每个提取词语创建词向量；通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征；将提取词语的最相关特征与数字相关联；通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。

在一些实施方案中，所述系统可以基于数值数据和自然语言文本段的分类来提供医疗诊断。在一些实施方案中，所述系统可以基于医疗诊断来生成治疗计划。

在一些实施方案中，第一机器学习模块包括卷积神经网络。在一些实施方案中，所述系统可以通过利用词向量(Word2Vec)算法来创建词向量。在一些实施方案中，所述系统可以通过利用最大池化算法来确定提取词语的最相关特征。在一些实施方案中，第二机器学习模块包括前馈神经网络。在一些实施方案中，前馈神经网络包括柔性最大值(softmax)层。

在一些实施方案中，系统可以将自然语言文本段分类，所述系统还包括编程指令，所述编程指令配置为：对提取词语的最相关特征创建特征向量，将特征向量输入至第二机器学习模块中。在一些实施方案中，自然语言文本段包括段落、语句或者短语。在一些实施方案中，自然语言文本段包括一部分医疗记录。在一些实施方案中，窗口具有六个词语的预定长度，使得在数字之前和数字之后设置三个词语。在一些实施方案中，所述系统可以通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。

根据结合所附附图考虑的以下描述，本发明的这些和其它特征和优点将变得更加显然。

附图说明

图1说明了示出用于对自然语言情境中的数值数据进行语义分类的机器学习方法和架构的框图/流程图。

图2说明了用于训练机器学习模型的过程的示例。

图3说明了包括数值数据的文本段的示例，其中示出了六个词语窗口的示例。

图4说明了用于实施所公开的方法的计算设备的示例性架构。

具体实施方式

本公开描述了用于自然语言情境中对数值数据进行语义分类的基于机器学习的方法和系统。对数字周围的嵌入词语应用卷积神经网络，以进行特征检测和选择。具有数字及其关联词语特征输入的前馈神经网络与卷积神经网络共同训练，以学习数字的语义以及根据自然语言情境的分类。卷积神经网络作为语义特征检测器，在训练结束时被收集。这个机器学习过程是独特的并具有创造性，因为语义特征检测器的预期输出不需要提前知晓。

在远程医疗系统中，常常整个医院的就诊流程都被捕获到数字化媒体中。比如，麻省总医院利用运用视频会议的远程医疗系统。如果保存了所有演示医生如何治疗患者的视频，就可以提供包括以前未记录在电子医疗记录系统中的信息的额外数据，现在正越来越多地应用于美国的各医院中。这些新医疗数据构成了丰富的信息源，为大数据分析和新医疗保健技术开发提供不可思议的潜力。通过越来越多利用远程医疗系统来开启可用的新医疗数据的潜力的一种方法是应用自然语言处理(Natural Language Processing，NLP)。自然语言处理是计算机科学和语言学的新领域，专注于帮助机器来处理和理解自然语言。当前的自然语言处理程序已证明了成功识别临床叙述中的关键词，并且可以用于准确识别患有前列腺癌的患者，并从他们的电子医疗记录(EMR)中检索相关的病理信息。

所公开的方法和系统的发明性特征包括利用神经网络构建的自然语言处理程序，神经网络使得程序学习自然语言的含义。这样的自然语言处理程序作为一种有效的工具，使我们能够对以前不可用的数据以自然语言格式进行构造和组织。

现在参见图1，其中提供了用于处理自然语言情境中的数值数据的基于机器学习的方法100的框图/流程图。该图说明了机器学习模型的示例的程序和架构。该方法通过提供自然语言文本段而开始于102。自然语言文本段可以包括一个或更多个段落、语句或者短语、或它们的组合。自然语言文本段可以采用任何国家或地区的官方或者非官方语言。在一些实施方案中，文本段可以包括以一种或更多种语言呈现的文本。此外，自然语言文本段可以采用任何字体提供。自然语言文本段可以包括或者可以不包括数值数据。数值数据可以采用一个或更多个数字的形式存在。数字可以是连续数字或者离散数字。该领域的普通技术人员可以理解的是，所公开的方法和系统也可以应用于其他数据类型，包括但不限于，分类数据和定序数据类型。

图3中示出了自然语言文本段的示例，其包括一部分从医疗记录中再现的文本。文本段包括在不同情境中提供并以不同特征(比如，体温、血压、心律、时间)嵌入的数值数据。比如，数字98.7周围有多个词语，包括一个或更多个关键词，比如，“体温”和“心律”，这暗示特征体温或者心律可能与该数字相关联。在另一个示例中，数字128/61周围有多个词语，包括“BP”，这暗示该数字可能与血压相关联。在106，所述方法继续检测提供的自然语言文本段中的数值数据。当确定出自然语言文本段中存在包括一个或更多个数字的数值数据时，在108，该方法可以包括创建预定长度的词语窗口(比如，10个词语、8个词语、6个词语、4个词语)。如图3所示的词语窗口应用于每个检测到的数字，并且覆盖窗口中心的数字。比如，窗口可以具有6个词语的长度，其中，3个连续词语位于检测到的数字之前，3个连续词语位于检测到的数字之后。然后提取数字、数字周围并且在窗口内的词语，并处理作为至一个或更多个机器学习模块(比如，卷积神经网络(CNN))的输入。在一些实施方案中，当数字位于语句、短语或者段落的前端或者末尾时，需要填充。“填充”特征可以添加到语句的开始和结尾，使最初的几个词语和最后的几个词语位于窗口中心。填充是指在语句之前和语句之后放置“虚拟”词语的过程，以确保在应用机器学习模型时，语句中标记的每个词语大体上在窗口的中间。

在110，所述方法包括在词典中查找与数字相关联的提取词语。词典包含索引查询表，以将词语与多维词向量相关联。所述方法还包括利用向量表示来嵌入每个词语。在利用向量表示来嵌入提取词语时，所述方法可以利用词向量(Word2Vec)算法。Word2Vec算法是一组用于生成词语嵌入的相关模型。这些模型为浅二层神经网络，经训练以重建词语的语言情境。Word2Vec将大的文本语料库作为其输入，并生成典型情况下为数百维的向量空间，将语料库中的每个唯一词语在空间中分配相应的向量。词向量位于向量空间中，使得语料库中共享公共情境的词语在空间中彼此紧邻。

在112，所述方法包括应用第一机器学习模块来检测由提取词语组成的短语的一个或更多个特征。医疗记录情境中的短语特征可以包括但不限于，血压(BP)、胆固醇(LDL和HDL)、甲状腺刺激激素(TSH)、体温、血糖水平、骨矿物质密度、全部血球数、身体质量指数(BMI)、C-反应蛋白(CRP)、腰围。

在一些实施方案中，第一机器学习模块可以包括卷积神经网络(CNN)。在机器学习中，卷积神经网络(CNN或者ConNet)是一组深层前馈人工神经网络。最常见的是，CNN应用于分析和分类图像，根据相似性(比如，图片搜索)进行图像聚类，并在场景范围内进行对象识别。比如，CNN可以用于识别面部、个人、街道标志、肿瘤、鸭嘴兽(platypuses)、以及成像数据的许多其它特征。CNN利用设计为需要轻微预处理的多层感知器的变体。与其它图像分类算法相比，CNN利用了较少的预处理。这意味着网络会学习传统算法中的手工设计的过滤器。CNN的主要优势是，其这个特征不依赖于特征设计中的先验知识和人工努力。CNN的应用包括：图像和视频识别、推荐系统以及自然语言处理。典型地，CNN包括输入和输出层以及多个隐蔽层。CNN的隐蔽层还包括：卷积层、池化层、全连接层和归一化层。卷积层对输入内容应用卷积操作，并将结果传给下一层。

在114，所述方法可以包括：为与数字相关联的短语选择最相关特征。可通过卷积网络中包含的局部或者全局池化层来实现选择最相关特征，池化层将一层中的神经元簇的输出结合到下一层中的单个神经元中。比如，所述方法可以利用最大池化算法，其采用从前一层中每个神经元簇所得的最大值。如图3所示，对于数字98.7，所述方法可以确定出与该数字相关联的最相关特征是体温，而不是心律。相似地，对于数字160/62，所述方法可以确定出最相关特征是血压，而不是体温。

在116，在选择了短语的最相关特征之后，所述方法还可以包括：将选择的特征与相应数字配对。这样做时，所述方法将选择的特征与数字相关联，使得与特征相关联的数字采用机器学习模型通常识别的表达格式。通过CNN操纵的上述过程至少达到以下目标：(1)检测自然语言文本段中的数字；(2)确定数字所在的词语情境；(3)基于词语情境来检测特征；(4)确定与数字相关联的最相关特征；以及(5)将特征与数字重新组合。

在118，该方法还可以包括：通过提供上述重新组合的特征和数字作为输入，利用第二机器学习模块来对自然语言文本段进行分类。在一些实施方案中，所述方法还可以包括创建特征向量来表示选择的特征，使得将表示选择的特征的特征向量作为至第二机器学习模块的输入。第二机器学习模块可以包括前馈神经网络。在一些实施方案中，前馈神经网络可以包括柔性最大值(softmax)层作为最终输出层。

前馈神经网络包括一定数量(可能大量)的以层组织的简单神经元状的处理单元。一层中的每个单元与前一层中的所有单元连接。每个连接可以具有不同的强度或者权重。这些连接上的权重对网络知识进行编码。神经网络中的单元也常常称作节点。数据在输入处进入，并逐层地穿过网络，直到其达到输出为止。在正常操作期间，也就是当其作为分类器来工作时，层之间没有反馈。这就是他们为什么称作前馈神经网络。

前馈神经网络可以利用柔性最大值(softmax)函数作为最终输出，以根据其数值特征对段落进行分类。softmax函数是将实际值转化为总和为一的概率的函数。softmax函数用于各种多类分类方法中，比如，多项式逻辑回归(也叫做softmax回归)、多类线性判别分析、朴素贝叶斯分类器以及人工神经网络。或者，前馈神经网络可以使用s型(sigmoid)函数作为最终输出，以根据它们的数值特征对段落进行分类。softmax函数和s型函数的不同在于，s型函数通常用于二类逻辑回归，而softmax函数主要用于多类逻辑回归(也称为，最大熵模型(MaxEnt)、多项式逻辑回归、softmax回归、最大熵分类器)。

所述方法可以额外地包括：输出自然语言文本段的分类。比如，该方法可能会将如图3中所示的自然语言文本段中包含“体温为104.2度”的短语分类为“高”。类似地，所述方法可能会将自然语言本文段中包含“体温98.6”的短语分类为“正常”。

另外和/或可选地，所述方法可以包括：基于自然语言文本段的分类来提供医疗诊断。比如，基于体温数字和特征(也就是，104.2度)的分类，所述方法可以包括确定出患者可能发烧(高烧)。此外，所述方法还可以包括提供与发烧原因(比如，细菌感染或者病毒感染)相关的医疗诊断。因为可以通过提供包括诊断和预设治疗计划的医疗数据作为输入来对公开的机器学习模型进行训练，所以能够基于诊断为患者确定治疗计划。比如，如果确定患者因为细菌感染而发高烧，则所述方法可以包括：提供含有一种或更多种抗生素(比如，阿莫西林、氟氯西林、盘尼西林G、盘尼西林V、匹美西林、他唑辛、特美汀)和/或止痛药和退烧药(比如，泰诺、阿司匹林、萘普生、雅维、美林)的治疗计划。

步骤106、108、110、112、114、116和118构成机器学习模型104。参照图2，在202，为了训练机器学习模型104，将包括源自训练集的数字和训练集情境向量的输入、以及包括训练集标签的预期输出提供给神经网络。通常，提供用于训练机器学习模型的具有正确标签的数据越多，机器学习模型就越准确。

在204，所述方法可以包括：利用梯度下降算法以最小化成本函数并提高分类准确度。梯度下降是这样一种优化算法，其用于通过在梯度的负值所限定的最陡下降方向上迭代移动来最小化某些函数。在机器学习中，利用梯度下降来更新模型参数。参数是指线性回归中的系数以及神经网络中的权重。成本函数显示了对给定参数集进行预测时模型的准确水平。成本函数具有自己的曲线和自己的梯度。该曲线的斜率指示如何更新我们的参数以使模型更准确。

在204，在训练之后，收集机器学习模型，该模型可用于数值特征检测和/或数值数据分类。

以下非限制性示例进一步说明了本发明的某些方面。

示例

目前可以利用正则表达式来识别文本中的图案，从而成功地提取数值数据。然而，因为大多数自然语言在结构上都具有极大的灵活性，所以精炼正则表达式以正确地提取数字的含义是非常耗时并且常常是不切实际的。比如，这三个语句是从各种临床记录中提取的：

患者体温为95.3，血压为102/82，心率为70s，呼吸频率为16，SIMV为100％。

在许可进入楼层时，体温为97.8，113，从95到113，呼吸频率为17，血压从120到150/90s，室内空气为95％。

在向OSH呈现时，他的生命体征为：体温103，血压89/30，HR 116-138，RR 28，2L上为97％。他的WBC为15(73N，11L)，CPK为253，(MB为21.5，指标为8.5)，肌钙蛋白为2.88。葡萄糖为310。

这三个语句都指的是类似数据，但是采用的是由不同的词汇和语法结构表征的完全不同的表达格式。为了构建正则表达式以准确地捕获这些语句中所有数字的含义，其本身就是一个非常艰难的过程。考虑到实际上自然语言中类似数值信息的表达可以利用多种格式，所以这是一个更艰巨无比的任务。

为了证实所公开的系统和方法在处理自然语言情境中的数值数据的实用性和有效性，使用适于理解其自然语言情境中的数值数据的神经网络来构建实现所公开方法的模型。需要注意的是，模型能够以96％的准确度预测临床记录中的一部分指示患者是发烧、不发烧、高血压还是正常血压。

模型包括用于词嵌入的神经网络。词嵌入向量被馈入至多层卷积神经网络。词嵌入用于表示数字情境。由于卷积神经网络在识别数据的局部特征方面表现突出，所以通常用于图像识别。在图像方面，这转化为识别边缘。然而，对于包含自然语言文本的数据集，利用卷积神经网络来识别数字情境的局部特征。神经网络基于这样的理论，词语的含义实质上是通过词语情境限定的。这与Word2Vec代码背后的理论相同，Word2Vec代码背后的理论基于词语周围的情境来创建词语的多维向量嵌入。

该模型通过允许机器学习数字背后的含义来采用机器学习原理。为了表示数字的情境，词嵌入用于在预定长度的窗口中的词语以及在文本中数字周围的词语。将数字的情境嵌入和数字作为输入提供至卷积神经网络中。利用正确的语句诊断(比如，高烧、高血压)作为预期输出，模型被训练以学习数字背后的含义。模型经过训练之后，模型准确地预测从临床记录中新选择的自然语言是表示“高烧”还是“高血压”。

为了训练和测试模型的有效性，利用了公共的Mimic III数据库。数据库包含来自贝斯以色列女执事医疗中心大约58,976个住院病例的匿名记录。为了对数据进行预处理，提取了临床记录中包含数字的所有语句。下一步是，所有数字以及数字周围的词语和词语窗口内的词语用作情境。然后将所有情境词语嵌入至多维向量中，以对其给出数学表示。然后将这些向量和数字用作至卷积神经网络的输入。

为了更好地训练该模型，需要大量正确标记的数据。然而，公共重症监护医学信息数据集Mimic III数据库中的临床记录在结构化表中没有所提及的体温和血压的相应标签。为此，除了公共Mimic III数据库的记录之外，通过将随机词语和数字与语句中表明数字含义的关键词结合在一起来生成人工训练数据。比如，生成具有随机数字的随机语句，并且将关键词插入随机语句中。生成了10,000个这样的语句用于模型训练。利用该生成的数据，创建了标记的数据集(比如，每个语句都具有用于语句是否涉及“发烧”、“高血压”或者二者都不涉及的相应标签)。为了对模型进行训练，将包括来自训练集的数字和训练集的情境向量的输入、以及包括训练集的标签的预期输出提供至神经网络中。

为了对模型进行测试，来自mimic数据库的数据包含以相同方式(情境向量和数字)进行预处理的数据，如上所述。为了确定神经网络的输出的准确度，采用正则表达对临床记录进行语法分析。利用1000个确信地标记为“高烧”或者“高血压”的语句来测试我们神经网络的准确度。在1000个用于模型测试的语句中，模型正确地识别出960个诊断，准确率为96％。不正确的诊断通常是因为对应于处在“高”边缘的数字(比如，99.0度体温确定为发烧，此时将其标记为正常体温)。

在检查了过滤器的最终值之后，发现在过滤器最终值与数字类型之间存在着很强的相关性。比如，所有“体温”数字的聚类性强，所有“血压”数字的聚类性弱，标准差小。

上面所示的步骤可以在一个或更多个计算系统中实施。现在参见图4，计算系统400通常配置为执行如下的操作：促进外周神经和中央神经之间的连接，通过相同的统计平台来输出变化性签名。因此，计算系统400包括多个组件402至412。计算系统400可包括多于或者少于图4中所示的组件。然而，所示组件足以公开实施本技术方案的说明性实施方案。

图4的硬件架构表示代表性计算设备的一个实施方案，所述计算设备配置为促进外周神经和中央神经之间的连接，通过相同的统计平台来输出变化性签名。因此，计算系统400实现了本技术方案的各种方法。

计算系统400可以包括：系统接口412、用户接口402(比如，用于数据输入的键盘和用于数据输出的显示器)、中央处理器(“CPU”)404、系统总线406、存储器408以及硬件实体410，存储器408通过系统总线406与计算系统400的其它部分连接并能够通过该其它部分访问，硬件实体410与系统总线406连接。至少有一些硬件实体410执行有关访问和使用存储器408的动作，存储器408可以是随机存取存储器(RAM)、磁盘驱动器和/或光盘只读存储器(CD-ROM)。系统接口412允许计算系统400直接地或者间接地与外部设备(比如，传感器、服务器和客户端计算机)进行通信。

计算设备400也可以包括传感器450。本技术方案不限于这个方面。比如，在其它场景中，传感器为与计算设备400分开的设备。提供通信链接(有线或无线)，使计算设备400与传感器之间能够进行通信。在所有情况下，传感器450与人或者动物受试体联接，用于从受试体的至少一个生理相关信号中获得数据。传感器可以包括但不局限于，加速计、陀螺仪、运动传感器、振动传感器、位置传感器、复原传感器，和/或医学传感器(比如，肌电图传感器、心电图传感器、RIP传感器、MRI传感器等等)。

硬件实体410可以包括：微处理器、专用集成电路(“ASIC”)以及其它硬件。硬件实体410可以包括微处理器，其被编程为促进外周神经和中央神经之间连接，通过相同的统计平台来输出变化性签名。

硬件实体410可以包括磁盘驱动装置416，其包括计算机可读存储介质418，其上存储了一组或更多组指令414(比如，软件代码)，一组或更多组指令配置为实现本文中所描述的一个或更多个方法、程序或者功能。在由计算系统400执行指令414期间，指令414也可以部分或者全部驻留在存储器408和/或CPU 404中。组件408和404也可包括构成机器可读介质。如这里使用的术语“机器可读介质”指的是存储一组或更多组指令414的单个介质或者多个介质(比如，集中式或分布式数据库、和/或相关联的缓存和服务器)。如这里使用的术语“机器可读介质”也指的是任何能够存储、编码或者承载一组由计算系统400执行并使计算系统400执行本公开的任何一种或更多种方法的指令414的介质。

特别地，本技术方案可以在如图4中所示的单个计算设备中实施。本技术方案不限于这个方面。或者，本技术方案可以在分布式网络系统中实施。比如，在云或者类似云的环境中，在计算设备分布式网络上，本技术方案可以利用多个CPU核的优势。分布式网络架构确保了统计和增强功能的计算时间降低到最小值，使得终端用户能够执行更多的查询并且以更快的速率接收报告。分布式网络架构也确保了将实施软件准备好部署在组织的内部服务器或者云服务上，以利用其扩展性能(比如，根据要处理的数据量或要评估的参数数量动态地请求更多或更少的CPU核)。

适用于执行计算机程序的计算机可以基于通用或者专用微处理器或者二者、或者任何其它类型的中央处理单元。通常，中央处理单元将接收来自只读存储器或者随机存储器或者二者的指令和数据。计算机的必要元件是：用于执行或实施指令的中央处理器以及一个或更多个用于存储指令和数据的存储器件。中央处理单元和存储器可以通过专用逻辑电路来补充，或者合并在专用逻辑电路中。通常，计算机还包括一个或更多个用于存储数据的大容量存储器件(比如，磁盘、磁光盘或者光盘)，或者操作性与该大容量存储器件连接以接收来自该大容量存储器件的数据或将数据发送至该大容量存储器件、或二者。然而，计算机不必须具有这样的器件。此外，计算机可以嵌入在其它设备中，比如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储器件，比如，通用串行总线(USB)闪存驱动器，仅举几个例子。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器件，其包括以半导体存储器件为例，比如，EPROM、EEPROM以及闪存器件；磁盘，比如，内部硬盘或者可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。为了提供与用户的交互，本说明书中所述主题的实施方案可以在具有显示设备以及键盘和指示设备的计算机上执行，显示设备比如CRT(阴极射线管)或者LCD(液晶显示)监视器，用于向用户显示信息，键盘和定点设备比如鼠标或者跟踪球，用户通过其能够向计算机提供输入。也可以利用其它类型设备也提供与用户的交互；比如，提供给用户的反馈可以是任何形式的感觉反馈，比如，视觉反馈、听觉反馈，或者触觉反馈；来自用户的输入可以采用任何形式接收，任何形式包括声学、语音或者触觉输入。此外，计算机可以通过将文档发送到用户所用设备并接收来自用户所用设备的文档而与用户交互；比如，通过响应于从网络浏览器接收到的请求而将网页发送至用户设备上的网络浏览器而与用户交互。此外，计算机还可以通过将文本消息或者其它形式的消息发送至个人设备来与用户交互，该个人设备比如运行发送消息应用并接收来自用户的响应消息的智能电话。

机器学习模型可以利用机器学习框架来实施和部署，机器学习框架比如，TensorFlow框架、微软认知工具包(Microsoft Cognitive Toolkit)框架、Apache Singa框架、或者Apache MXNet框架。

本说明书中所述主题的实施方案可以在如下的计算系统中实施，所述计算系统包括：后端组件(比如，数据服务器)、或包括中间件组件(比如，应用服务器)、或者包括前端组件(比如，具有图形用户界面、网络浏览器或者应用程序app的客户端计算机，由此用户可以通过应用程序app在实施本说明书所述的主题时进行互动)、或者一个或更多个这样的后端、中间件或者前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(比如，通信网络)互相连接。通信网络的示例包括局域网(LAN)和广域网(WAN)，比如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络进行交互。客户端和服务器的关系借助在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序来形成。在一些实施方案中，服务器将数据(比如，HTML页面)发送至用户设备，比如用于向与用作客户端的设备交互的用户显示数据，并接收来自该用户的用户输入。在用户设备处所生成的数据(比如，用户交互的结果)可以在服务器处从该设备接收。

计算机程序也可以称作或描述为程序、软件、软件应用程序、应用程序、模块、软件模块、脚本或者代码，计算机程序可以采用任何形式编程语言来编写，其包括汇编或者解释语言、或者陈述性或者程序性语言；可以采用任何形式来部署，包括作为独立程序或者作为模块、组件、子程序、者其它适用于计算环境的单元。程序可以但并不必须对应于文档系统中的文档。程序可以存储在保存其它程序或者数据的文档的一部分中，比如，存储在标记语言文档中、专用于所讨论程序的单个文档中、或者多个协调文档中的一个或更多个脚本，多个协调文档比如存储一个或更多个模块、子程序或者部分代码的文档。计算机程序可以部署为在一个计算机上或者在位于一个地点或者分布于多个地点并彼此通过数据通信网络互连的多个计算机上执行。

本说明书结合系统和计算机程序组件使用了术语“配置”。对于要配置为执行特定操作或者动作的一个或更多个计算机的系统，意味着该系统已经安装了软件、固件、硬件、或它们的组合，使得一旦运行就使得系统能够执行各种操作或者动作。对于要配置为执行特定操作或者动作的一个或更多个计算机程序，意味着一个或更多个程序包括指令，由数据处理装置执行该指令时使得该装置执行操作或者动作。

在本说明书中，术语“数据库”广泛用于指代任何数据集合：数据不需要以任何特定方式来构建，或者完全不需要构建，并且数据可以存储在一个或更多个位置处的存储器件上。因此，比如，索引数据库可以包括多个数据集合，每个数据集合都可以被不同地组织和访问。

本说明书中描述的过程和逻辑流程可以由执行一个或更多个计算机程序的一个或更多个可编程计算机来执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(比如，FPGA或者ASIC)来执行，或者由将专用逻辑电路与一个或更多个编程的计算机组合来执行。

尽管本说明书包括许多特定的实施细节，但是这些实施细节不应解释为限制任何发明的范围或者限制所要求保护的内容范围，而应解释为可能特定于特定发明的特定实施方案中特征的描述。本说明书中描述的在单独实施方案的情况下的某些特征也可以在单个实施方案中以组合方式实现。相反地，在单个实施方案的情况下描述的各种特征也可以在多个实施方案中单独地或者以任何适合的子组合方式实现。此外，尽管以上可以将特征描述为以某些组合起作用，甚至最初是这样要求保护的，但是在某些情况下，可以从该组合中切除来自所要求保护组合的一个或更多个特征，并且所要求保护的组合可以涉及子组合或者子组合的变体。

类似地，尽管以特定顺序在附图中示出了操作并在权利要求中进行了记载，但这不应当理解为要求这样的操作以所示的特定顺序或者按照先后顺序来执行，或者要求执行全部所示的操作才能达到期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施方案中的各个系统模块和组件的分隔不应理解为在所有实施方案都要求这样的分隔，而应理解为，所述的程序组件和系统通常可以整合到单个软件产品中，或者封装到多个软件产品。

如本文档中所使用的，单数形式“一”、“一个”和“该”包括复数引用，除非上下文另有明确指出。除非另有定义，否则本文中使用的所有技术和科学术语具有本领域普通技术人员通常所理解的相同含义。如在本文档中所使用的，术语“包括”(或“包含”)是指“包括(或包括有)，但不局限于此”。当术语“示例性”在本文档中使用时，术语“示例性”旨在“通过示例”，并非旨在表示优选或需要特定示例性项目。

已经描述了主题的特定实施方案。其它实施方案在所附权利要求的范围内。比如，权利要求中记载的动作可以按不同顺序来执行，并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序、或者先后顺序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种处理自然语言情境中的数值数据的方法，所述方法包括：

检测自然语言文本段中存在包括一个或更多个数字的数值数据；

提取检测到的数字以及数字周围的词语，所述词语在预定长度的窗口内；

对每个提取词语创建词向量；

通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征；

将提取词语的最相关特征与数字相关联；以及

通过将数字和相关联的最相关特征输入至第二机器学习模块中来对自然语言文本段进行分类。

2.根据权利要求1所述的方法，还包括：

基于数值数据和自然语言文本段的分类来提供医疗诊断。

3.根据权利要求2所述的方法，还包括：

基于医疗诊断来生成治疗计划。

4.根据前述权利要求中任一项所述的方法，其中，第一机器学习模块包括卷积神经网络。

5.根据前述权利要求中任一项所述的方法，其中，通过利用Word2Vec算法来执行创建词向量的步骤。

6.根据前述权利要求中任一项所述的方法，其中，通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。

7.根据前述权利要求中任一项所述的方法，其中，所述第二机器学习模型包括前馈神经网络。

8.根据权利要求7所述的方法，其中，所述前馈神经网络包括softmax层。

9.根据前述权利要求中任一项所述的方法，其中，将自然语言文本段进行分类的步骤包括：对提取词语的最相关特征创建特征向量，并且将所述特征向量输入至第二机器学习模块中。

10.根据前述权利要求中任一项所述的方法，其中，所述自然语言文本段包括段落、语句、短语以及它们的组合中的任何一种。

11.根据前述权利要求中任一项所述的方法，其中，所述自然语言文本段包括医疗记录的一部分。

12.根据前述权利要求中任一项所述的方法，其中，所述窗口具有六个词语的预定长度，使的数字之前和数字之后设置有三个词语。

13.根据前述权利要求中任一项所述的方法，其中，通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。

14.一种处理自然语言情境中的数值数据的系统，其包括：

非易失性计算机可读存储器；

一个或更多个处理器；以及

计算机可读介质，其包括编程指令，当由一个或更多个处理器执行所述编程指令时，使得系统：

检测自然语言文本段中出现包括一个或更多个数字的数值数据；

提取检测到的数字和数字周围的词语，所述词语在预定长度的窗口内；

对每个提取词语创建词向量；

将提取词语的最相关特征与数字相关联；以及

15.根据权利要求14所述的系统，还包括配置为如下的编程指令：

基于数值数据和自然语言文本段的分类来提供医疗诊断。

16.根据权利要求15所述的系统，还包括配置为如下的编程指令：

基于医疗诊断来确定治疗计划。

17.根据权利要求14至16中任一项所述的系统，其中，第一机器学习模块包括卷积神经网络。

18.根据权利要求14至17中任一项所述的系统，还包括配置为通过利用Word2Vec算法来创建词向量的编程指令。

19.根据权利要求14至18中任一项所述的系统，还包括配置为通过利用最大池化算法来确定提取词语的最相关特征的编程指令。

20.根据权利要求14至19中任一项所述的系统，其中，所述第二机器学习模块包括前馈神经网络。

21.根据权利要求20所述的系统，其中，所述前馈神经网络包括softmax层。

22.根据权利要求14至21中任一项所述的系统，其中，配置为对自然语言文本段进行分类的编程指令还包括：配置为对提取词语的最相关特征创建特征向量，并将所述特征向量输入至第二机器学习模块中的编程指令。

23.根据权利要求14至22中任一项所述的系统，其中，所述自然语言文本段包括段落、语句、短语以及它们的组合的任何一种。

24.根据权利要求14至23中任一项所述的系统，其中，所述自然语言文本段包括医疗记录的一部分。

25.根据权利要求14至24中任一项所述的系统，其中，所述窗口具有六个词语的预定长度，使得在数字之前和数字之后设置有三个词语。

26.根据权利要求14至25中任一项所述的系统，还包括配置为通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块的编程指令。